Download - Ioannis Iakovidis
![Page 1: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/1.jpg)
Διπλωματική εργασία τουΙακωβίδη ΙωάννηAEM: 7436
υπό την επίβλεψη του Επίκουρου ΚαθηγητήΑνδρέα Λ. Συμεωνίδη
και του μεταδιδακτορικού ερευνητήΚυριάκου Χατζηδημητρίου
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
![Page 2: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/2.jpg)
Τεράστιος αριθμός διαθέσιμων συλλογών δεδομένων
Έξυπνες συσκευές
Ενσωματωμένοι υπολογιστές
Διαδικτυακές συναλλαγές
Μεγάλη ζήτηση για πλήθος και ποικιλία δεδομένων
Αυξανόμενη διαθέσιμη υπολογιστική δύναμη
![Page 3: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/3.jpg)
Η χρήση ποικιλίας συλλογών δεδομένων αποδεικνύεται χρονοβόρα
Προεπεξεργασία δεδομένων για την μετατροπή τους σε κοινή μορφή
Ιδιαίτερα δύσκολη η χρήση ημιδομημένων δεδομένων (π.χ. Wikipedia)
Δομή ποικίλει μεταξύ εγγραφών
![Page 4: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/4.jpg)
Χρήση ενισχυτικής μάθησης για την επεξεργασία δομημένων δεδομένων
![Page 5: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/5.jpg)
Σχεδίαση και υλοποίηση συστημάτων ενισχυτικής μάθησης πολλαπλών σταδίων
Αποκατάσταση δομής δεδομένων
Εξαγωγή δομημένων δεδομένων από φυσική γλώσσα
Εξαγωγή δομημένων δεδομένων από HTML σελίδες
![Page 6: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/6.jpg)
Ο πράκτορας αντιλαμβάνεται το περιβάλλον του μέσω του σήματος κατάσταστης S
Από το σήμα S εξάγονται χαρακτηριστικά σύμφωνα με τα οποία επιλέγεται η ενέργεια Α
Το περιβάλλον αντιδρά στην ενέργεια του πράκτορα παράγοντας σήμα επιβράβευσης R και νέο σήμα κατάστασης S’
Ο πράκτορας προσαρμόζει τις ενέργειές του βάση του σήματος επιβράβευσης
![Page 7: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/7.jpg)
Ανακατασκευάζουμε την δομή σεναρίων έργων του Shakespeare χρησιμοποιώντας μόνο το κείμενο.
![Page 8: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/8.jpg)
Τρεις μέθοδοι:
Ανακατασκευή κόμβο-προς-κόμβο, σειριακή αντιμετώπιση γραμμών
Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπιση γραμμών
Ανακατασκευή γραμμή-προς-γραμμή, μη-σειριακή αντιμετώπιση γραμμών
Δύο κλίμακες:Χαρακτηριστικά Play trees Scene trees
Μέσος όρος αριθμού φύλλων δένδρου 3940 195
Μέσος όρος αριθμού εσωτερικών κόμβων δένδρου 870 45
Αριθμός κατηγοριών κόμβων 18 6
Μέσο βάθος φύλλου 4.95 2.95
![Page 9: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/9.jpg)
Ανακατασκευή κόμβο-προς-κόμβο, σειριακή αντιμετώπιση γραμμών
Χαρακτηριστικά
Πληροφορίες δομήςΠληροφορίες περιεχομένου
(τρέχουσα και προηγούμενη γραμμή)
Μονοπάτι προηγούμενης γραμμής
Υπάρχον μονοπάτι τρέχουσας γραμμής
Πρώτη λέξη γραμμής
Τελευταία λέξη γραμμής
Δομή γραμμής (σημεία στίξης, κεφαλαία/μικρά)
![Page 10: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/10.jpg)
Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπιση γραμμών
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Stagedir
Exit Ghost
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Μετατροπή σε sequence labeling task
Πλεονεκτήματα Μειονεκτήματα
Μείωση απαιτούμενων ενεργειών
Γρηγορότερος αλγόριθμος
Αύξηση αριθμού διαθέσιμων ενεργειών
![Page 11: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/11.jpg)
Θα θέλαμε να χρησιμοποιήσουμε τα μονοπάτια επόμενων κόμβων για να βρούμε τα πιο δύσκολα μονοπάτια.
Πρόβλημα:
Η ελεύθερη (μη σειριακή) αντιμετώπιση των γραμμών είναι υπερβολικά απαιτητική.
Παρατήρηση:
Τα πιο χρήσιμα μονοπάτια είναι αυτά της προηγούμενης και της επόμενης γραμμής.
![Page 12: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/12.jpg)
Λύση:
Επιλογή μεταξύ των επόμενων δύο γραμμών
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Stagedir
Exit Ghost
Speech
Speaker
MARCELLUS
Speech
Speaker
MARCELLUS
Blank
Stagedir
Exit Ghost
Πλεονεκτήματα Μειονεκτήματα
Χρήση μονοπατιού επομένης γραμμής στα χαρακτηριστικά
Αύξηση αριθμού διαθέσιμων ενεργειών
Αργότερος αλγόριθμος
![Page 13: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/13.jpg)
Μετρικές επίδοσης:
Path Percentage Similarity Measure: Ποσοστό σωστών μονοπατιών κόμβων από την ρίζα του δέντρου μέχρι το φύλλο.
F1 Subtree Similarity Measure: Ποσοστό κοινών υποδέντρων μεταξύ του ζητούμενου δέντρου και του ανακατασκευασμένου.
F1 TagType Measure: Μέσος όρος της τιμής F1 για κάθε τύπο κόμβου στα φύλλα του δέντρου.
![Page 14: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/14.jpg)
0.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
Path Perc Structure F1 TagType Perc
Επίδοση σε σκηνές
Node-by-Node Leaf-by-Leaf Serial Leaf-by-Leaf non-serial
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
Path Perc TagType Perc
Επίδοση σε έργα
Leaf-by-Leaf Serial Leaf-by-Leaf Non-serial
Σκηνές
Κάθε μέθοδος παρουσιάζει ελαφρά βελτίωση σε σχέση με τις προηγούμενες
Έργα
Η ανά κόμβο ανοικοδόμηση υπερβολικά απαιτητική
Η σειριακή μέθοδος καλύτερη της μη-σειριακής
![Page 15: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/15.jpg)
S-CASE:
Υπηρεσία ημιαυτόματης δημιουργία RESTful Web Services με χρήση απαιτήσεων λογισμικού και μοντέλων συστημάτων
![Page 16: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/16.jpg)
Ασχολούμαστε με τον μηχανισμό αυτόματης εξαγωγής οντοτήτων από προτάσεις απαιτήσεων λογισμικού.
![Page 17: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/17.jpg)
Τέσσερεις τύποι οντοτήτων:
Action: Ενέργειες που εκτελούνται
Actor: Οντότητες που εκτελούν ενέργειες (σύστημα, χρήστες κ.τ.λ.)
Object: Οντότητες πάνω στις οποίες εκτελούνται ενέργειες.
Property: Ιδιότητες των οντοτήτων τύπου Actor και Object
![Page 18: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/18.jpg)
Τρεις τύποι σχέσεων μεταξύ οντοτήτων:
IsActorOf: Συνδέει οντότητες τύπου Actor με τις ενέργειες Action που εκτελούν
ActsOn: Συνδέει ενέργειες Action με τις οντότητες Object πάνω στις οποίες εκτελούνται
HasProperty: Συνδέει οντότητες τύπου Action και Object με τα χαρακτηριστικά Property
![Page 19: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/19.jpg)
Εύρεση οντοτήτων-σχέσεων σε τρία βήματα:
Εύρεση οντοτήτων Action και Object
Εύρεση σχέσεων ActsOn μεταξύ Action και Object
Εύρεση οντοτήτων Actor και Property και σχέσεων IsActorOf και HasProperty
Προεπεξεργασία: Εξαγωγή συντακτικών δεδομένων με χρήση Mate-tools
![Page 20: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/20.jpg)
Εύρεση οντοτήτων Action και Object
Αναζήτηση ακολουθόντας το συντακτικό δέντρο
![Page 21: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/21.jpg)
Εύρεση οντοτήτων Action και Object
Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Χαρακτηριστικά
Λέξη
Part-of-Speech tag
PoS tags των παιδιών
Συντακτική σχέση των παιδιών με την τρέχουσα λέξη
Συντακτική σχέση με την λέξη-πατέρα
Ακολουθία συντακτικών σχέσεων από την τρέχουσα λέξη μέχρι την ρίζα
Ακολουθία σχέσεων από την τρέχουσα λέξη μέχρι άλλα Action/Object tags.
![Page 22: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/22.jpg)
Εύρεση σχέσεων ActsOn
Σειριακή εξέταση ζευγών Action-Object
Χαρακτηριστικά
Ζεύγος λέξεων
Ζεύγος PoS tags
PoS tags των παιδιών
Συντακτικές σχέσεις των λέξεων με τις λέξεις-πατέρες τους
Ακολουθία συντακτικών σχέσεων στο μονοπάτι από Action σε Object
Ακολουθία σχέσεων στο μονοπάτι από την οντότητα Object σε άλλες οντότητες Object που συνδέονται με την Action
![Page 23: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/23.jpg)
Εύρεση οντοτήτων Actor/Property και σχέσεων IsActorOf/HasProperty
Αναζήτηση ακολουθόντας το συντακτικό δέντρο
![Page 24: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/24.jpg)
Εύρεση οντοτήτων Actor/Property και σχέσεων IsActorOf/HasProperty
Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Χαρακτηριστικά
Ζεύγος λέξεων
Ζεύγος PoS tags
Συντακτικές σχέσεις των λέξεων με τις λέξεις-πατέρες τους
Ακολουθία PoS tags στο μονοπάτι από την πρώτη λέξη στην δεύτερη
Ακολουθία σχέσεων στο μονοπάτι από την πρώτη λέξη στην δεύτερη
Ακολουθία σχέσεων στο μονοπάτι από την δεύτερη λέξη σε άλλες λέξεις που συνδέονται με την πρώτη
![Page 25: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/25.jpg)
0.74
0.75
0.76
0.77
0.78
0.79
0.8
0.81
0.82
0.83
0.84
0.85
Action/Object F1 Perc ActsOn F1 Perc IsActorOf/HasProperty F1
Perc
Επίδοση Τμημάτων Αλγορίθμου
Επιδόσεις μειώνονται με κάθε τμήμα του αλγορίθμου
Κάθε τμήμα βασίζεται στην έξοδο του προηγούμενου
Κάθε τμήμα πιο πολύπλοκο από τα προηγούμενα
![Page 26: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/26.jpg)
Επιδόσεις μικρότερες στο νέο dataset
Ο parser ενισχυτικής μάθησης παρουσιάζει καλύτερες επιδόσεις
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
S-CASE dataset F1 Perc New requirements F1 Perc
Επίδοση Parsers
RL Parser
S-CASE Parser
![Page 27: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/27.jpg)
Εξαγωγή πληροφοριών ταινιών από ιστοσελίδες.
Δύο datasets:
Imdb: Σχετικά σταθερή δομή μεταξύ σελίδων
Wikipedia: Μεγαλύτερη ανομοιομορφία στην δομή των σελίδων
www.imdb.com www.wikipedia.com
![Page 28: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/28.jpg)
title
• Gone With The Wind
Director
• Victor Fleming
Editor
• Hal C. Kern
• James E. Newcom
Δύο στάδια:
Εξαγωγή πληροφοριών από ιστοσελίδα
Κατηγοριοποίηση πληροφοριών
![Page 29: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/29.jpg)
Πρώτο στάδιο:
Ο πράκτορας ξεκινά στην κορυφή του δέντρου.
Τρείς διαθέσιμες ενέργειες
Χαρακτηριστικά
Όνομα κόμβου
Ακολουθία ονομάτων κόμβων από τη ρίζα του δέντρου μέχρι τον τρέχοντα κόμβο
HTML χαρακτηριστικά του κόμβου
Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)
Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου
![Page 30: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/30.jpg)
Πρώτη επιλογή:
Εξερεύνηση των παιδιών του κόμβου
![Page 31: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/31.jpg)
Πρώτη επιλογή:
Εξερεύνηση των παιδιών του κόμβου
![Page 32: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/32.jpg)
Δεύτερη επιλογή:
Συνέχιση έρευνας στον επόμενο κόμβο
![Page 33: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/33.jpg)
Δεύτερη επιλογή:
Συνέχιση έρευνας στον επόμενο κόμβο
![Page 34: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/34.jpg)
Τρίτη επιλογή:
Εξαγωγή στοιχείων κόμβου
Συνέχιση έρευνας στον επόμενο κόμβο
![Page 35: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/35.jpg)
Τρίτη επιλογή:
Εξαγωγή στοιχείων κόμβου
Συνέχιση έρευνας στον επόμενο κόμβο
![Page 36: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/36.jpg)
Δεύτερο στάδιο:
Κατηγοριοποίηση των εξαγομένων δεδομένων
title
• The Jazz Singer
…
Editor
• Harold McCord
…
Production company
• Warner Bros. Pictures
…
Actor
• Al Jolson as Jakie Rabinowitz (Jack Robin) James E.
• Warner Oland as Cantor Rabinowitz
…
Χαρακτηριστικά
Όνομα κόμβου
HTML χαρακτηριστικά του κόμβου
Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)
Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου
![Page 37: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/37.jpg)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Extraction F1 Classification Perc Final F1
Επιδόσεις αλγορίθμου
Imdb
Wikipedia
Επιδόσεις στο wikipedia dataset μικρότερες λόγω μεγαλύτερης ανομοιομορφίας σελίδων
![Page 38: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/38.jpg)
Συμπεράσματα:
Οι μέθοδοι ενισχυτικήςμάθησης παρουσιάζουν top-of-the-line επιδόσεις σε προβλήματα δομημένης πρόβλεψης
Μπορούν να εξερευνούν δομημένα δεδομένα με μια ποικιλία τρόπων
Μελλοντική εργασία:
Αποτελεσματική μη-σειριακή εξερεύνηση δέντρων
Αντιστοίχηση τμημάτων ιστοσελίδων που περιέχουν ίδια δεδομένα
Χρήση NLP για εξαγωγή πληροφοριών από άγνωστες ιστοσελίδες
![Page 39: Ioannis Iakovidis](https://reader031.vdocuments.site/reader031/viewer/2022021815/5a6563e07f8b9a931a8b4df9/html5/thumbnails/39.jpg)
Ερωτήσεις;