word sense disambiguation

22
Word Sense Disambiguation Αποσαφήνιση της έννοιας της λέξης Ιόνιο Πανεπιστήμιο. Μεταπτυχιακό Πληροφορικής Προχωρημένα Θέματα Γλωσσικής Τεχνολογίας Μουστάκα Ελένη Γενάρης 2012

Upload: -

Post on 11-May-2015

591 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Word sense disambiguation

Word Sense DisambiguationΑποσαφήνιση της έννοιας της λέξης

Ιόνιο Πανεπιστήµιο. Μεταπτυχιακό Πληροφορικής

Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας

Μουστάκα Ελένη

Γενάρης 2012

Page 2: Word sense disambiguation

� Στόχος της σηµερινής διάλεξης είναι:

� να ασχοληθούµε µε την εξήγηση της αµφισηµίας των

λέξεων

� Να δούµε κάποιες προσεγγίσεις που θα βοηθήσουν

στην άρση της

Page 3: Word sense disambiguation

� Υπάρχουν λέξεις που έχουν διαφορετικές έννοιες

παρόλο που γράφονται και προφέρονται µε τον ίδιο

ακριβώς τρόπο παραδείγµατος χάρη :� Καλόγερος: είδος φορητής κρεµάστρας, αυτόςπου απαρνείται τα εγκόσµια, είδος πυώδουςφλεγµονής, είδος εντόµου (πασχαλίτσα)

� Μήτρα: στο γυναικείο σώµα, το πρότυπο/καλούπι� Κόλλα: µια κόλλα χαρτί, η κόλλα που κολλάµε� Γραφείο: το έπιπλο, ο χώρος� Κερκίδα: το κάθισµα σε γήπεδο, το οστό, η σαΐτατου αργαλειού

Τι είναι η αµφισηµία;

Page 4: Word sense disambiguation

� Προφανώς η σηµασία, για πολλές από αυτές τιςλέξεις, γίνεται ξεκάθαρη αν τις συναντήσουµεµέσα σε ένα σώµα κειµένου:

� Κρέµασα το παλτό µου στον καλόγερο

� Ξεκίνησαν οι συσπάσεις της µήτρας

� Θα ζωγραφίσω σε µία λευκή κόλλα

� Το γραφείο του βρίσκεται στο δεύτερο όροφο

� Έσπασε την κερκίδα του, στο µάθηµα

Page 5: Word sense disambiguation

Προσεγγίσεις

� Στοχαστική προσέγγιση

� Το µοντέλο µονόγραµµου και n-gram� Επιβλεπόµενη µάθηση

� Αλγόριθµος Naïve Bayes� Λίστες αποφάσεων

Page 6: Word sense disambiguation

Στοχαστική προσέγγιση-µοντέλο

µονόγραµµου

� Μετράµε το πόσες φορές εµφανίζεται µία λέξη (µετην κάθε δυνατή έννοια) µέσα σε ένα κείµενο:� Ρόκα (χορταρικό) 80 φορές. πχ:� Ρόκα (εργαλείο πλεξίµατος) 25 φορές

� Ή

� Φακός (που φωτίζει) 63 φορές� Φακός (επαφής) 42 φορές

Page 7: Word sense disambiguation

Στοχαστική προσέγγιση – µοντέλο

µονόγραµµου

� Χρησιµοποιώντας τα Unigrams θα επιλέγαµε πάντατη λέξη που εµφανίζεται τις περισσότερες φορές

(ρόκα-χορταρικό, φακός-που φωτίζει).� Για να βρούµε όµως τη σωστή σηµασία της λέξης θα

πρέπει να λάβουµε υπόψη και τα συµφραζόµενα

� Αν si είναι η έννοια (sense) της λέξης i� 5Bigrams: P(sn| sn-1) πχ: η Μαρία έφαγε ρόκα� 5Trigrams: P(sn| sn-1, sn-2) πχ: φόρεσε το φακό

is

Page 8: Word sense disambiguation

Στοχαστική προσέγγιση� Υπάρχουν όµως πολλές διαφορετικές σηµασιολογικέςέννοιες και

� Ο αριθµός των φορών που εµφανίζεται κάποια λέξηµπορεί να είναι πολύ µικρός άρα:� Θα πρέπει να επιλέξουµε µεγαλύτερο εύρος παραθύρουσυµφραζοµένων για να εντοπίσουµε την σωστή εξήγησητης λέξης που µας ενδιαφέρει. Γιατί θα µπορούσε ναείναι:� Αναγκάστηκε να βγάλει το φακό γιατί την πονούσεπολύ το µάτι της.

- Βλέπουµε πως η λέξη που µας ενδιαφέρει (µάτι) βρίσκεται 6 λέξεις µακριά από τη λέξη (φακός) πουθέλουµε να αποσαφηνίσουµε

Page 9: Word sense disambiguation

Στοχαστική προσέγγιση

� Αν ονοµάσουµε:� s = sense (η έννοια της λέξης)� w = word (η λέξη) � c = context (το παράθυρο των λέξεων)

� Θεωρούµε ένα παράθυρο λέξεων, όπου η λέξη πουµας ενδιαφέρει να αποσαφηνίσουµε βρίσκεται στηµέση:� c = w1,…,w5,…,w9

� Θέλουµε να βρούµε την έννοια (s) της λέξης (w5)δηλαδή: (w5/s) που µεγιστοποιεί την πιθανότηταP((w5/s)|w1…w9)

Page 10: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Ο αλγόριθµος του Bayes ανήκει στην κατηγορία των αλγορίθµωνεπιβλεπόµενης µάθησης (supervised learning).

� Μία πρακτική δυσκολία που αντιµετωπίζεται στη µάθηση κατά Bayesείναι το γεγονός ότι απαιτείται η γνώση πολλών τιµών πιθανοτήτων.

� Όταν αυτές οι τιµές δεν είναι δυνατό να υπολογιστούν επακριβώς, υπολογίζονται κατ‘ εκτίµηση από παλαιότερες υποθέσεις, εµπειρικήγνώση, κτλ.

� Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξίασε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλόταξινοµητή Bayes, στον οποίο γίνεται η παραδοχή ότι ταχαρακτηριστικά είναι ανεξάρτητα µεταξύ τους.

Page 11: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Bayes Rule: P(s/w5 | c) = P(s/w5)* P(c | s/w5) / P(c) [1]P(s/w5|c) :πιθανότητα έννοιας της λέξης δεδοµένων των συµφραζοµένων

(posterior), P(s/w5) : πιθανότητα έννοιας της λέξης ανεξάρτητων των συµφραζοµένων (prior),

δηλαδή η εκ των προτέρων πιθανότητα πχ η λέξη καλόγερος να έχει την έννοια

έπιπλο.P(c | s/w5) / P(c) : παράγοντας ενσωµάτωσης πληροφορίας συµφραζοµένων

� P(c) :Τον όρο P(c) [2] (το κείµενο που εξετάζουµε) επειδή είναι σταθερός γιαόλες τις µεταφράσεις και δεν επηρεάζει το αποτέλεσµα, µπορούµε και να τονπαραλείψουµε (για να απλοποιήσουµε τις διαδικασίες αποσαφήνισης)

� P(c | s/w5 ) :∆εδοµένου ότι πχ η λέξη καλόγερος είναι έπιπλο ότανβρίσκεται µέσα στο συγκεκριµένο κείµενο

Έχουµε την παραδοχή της ανεξαρτησίας που µας λέει ότι : η παρουσία µίαςλέξης στα συµφραζόµενα είναι ανεξάρτητη των άλλων λέξεων:

� P(c | s/w5 ) � Πi=1..9 * P(c | s/w5) [3]

Page 12: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Αντικαθιστώντας στον [1] τους [2] και [3] θα πάρουµε τον τελικό τύπο του Bayes:

� P(s/w5 | c) = P(s/w5)* Πi=1..9 * P(c | s/w5)

� Όπου : c = w1,…,w5,…,w9

Page 13: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Ένα παράδειγµα για να κατανοήσουµε τον αλγόριθµο:� Το παράθυρο συµφραζοµένων που θα εξετάσουµε:

«Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της και έγνεφε όλητη µέρα »

� Η αµφίσηµη λέξη είναι προφανώς η λέξη «ρόκα» και βρίσκεται στοκέντρο του παραθύρου

� Οι λέξεις που συµµετέχουν στον αλγόριθµο είναι αυτές µε τα έντονα

γράµµατα, οι υπόλοιπες (εκτός της λέξης ρόκα που εξετάζουµε) λέγονται λειτουργικές λέξεις (στην, µε, τη, της, και, τη) και δεν έχουνσηµασιολογικό ενδιαφέρον. � Γενικά οι λέξεις που έχουν σηµασιολογικό ενδιαφέρον είναι τα

ρήµατα, επίθετα, ουσιαστικά και επιρρήµατα

Page 14: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Πιθανότητα ανεξάρτητη των συµφραζοµένων:

� P(ρόκα/χορταρικό) = 0.6

� P(ρόκα/εργαλείο) = 0.3Έχουµε βρει την λέξη ρόκα σε ένα σώµα κειµένου 100 φορές, από αυτές, 60 φορές είχε την έννοιαχορταρικό και 30 την έννοια εργαλείο [τις 10 φορές που αποµένουν (για να έχουµε άθροισµαπιθανοτήτων 1) θεωρούµε ότι πιθανόν να υπάρχει και κάποια άλλη σηµασία της λέξης που µαςδιαφεύγει, δηλαδή στο κείµενό µας δεν είχαν ούτε την έννοια χορταρικό ούτε την έννοια εργαλείο]

� Πιθανότητα εξαρτηµένη των συµφραζοµένων:

� P7 (έγνεφε|ρόκα/χορταρικό) = 0.001∆εδοµένου ότι η ρόκα είναι χορταρικό, ποια η πιθανότητα να εµφανίζεται στο σώµα κειµένου ηλέξη έγνεφε.

� P7 (έγνεφε| ρόκα/εργαλείο) = 0.05Για να υπολογιστεί κάθε µία από αυτές τις πιθανότητες, για κάθε λέξη του παραθύρουσυµφραζοµένων: ψάχνω µέσα στο παράθυρο συµφραζοµένων της λέξης ρόκα µε την έννοια

χορταρικό, και βρίσκω πόσες φορές εµφανίζεται η λέξη «έγνεφε», διά πόσες φορές εµφανίζεται ηέννοια της λέξης ρόκα σαν χορταρικό σε όλο το κείµενο.

Page 15: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� «Καθόταν στην κουνιστή πολυθρόνα µε τη ρόκα της καιέγνεφε όλη τη µέρα »

� P(s/w4 | c) = P(s/w4)* Πi=1..7 * P(c | s/w4)

� Θα βρούµε την πιθανότητα για κάθε µία από τις έννοιες της

λέξης: Ρ1=χορταρικό και Ρ2= εργαλείο� Ρ1 = Ρ(ρόκα/χορταρικό)*Ρ(καθόταν|ρόκα/χορταρικό) *…*

*Ρ(έγνεφε|ρόκα/χορταρικό)*…* Ρ(µέρα|ρόκα/χορταρικό)

Γνωρίζουµε ήδη τις πιθανότητες Ρ(ρόκα/χορταρικό) καιΡ(έγνεφε|ρόκα/χορταρικό) µας µένει να υπολογίσουµε τιςυπόλοιπες, οι οποίες είναι ανεξάρτητες συµφραζοµένων. Στοσυγκεκριµένο παράδειγµα θα είναι τυχαίες αυτές οι

πιθανότητες

Page 16: Word sense disambiguation

Αλγόριθµος Naïve Bayes

� Αντικαθιστούµε τις πιθανότητες στη σχέση µας και

θα έχουµε:� Ρ1 = 0,6 * 0,004 * 0,008 * 0,003 * 0,001* 0,006 *

0,009 * 0,002 = 6,2208-18

� Κάνοντας ακριβώς τα ίδια βήµατα και για τη δεύτερη

πιθανότητα θα έχουµε

� Ρ2 = 0,3 * 0,004 * 0,008 * 0,003 * 0,05* 0,006 * 0,009 * 0,002 = 1,5552-16

� Βλέπουµε ότι Ρ1<Ρ2 άρα η ρόκα στην πρότασή µας,σύµφωνα µε τον Bayes, είναι εργαλείο

Page 17: Word sense disambiguation

Επιβλεπόµενη µάθηση

� Στην επιβλεπόµενη µάθηση η γενική ιδέα είναι ότι σε

ένα σώµα κειµένου η σωστή έννοια της λέξης έχει

επισηµειωθεί χειρωνακτικά.� Στη συνέχεια εξάγουµε χαρακτηριστικά από το

κείµενο που θα µας βοηθήσουν στο να επιλέξουµε

τη σωστή έννοια της λέξης

� Τέλος εκπαιδεύουµε έναν αλγόριθµο µηχανικής

µάθησης στο να δώσει την σωστή απόδοση της

λέξης σε νέα όµως παραδείγµατα, βασιζόµενος σταδοθέντα χαρακτηριστικά.

Page 18: Word sense disambiguation

Λίστες απόφασης

� Μια δεύτερη µορφή επιβλεπόµενης µάθησης είναι οι

λίστες απόφασης.� Είναι ένας άλλος τρόπος αποσαφήνισης της έννοιας

των λέξεων

� Πάλι δουλεύουµε µε ένα παράθυρο συµφραζοµένων

� Ο πρώτος έλεγχος που θα επιτευχθεί, µαςκαθορίζει και την έννοια της λέξης που ψάχνουµε

� Αν δεν επιτευχθεί έλεγχος, τότε επιλέγεται η πιοσυχνή έννοια της λέξης.

Page 19: Word sense disambiguation

Λίστες απόφασης

� ∆ηµιουργείται µία λίστα, ένα σετ κανόνων, όπουκάθε στοιχείο είναι ενδεικτικό µιας συγκεκριµένης

έννοιας της λέξης που θέλουµε να αποσαφηνίσουµε

� Αυτό σηµαίνει ότι η λίστα µας θα έχει στοιχεία για

όλες τις έννοιες της λέξης.� Κάποιος ειδήµων θα έχει δηµιουργήσει αυτούς τους

κανόνες (ο ειδικός πενολόγος που είχαµε πει)� Στη συνέχεια υπολογίζουµε τις πιθανότητες για κάθε

έναν από τους κανόνες αυτούς

Page 20: Word sense disambiguation

Λίστες απόφασης

� Παράδειγµα:� Αποσαφήνιση της λέξης : πένα (γραφής, χορδών)

κανόνες

1. «πένα κιθάρας» � χορδών

2. «χαρτί» µέσα στο παράθυρο� γραφής

3. «παρτιτούρες» µέσα στο παράθυρο� χορδών

4. «συγκρότηµα» µέσα στο παράθυρο� χορδών

5. «γραφείο» µέσα στο παράθυρο� γραφής

Page 21: Word sense disambiguation

Λίστες απόφασης

� Καθόρισε τις πιθανότητες για όλες τις έννοιες

λέξεων δεδοµένων όλων των ελέγχων.� P(w/s | test)

� Πχ «πένα κιθάρας» � χορδών : πόσες φορές η λέξη πέναµε την έννοια της χορδής, ακολουθείται από την λέξη κιθάρα διά τιςφορές που εµφανίζεται η λέξη πένα µε την έννοια χορδή γενικά

� Τα αποτελέσµατα ταξινοµούνται σε φθίνουσα σειρά ανάλογα µε την

πιθανότητά τους.

Page 22: Word sense disambiguation

Αξιολόγηση συστηµάτων WSD

� Τα αποτελέσµατα της αξιολόγησης εξαρτώνται από

τη λίστα των διαφορετικών εννοιών

� Γενικά είναι δύσκολο να συγκρίνουµε δύο

συστήµατα που βασίζονται σε λίστες µε διαφορετικό

βαθµό πολυπλοκότητας

� Αν µία λέξη έχει δύο ισοπίθανες έννοιες, και αποσαφηνιστείσωστά µε πιθανότητα 90%, τότε είναι απόλυτα επιτυχής

� Αν όµως, µία λεξη έχει δύο έννοιες µε πιθανότητες 90% γιατη µία και 10% για την άλλη , τότε αν αποσαφηνιστεί σωστάµε πιθανότητα 90% είναι ασήµαντο επίτευγµα.