Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

32
Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής

Upload: bruno

Post on 21-Jan-2016

98 views

Category:

Documents


0 download

DESCRIPTION

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες. Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής. Πολυγλωσσική ψηφιακή βιβλιοθήκη (Βασικός ορισμός). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Παρουσίαση της εργασίας“Multilingual Information

Retrieval Based on Document Alignement Techniques”

Martin Braschler, Peter Schäuble

Μάθημα: Ψηφιακές βιβλιοθήκεςΜατθαίος Στρατής

Page 2: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Πολυγλωσσική ψηφιακή βιβλιοθήκη

(Βασικός ορισμός)

Μια ψηφιακή βιβλιοθήκη, η οποία περιέχει τεκμήρια σε

περισσότερες από μία γλώσσες

Page 3: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Δια-γλωσσική ανάκτηση πληροφοριών

(Cross-Language Information Retrieval - CLIR)

Η πρακτική κατά την οποία ο χρήστης συντάσσει το

ερωτηματολόγιο (Query) σε μια γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη

γλώσσα στην οποία είναι γραμμένα αυτά.

Page 4: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Αναγκαιότητα της CLIRΟ χρήστης πρέπει να έχει πρόσβαση σε όσο το δυνατόν περισσότερες πληροφορίες, χωρίς η γλώσσα ν’ αποτελεί φραγμόΟ δημιουργός πρέπει να κάνει τις εργασίες του, απόψεις, ιδέες του κλπ. διαθέσιμα ευρέως, χωρίς τον περιορισμό της γλώσσας

Page 5: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Προσεγγίσεις για την εκτέλεση μιας CLIR

1η Προσέγγιση: Μετάφραση των τεκμηρίων-στόχων στη γλώσσα αναζήτησης

o Πολύ βολική για τον χρήστηΑλλά:o Μη ρεαλιστική (Πολύ δαπανηρή και απαιτητική

δραστηριότητα)o Τα προγράμματα αυτόματης μετάφρασης (MT)

έχουν αποδειχθεί αναποτελεσματικάo Ένα μικρό ποσοστό της συλλογής μπορεί να

ενδιαφέρει τον χρήστη. Γιατί να μεταφράζονται τα παντα;

Page 6: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Προσεγγίσεις για την εκτέλεση μιας CLIR (συνέχεια)

2η Προσέγγιση: Μετάφραση του querie στη γλώσσα των αντίστοιχων τεκμηρίων

Τεχνικές knowledge-based Με χρήση λεξικών Με χρήση θησαυρών Με χρήση οντολογιών (π.χ. Euro Wordnet)

Τεχνικές corpus-based Βασίζονται στην ίδια τη συλλογή Χρησιμοποιούνται στατιστικά στοιχεία σχετικά με τη χρήση των

όρων για εξαγωγή συμπερασμάτων Βάσει των συμπερασμάτων δημιουργούνται τεχνικές μετάφρασης

του querie, ειδικές για κάθε ξεχωριστή συλλογή Εφαρμόζονται για την αναζήτηση μεταξύ παράλληλων

(μεταφραστικά ισοδύναμων) ή συγκρίσιμων (με σχετικό περιεχόμενο) συλλογών

Page 7: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες
Page 8: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες
Page 9: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Απαιτήσεις εφαρμογής για μια πολυγλωσσική ψηφιακή

βιβλιοθήκηΑναγνώριση, χειρισμός και εμφάνιση των διάφορων περιεχόμενων γλωσσών. (Υποστήριξη των σετ χαρακτήρων και κωδικοποιήσεων για την αναπαράσταση της πληροφορίας)Επίτευξη Internationalization (Δυνατότητα πρόσβασης και χρήσης ανεξάρτητα από τοπικούς ή γλωσσικούς φραγμούς)

Εφαρμογή οδηγιών του HTTP και της HTML (ως προς την κωδικοποίηση χαρακτήρων)Επίτευξη Localization (Προσαρμογή στις τοπικές ιδιαιτερότητες)

Δυνατότητα εφοδιασμού με ειδικά fonts

Page 10: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Δυναμικό inrerfaceΣε ένα interface μιας πολυγλωσσικής

βιβλιοθήκης είναι απαραίτητο:Όλα τα επιμέρους interfaces να εμφανίζονται σε κάθε προτιμώμενη γλώσσαΌλα τα μηνύματα να εμφανίζονται σε κάθε προτιμώμενη γλώσσαΌλα τα στοιχεία των επιμέρους πινάκων να εμφανίζονται σε κάθε προτιμώμενη γλώσσα

Page 11: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Πολυγλωσσική ψηφιακή βιβλιοθήκη

(Ευρύς ορισμός)«Μια πολυγλωσσική ψηφιακή βιβλιοθήκη, είναι μια ψηφιακή βιβλιοθήκη, όλες οι λειτουργίες της

οποίας εφαρμόζονται ταυτόχρονα σε όσες γλώσσες είναι επιθυμητό και της οποίας οι

λειτουργίες αναζήτησης και ανάκτησης είναι ανεξάρτητες από τη γλώσσα».[1]

[1] Pavani, Ana M. B. , A model of Multilingual Digital Libray, Ci. Inf., Brasília, v. 30, n. 3, p. 73-81, set./dez. 2001

Page 12: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Παρουσίαση της εργασίας“Multilingual Information

Retrieval Based on Document Alignement

Techniques”Martin Braschler, Peter

Schäuble

Page 13: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Corpus-based μέθοδος πολυγλωσσικής ανάκτησης πληροφοριών κατά την οποία ο χρήστης συνθέτει το querie σε μια προτιμώμενη γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.

Page 14: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Βάση εργασίας:Συλλογή του Associated Press (AP) με αγγλικά κείμεναΣυλλογή του Schweizerische Depeschenagentur (SDA) με γερμανικά και γαλλικά κείμενα

Page 15: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Τεχνική ευθυγράμμισης τεκμηρίων (Document

alignment)

Διαδικασία κατά την οποία τεκμήρια με σχετικό περιεχόμενο οργανώνονται σε ζεύγη (alignments), παράγοντας ένα mapping των σχετιζόμενων μεταξύ τους τεκμηρίων διαφορετικών συλλογών

Page 16: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Παράδειγμα ευθυγράμμισης (SDA)

Condor-Maschine bei Izmir abgestürzt: Mutmasslisc 16 Tote.(Condor plane crashed near Izmir: probably 16 dead)

Un avion ouest-allemand s'écrase près d'Izmir: 16 morts.(A Western German plane crashes near Izmir: 16 dead)

Page 17: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Δείκτες για τον εντοπισμό της συνάφειας

Τα τεκμήρια περιέχουν κοινά κύρια ονόματα (Η ορθογραφία των ονομάτων σε παρόμοιες γλώσσες είναι συνήθως σταθερή) Τα τεκμήρια περιέχουν κοινούς αριθμούς (Οι αριθμοί σε μεγάλο βαθμό δεν εξαρτώνται απ’ τη γλώσσα) Αν στα τεκμήρια έχουν αποδοθεί συμβατοί ταξινομητές (classifiers), αυτοί μπορούν να χρησιμοποιηθούν Η ίδια ιστορία ή είδηση συνήθως δημοσιεύεται σε κοντινές ημερομηνίες από τα ειδησεογραφικά πρακτορεία. Κατά συνέπεια, οι ημερομηνίες μπορούν να χρησιμοποιηθούν σαν δείκτες Λέξεις που περιέχονται και στα δύο τεκμήρια μπορούν να χρησιμοποιηθούν σαν ένδειξη συνάφειας. Ειδικά γι αυτό, μπορεί να χρησιμοποιηθεί λεξικό για τη μετάφραση των όρων από γλώσσα σε γλώσσα.

Page 18: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Βασική σύλληψη της διαδικασίας ευθυγράμμισης

Τα κείμενα της πρώτης συλλογής μετατρέπονται σε queries με την εξαγωγή όρων απ’ αυτάΤα queries μεταφράζονται στη γλώσσα-στόχο και «τρέχουν» πάνω στη δεύτερη συλλογή

Page 19: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Ευθυγράμμιση συλλογών AP – German SDA

Χρήση όρων «μετρίας» συχνότηταςΧρήση wordlist (Απλοποιημένο λεξικό)Χρήση τεχνικής Thresholding (Κατώτατου ορίου ή κατωφλίου)Χρήση τεχνικής Date normalization (Κανονικοποίησης ημερομηνίας)

Page 20: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Απεικόνιση των ευθυγραμμίσεων AP-German SDA (1)

Page 21: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Απεικόνιση των ευθυγραμμίσεων AP-German SDA (2)

Page 22: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Παράθυρο ημερομηνίας (Date window): Μπορεί να

χρησιμοποιηθεί για τον περιορισμό της έκτασης

προς αναζήτηση

Page 23: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Ευθυγράμμιση συλλογών French SDA – German SDA Χρήση των αποδοθέντων ClassifiersΧρήση κυρίων ονομάτων και αριθμών σαν δείκτεςΔεν είναι απαραίτητη η χρήση γλωσσικών εργαλείων

Page 24: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Αξιολόγηση των ευθυγραμμίσεων

Αξιολόγηση ανεξάρτητα από την εφαρμογήΑξιολόγηση εφαρμογής που χρησιμοποιεί τις ευθυγραμμίσεις

Page 25: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Αξιολόγηση ανεξάρτητα από την εφαρμογή

Πώς θα κριθεί η ποιότητα; Απαιτείται άνθρωπος κριτής που θα πρέπει να διαβάσει ολόκληρη τη συλλογή για να σιγουρευτεί ότι δεν υπάρχει κάποιο πιο συναφές κείμενο, πράγμα καθαρά μη πρακτικό.

Πώς θα εκτιμηθεί το ποσοστό συνάφειας σ’ ένα ζεύγος όταν το query είναι στην ουσία ένα ολόκληρο κείμενο; (Εφαρμογή πίνακα 5 κατηγοριών)

Ο άνθρωπος κριτής θα πρέπει να διαβάζει δύο τεκμήρια για κάθε αποτίμηση σχετικότητας αντί για ένα (όπως συμβαίνει στην αποτίμηση απλών διαδικασιών ανάκτησης). Αυτό συμβαίνει, γιατί το query είναι διαφορετικό για κάθε ευθυγραμμισμένο ζεύγος.

Page 26: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Κατηγορίες για την αποτίμηση των

ευθυγραμμισμένων ζευγών

Page 27: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Αποτελέσματα αποτίμησης

δείγματος 1% επί του συνόλου

Page 28: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Εφαρμογή των ευθυγραμμίσεων για την ανάκτηση πληροφοριών

Δια-γλωσσική ανάκτηση πληροφοριών από παράλληλες ή συγκρίσιμες συλλογές

Για συγκρίσιμες συλλογές μπορεί να εφαρμοστεί η τεχνική του pseudo relevance feedback σε συνδυασμό με χρήση wordlist

Πρακτική εφαρμογή στη συλλογή CLIR του TREC-6

Page 29: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Σύγκριση των διαφόρων τεχνικών στη συλλογή του

TREC-6

Page 30: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Λογισμικά εφαρμογής της CLIR CINDOR της TextWise (http://www.cindorsearch.com)TwentyOne της Irion Technologies (http://www.irion.nl/products/index.html)Pidgin της Irion Technologies (http://www.pidgin.nl)AnswerWorks της WexTech (http://www.wextech.com/products.html)Lirix της Xerox (http://www.xrce.xerox.com/programs/lirix/)Relevancy της Eurospider (http://www.eurospider.com/en/relevancy/relevancy.htm

Page 31: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Προβληματισμοί σχετικά με την CLIR

Πώς επιλέγονται οι σωστοί όροι για τη σύνταξη ενός query;Έχει ξεπεραστεί πραγματικά ικανοποιητικά το φράγμα του «ζεύγους γλωσσών»;Αν η αυτοποιημένη μετάφραση (MT) χρησιμοποιείται για να μεταφραστούν τα ανακτηθέντα τεκμήρια, γιατί να μη χρησιμοποιείται για τη μετάφραση όλων των τεκμηρίων μιας συλλογής;Πόσο μπορεί να εφαρμοστεί η CLIR σε μεγάλες μηχανές αναζήτησης; (Ας μην ξεχνάμε οτι τα γλωσσικά εργαλεία που κατασκευάζονται είναι ειδικά για κάθε εφαρμογή)Η φιλοσοφία του semantic web μπορεί να επεκταθεί και για την CLIR;

Page 32: Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Τέλος παρουσίασης