inaugurazione laboratorio p24 tecnologie per il trattamento automatico della lingua - obiettivi,...

26
Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università di Roma, Tor Vergata) Facolta’ di Lettere 24 Marzo 2004

Upload: primo-farina

Post on 02-May-2015

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Inaugurazione Laboratorio P24

Tecnologie per il Trattamento Automatico della Lingua

- Obiettivi, Progetti ed Opportunità a RTV -

R. Basili(DISP, Università di Roma, Tor Vergata)

Facolta’ di Lettere24 Marzo 2004

Facolta’ di Lettere24 Marzo 2004

Page 2: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Computer, Lingue ed Applicazioni

Perché comprendere tramite gli elaboratori i contenuti testuali?

I testi sono i veicoli principali di significato per molte altre tipologie di dati (e.g. multimediali) … e per la definizione, trasmissione e condivisione di conoscenze (il Web e’ solo il piu’ evidente degli esempi)Ricerca di informazione

Page 3: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Elaborazione come processo di interpretazione

Elaborare un testo in tale ambito significa interpretarne aspetti rilevanti del significato

Area tematica (e.g. cronaca/politica)Obbiettivi (e.g. virus/spam nell’e-mail)Personaggi e luoghi coinvoltiEventi dichiarati (e.g. news)Obbiettivi comunicativi (e.g. dialogo e pianificazione)

Risultato: rappresentazione esplicita del significato testuale … che attiva alcune inferenze (e.g. rilevanza)

Page 4: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Un esempio: Notizie di Agenzia

Page 5: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Notizie di agenzia (2)

I requisiti di una corretta interpretazione sono (almeno):

“ha battuto” e’ il verbo principale … usato in forma transitiva sempliceE’ usato nella sua accezione “sportiva” (nessuno e’ stato colpito qui!)Italia e Scozia sono rispettivamente soggetto e complemento oggetto grammaticali () Italia non e’ un paese ma una squadra (!), (e cosi’ la Scozia)giornata e’ il turno e non il giorno

Esisitono altre forme linguistiche equivalenti e.g.

Page 6: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Notizie di Agenzia (3): Multilingualità

Page 7: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Alcune Riflessioni

La comprensione di informazione linguistica richiede conoscenza riguardo:

La lingua (e.g. sintassi)Il mondo (e.g. rugby, squadre e nazioni)Come la prima fa riferimento al secondo

L’accesso e la pubblicazione (elettronica) “intelligente” implica conoscenze riguardo:

L’obbiettivo, i.e. ricercaIl mondo in cui la comunicazione e’ immersaI produttori vs. gli utenti del testo

Page 8: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Sfide e Ricerca

Accuratezza del riconoscimento/produzioneRobustezza (errori/rumore/incompletezza)Scala

Copertura di Lessici e Grammatiche

EspressivitàDizionari, Lessici e ThesauraModelli del mondo ed inferenza

FlessibilitàLingua del produttore vs. consumatore

Naturalezza

Page 9: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

TAL: La architettura del processo

Analisi LessicaleAnalisi Lessicale

Analisi SintatticaAnalisi Sintattica

Analisi SemanticaAnalisi Semantica

An. Pragmatica / Applic.An. Pragmatica / Applic.

Lessico

Grammatica

Modello del mondo

Modello del task

testo

Tokens+ features

Strutturafrase

Interpretazione

FormaLogica

Page 10: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

HLT: Ricerca e Risultati

Risorse e StandardDizionari e Lessici Corpora

Riconoscimento:Morfologia ed Analisi a Stati FinitiRiconoscimento Sintattico e Disambiguazione Riconoscimento e Classificazione dei Nomi Propri (e.g. luoghi o persone, >93% acc.)Disambiguazione del Senso (90% acc.)Riconoscimento Eventi (MUC Conferences, 87-98)

Page 11: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

IE in MUC

Page 12: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

IE in MUC

Page 13: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

HLT: Ricerca e Risultati (2)

Apprendimento di conoscenza linguistica

Analisi sintattica per esempi (e.g. parsing statistico, HMM)

Acquisizione automatica di terminologia (e.g. broadband communication o

imposte dirette)

Regole di disambiguazione del senso (WSD) rispetto a dizionari semantici

battere/sport vs. battere/colpire Wordnet (Miller et al, 91) ed i corpora

Information Extraction RulesApprendimento di schemi frasali ([companies] acquire [companies])

Page 14: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

HLT @ DISP, Tor Vergata

The AI-NLP group at Computer Science Dept

Prof. Maria Teresa PAZIENZAProf. Roberto BASILI2-4 Researchers1-2 PhD students1-2 Visiting scientists

URL: ai-nlp.info.uniroma2.it

Page 15: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

HLT @ Rome, Tor Vergata

Aree di Ricerca:

Ingegneria delle LingueMetodi robusti per il TALModelli Computazionali del Lessico e Disambiguazione del Senso

Apprendimento Automatico per il TAL su larga scala

Applicationi del TAL:Information Extraction e Retrieval (Categorizzazione)Question Answering

Ingegneria della Conoscenza Ontologica mediata linguisticamente

Page 16: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

HLT @ DISP, Tor Vergata

ARIOSTO (’92): Acquisizione Automatica di conoscenza lessicale

CHAOS (’98.02): Analizzatore sintattico (Italiano, Inglese)

RGL (’97): Analisi formale dei concetti per l’acquisizione di

schemi di sottocategorizzazione verbale

(Reticoli di GALOIS)

GoDoT (‘98): Disambiguazione Semantica

SATOR (’00): Apprendimento Automatico di schemi per IE

ONTOLOAD (’01): Acquisizione di ontologie di dominio a

partire dai testi

Sistemi

Page 17: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Analisi Sintattica

• Riconoscimento Grammaticale Robusto (CHAOS) (Basili et al., ECAI98, IWPT2000, NLE2002)

• Modularità e Lesssicalizzazione (Ing/It)

• Rappresentazione OO (orientata agli oggetti) dei dati linguistici

• 6 fasi inernedie di eaborazione grammaticale (e.g. etichettatura sintattica, i.e. POS tagging)

• Riusabilita’ tra lingue e domini diversi80% Prec/Rec per l’inglese (IWPT’00)90 p/sec (per l’italiano e l’inglese) (Ecai

‘98)

Page 18: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Analisi Sintattica: CHAOS add link

Page 19: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

ECRAN (97-98) Apprendimento lessicale per IE adattivo

TREVI (99-00) Categorizzazione e personalizzazione

basata sul testo

NAMIC (00-02) Hyperlinking multilinguale su flussi di

notizie di agenzia

MOSES (02-04) Question Answering basato su ontologie

PrestoSpace (04-) Indicizzazione ed Interrogazione

Semantica di dati multimediali (RAI)

HLT @ Rome, Tor Vergata

Progetti Internazionali (EU Esprit, 5-6 FW)

Page 20: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

NAMICEnglishMS

ItalianMS

SpanishMS

World Model

EnglishEM

ItalianEM

SpanishEM

Language processors

 Hyperlinking

Engine

News streams

XML Objective

Representation

 Multilingual Hypernews

Engine

 NAMIC monitor

The NAMIC architecture

Page 21: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Il progetto: PrestoSpace

The objective of the project is to provide technical devices and systems for digital preservation of all types of audio-visual collections. The aim is to build-up preservation factories providing affordable services to all kinds of collections owners to manage and distribute their assets.

The 20th Century was the first with an audiovisual record. Audiovisual media became the new form of cultural expression. These historical, cultural and commercial assets are now entirely at risk from deterioration.

Broadcasters have begun to digitise their large holdings, at high cost and using complex technology. The preservation factory approach aims for an integrated automated solution of sufficient low cost so that the small-to-medium collections can be saved through common standardised services.

Page 22: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

The Partnership

Participant. Role Participant name Participant short name

Country

CO Institut National de l’Audiovisuel INA FranceCR British Broadcasting Corporation BBC UKCR Radiotelevisione Italiana RAI ItalyCR Joanneum Research JRS Austria

CRNetherlands Institute for Sound and Vision - Beeld en Geluid B&G Netherlands

CR Oesterreichischer Rundfunk ORF AustriaCR University of Sheffield , Usheff UK

.. .. .. ..CR Unversity of Surrey U_Surrey UKCR University of La Rochelle ULR FranceCR Trinity College Dublin TCDublin IrelandCR Gdansk University of Technology GUT PolandCR University Roma Tor Vergata UTV Italy

                                                                                                                

Page 23: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Eventi – Meeting Alghero

Presentazione del Progetto PrestoSpace (Daniel Teruggi - INA)Presentazione dell’iniziativa “Memory Day 2005”, (R. Olla – RAI)Presentazione progetto ”RicordeRAI”, RAI teche, (B. Scaramucci – RAI)

Page 24: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Attivita’ Principali

Page 25: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Metadata Access and Delivery

Produzione degli strumenti software per la preservation factory.

Integrazione di metadati significativi e di strumenti avanzati per l’accesso ai dati digitalizzati

Disseminazione:Informazione semantica (e.g. eventi/partecipanti), Interfacce avanzate per l’accesso (e.g. LN)dati ristrutturabili a seconda degli obbiettivi della ricerca

Page 26: Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Conclusioni (2)

Il progetto Prestospace rappresenta una grande sfida e fornisce una serie di opportunità nell’area della comunicazione multimediale

Problemi linguisticiProblemi interpretativi ed editorialiScenari applicativi avanzati (NL query)Metodologie innovative per la comunicazione/condivisione di dati multimediali