realizzazione di un add-on per google docs per estrazione interattiva di pattern sintattici
TRANSCRIPT
![Page 1: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/1.jpg)
Realizzazione di un Add-on per Google Docsper estrazione interattiva di pattern sintattici
RelatoreAlberto Bartoli
CorrelatoreEric Medvet
CandidatoLorenzo Gasparini
1 di 14
![Page 2: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/2.jpg)
Descrizione del problema
• Dato un documento di testo si vogliono individuare ed estrarretutte le occorrenze di un determinato pattern sintattico
• Esempi: Indirizzi IP (XXX.XXX.XXX.XXX), Date (DD/MM/YYYY),E-mail ([email protected])
2 di 14
![Page 3: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/3.jpg)
Motivazione di base
Figura: RegEx (semplificata) per indirizzo IP
• Gli strumenti per specificare ed estrarre pattern da documentitestuali esistono già (e.g. RegEx), perchè un nuovo approccio?
• La curva di apprendimento di tali strumenti è ripida, non sono allaportata degli utenti comuni
• Idea: l’utente fornisce degli esempi di entità da estrarre e da nonestrarre, l’algoritmo deduce il pattern e lo estrae dal testo
3 di 14
![Page 4: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/4.jpg)
Obiettivo della tesi
• Implementare un algoritmo di estrazione delle entità basato sullasintassi, sotto forma di Add-on per Google Docs
• L’algoritmo è stato sviluppato nel laboratorio di Machine Learning,ed è risultato in media il migliore in un confronto con altrialgoritmi su 10 dataset
• L’algoritmo si basa sull’active learning: genera un estrattore sullabase degli esempi forniti dall’utente; sceglie l’esempio che deveaggiungere l’utente per migliorare l’estrattore
4 di 14
![Page 5: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/5.jpg)
Google Docs
• Nasce nel 2006, è una piattaforma online di elaborazione testi• Consente agli utenti di creare e modificare documenti direttamentenel browser e di collaborare con altri utenti in tempo reale
5 di 14
![Page 6: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/6.jpg)
Add-on per Google Docs
• Dal 2014 è possibile sviluppare componenti aggiuntivi chepermettono di ampliare le funzionalità della piattaforma
• Un Add-on è composto da un insieme di fileHTML/Javascript/CSS e di script Google Apps Script, il quale:◦ È basato su Javascript◦ Viene eseguito dai server di Google
6 di 14
![Page 7: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/7.jpg)
Interfaccia Add-on
• Per aprire l’Add-on, si apre un documento di testo Google Docs esi preme Start nella relativa voce del menù
7 di 14
![Page 8: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/8.jpg)
Interfaccia Add-on
• L’aggiunta di nuovi esempi avviene mediante la selezione del testoed il click sul relativo pulsante Add
• Gli esempi vengono evidenziati con colori diversi per un’indicazionevisuale istantanea
8 di 14
![Page 9: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/9.jpg)
Interfaccia Add-on
• Extract avvia la costruzionedell’estrattore in base agliesempi forniti
• Il comportamentodell’estrattore è mostratodal sistema
• Viene formulata una queryallo scopo di ottenere unnuovo esempio (activelearning)
9 di 14
![Page 10: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/10.jpg)
Esportazione estrazioni
• Cliccando su Export èpossibile esportare leattuali estrazionisuggerite in un nuovodocumento
• Si aprirà una finestramodale con un link alnuovo documentocontenente le estrazioni
10 di 14
![Page 11: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/11.jpg)
Dettagli implementativi
Nome file Righe ContenutoEntityExtractor.gs 561 Motore dell’algoritmoMain.gs 507 Gestione interazione utenteSet.gs 54 Struttura dati insiemeSidebar.css.html 67 CSS SidebarSidebar.html 61 HTML SidebarSidebar.js.html 322 Javascript SidebarStore.gs 53 Gestore memorizzazione dati serverTextRange.gs 34 Struttura dati annotazione
11 di 14
![Page 12: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/12.jpg)
Limiti della piattaforma e sviluppi futuri
• Google Docs è una piattaforma proprietaria che presenta dei limitiintriseci:◦ Le evidenziature sono permanenti, modificano la struttura del
documento◦ Non è possibile gestire l’evento di chiusura dell’Add-on, impedendo
l’esecuzione di azioni di pulizia del documento◦ Lo spazio di archiviazione lato server è ristretto, ciò rende difficile
implementare meccanismi di cache atti a diminuire il caricocomputazionale dell’algoritmo
• Soluzione:◦ Migrazione a piattaforma web standalone o GUI desktop
12 di 14
![Page 13: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/13.jpg)
Demo
Dimostrazione
13 di 14
![Page 14: Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici](https://reader034.vdocuments.site/reader034/viewer/2022042722/58899d431a28ab330e8b7809/html5/thumbnails/14.jpg)
Fine
Grazie per l’attenzione.
14 di 14