využitie knižnice jbowl pri spracovaní prirodzeného jazyka
DESCRIPTION
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele - PowerPoint PPT PresentationTRANSCRIPT
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Využitie knižnice Jbowl Využitie knižnice Jbowl pri spracovaní pri spracovaní
prirodzeného jazykaprirodzeného jazyka
Centrum pre informačné technológiespoločné pracovisko
Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach
http://www.tuke.sk/fei-cit/
Karol Furdík, Peter Bednár
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Obsah prezentácieMotivácia a hlavné ciele
Architektúra
Podporované úlohy dolovania v textoch (Text Mining)• Analýza dokumentov• Tvorba TM modelu pre kategorizáciu textov• Tvorba TM modelu pre zhlukovanie dokumentov
Príklady použitia - aplikácie
Plány do budúcnosti
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Motivácia a hlavné ciele (1)Požiadavky kladené na systém / platformu:• nástroje na predspracovanie (potenciálne) veľkých kolekcií
textových dokumentov,• narábanie s rôznymi textovými formátmi (voľný text, HTML,
XML,...) a jazykmi,• Indexácia a vyhľadávanie informácií v týchto kolekciách,• Rozhranie pre znalostné modely (napr. ontológie).
Existujúce systémy:• indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE,
JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON),
• príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Motivácia a hlavné ciele (2)Jbowl - Open Source knižnica v jazyku Java,
ponúkajúca funkcie na podporu:• inteligentného vyhľadávania informácií, sumarizácie, extrakcie
informácií z textov,• dolovania znalostí v textoch, zhlukovania, kategorizácie,
klasifikačných úloh.
Hlavné charakteristiky:• rozšíriteľná modulárna architektúra,• platforma na predspracovanie (vrátane NLP metód) a indexáciu
rozsiahlych textových kolekcií,• funkcie na vytváranie a vyhodnocovanie riadených aj neriadených
modelov pre dolovanie v textoch.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Architektúra: komponenty
Rozhranie (API):• triedy a rozhrania pre prístup k službám TME.
Jadro (TME, Text Mining Engine):• infraštruktúra TM služieb,• riadenie TM úloh (napr. analýza dokumentov,
tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...).
Údaje (MOR, Mining Object Repository):• perzistentné uloženie TM objektov.
API
TME
MOR
Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73): http://www.jcp.org/en/jsr/detail?id=73
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Architektúra: funkčné moduly
modelsmodels
datadata
analysisanalysis
Tokenization Sentence chunking NP chunkingPOS tagging
Statistics TF IDF Term selection
categorization clustering keyword extraction/ summarization
information extraction
utilsutils
BLASMatrixesCollections
documentsdocuments
Lucene index ThesaurusXML
Neimplementované, alebo čiastočne implementované
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Analýza dokumentov (1)
<document id="12" name="Reuters-21578-12“ dataset="ModApte-train"><category>topics.commodity.exchange</category><category>topics.wheat-commodity</category><title>
OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET</title><text>
Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986....
</text></document>
Objektová reprezentácia dokumentu zahŕňa:• textový obsah delený na sekcie (kapitoly, paragrafy),• metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Analýza dokumentov (2)Delenie textu na značky - tokens:• tokens sú slová (reťazce alfanumerických znakov), číslice,
diakritické znaky.
Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters).
Filtre slúžia na:• zmenu textu niektorej značky (na malé písmená, stemming),• pridanie informácie k značke (POS tagging, WSD),• odstránenie niektorých značiek (stop-words),• spájanie značiek (frázy).
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad: 1) značkovanie
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
verbs nouns adjectives adverbs
Príklad : 2) slovné druhy
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 3) stemming
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co say its first quarter , end February 28
profit may be below the 2.4 mln dlrs earn in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 4) termíny, frázy
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co say its first quarter , end February 28
profit may be below the 2.4 mln dlrs earn in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 5) stop-words
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms)
t1 t2 t3 tnd1
d2
d3
dm
t4 t5 ...
...
Vektorová reprezentácia
Príznaky reprezentujú napr.:– slová, korene slov
– frázy, n-gramy
– významy slov (WordNet synsety)
Hodnoty “váh” vektorov:– binárne
– frekvencia termov
– tf-idf váhovanie:
kkl N
mnlktfidf log),(
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Klasifikácia dokumentov do niektorých z preddefinovaných kategórií.
• Aplikácie:– indexovanie pre vyhľadávacie systémy (information retrieval):
• kontrolovaný slovník - tezaurus,• anotácia dokumentov (napr. pomocou pojmov ontológie),
– filtrovanie textov:• filtrovanie spam / junk mailov.
• Manuálna kategorizácia je časovo náročná a drahá.
• Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).
Kategorizácia textov
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Algoritmy klasifikácieImplementované v knižnici Jbowl:
• Jednoduché porovnávanie termov• Support Vector Machine - lineárna klasifikácia• k-Nearest neighbors• Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron• Bayesovský klasifikátor (binomiálny a multinomiálny)• Winnow• Boosting - metóda na zvýšenie presnosti klasifikátorov
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Zhlukovanie dokumentovÚloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom.
Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná).
Aplikácie:– organizovanie dokumentov v digitálnych knižniciach,– automatická tvorba ontológií.
Metódy a algoritmy (implementované v Jbowl):– k-Means,– SOM (Self organizing maps)– GHSOM (Growing hierarchical SOM)
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
• eGovernment: Projekt Webocracy (http://www.webocrat.sk),
• eLearning: Projekt KP-Lab (http://www.kp-lab.org),
• GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org),
• Vyhľadávanie informácií s použitím metód zhlukovania,
• Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny,
• viaceré diplomové a dizertačné práce na TU Košice.
Aplikácie
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
indexácia
Jbowl knižnicaŠpecifická funkcionalita systému Webocrat
full-text vyhľadávanie
analýza dokumentov
vektorová reprezentácia
ontológia
inteligentné vyhľadávanie
text mining
Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364http://www.webocrat.sk
Aplikačná oblasť: eGovernment.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Aplikácie: projekt KP-Lab Knowledge Practices Laboratory,
IST-2006-27490 http://www.kp-lab.org
Aplikačná oblasť:
eLearning.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Budúce úlohy• Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov
použitia / implementácie pre typové úlohy,
• WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov,
• Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov),
• Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO.
• Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ďakujem Vámza pozornosť.
Web: http://sourceforge.net/projects/jbowl/
Licencia: GNU LESSER GENERAL PUBLIC LICENSE
Autor: Peter Bednár, [email protected]