využitie knižnice jbowl pri spracovaní prirodzeného jazyka

22
XVI. Kolokvium mladých jazykovedcov 8. - 10. 11. 2006, Častá- Využitie knižnice Využitie knižnice Jbowl Jbowl pri spracovaní pri spracovaní prirodzeného prirodzeného jazyka jazyka Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/ Karol Furdík, Peter Bednár

Upload: moeshe

Post on 19-Jan-2016

49 views

Category:

Documents


3 download

DESCRIPTION

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Využitie knižnice Jbowl Využitie knižnice Jbowl pri spracovaní pri spracovaní

prirodzeného jazykaprirodzeného jazyka

Centrum pre informačné technológiespoločné pracovisko

Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach

http://www.tuke.sk/fei-cit/

Karol Furdík, Peter Bednár

Page 2: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Obsah prezentácieMotivácia a hlavné ciele

Architektúra

Podporované úlohy dolovania v textoch (Text Mining)• Analýza dokumentov• Tvorba TM modelu pre kategorizáciu textov• Tvorba TM modelu pre zhlukovanie dokumentov

Príklady použitia - aplikácie

Plány do budúcnosti

Page 3: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Motivácia a hlavné ciele (1)Požiadavky kladené na systém / platformu:• nástroje na predspracovanie (potenciálne) veľkých kolekcií

textových dokumentov,• narábanie s rôznymi textovými formátmi (voľný text, HTML,

XML,...) a jazykmi,• Indexácia a vyhľadávanie informácií v týchto kolekciách,• Rozhranie pre znalostné modely (napr. ontológie).

Existujúce systémy:• indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE,

JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON),

• príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.

Page 4: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Motivácia a hlavné ciele (2)Jbowl - Open Source knižnica v jazyku Java,

ponúkajúca funkcie na podporu:• inteligentného vyhľadávania informácií, sumarizácie, extrakcie

informácií z textov,• dolovania znalostí v textoch, zhlukovania, kategorizácie,

klasifikačných úloh.

Hlavné charakteristiky:• rozšíriteľná modulárna architektúra,• platforma na predspracovanie (vrátane NLP metód) a indexáciu

rozsiahlych textových kolekcií,• funkcie na vytváranie a vyhodnocovanie riadených aj neriadených

modelov pre dolovanie v textoch.

Page 5: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Architektúra: komponenty

Rozhranie (API):• triedy a rozhrania pre prístup k službám TME.

Jadro (TME, Text Mining Engine):• infraštruktúra TM služieb,• riadenie TM úloh (napr. analýza dokumentov,

tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...).

Údaje (MOR, Mining Object Repository):• perzistentné uloženie TM objektov.

API

TME

MOR

Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73): http://www.jcp.org/en/jsr/detail?id=73

Page 6: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Architektúra: funkčné moduly

modelsmodels

datadata

analysisanalysis

Tokenization Sentence chunking NP chunkingPOS tagging

Statistics TF IDF Term selection

categorization clustering keyword extraction/ summarization

information extraction

utilsutils

BLASMatrixesCollections

documentsdocuments

Lucene index ThesaurusXML

Neimplementované, alebo čiastočne implementované

Page 7: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Analýza dokumentov (1)

<document id="12" name="Reuters-21578-12“ dataset="ModApte-train"><category>topics.commodity.exchange</category><category>topics.wheat-commodity</category><title>

OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET</title><text>

Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986....

</text></document>

Objektová reprezentácia dokumentu zahŕňa:• textový obsah delený na sekcie (kapitoly, paragrafy),• metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah.

Page 8: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Analýza dokumentov (2)Delenie textu na značky - tokens:• tokens sú slová (reťazce alfanumerických znakov), číslice,

diakritické znaky.

Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters).

Filtre slúžia na:• zmenu textu niektorej značky (na malé písmená, stemming),• pridanie informácie k značke (POS tagging, WSD),• odstránenie niektorých značiek (stop-words),• spájanie značiek (frázy).

Page 9: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad: 1) značkovanie

Page 10: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

verbs nouns adjectives adverbs

Príklad : 2) slovné druhy

Page 11: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 3) stemming

Page 12: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co say its first quarter , end February 28

profit may be below the 2.4 mln dlrs earn in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 4) termíny, frázy

Page 13: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co say its first quarter , end February 28

profit may be below the 2.4 mln dlrs earn in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 5) stop-words

Page 14: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms)

t1 t2 t3 tnd1

d2

d3

dm

t4 t5 ...

...

Vektorová reprezentácia

Príznaky reprezentujú napr.:– slová, korene slov

– frázy, n-gramy

– významy slov (WordNet synsety)

Hodnoty “váh” vektorov:– binárne

– frekvencia termov

– tf-idf váhovanie:

kkl N

mnlktfidf log),(

Page 15: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Klasifikácia dokumentov do niektorých z preddefinovaných kategórií.

• Aplikácie:– indexovanie pre vyhľadávacie systémy (information retrieval):

• kontrolovaný slovník - tezaurus,• anotácia dokumentov (napr. pomocou pojmov ontológie),

– filtrovanie textov:• filtrovanie spam / junk mailov.

• Manuálna kategorizácia je časovo náročná a drahá.

• Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).

Kategorizácia textov

Page 16: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Algoritmy klasifikácieImplementované v knižnici Jbowl:

• Jednoduché porovnávanie termov• Support Vector Machine - lineárna klasifikácia• k-Nearest neighbors• Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron• Bayesovský klasifikátor (binomiálny a multinomiálny)• Winnow• Boosting - metóda na zvýšenie presnosti klasifikátorov

Page 17: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Zhlukovanie dokumentovÚloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom.

Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná).

Aplikácie:– organizovanie dokumentov v digitálnych knižniciach,– automatická tvorba ontológií.

Metódy a algoritmy (implementované v Jbowl):– k-Means,– SOM (Self organizing maps)– GHSOM (Growing hierarchical SOM)

Page 18: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

• eGovernment: Projekt Webocracy (http://www.webocrat.sk),

• eLearning: Projekt KP-Lab (http://www.kp-lab.org),

• GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org),

• Vyhľadávanie informácií s použitím metód zhlukovania,

• Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny,

• viaceré diplomové a dizertačné práce na TU Košice.

Aplikácie

Page 19: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

indexácia

Jbowl knižnicaŠpecifická funkcionalita systému Webocrat

full-text vyhľadávanie

analýza dokumentov

vektorová reprezentácia

ontológia

inteligentné vyhľadávanie

text mining

Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364http://www.webocrat.sk

Aplikačná oblasť: eGovernment.

Page 20: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Aplikácie: projekt KP-Lab Knowledge Practices Laboratory,

IST-2006-27490 http://www.kp-lab.org

Aplikačná oblasť:

eLearning.

Page 21: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Budúce úlohy• Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov

použitia / implementácie pre typové úlohy,

• WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov,

• Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov),

• Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO.

• Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.

Page 22: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ďakujem Vámza pozornosť.

Web: http://sourceforge.net/projects/jbowl/

Licencia: GNU LESSER GENERAL PUBLIC LICENSE

Autor: Peter Bednár, [email protected]