jak dokumentům automaticky přiřadit hesla psh (jindřich mynarz, ctibor Škuta)

Post on 18-Dec-2014

611 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Chcete vědět víc? Mnoho dalších prezentací, videí z konferencí, fotografií i jiných dokumentů je k dispozici v institucionálním repozitáři NTK: http://repozitar.techlib.cz

TRANSCRIPT

http://bit.ly/psh-indexace

Sumarizace

Motivace

Zahlcení informacemi

Škálovatelnost indexace

Vyhledávání a prohlížení

Automatická indexace

http://www.cs.waikato.ac.nz/~olena/publications/olena_medelyan_phd_thesis_July2009.pdf

Strojové učení

● Učení korespondencí mezi rysy dokumentu a předmětovými hesly

● Kopírování a aplikace odpozorovaných pravidel

Zdroje automatické indexace

1. analýza indexovaného dokumentu2. analýza použitého řízeného slovníku3. analýza způsobu použití daného slovníku nad korpusem

dokumentů

Výsledkem strojového učení nad zdroji automatické indexace je indexační model.

Komponenty

http://code.google.com/p/maui-indexer/

Indexátor

http://nusl.techlib.cz/

Korpus plných textů

http://psh.techlib.cz/skos/

Řízený slovník

Automatické přiřazování hesel PSH

Předzpracování dokumentu

● přizpůsobeno češtině● normalizace● odstranění nevýznamových výrazů

○ založeny na nejfrekventovanějších výrazech v Českém národním korpusu FF UK

● redukce na slovní kořeny○ dostupné české stemmery jsou příliš agresivní

Generování kandidátů

Filtrování kandidátů

http://maui-indexer.appspot.com/http://invenio2.ntkcz.cz/indexer/

Demo

Výzvy pro indexaci

● Indexování vytvářené uživateli● Využití herních prvků (http://www.librarything.

com/coverguess)● Efektivní využití v uživatelských rozhraních

<mailto:jindrich.mynarz@techlib.cz><mailto:ctibor.skuta@techlib.cz><mailto:tomas.muller@techlib.cz>Ikony převzaty z http://thenounproject.com/.

top related