tvorba znalostných báz pomocou jednoduchých sémantických sietí

30
Tvorba znalostných báz pomocou jednoduchých sémantických sietí Habilitačná prednáška Michal Laclavík

Upload: pancho

Post on 05-Feb-2016

57 views

Category:

Documents


0 download

DESCRIPTION

Tvorba znalostných báz pomocou jednoduchých sémantických sietí. Habilitačná prednáška Michal Laclavík. Abstrakt. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Habilitačná prednáška

Michal Laclavík

Page 2: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Abstrakt

• Výskum znalostí a znalostných báz bol v minulej dekáde reprezentovaný sémantickým webom a manažmentom znalostí. Nové možnosti naplnenia tejto výzvy prišli s rozvojom nových technológií a služieb Internetu v podobe sociálnych sietí, Wikipédie, LinkedData a dostupnosti čoraz viac štruktúrovaných informácií rôzneho charakteru v podobe jednoduchých sémantických sietí. Pomocou nich je možné tvoriť a overiť nové metódy pre spracovanie informácií, ich prepojenie, odvodzovanie a vyhľadávanie relevantných informácií a znalostí ako aj ich prezentáciu užívateľovi. Jednoduché sémantické siete a grafy nemajú pevnú sémantiku ale vyvíjajú sa podľa potreby na základe nových dát, integrácie zdrojov, interakcie s užívateľom a s inými systémami a je ich možné využiť pri tvorbe znalostných báz. V prednáške predstavíme ako je možné využiť princípy a metódy jednoduchých sémantických sietí na tvorbu znalostných báz zo štruktúrovaných a neštruktúrovaných dát.

29.10.2013 FIIT STU, Bratislava 2

Page 3: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Znalostná báza

• Znalostná báza združuje informácie (a znalosti) a umožňuje ich tvorbu, zber, organizovanie, zdieľanie a vyhľadávanie

• Knowledge base is1 a store of information or data that is available to draw on.2 the underlying set of facts, assumptions, and rules which a computer system has available to solve a problem. [Oxford Dictionary]

• knowledge base (KB)  is a special kind of database for knowledge management. A knowledge base is an information repository that provides a means for information to be collected, organized, shared, searched and utilized. It can be either machine-readable or intended for human use.http://en.wikipedia.org/wiki/Knowledge_base

29.10.2013 FIIT STU, Bratislava 3

Page 4: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

FIIT STU, Bratislava 4

Sémantické siete

• Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne.

• Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne.

• Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto.

• Internet: sieť odkazov a prepojení.• Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok

ako aj jazykových mutácií • LinkedData

29.10.2013

Page 5: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Sémantický web a manažment znalostí

• Sémantický web (Semantic Web)– URI, vzťah medzi URI (triple)– RDF, RDFS, OWL, OWL-DL– Odvodzovanie založené na logických modeloch– Problémy

• Neúplné modely• Neúplne, protirečiace dáta• Príliš zložité odvodzovanie(exponenciálna zložitosť)

• Manažment znalostí (Knowledge Management)– Vyhľadávanie, dokumenty, CMS …– Expertné systémy, fulltext search, Semantic web, Wiki...– Znalostné bázy ako OpenCyc– Veľa investícií do technológií– Rozpačité výsledky

29.10.2013 FIIT STU, Bratislava 5

[TBL01, SemR06]

[URI94]

[ExpS98]

[Daven00]

[Daven00]

[Cyc89]

[DL03]

Page 6: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Dátové zdroje, znalostné bázy

• Wikipedia– 6 miliónov článkov– 40 GB textu

• DBPedia– Trojice (Triples)– Typy, vzťahy, ...

• Freebase– 170 GB trojíc– 40 milion topikov– 1.2 miliardy trojíc

29.10.2013 FIIT STU, Bratislava 6

ns:m.012rkqx    ns:type.object.type ns:common.topic.ns:m.012rkqx    ns:type.object.name "High Fidelity"@en.ns:m.012rkqx    ns:type.object.type ns:music.single.ns:m.012rkqx    ns:type.object.key  ns:authority.musicbrainz.name.TRACK3987054.ns:m.012rkqx    ns:type.object.type ns:music.recording.ns:m.012rkqx    key:authority.musicbrainz   "258c45bd-4437-4580-8988-b3f3be975f9c".ns:m.012rkqx    key:authority.musicbrainz.name  "TRACK3987054".ns:m.012rkqx    rdfs:label  "High Fidelity"@en.ns:m.012rkqx    rdfs:type   ns:common.topic.ns:m.012rkqx    rdfs:type   ns:music.single.ns:m.012rkqx    rdfs:type   ns:music.recording.

Page 7: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Linked Data cloud

• Prepojené grafové dáta• DBPedia, Geo, ľudia (FOAF),

publikácie, medicína, …• EU dáta verejných

inštitúcií

29.10.2013 FIIT STU, Bratislava 7

Page 8: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Google Knowledge Graph

• Wikipedia• Freebase• Znalosti potvrdené

človekom

29.10.2013 8FIIT STU, Bratislava

[ulanoff]

Page 9: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Facebook Graph Search

• Užívateľmi generovaný obsah• Prepojenia na web

29.10.2013 9FIIT STU, Bratislava

[facebook13]

Page 10: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

IBM Watson

29.10.2013 FIIT STU, Bratislava 10

[Perrone11]

Page 11: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Sémantické vyhľadávanie SemSets

• Odpovede na otázky typu zoznam: astronauts who walked on the Moon

• Wikipédia ako text aj graf• Text: usporiadanie

pomocou lucene• Graf/sieť: šírenie aktivácie

a SemSets• Víťazné riešenie na

Semantic Search Challenge

29.10.2013 FIIT STU, Bratislava 11

1. Eugene_Cernan2. Alan_Bean3. David_Scott4. John_Young_(astronaut)5. Neil_Armstrong6. Pete_Conrad7. Harrison_Schmitt8. Alan_Shepard9. Charles_Duke10. Buzz_Aldrin11. James_Irwin12. Edgar_Mitchell

[SemSets]

Page 12: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Rozpoznávanie názvoslovných entít

• Slovníkový princíp (Gazetteers)• Založené na vzoroch• Strojové učenie

29.10.2013 FIIT STU, Bratislava 12

[msm13]

Page 13: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Rozpoznávanie názvoslovných entít

• Kombinácia existujúcich NER nástrojov (Named Entity Recognition)

– ANNIE (GATE), Apache OpenNLP, – Illinois NER, Illinois Wikifier, – LingPipe, Open Calais– Stanford NER ,WikiMiner, – Miscinator

• Strojové učenie– Rozhodovacie stromy

• Získali sme druhé miesto na MSM 2013• 1% strata na prvé miesto• Celkovo 17 tímov z celého sveta

http://ikt.ui.sav.sk/index.php?n=Main.IEChallenge2013

29.10.2013 FIIT STU, Bratislava 13

PS

RS

F1S

PL

RLF1L

PA

RA

F1A

0.00

0.25

0.50

0.75

1.00

Micro Summary (test set)

Annie

Apache OpenNLP

Illinois NER

Illinois Wikifier

LingPipe

Open Calais

Stanford NER

Wikiminer

Dummy model

Random Forest 21

LOC MISC ORG PER0.00

0.20

0.40

0.60

0.80

1.00

P

R

F1

LOC MISC ORG PER0.00

0.20

0.40

0.60

0.80

1.00

P

R

F1

[msm13]

Page 14: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

MSM2013: Rozpoznávanie názvoslovných entít

• Integrácia cez GATE• Vektor príznakov• Strojové učenie

29.10.2013 FIIT STU, Bratislava 14

Page 15: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Rozpoznávanie názvoslovných entít (NER)

• Extrakcia informácií (identifikácia entít)– Založené na Ontea

• Iné NER nástroje ako GATE, Stanford NER, Wiki miner môžu byť použité– Ontea výhody – tvorba stromov entít– Predpokladáme že máme k dispozícii kvalitné NER nástroje

• Stromy => Grafy / Siete

29.10.2013 FIIT STU, Bratislava 15

Sieť / graf anotácií

Text with annotations

Strom anotácií

[LAC09, LAC11]

Page 16: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Náhodná sieť a sieť s mocninovou distribúciou

29.10.2013 FIIT STU, Bratislava 16

Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html

Sieť s mocninovou dist. stupňov Sieť s binomickou dist. stupňov

[Slide borrowed from Marek Ciglan]

Page 17: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Siete malého sveta

• Siete malého sveta často obsahujú kliky, alebo „skoro kliky“

• Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“

• Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu

• Lokálny zhlukovací koeficient:

29.10.2013 FIIT STU, Bratislava 17

Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient

[Slide borrowed from Marek Ciglan]

Page 18: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Vlastností vybraných grafov/sietí

EnronDBPedia

DSK

LinkedInBBC

Events ACM

Gorila

Datasety:• DBPedia• Web

• BBC• LinkedIn• DSK

• Gorila – dokument• Events – graf udalostí z agentovej simulácie • ACM – metadáta publikácií vo forme RDF z LinkedData

29.10.2013 18FIIT STU, Bratislava

Názov siete

Počet vrcholov

Počet hrán Priem. klást. koef.

Koef. assort.

Priem. najkr. cesta

Enron Full 8 269 278 20 383 709 0,29 -0,02 6,58 Enron5 160 387 630 330 0,30 -0,04 6,64 LinkedIn 1 564 698 6 094 634 0,36 0,13 6,48 BBC 1 725 900 6 839 358 0,34 -0,05 7,55 DSK 21 518 98 952 0,31 0,39 5,79 DSK3 2 857 8 754 0,36 -0,14 5,46 Gorila 5 959 23 724 0,31 0,03 6,25 Events 25 478 539 328 0,38 -0,25 2,47 ACM 941 322 2 198 001 0,34 -0,06 7,30

𝐶(𝑣𝑖) = |𝑒𝑗𝑘: 𝑣𝑗,𝑣𝑘 ∈𝑁𝑖,𝑒𝑗𝑘 ∈𝐸| 𝑘𝑖(𝑘𝑖 − 1)

𝑟= 𝑀−1 σ 𝑗𝑖𝑘𝑖 − [𝑀−1 σ (𝑗𝑖+ 𝑘𝑖)/2]2𝑖𝑖𝑀−1 σ (𝑗𝑖2 + 𝑗𝑖2) − [𝑀−1 σ (𝑗𝑖+ 𝑘𝑖)/2]2𝑖𝑖

𝑝ሺ𝑥ሻ ~ 𝑐𝑥−𝛼

– 𝛼+ 1

CCDF

Degree distribution

𝐹തሺ𝑥ሻ= 𝑃ሺ𝑋 > 𝑥ሻ

Page 19: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

gSemSearch: Graph based Semantic Search

• Sémantické vyhľadávanie založené na grafoch• Vyhľadávanie vzťahov entít

– Fulltextové vyhľadávanie– Súvisace entity sú objavené

pomocou šírenia aktivácie a utriedené

– Obmedzenie výsledkov podľa typov(Faceted search)

– Navigácia• Vyhľadávanie, navigácia, interakcia

– Obmedzenie podľa typu– Zlučovanie entít– Vymazanie– Zmena typu

29.10.2013 FIIT STU, Bratislava 19

[LAC12]

Page 20: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Spracovanie rozsiahlych textových a grafových dát

Technológie• Sťahovanie dát

– Nutch + plugins

• Indexovanie a fultextové vyhľadávanie– lucene, Sorl

• Extrakcia informácií– Ontea, GATE

• Všetky vyššie uvedené na rozsiahlych dátach– Hadoop, S4

• Spracovanie a dopytovanie grafových dát– Simple Graph Database (SGDB)

– gSemSearch

– Neo4j

– Blueprints

Podčiarknuté sú technológie vyvíjané ÚISAV

29.10.2013 20FIIT STU, Bratislava

Page 21: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

SGDB: Simple Graph Database

• Úložisko pre grafové štruktúry• Optimalizované na traverzovanie grafu• Pri traverzovaní rýchlejšie ako Neo4j• Podpora Blueprints API• https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3

• Graph Database Benchmark– Benchmark pre operácie traverzovania v grafe– http://ups.savba.sk/~marek/gbench.html– Blueprints API – Možnosť testovať databázy ktoré podporujú toto API

29.10.2013 FIIT STU, Bratislava 21

Page 22: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Aplikácie

• Internetová reklama (Online Advertising)

– Kategorizácia dopytov– Expanzia kľúčových slov

• Podniková inteligencia (Business Intelligence)

– Enterprise Search– Manažment znalostí– Spracovanie textu (Text analytics)

• Ďalšie– Spracovanie webu– Analýza sociálnych médií (Twitter) – Viacjazyčné aplikácie

(DBpedia, Freebase)

29.10.2013 FIIT STU, Bratislava 22

Page 23: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Kategorizácia dopytov (Query Categorization - QC)

Query Categories

appleComputers \ HardwareLiving \ Food & Cooking

FIFA 2006Sports \ SoccerSports \ Schedules & TicketsEntertainment \ Games & Toys

cheesecake recipes

Living \ Food & CookingInformation \ Arts & Humanities

friendships poemInformation \ Arts & HumanitiesLiving \ Dating & Relationships

29.10.2013 FIIT STU, Bratislava 23

• Zvyčajný postupQC:• Vyhľadať dokumenty• Kategorizovať vrátené dokumenty

• Najlepšie algoritmy pracujú s celým webom (search API)

Page 24: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Enterprise Search

• Spracovanie firemných emailov– Commius projekt

• Enron korpus• Enterprise Search založený na

vyhľadávaní v emailoch– VENIS project

29.10.2013 FIIT STU, Bratislava 24

[LAC11]

[LAC12]

[LAC12B]

Enron

Page 25: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Webové dokumenty

• BBC news• LinkedIn job

offers• DSK

29.10.2013 FIIT STU, Bratislava 25

[DLUG12, LAC11C]

DSK

LinkedIn

BBC

Page 26: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Vyhľadávanie, navigácia v rozsiahlych sieľach z rôznych zdrojov

• Motivácia

• Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, komunikácia (email, telefóny).

• Text tiež môže byť prevedený na graf.

• Prepojenie grafových dát a vyhľadávania relácií v nich je dôležite

• Prístup

• Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData

• Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta, učenie

• Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania

29.10.2013 FIIT STU, Bratislava 26

Page 27: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Referencie

• [LAC09] LACLAVÍK, M. - ŠELENG, M. - CIGLAN, M. - HLUCHÝ, L. (2009). Ontea: Platform for pattern based automated semantic annotation. In Computing and informatics, 2009, vol. 28, no. 4, p. 555-579. (0.492 - IF2008). (2009 - Current Contents). ISSN 0232-0274.

• [LAC10] LACLAVÍK, M. - KVASSAY M. - DLUGOLINSKÝ, Š. - HLUCHÝ, L (2010): Use of Email Social Networks for Enterprise Benefit. In: IWCSN 2010, IEEE/WIC/ACM WI-IAT, 2010, pp 67-70, DOI 10.1109/WI-IAT.2010.126 (

• [LAC11] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - KVASSAY M. – GATIAL, E. – BALOGH, Z. - HLUCHÝ, L (2011): Email Analysis and Information Extraction for Enterprise Benefit. In Computing and Informatics, 2011, vol. 30, no. 1, p. 57-87. ISSN 1335-9150, Special Issue on Business Collaboration Support for micro, small, and medium-sized Enterprises

• [LAC11B] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - KVASSAY M. - HLUCHÝ, L (2011): Email Social Network Extraction and Search. In NextMail 2011 workshop, WI-IAT 2011, In The 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2011, p. 373-376. ISBN 978-0-7695-4513-4

• [LAC11C] LACLAVÍK, M. - ŠELENG, M. - CIGLAN, M. - DLUGOLINSKÝ, Š. - HLUCHÝ, L. (2011). gSemSearch: Objavovanie relácií v kolekciách textových a grafových dát. In 6th Workshop on Intelligent and Knowledge Oriented Technologies : WIKT 2011 proceedings. - Košice : Centre for Information Technologies, FEI TU Košice, 2011, p. 1-5. ISBN 978-80-89284-99-3.

• [LAC12] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - CIGLAN, M. - HLUCHÝ, L. (2012). Emails as graph: relation discovery in email archive. In Proceedings of the 21st international conference companion on World Wide Web (WWW '12 Companion). ACM, New York, NY, USA, 841-846, http://www2012.wwwconference.org/proceedings/companion/p841, DOI=10.1145/2187980.2188210.

• [LAC12B] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - CIGLAN, M. – TOMAŠEK, M. - KVASSAY, M. - HLUCHÝ, L. (2012). Lightweight semantic approach for enterprise search and interoperability. In CEUR Workshop Proceedings: InteropVlab.IT 2012. - CEUR, 2012, p. 35-42. ISSN 1613-0073.

• [LAC12C] LACLAVÍK, M. (2012): Improving entity and relation discovery by user interaction with semantic graphs. In 7th Workshop on Intelligent and Knowledge Oriented Technologies: P. 161-164. - Bratislava: Nakladateľstvo STU, 2012. ISBN 978-80-227-3812-5.

• [DLUG12] DLUGOLINSKÝ, Š. - ŠELENG, M. - LACLAVÍK, M. - HLUCHÝ, L. (2012): Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, Vol 13 No.4, pages 5-19, 2012, http://dx.doi.org/10.7494/csci.2012.13.4.5

29.10.2013 FIIT STU, Bratislava 27

Page 28: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Referencie

• [TBL01] BERNERS-LEE, T. – HENDLER, J. – LASSILA, O. (2001): The Semantic Web, Scientific American, May 2001, p. 29-37.

• [SemR06] SHADBOLT, N. - HALL, W. - BERNERS-LEE, T (2006): The Semantic Web Revisited, IEEE Intelligent Systems Journal, May/June 2006, 96-101

• [URI94] BERNERS-LEE, T (1994): Universal Resource Identifiers used in the World Wide Web, RFC 1630, Internet Society

• [ExpS98] GIARRATANO, J. C. –RILEY, G. (1998). Expert Systems (3rd ed.). PWS Pub. Co., Boston, MA, USA.

• [Daven00] DAVENPORT, T. H. - PRUSAK, L. (2000): Working Knowledge, ISBN:1578513014, May, 2000

• [Cyc89] LENAT, D. B. - GUHA R. V. (1989). Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

• [DL03] BAADER, F. - MCGUINNESS, D. - NARDI, D. (2003): The Description Logic Handbook, ISBN:0521781760, January 9, 2003

29.10.2013 FIIT STU, Bratislava 28

Page 29: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Referencie

• [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012

• [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013

• [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf

• [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en

• [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find,

organize and manipulate it.• [Zaragoza] Hugo Zaragoza. Machine Learning and Information Retrieval,

ESSIR 2009 Lecture• [Nigam] Kamal Nigam: Generative Models for Text Classification

and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt 29.10.2013 FIIT STU, Bratislava 29

Page 30: Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Referencie

• [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf

• [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS

• [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS

• [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274.

• [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4)

• [msm13] Štefan Dlugolinský, Peter Krammer, Marek Ciglan, Michal Laclavík:MSM2013 IE Challenge: Annotowatch . In Proceedings of the Concept Extraction Challenge at the Workshop on Making Sense of Microposts co-located with the 22nd International World Wide Web Conference (WWW'13) Rio de Janeiro, Brazil, May 13, 2013, ISSN: 1613-0073, Vol-1019, pages 21-26, 2013, http://ceur-ws.org/Vol-1019/paper_21.pdf

29.10.2013 FIIT STU, Bratislava 30