semsets model pre sémantické vyhľadávanie zoznamov entít
DESCRIPTION
SemSets Model pre sémantické vyhľadávanie zoznamov entít. Marek Ciglan Ústav informatiky SAV. Obsah. Sémantické vyhľadávanie – úvod Klasifikácia sémantických dopytov Sémantické vyhľadávanie množín Graf s atribútmi ako znalostná báza SemSets Model Vyhľadávanie v dokumentoch entít - PowerPoint PPT PresentationTRANSCRIPT
SemSets Model pre sémantické vyhľadávanie zoznamov entít
Marek CiglanÚstav informatiky
SAV
Obsah
• Sémantické vyhľadávanie – úvod• Klasifikácia sémantických dopytov• Sémantické vyhľadávanie množín• Graf s atribútmi ako znalostná báza• SemSets Model
– Vyhľadávanie v dokumentoch entít– Šírenie aktivácie po topológii znalostnej bázy– Identifikácia (sémantických množín) SemSets
• Vyhodnotenie– Dátová množina - SemSearch 2011 – Hodnotenie relevancie odpovedí– Výsledky
21 November 2011 2
Sémantické vyhľadávanie – úvod
• Sémantické dáta– Zväčša trojice (RDF)
• Vyhľadávanie v sémantických dátach – - dopytovacie jazyky (napr. SPARQL)
21 November 2011 3
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 4
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 5
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 6
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
Give me english abstrat for Civil engineering
Klasifikácia ad-hoc dopytov zo sémantických
1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT
2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked
on the Moon3. Dopyty na vzťah medzi entitami
– Príklad: • what is the relation between X and Y
4. Dopyty na atribúty entít– Príklad:
• zip code waterville Maine, • height of Kriváň
5. Iné ad-hoc dopyty
[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]
21 November 2011 7
Klasifikácia ad-hoc dopytov zo sémantických
1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT
2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked
on the Moon3. Dopyty na vzťah medzi entitami
– Príklad: • what is the relation between X and Y
4. Dopyty na atribúty entít– Príklad:
• zip code waterville Maine, • height of Kriváň
5. Iné ad-hoc dopyty
[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]
21 November 2011 8
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
21 November 2011 9
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
21 November 2011 10
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan
21 November 2011 11
Graf s atribútmi ako znalostná báza
• Sémantické dáta ako množina trojíc:
• Sémantické dáta ako atribútový graf:
21 November 2011 12
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
Graf s atribútmi ako znalostná báza
• Sémantické dáta ako množina trojíc:
• Sémantické dáta ako atribútový graf:
21 November 2011
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
AristotlebirthYear:-0384
Western_philosophyinfluenced
SemSets model
• SemSets model je model pre vyhľadávanie sémantických množín• Odpovedať na otázky ako: „republics of the former Yugoslavia“ ,
„astronauts who walked on the Moon“• Využíva:
– Metódy získavania informácií– Grafovú štruktúru znalostnej bázy– Informácie o sémantických množinách znalostnej bázy
21 November 2011 14
DBpedia
• Projekt s cieľom extrahovať štruktúrované informácie z Wikipédie
21 November 2011 15
http://wiki.dbpedia.org/
SemSets – vyhľadávanie v dokumentoch entít
• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty
21 November 2011 16
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
SemSets – vyhľadávanie v dokumentoch entít
• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty
21 November 2011 17
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
SemSets – vyhľadávanie v dokumentoch entítt
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. The Wonder of It All (2007 film) 2. List of spacewalkers, 3. Moon Landing (music drama), 4. List of Apollo astronauts, 5. Harrison Schmitt
21 November 2011 18
SemSets – šírenie aktivácie
21 November 2011 19
SemSets – šírenie aktivácie
21 November 2011 20
SemSets – šírenie aktivácie
21 November 2011 21
SemSets – šírenie aktivácie
21 November 2011 22
SemSets – šírenie aktivácie
21 November 2011 23
SemSets – šírenie aktivácie
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. Astronaut, 2. NASA, 3. Moon, 4. Apollo 15, 5. Apollo 12, 6. Apollo 11, 7. List of Apollo astronauts, 8. Apollo program, 9. Buzz Aldrin, 10.Apollo 17, 11. Eugene Cernan
21 November 2011 24
SemSets – skóre sémantických množín
• Predpokladáme existenciu sémantických množín obsahujúcich sémanticky podobné/príbuzné entity
• Príklad pre DBpediu: entity patriace do jednej kategórie vo Wikipédii tvoria sémantickú množinu
• Proces:– Kandidátsku množinu entít porovnáme so sémantickými množinami– Spočítame zlomok členov sémantických množín v kandidátskej
množine– Vyberieme sémantické množiny, ktoré pravdepodobne obsahujú
odpoveď na danú otázku
21 November 2011 25
SemSets – skóre sémantických množín
21 November 2011 26
SemSets – skóre sémantických množín
21 November 2011 27
SemSet 1Card: 24P: 0.125
SemSets – skóre sémantických množín
21 November 2011 28
SemSet 1Card: 24P: 0.125
SemSet 2Card: 5P: 0.6
SemSets – skóre sémantických množín
21 November 2011 29
SemSet 1Card: 24P: 0.125
SemSet 2Card: 5P: 0.6
SemSet 1Card: 4P: 0.75
SemSets – skóre sémantických množín
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:– Category: People who have walked on the Moon,– Category: Skylab program
• Váhovanie skóre podľa textovej podobnosti dopytu a dokumentov jednotlivých sémantických množín
21 November 2011 30
SemSets – skóre sémantických množín
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan
21 November 2011 31
Konštrukcia sémantických množín
• 2 prístupy:– Množiny definuje expert– Automatcky detekovať zo znalostnej bázy
21 November 2011 32
Vyhodnotenie
• Dátová množina – Yahoo! SemSearch 2011 challenge• Dopyty:
– 50 dopytov na zoznamy entít– Vybraných z logov webového vyhľadávača– Vyhodnotenie odpovedí:
• Amazon’s Mechanical Turk• Cloudsourcing solution• Prostredie pre human intelligance computation• Ľudia (za finančnú odmenu) vykoávajú zadanú úlohu• Odpovede hodnotené 3 stuňami
21 November 2011 33
Vyhodnotenie
21 November 2011 34
Vyhodnotenie
• Čiastočné funkcie SemSets modelu
21 November 2011 35
Vyhodnotenie
• Vplyv použitého modelu na získavanie informácií
21 November 2011 36
Zhrnutie
• Predstavili sme úlohu ad-hoc vyhľadávania v sémantických dátach• Predstavili sme SemSets model pre vyhľadávanie zoznamu entít zo
sémantických dát• SemSets model využíva:
– Štandardné metódy vyhľadávania informácií– Šírenie aktivácie v topológii grafu definovaného znalostnou bázou– Informácie o sémantických množinách v znalostnej bázy
• Vyhodnotenie: metóda má state-of-the-art presnosť na SemSearch 2011 data sete
21 November 2011 37