semsets model pre sémantické vyhľadávanie zoznamov entít

37
SemSets Model pre sémantické vyhľadávanie zoznamov entít Marek Ciglan Ústav informatiky SAV

Upload: adamma

Post on 23-Feb-2016

54 views

Category:

Documents


0 download

DESCRIPTION

SemSets Model pre sémantické vyhľadávanie zoznamov entít. Marek Ciglan Ústav informatiky SAV. Obsah. Sémantické vyhľadávanie – úvod Klasifikácia sémantických dopytov Sémantické vyhľadávanie množín Graf s atribútmi ako znalostná báza SemSets Model Vyhľadávanie v dokumentoch entít - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets Model pre sémantické vyhľadávanie zoznamov entít

Marek CiglanÚstav informatiky

SAV

Page 2: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Obsah

• Sémantické vyhľadávanie – úvod• Klasifikácia sémantických dopytov• Sémantické vyhľadávanie množín• Graf s atribútmi ako znalostná báza• SemSets Model

– Vyhľadávanie v dokumentoch entít– Šírenie aktivácie po topológii znalostnej bázy– Identifikácia (sémantických množín) SemSets

• Vyhodnotenie– Dátová množina - SemSearch 2011 – Hodnotenie relevancie odpovedí– Výsledky

21 November 2011 2

Page 3: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Sémantické vyhľadávanie – úvod

• Sémantické dáta– Zväčša trojice (RDF)

• Vyhľadávanie v sémantických dátach – - dopytovacie jazyky (napr. SPARQL)

21 November 2011 3

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>

SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.

FILTER langMatches( lang(?abstract), 'en') }}

Page 4: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Ad-hoc vyhľadávanie v sémantických dátach

• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché

pre užívateľa) na získavanie informácií zo sémantických dát

• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa

relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým

posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch

21 November 2011 4

Page 5: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Ad-hoc vyhľadávanie v sémantických dátach

• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché

pre užívateľa) na získavanie informácií zo sémantických dát

• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa

relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým

posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch

21 November 2011 5

SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.

FILTER langMatches( lang(?abstract), 'en') }}

Page 6: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Ad-hoc vyhľadávanie v sémantických dátach

• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché

pre užívateľa) na získavanie informácií zo sémantických dát

• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa

relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým

posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch

21 November 2011 6

SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.

FILTER langMatches( lang(?abstract), 'en') }}

Give me english abstrat for Civil engineering

Page 7: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Klasifikácia ad-hoc dopytov zo sémantických

1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT

2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked

on the Moon3. Dopyty na vzťah medzi entitami

– Príklad: • what is the relation between X and Y

4. Dopyty na atribúty entít– Príklad:

• zip code waterville Maine, • height of Kriváň

5. Iné ad-hoc dopyty

[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]

21 November 2011 7

Page 8: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Klasifikácia ad-hoc dopytov zo sémantických

1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT

2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked

on the Moon3. Dopyty na vzťah medzi entitami

– Príklad: • what is the relation between X and Y

4. Dopyty na atribúty entít– Príklad:

• zip code waterville Maine, • height of Kriváň

5. Iné ad-hoc dopyty

[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]

21 November 2011 8

Page 9: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Sémantické vyhľadávanie množín

• Príklad dopytu: astronauts who walked on the Moon

21 November 2011 9

Page 10: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Sémantické vyhľadávanie množín

• Príklad dopytu: astronauts who walked on the Moon

21 November 2011 10

Page 11: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Sémantické vyhľadávanie množín

• Príklad dopytu: astronauts who walked on the Moon

1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan

21 November 2011 11

Page 12: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Graf s atribútmi ako znalostná báza

• Sémantické dáta ako množina trojíc:

• Sémantické dáta ako atribútový graf:

21 November 2011 12

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>

Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1

Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

L1 L3

L2L1

Page 13: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Graf s atribútmi ako znalostná báza

• Sémantické dáta ako množina trojíc:

• Sémantické dáta ako atribútový graf:

21 November 2011

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .

<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>

AristotlebirthYear:-0384

Western_philosophyinfluenced

Page 14: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets model

• SemSets model je model pre vyhľadávanie sémantických množín• Odpovedať na otázky ako: „republics of the former Yugoslavia“ ,

„astronauts who walked on the Moon“• Využíva:

– Metódy získavania informácií– Grafovú štruktúru znalostnej bázy– Informácie o sémantických množinách znalostnej bázy

21 November 2011 14

Page 15: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

DBpedia

• Projekt s cieľom extrahovať štruktúrované informácie z Wikipédie

21 November 2011 15

http://wiki.dbpedia.org/

Page 16: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – vyhľadávanie v dokumentoch entít

• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty

21 November 2011 16

Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1

Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

L1 L3

L2L1

Page 17: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – vyhľadávanie v dokumentoch entít

• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty

21 November 2011 17

Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1

Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

Emtita K1 Attr I1: val Attr I2: val Attr I2: val

L1 L3

L2L1

Page 18: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – vyhľadávanie v dokumentoch entítt

• Príklad: „astronauts who walked on the Moon“

• Medzivýsledok:1. The Wonder of It All (2007 film) 2. List of spacewalkers, 3. Moon Landing (music drama), 4. List of Apollo astronauts, 5. Harrison Schmitt

21 November 2011 18

Page 19: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

21 November 2011 19

Page 20: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

21 November 2011 20

Page 21: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

21 November 2011 21

Page 22: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

21 November 2011 22

Page 23: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

21 November 2011 23

Page 24: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – šírenie aktivácie

• Príklad: „astronauts who walked on the Moon“

• Medzivýsledok:1. Astronaut, 2. NASA, 3. Moon, 4. Apollo 15, 5. Apollo 12, 6. Apollo 11, 7. List of Apollo astronauts, 8. Apollo program, 9. Buzz Aldrin, 10.Apollo 17, 11. Eugene Cernan

21 November 2011 24

Page 25: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

• Predpokladáme existenciu sémantických množín obsahujúcich sémanticky podobné/príbuzné entity

• Príklad pre DBpediu: entity patriace do jednej kategórie vo Wikipédii tvoria sémantickú množinu

• Proces:– Kandidátsku množinu entít porovnáme so sémantickými množinami– Spočítame zlomok členov sémantických množín v kandidátskej

množine– Vyberieme sémantické množiny, ktoré pravdepodobne obsahujú

odpoveď na danú otázku

21 November 2011 25

Page 26: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

21 November 2011 26

Page 27: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

21 November 2011 27

SemSet 1Card: 24P: 0.125

Page 28: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

21 November 2011 28

SemSet 1Card: 24P: 0.125

SemSet 2Card: 5P: 0.6

Page 29: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

21 November 2011 29

SemSet 1Card: 24P: 0.125

SemSet 2Card: 5P: 0.6

SemSet 1Card: 4P: 0.75

Page 30: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

• Príklad: „astronauts who walked on the Moon“

• Medzivýsledok:– Category: People who have walked on the Moon,– Category: Skylab program

• Váhovanie skóre podľa textovej podobnosti dopytu a dokumentov jednotlivých sémantických množín

21 November 2011 30

Page 31: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

SemSets – skóre sémantických množín

• Príklad: „astronauts who walked on the Moon“

• Medzivýsledok:1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan

21 November 2011 31

Page 32: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Konštrukcia sémantických množín

• 2 prístupy:– Množiny definuje expert– Automatcky detekovať zo znalostnej bázy

21 November 2011 32

Page 33: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Vyhodnotenie

• Dátová množina – Yahoo! SemSearch 2011 challenge• Dopyty:

– 50 dopytov na zoznamy entít– Vybraných z logov webového vyhľadávača– Vyhodnotenie odpovedí:

• Amazon’s Mechanical Turk• Cloudsourcing solution• Prostredie pre human intelligance computation• Ľudia (za finančnú odmenu) vykoávajú zadanú úlohu• Odpovede hodnotené 3 stuňami

21 November 2011 33

Page 34: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Vyhodnotenie

21 November 2011 34

Page 35: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Vyhodnotenie

• Čiastočné funkcie SemSets modelu

21 November 2011 35

Page 36: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Vyhodnotenie

• Vplyv použitého modelu na získavanie informácií

21 November 2011 36

Page 37: SemSets Model pre sémantické vyhľadávanie  zoznamov entít

Zhrnutie

• Predstavili sme úlohu ad-hoc vyhľadávania v sémantických dátach• Predstavili sme SemSets model pre vyhľadávanie zoznamu entít zo

sémantických dát• SemSets model využíva:

– Štandardné metódy vyhľadávania informácií– Šírenie aktivácie v topológii grafu definovaného znalostnou bázou– Informácie o sémantických množinách v znalostnej bázy

• Vyhodnotenie: metóda má state-of-the-art presnosť na SemSearch 2011 data sete

21 November 2011 37