similarity and relatedness for linked (open) data

15
Anno Accademico 2015 - 2016 Relatore: Prof. Tommaso di Noia Laureando: Giorgio Basile Correlatori: Ing. Azzurra Ragone, Ph.D . Dr. Paolo Tomeo Similarità e relazionalità per Linked Open Data Corso di Laurea Magistrale in Ingegneria Informatica Tesi di Laurea in Logica e Intelligenza Artificiale

Upload: giorgio-basile

Post on 26-Jan-2017

42 views

Category:

Software


1 download

TRANSCRIPT

Anno Accademico 2015-2016

Relatore: Prof. Tommaso di Noia Laureando:

Giorgio BasileCorrelatori: Ing. Azzurra Ragone, Ph.D. Dr. Paolo Tomeo

Similarità e relazionalità per Linked Open Data

Corso di Laurea Magistrale in Ingegneria Informatica

Tesi di Laureain

Logica e Intelligenza Artificiale

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Sommario

§ Linked Open Data§ simLib§ Casi d’uso e risultati sperimentali

Ø KORE datasetØ Relatedness nel dominio musicaleØ Sistemi di raccomandazione content-based nel dominio

cinematografico§ Conclusioni e Sviluppi futuri

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Linked Data

[Fonte:RDF1.1Primer,https://www.w3.org/TR/rdf11-primer/]

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

DBpedia

Wikipedia Infoboxhttps://en.wikipedia.org/wiki/A_Beautiful_Mind_(film)

DBpedia Entityhttp://dbpedia.org/resource/A_Beautiful_Mind_(film)

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Wikidata

classificazione

fonte

qualificatore

http://www.wikidata.org/entity/Q42

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

SPARQLQuery #1

Opere d’arte ispirate alla Tour Eiffel [Fonte: Wikibase - https://goo.gl/mM3Qw9]

{"item":{

"type":"uri","value":"http://www.wikidata.org/entity/Q3821251"

},"itemLabel":{

"xml:lang":"en","type":"literal","value":"The Eiffel Tower"

},"creatorLabel":{

"xml:lang":"en","type":"literal","value":"Georges Seurat"

},"year":{

"datatype":"http://www.w3.org/2001/XMLSchema#integer","type":"literal","value":"1889"

},"image":{

"type":"uri","value":"http://commons.wikimedia.org/wiki/Special:FilePath/Georges%20Seu

rat%20043.jpg"},

}…

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Farmaci che agiscono sui geni responsabili della proliferazione di cellule cancerose [Fonte: Wikibase - https://goo.gl/mM3Qw9]

SPARQLQuery #2

{”drug":{

"type":"uri","value":" http://www.wikidata.org/entity/Q17130597"

}, "drugLabel":{"xml:lang":"en","type":"literal","value":"Dacomitinib"

},"geneLabel":{"xml:lang":"en","type":"literal","value":"ERBB4”

},"biological_processLabel":{"xml:lang":"en","type":"literal","value":"cell proliferation"

},"diseaseLabel":{"xml:lang":"en","type":"literal","value":"breast cancer"

}}…

.

.

.

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Google Knowledge Graph

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Sistemi di raccomandazione

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

simLib: similarità e relatedness per LOD

§ Data model§ Interfacce unificate§ Modello estendibile§ Java 8

Ø Hash table dinamicheØ Parallelizzazione avanzataØ Stream APIØ Functional programming

(filter, collect, map, reduce,…)

[Fonte:Oracle,http://goo.gl/JVKTVH]

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

simLib: algoritmi implementati

𝑠𝑖𝑚$ 𝑚%, 𝑚' = cos(𝜃) =∑ 𝑤2,%,$ ⋅ 𝑤2,',$4256

∑ 𝑤2,%,$74256 ⋅ ∑ 𝑤2,',$74

256

=𝑉(𝑚%) ⋅ 𝑉(𝑚'9𝑉(𝑚%9 𝑉(𝑚'9

Vector Space Model [Di Noia et al., 2012] Jaccard Index [Phuong et al., 2012]

𝐽 α, 𝛽 =𝐴 ∩ 𝐵𝐴 ∪ 𝐵 =

𝐴∩ 𝐵𝐴 + 𝐵 − 𝐴 ∩ 𝐵

similarity

Reword [Pirrò, 2012] Centrality [Hulpus et al., 2015]

relatedness

𝐼D 𝑝𝑎𝑡ℎ 𝑢J, 𝑢K =𝑝𝑓𝑖𝑡𝑓MNO 𝑝 +𝑝𝑓𝑖𝑡𝑓%

NP 𝑝2

𝑟𝑒𝑙UVKWX 𝑥,𝑦 =

∑ 𝛼\]2 K̂_($)$`aDbc

d

𝑘

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

simLib: esempio d’uso

//estrazione grafoExtractor ext = new Extractor(DBPEDIA_ENDPOINT);List<Statement> statements = ext.startExtraction(dbpediaItems, readPaths(propsFile));

//lettura grafoGraph graph = GraphFactory.create(graphFile, itemsIDs, GraphFactory.LOCAL_GRAPH);Set<Path> featuredPaths = GraphFactory.readPaths(new File(FEATURED_PATHS), graph));

//calcolo similaritàSimilarityMetric vsm = new VectorSpaceModel(graph, featuredPaths);SimilarityMetric jac = new JaccardSimilarityMetric(graph, distance);

Map<Node, Double> vsmMap = vsm.computeSimilarityRank("http://dbpedia.org/resource/Pulp_Fiction");Map<Node, Double> jMap = jac.computeSimilarityRank("http://dbpedia.org/resource/Pulp_Fiction");

//calcolo relatednessRelatednessMetric rw = new Reword(graph, featuredPaths);RelatednessMetric cen = new Centrality(graph, k, length, alpha);

double rwValue = rw.computeRelatedness("http://dbpedia.org/resource/Pulp_Fiction","http://dbpedia.org/resource/Samuel_L._Jackson");

double cenValue = cen.computeRelatedness("http://dbpedia.org/resource/Pulp_Fiction","http://dbpedia.org/resource/Samuel_L._Jackson");

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

simLib@work

KORE [Hoffart et al., 2012]

DBpedia – Nodi: 53.914 – Archi: 112.826

Measure REWOrD C(0.25) C(0.5) C(0.75)

Apple 0,480 0,805 0,801 0,794

Google 0,624 0,852 0,820 0,820

Facebook 0,644 0,751 0,659 0,640

Microsoft 0,538 0,825 0,811 0,794

IBM 0,023 0,621 0,572 0,556

Average 0,462 0,771 0,733 0,721

Wikidata – Nodi: 110.344 – Archi: 316.747

Measure REWOrD C(0.25) C(0.5) C(0.75)

Apple 0,460 0,681 0,579 0,413

Google 0,543 0,587 0,519 0,433

Facebook 0,642 0,705 0,705 0,705

Microsoft 0,484 0,615 0,615 0,615

IBM -0,014 0,248 0,248 0,271

Average 0,304 0,567 0,533 0,487

MUSIC Wikidata – Nodi: 9103 – Archi: 24.293

1-10 11-20 21-30

TheBeatles

(band)

GeorgeHarrison blues NoelGallagher

RingoStarr AllYouNeed… LiamGallagher

PaulMcCartney rockandroll FoxboroHotTubs

JohnLennon Oasis BobWeir

rockmusic TheRollingStones raprock

NeilYoung LemmyKilmister JamesMorrison

HeyJude SteveWinwood alternative rock

psychedelicrock JohnnyCash RichardAshcroft

LetItBe Jet Kele Okereke

Sgt. Pepper's… BobDylan DannyWorsnop

1-10 11-20 21-30

TheDarkSideof

theMoon

(album)

PinkFloyd StevenWilson Scandal

Eclipse MikeOldfield AlanaGrace

RogerWaters SteveWinwood AlanisMorissette

progressiverock CaliforniaGirls MartyFriedman

TheWall Queen Petra

ThePostWar

Dreampsychedelicrock Rush

rockmusic BillieHoliday Rodríguez-Lopez

DavidGilmour Sainte-Marie ButtholeSurfers

SydBarrett AlexLifeson JerryGarcia

RingoStarr KylieMinogue Muse

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

simLib: movie recommendations

Facebook dataset[Tomeo et al., 2016]

• 19.671 utenti• 876.501 likes• 3.907 film

0,14

0,15

0,16

0,17

0,18

0,19

0,20

0,21

0,22

0,23

10 20 30 40 50 60 70 80 90 100

1900

2100

2300

2500

2700

2900

3100

3300

3500

3700

10 20 30 40 50 60 70 80 90 1008,0

8,2

8,4

8,6

8,8

9,0

9,2

9,4

9,6

9,8

10,0

10 20 30 40 50 60 70 80 90 100

0,02

0,03

0,03

0,04

0,04

0,05

10 20 30 40 50 60 70 80 90 100

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =1𝑈 k𝑃N

m

N56

𝑀𝑅𝑅= 1𝑈 k

1𝑟𝑎𝑛𝑘N

m

N56

𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒=⋃ 𝑇𝑜𝑝𝑁(𝑢)N∈m

𝐼 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 = −k𝑟𝑒𝑐(𝑖)𝑡𝑜𝑡𝑎𝑙 𝑙𝑜𝑔

𝑟𝑒𝑐(𝑖)𝑡𝑜𝑡𝑎𝑙%∈v

Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data

Conclusioni e sviluppi futuri

§ Miglioramento di prestazioni e stabilità

§ Ulteriori metriche di similarity e relatedness

§ Sistemi di raccomandazione cross-domain

§ Codice open-source