klink-2: integrating multiple web sources to generate semantic topic networks
Post on 21-Feb-2017
1.442 Views
Preview:
TRANSCRIPT
Francesco Osborne, Enrico Motta
KMi, The Open University, United Kingdom
November 2015
Klink&2:)Integra0ng)Mul0ple)Web)Sources)to)Generate)Seman0c)Topic)Networks)
Seman&cs)vs)keywords)
• Many)systems)for)the)explora&on)of)research)
• A)good)number)of)LD)corpus)describing)scholarly)data)
– Nature)LD,)Bio2RDF,)AGRIS)LOD,)RDK,)DBLP++,)SW)Dog)Food,)Seman&c)Web)
Journal,)Springer)LOD,)Aminer)FOAF,)Dataset)Scholarometer))
2
From)keywords)to)research)topics)
For)making)sense)of)academic)data)is)very)useful)to)have)an)comprehensive)and)upNtoNdate)ontology)of)research)topics.)
)
Unfortunately:)
• human)craCed)classifica&ons)evolve)too)slowly)and)tend)to)be)too)coarse&grained.)
• Current)automated)methods)for)genera&ng)ontologies)of)research)topics:)
– ignore)many)indirect)sta&s&cal)and)seman&c)rela&onships)
– do)not)support)different)kinds)of)hierarchical)rela&onships)– are)not)able)to)handle)effec&vely)ambiguous)topics)characterized)by)a)noisy)
set)of)rela&onships.))
3
Our)first)solu&on:)Klink)
Osborne,)F.)and)Mo/a,)E.)(2012))Mining)Seman:c)Rela:ons)between)Research)Areas.)Interna:onal)Seman:c)Web)Conference,)Boston,)MA)
Some)examples:)Seman&c)Network)of)Topics)
Osborne,)F.,)Mo/a,)E.)and)Mulholland,)P.)(2013))Exploring)Scholarly)Data)with)Rexplore,)Interna:onal)Seman:c)Web)Conference,)Sydney,)Australia)
technologies.kmi.open.ac.uk/rexplore
Main SW Communities (2000 – 2010)
Some)examples:)TopicNbased)Community)detec&on)
Osborne,)F.,)Scavo,)G.)and)Mo/a,)E.)(2014))A)Hybrid)Seman:c)Approach)to)Building)Dynamic)Maps)of)Research)Communi:es,)EKAW)2014,)Linkoping,)Sweden)
KlinkN2)
Klink&2)is)more)scalable)and)introduces)a)number)of)new)
features,)and)is)able:))
• to)scale)up)to)large)interdisciplinary)ontologies)– )It)is)able)to)generate)the)topic)ontology)incrementally)
• to)handle)ambiguous)keywords)– e.g.,)“java)(programming)”,)“java)(Indonesia)”,)“java)(Coffee)”)
• to)take)as)input)any)kind)of)sta0s0cal)or)seman0c)rela0onship)– )e.g.,)involving)authors,)organiza0ons,)venues…)
K1) K2)
K)K)
K)K)K)
K)K)K)K)
K)K)K)K)
K)K) K)K)
K)K)
K)K)K)
K)K)K)K)
K)K)K)
A) A)
A)
A)A)
A)
O) O)O)
O)
O)V)
V)
V)V)V
K) K)K)
Klink) Klink&2)
K1) K2)
Venues)
Authors)Organiza0ons)
Keywords)Keywords)
Rela&onships)used)in)Klink)and)KlinkN2.))
KlinkN2)data)model)
• skos:broaderGeneric.)We)reuse)this)property)from)the)SKOS)
model,)to)indicate)the)intui&ve)no&on)that)an)area)is)a)sub&area)of)another)one.)
• contributesTo.)This)is)defined)as)a)subNproperty)of)skos:related)and)indicates)that)R1)research)outputs)are)relevant)to)R2.)
• relatedEquivalent.)Defined)as)a)subNproperty)of)skos:related,)which)indicates)that)two)topics)can)be)treated)as)equivalent)for)the)purpose)of)exploring)research.)
9
10
Statistical Inferences
skos:relatedEquivalent
skos:broaderGeneric contributesTo
Filtering
Triples generation
K)K)
K)K)K)
K)K)K)K)
K)K)K)
A) A)
A)
A)A)
A)
O) O) O)O)O)
V)V)
V)V)V)
K) K)K)
K1) K2)
Venues)
Authors)Organiza0ons)
Keywords)
Linked)Data)Cloud)
Clusterization Disambiguation
Input keywords Klink-2
Sta&s&cal)indicators)
Hierarchical)rela0onship)(skos:broaderGeneric,)contributesTo)))
11
RelatedEquivalent)rela0onship)
Handling)ambiguous)keywords)
KlinkN2)address)mainly)three)categories)of)ambiguous)keywords:)
• Terms)which)actually)have)two)or)more)different)meanings)– )e.g.,)“owl”,)the)ontology)web)language,)and)“owl”,)the)bird.))
• Vague)terms,)with)meaning)that)can)change)according)to)the)
paper)they)are)associated)to)
– )e.g.,)“mapping”,)“indexing”,)“performance”.)
• Terms)that)used)to)have)a)unique)meaning,)but)are)now)used)in)specialized)ways)by)different)research)communi0es)– e.g.)“ontology”.))
12
1 2
An)Example:)Java)(Programming)Language))
13 Klink-2 approach
An)Example:)Java)(Programming)Language))
14 Klink-2 approach
HOW?
1. Klink-2 runs a hierarchical bottom-up clustering algorithm on the set of associates keywords.
2. If the algorithm yields more than one cluster, Klink-2 run a slower and more accurate clusterization algorithm which considering only the entities associated with disambiguator keywords.
3. If the process yields more than one cluster, the original keyword is used to produce as many disambiguated topics as the resulting number of clusters.)
Evalua&on)
15
We)tested)four)different)methods:))
• the)classic)subsump0on)method)(labelled)S);)
• the)original)Klink)algorithm)(labelled)K);)
• a)first)version)of)Klink&2,)with)the)ability)of)integra&ng)mul&ple)rela&onships,)but)not)addressing)ambiguous)keywords)(labelled)KR);)
• the)final)version)of)Klink&2,)with)also)the)ability)to)detect)and)split)ambiguous)keywords)in)contextual)mode)(labelled)K2);)
Evalua&on)
16
Evalua&on)
17
Current)situa&on)
• We)are)collabora&ng)with)major)academic)publishers,)
such)as)Elsevier)and)Springer.)
• We)run)KlinkN2)on)a)por&on)of)Scopus)data)about)
Computer)Science.)We)obtained)a)large&scale)ontology)consist)of)about))15)000)topics)linked)by)about)70)000)seman&c)rela&onships.))
• We)are)developing)a)new)version)of)Rexplore)
(technologies.kmi.open.ac.uk/rexplore/))which)will)take)full)advantage)of)KlinkN2)
Future)Direc&ons)
• Diachronic)analysis)of)topic)meanings.)
• Allowing)KlinkN2)to)analyze)paradigms,)technologies,)datasets,)tools)and)so)on.)
• Exploi&ng)KlinkN2)ontology)in)a)variety)of)ways)to)produce)smart)analy0cs)of)research)data)
top related