Download - Introduktion till länkade data
Arkitekturnätverket
2013-10-01
Hannes [email protected]
Matthias Palmé[email protected]
Introduktion till Länkade Data
Vilka är vi
Matthias Palmér● Bakgrund: datalogi, matematik● Tekn. dr. i medieteknik, fokus på hur man bygger moderna
webbapplikationer mha Semantic Web/Länkade Data
Hannes Ebner● Bakgrund: telekommunikation, informationssystem● Doktorsavhandling med fokus på samarbetsmiljöer som är
baserade på semantiska teknologier och länkade data
Om MetaSolutions produkter
RForms – Konfigurerbara webbformulär för redigera grafbaserad information (RDF)
EntryStore – Repository för hantera kombinationen av resurser och tillhörande metadata
EntryScape – Webbapplikation som ger gränsnitt till EntryStore, påminner om filutforskaren på windows/mac...
(Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)
Några av våra kunder och partners
Innehåll
1. Introduktion till länkade data (12 slides)
2. Kort om Publicering av länkade data (3
slides)
3. Vokabulärer och vokabulärspråk (7 slides)
4. Dataintegration och länkade data (9 slides)
5. Lösningar för att exponera länkade data (2 slides)
Om stjärnor
★★★★★ gör din information tillgänglig på Webben★★★★★ (oberoende av format) under en öppen licens★★★★★ gör informationen tillgänglig som strukturerad data★★★★★ (t. ex., Excel format istället för en bild av en tabell)★★★★★ använd icke-proprietära format★★★★★ (t. ex., CSV istället för Excel)★★★★★ använd URI:er för att identifiera ting, och RDF för att uttrycka påståenden om dem★★★★★ länka dina data till andras data, det ger sammanhang
1. Introduktion
Länkade data
● Påståenden om ting● Länkar mellan ting● Hämta påståenden om ting över HTTP● Ett språk (RDF) många format● Ett frågespråk (SPARQL)● Vokabulärer är också länkade data
1. Introduktion
Påståenden om ting
● Data om ting identifierade av URI:er
● Påståenden om dessa ting kan vara:○ egenskaper som titel, storlek, datum, osv.○ länkar till andra ting som “känner”, “är del av”, osv.
● Hämtning av ett ting (mha dess URI) ger en samling påståenden, några länkar vidare
1. Introduktion
Resource Description Format (RDF)
Tre enkla regler:1. Ett påstående uttrycks som “trippel” (“statement”),
med subjekt, predikat och object2. Alla delar av ett trippel är namn (identifierare) för
entiteter (konkret eller abstrakt)3. Objekt kan även ha ett text- eller datavärde
(literaler)
1. Introduktion
Hämta påståenden om ting
1. Introduktion
Samma i “Turtle” format
GET http://data.nobelprize.org/resource/nobelprize/Physics/1903
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix dbpedia: <http://dbpedia.org/ontology/> .
@prefix nobel: <http://data.nobelprize.org/resource/terms/> .
http://data.nobelprize.org/resource/nobelprize/Physics/1903
rdf:type nobel:nobelPrize ;
rdf:type dbpedia:Award ;
nobel:laureate http://data.nobelprize.org/resource/laureate/4 ;
nobel:laureate http://data.nobelprize.org/resource/laureate/5 ;
nobel:laureate http://data.nobelprize.org/resource/laureate/6 ;
nobel:category http://data.nobelprize.org/resource/category/Physics ;
nobel:year 1903 ;
rdfs:label “Physics 1903”@en .
1. Introduktion
Webben vs. länkade data
“Gamla” webben
● Nätverk av sidor● Varje sida har en
identifierare (URL)● Bakom varje URL ligger ett
dokument● Sidor är ihopkopplade via
länkar● “Open world”
Länkade data (“Web of Data”)
● Nätverk av ting (4★)● Varje ting har en
identifierare (URI) (4★)● Bakom varje URI ligger
“statements” (5★)● Ting är ihopkopplade via
länkar (5★)● “Open world”
1. Introduktion
2007
1. Introduktion
2008
1. Introduktion
2009
1. Introduktion
2010
1. Introduktion
2011
1. Introduktion
Datapublicering – initiala frågor
● Identifiera vad man vill göra tillgängligt● Vad är nyttigt/användbart?● Var ligger det nu?● Hur är det underhållet nu?● Kan det bli identifierat?
2. Publicering
Datapublicering – licensiering (!)
Säkerställa att licensiering är entydig● Creative Commons (CC0)● Open Data Commons● Egen licens
Data != Metadata● Blandas ihop ofta
2. Publicering
Publicering - länkning
Vanligt att använda DBpedia och andra stora dataset som “länkningscentraler”
● Leder automatiskt till ett flertal av indirekta länkar pga att andra data redan länkar till dem
● Hur skapas länkar?○ Bra utgångsmaterial underlättar automatisk länkning○ Textanalys (“named entity extraction”)○ Disambiguering (Homonymer)○ Manuellt
2. Publicering
DCMI Terms - Qualified Dublin Core
Properties: abstract, accessRights, accrualMethod, accrualPeriodicity, accrualPolicy, alternative, audience, available, bibliographicCitation, conformsTo, contributor, coverage, created, creator, date, dateAccepted, dateCopyrighted, dateSubmitted, description, educationLevel, extent, format, hasFormat, hasPart, hasVersion, identifier, instructionalMethod, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, language, license, mediator, medium, modified, provenance, publisher, references, relation, replaces, requires, rights, rightsHolder, source, spatial, subject, tableOfContents, temporal, title, type, valid
Intoducerades 1995 på Workshop i Dublin Ohioav olika biblioteksorganisationerFokus: beskriva resurser/verk av olika slagUnderhålls av DCMI (Dublin Core Metadata Initiative)
3. Vokabulärer
FOAF - Friend Of A Friend
Properties: account | age | based_near | birthday | currentProject | depicts | dnaChecksum | gender | givenName | holdsAccount | img | interest | knows | lastName | mbox | member | nick | openid | page | phone | plan | status | surname | thumbnail | title | topic | weblog
Specification: http://xmlns.com/foaf/specIntroduced in 2000, latest update 2010Builds upon Dublin Core
3. Vokabulärer
Bing, Google och YahooIntroducerade schema.org 2011 Mer än 800 typer och 600 egenskaperAnvänds för att förbättra sökresultat
Sch
ema.
org
3. Vokabulärer
Koncept-, vokabulär- och ontologispråkSKOS, RDFS och OWL
SKOS - “Simple Knowledge Organisation System”● Concepts in ConceptSchemes● Namn via prefLabel, altLabel● Hierarkier via narrow/broader● relationer via related
RDFS - “RDF Vocabulary Description Language”● Definera klasser och properties i RDF● subClassOf och subPropertyOf för att förfina
OWL - “Web Ontology Language”● Kraftfullare än RDFS
3. Vokabulärer
SNOMED CT och ICD9 i SKOS
id (URI): 61462000Namn (prefLabel): MalariaSynonymer (altLabel): Plasmodiosis, PaludismFörfining av (broader): 105649009Närbesläktad (closeMatch): ICD9:084_6
id (URI): 084_6Namn (prefLabel): Malaria, Unspecified
id (URI): 105649009Namn (prefLabel): Disease due to Plasmodiidae
Snomed CT
Snomed CT
ICD9
3. Vokabulärer
SNOMED CT och ICD9 i SKOS
Utforska själv på: http://schemes.caregraf.info/snomed#!614620003. Vokabulärer
Mer om SKOS
Notes: note, changeNote, definition, historyNote,
editorialNote, example, scopeNote
transitivity:broaderTransitive, narrowTransitive
Match:closeMatch, relatedMatch, narrowMatch,
broaderMatch
Concept Collections
3. Vokabulärer
Problembild - Dataintegration
● Många disparata datakällor och silos● Många punkt-till-punkt gränssnitt● Datakällor med liknande eller inkonsistent
information
Data IN - Använda andras data korrektData UT - Egen data förstådd och rätt använd
Helst på ett enkelt, hållbart och skalbart sätt!
4. Dataintegration
Förstådd och rätt använd
Hitta/anpassa den bästa standarden● Hur avgränsa ett område● Hur komma överens, legitimitet
Använd många vokabulärer och Länkade data● Kombinera existerande vokabulärer + egna● Best practise växer fram, dubblera där så saknas
4. Dataintegration
Interoperabilitet vs. Harmonisering
En enskild standard ger interoperabilitet● Maskiner kan utbyta data efter noggrann programmering● Oftast punkt till punkt
Länkade data ger harmonisering mellan standarder/vokabulärer● Olika data kan blandas och samexistera● Maskiner förstår de delar de programmerats för● Ibland genom att förgrova och dra slutsatser enligt
förberedda regler
4. Dataintegration
Importera eller länka
Importera data som behövs● Hur mycket ska man importera?● Kvalité och underhåll ditt ansvar● Hur länge är data korrekt?● Vilka protokoll ska användas? (WS* vs. REST)
Länka till data som behövs● Kvalité och underhåll leverantörens ansvar● HTTP och SPARQL väl etablerade, ● kan kombineras med t. ex. SRU● Cacha bara nödvändig data (förlita dig på http)
4. Dataintegration
Datamodell för disparata data
Egen datamodell● Datamodellen blir en union av alla behov● Dokumentation och underhåll● Ursprung bör hanteras noga (provenance)
Utnyttja RDF● Datamodellen är given av RDF abstract model● Ursprung hanteras via URI:er (och named graphs)● Många format finns att välja på
4. Dataintegration
Länkade data ger möjligheter (1)
Förenkling av informationsintegrationsprocesser● Flexibelt och enkelt för evolverande datamodeller● Ignorera det du inte förstår eller behöver● Integrera data av olika informationskvalite● Hantera synonymer och homonymer i data
(reconciliation och disambiguation)
Tillhandahålla ett enterprise metadatalager● Enhetliga metadatavokabulär inom organisationen● Harmonisera “legacy” datasilos● Förbättring av informationsspridning● Agilt “Master Data Management”
4. Dataintegration
Länkade data ger möjligheter (2)
Identifiering och förädling av information● Länka ihop personer, organisationer, händelser, …● Förädla organisationsinnehåll med strukturerade
annotationer● Identifiera implicita länkar och relationer
Enhetlig tillgång till information inom organisationen● Förenklad infrastruktur baserad på öppna
standarder
Informationsutbyte mellan olika organisationer● Enkel publicering och konsumtion av länkade data
4. Dataintegration
Typiska enterprise use cases
Publicering och konsumtion av länkade data● Länkade data behöver inte vara öppna / gratis● Stödjer datautbyte inom värdekedjan
Informationsintegration● Integrerad asset-hantering / harmonisering av data
silos)● Master Data Management
Knowledge discovery och semantisk sökning
4. Dataintegration
Framgångshistorier
Linked Life Data● Semantisk warehouse som integrerar och länkar fler
än 25 öppna biomedicinska datakällor● Interaktiv utforskning
Dynamisk semantisk publicering● BBC World Cup 2010 och London Olympics 2012● Länkade data för att automatisera dynamisk
publicering av innehåll
Data om Nobelpris● Länkar ihop pristagare, dokumentation och externa
datakällor
4. Dataintegration
Olika kategorier av lösningarför att exponera länkade data
Mål - exponera sina data som länkade dataGivet - en plattform som inte stöder länkade data
Påverkan
Lösning
Ändra arkitektur Extra teknisk kompetens krävs
Påverkan på Driftsäkerhet
Underhåll krävs
Byta plattform X X X X
Utvidga plattformen ? ? X
Lager ovanpå plattformen X X X
Använda en molntjänst ? ?
5. Lösningar
Arkitekturskiss LODify
EntryStore - molntjänst
Triple storeRättigheterSökindex
Tabular importerConfig
Relational importer Config
Webbdokument importerConfig
API based importer Config
DokumentRDB
Kalkylblad
Resurser
API
LOD
WebbAppentrystore.js
5. Lösningar
Tack för er uppmärksamhet!
Frågestund!
Hannes Ebner <[email protected]>
Matthias Palmér <[email protected]>
Kontakta oss gärna, tex om ni: - har frågor om länkade data - vill bli informerade om LODify
MetaSolutions [email protected]