Download - Öppna data & Länkade data
Öppna data & länkade data
Marie Gustafsson [email protected]
twitter: mariegus
Presenterat för Lärosäten Syd Lund 7 oktober 2013
http://www.flickr.com/photos/thomasleuthard/5969305019/
livingarchives.mah.se
Living Archives
Data Gamesdata-games.org
3
http://librisbloggen.kb.se/2013/08/09/syftet-med-librissystemen-och-
librissamarbetet/
4
5
Öppna data?
Data kan kallas öppna data om vem som helst fritt får använda, återanvända och distribuera dessa med som största motprestation att ange källa eller krav på att dela data på samma sätt.
http://opendatahandbook.org/en/what-is-open-data/index.htmlÖversättning från Open Knowledge Foundation
Tekniskt öppen: maskinläsbart format (minimum)
Juridiskt öppen: tydlig licens som medger både kommerciell och icke-kommerciell användning utan restriktioner
Varför?
Insyn
Samhällsnytta
Innovation
...
Fler kan göra intressanta saker med data
★ Tillgänglig på webben (oavsett format),
med en öppen licens
★★ Tillgänglig som maskinläsbar strukturerad
data (t ex Excel i stället för scannad tabell)
★★★ som (2) samt ickeproprietärt format
(t ex CSV i stället för Excel)
★★★★ Alla ovan, plus att använda W3C-standarder (RDF
och SPARQL) för beskriva saker
★★★★★ Alla ovan plus att länka din data till andras data
Principer för länkade data1. Använd URI:er för att namnge saker
2. Använd HTTP URI:er så att dessa namn kan användas för att få mer information
3. När någon kollar en URI, ge användbar information genom standarder (RDF*, SPARQL)
4. Inkludera länkar till andra URI:er så att fler saker kan upptäckas
http://www.w3.org/DesignIssues/LinkedData.html
16
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Semantiska webben
• Data-webb (snarare än dokument-webb).
• Idag kontrollerar applikationer ofta sin egen data och delar inte med sig av den.
• Visionen med den semantiska webben är att göra det möjligt att kombinera data från flera olika källor.
18
Why Linked Data matters to libraries
”Although making a library catalogue available as Linked Data is mostly a matter of technical details and transformation of data, the implications are more profound. Sharing data, especially with communities outside the library sector, creates an interest in our work. Using tools and techniques that are not unique to libraries lets us communicate easier with professionals in other areas.
Linked Data finally, truly, connects libraries to the web.”
Martin Malmsten, LIBRIS/KBExposing Library Data as Linked Data – http://bit.ly/1dZ5i4Y
Fix layout
En kort introduktion till W3C-rekommendationer
relaterade till den semantiska webben
Resource Description Framework
“Description”?
Subject - Predicate - Object
Subject - Predicate - Object
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Flera källor
+
+Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
En graf...
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Vad är vad?
• Om två källor använder samma benämningar, avser de då samma ”sak”?
• URI:er to the rescue!
• En URI avser en specifik resurs.
http://librisbloggen.kb.se/2008/12/03/libris-available-as-linked-data/
Ontologier – OWL
• Kallas ofta vokabulärer i samband med länkade data
• Används för att beskriva begrepp och relationer mellan begrepp i någon domän
• Kan innehålla allt från en enkel vokabulär till komplexa logiska uttryck för att dra slutsatser baserat på data
29
Exempel: Nobelpris
http://www.nobelprize.org/nobel_organizations/nobelmedia/nobelprize_org/developer/manual-linkeddata/terms.rdf
Classes: NobelPrizeLaureateAwardLaureateCategoryPrizeFileAwardFile
Objectproperties:nobelPrize (kopplar Laureate till NobelPrize)university (kopplar Laureate till universitet från DBPedia)....
Datatypeproperties:yearmotivationcontribution...
http://librisbloggen.kb.se/2008/12/03/libris-available-as-linked-data/
dc syftar på ”namespace” http://purl.org/dc/elements/1.1/
Simple Knowledge Organization System (SKOS)
• RDF vokabulär för att representera semiformella knowledge organization systems (KOSs), exempelvis thesauri o taxonomier.
ex:animals rdf:type skos:Concept; skos:prefLabel "animals"@en; skos:narrower ex:mammals.
ex:birds rdf:type skos:Concept; skos:prefLabel "birds"@en; skos:related ex:ornithology.
SPARQL
• SPARQL Protocol and RDF Query Language
• En fråga består av en uppsättning trippel-mönster (tripple patterns).
• Trippel-mönster är som RDF-tripplar förutom att varje subjekt, predikat och objekt kan vara en variabel.
Exempel
Libris
Libris som länkade dataSedan 2008...
För att leka med SPARQL: http://libris.kb.se/sparql
Länkar till flera olika dataset, bl a DBPedia, Library of Congress
PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dbpedia: <http://dbpedia.org/ontology/>PREFIX rdfs: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
select ?uri ?book ?title where { ?uri foaf:name "August Strindberg" . ?uri rdf:type foaf:Person . ?book dc:creator ?uri . ?book dc:title ?title .}
http://libris.kb.se/sparql
37
38
PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dbpedia: <http://dbpedia.org/ontology/>PREFIX rdfs: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX dc: <http://purl.org/dc/elements/1.1/>
select ?book ?title ?author where { ?book dc:subject <http://libris.kb.se/resource/auth/150197> . ?book dc:title ?title . ?book dc:creator ?author .}limit 100
40
• Extraherar strukturerad information från Wikipedia och tillgängliggör den via webben.
• Beskriver över 3,77 miljoner saker, varav 2,35 miljoner är klassificerade i en konsistent ontologi som innehåller 764.000 personer, 573.000 platser, 112.000 musikalbum, 72.000 filmer, 18.000 videospel, 192.000 organisationer, 202.000 arter och 5.500 sjukdomar.
Möjliga frågor
• DBPedia gör det möjligt att ställa frågor där informationen som behövs för att svara finns spridd över flera olika Wikipedia-artiklar.
• Till exempel...
43
Personer födda i Köpenhamn innan år 1900.
44
45
DISKADigitala semantiska kulturarvsauktoriteter
”väsentliga auktoritetslistor som länkbar, öppen data via webben”
46
http://www.flickr.com/photos/nationaalarchief/4398562726/
http://www.digisam.se/index.php/hem/tags/tag/diska
Exempel på poster: http://prezi.com/qdze6qvqmscr/diska-ett-projekt-pa-digisam-i-samarbete-med-kth/
http://www.flickr.com/photos/jdhancock/3383629917/