effektiv länkad data
DESCRIPTION
Material från Lunchseminarium om Länkad data "Hur kan vi använda vår data lika effektivt som t.ex. Google? " som hölls 2012-11-30, av Niklas Lindström på Valtechs kontor, Hantverkargatan 5, Stockholm. Vi sysslar med webbdesign och vill du delta på våra gratis seminarium och events inom allt det digitala, anmäl dig gärna här: http://www.valtech.se/sv/Anmalan-till-maillistan/TRANSCRIPT
Länkad data
Niklas Lindström
I vårt samhälle pågår
Ständig kommunikation
Integration av information
Evolution
.. från en webb av dokument
.. till en webb av data
Vad är data?
10100111001
CREATE TABLE Persons ( id INTEGER NOT NULL, name VARCHAR(40), PRIMARY KEY (id) )
<persons> <person id="94541"><name>Strintmperg</name></person></persons>
<div class="person" id="p-23"> <span class="name">Sutorindoberi</span></div>
{"persons": [{name: "Стриндберг", key: 94541}]}
W.T.F.?!!1
CSV, XML, JSON, APIer, ...
Olika överallt
Lokala begrepp, termer och identifierare
Det skalar inte
Att återuppfinna begrepp
Att tolka innebörd ur fragment
(.. även Google har problem)
Slöseri!
Kunskapen finns hos de somskapar data
och de som kontinuerligt studerar ochanvänder data
Vad saknas?
Gemensamma termer (egenskaper)
Gemensamma namn (IDn) på ting
Namngivna relationer (länkar) mellan ting
En lösning:
Länkad data på webben
Teknikstandarder
Resource
Description
Framework
En datamodell
Uttrycker grafer
Påståenden
August - föddes i → Stockholm
Triples
subjekt -egenskap→ objekt
Globala identifierare: URIer
<http://libris.kb.se/bib/8214323> <http://schema.org/author> <http://dbpedia.org/resource/August_Strindberg>
<http://libris.kb.se/bib/8214323> <http://purl.org/dc/terms/title> "Röda rummet"@sv
Literaler
"Röda rummet"@sv
59.329445
"1912-05-14"^^xsd:date
Tillämpad semantisk webb
● Facebook Open Graph (OGP)● Yahoo SearchMonkey, Google Rich Snippets● Schema.org● Google Knowledge Graph
● DBPedia & relaterade LOD-projekt
Schema.org
Provides a collection of schemas that webmasters can use to markup their pages in ways recognized by major search providers
Google, Bing, Yahoo, Yandex
(W3C)
Webbplatser är fulla av
● Dokument.. som beskriver saker● Nyheter, kalenderhändelser● Platser, personer, organisationer● Produkter, recensioner, butiker● Mat, recept, hälsotips● Kurser, festivaler, intressegrupper● Böcker, konst, kulturarv● Djur och natur, fenomen och vetenskap● Termer och begrepp, ...
Fånga detaljer
EgenskaperTitel, datum, namn/etikett, numeriska värden
Särskilda länkarFörfattare, utgivare, ämne/tema, föremål
<div vocab="http://schema.org/" typeof="BookStore"> <h1 property="name">Ryös antikvariat</h1> <div property="address" typeof="PostalAddress"> <span property="streetAddress">Hantverkargatan 21</span> <span property="addressLocality">Stockholm</span> </div> <p property="description">Innanför ytterdörren möts besökaren av ett rum fyllt med bågnande hyllor med konst- och fotoböcker.</p> <p>Öppet: <span property="openingHours" content="Mo-Fr 11:00-18:00">vardagar 11-18</span></p></div>
@prefix : <http://schema.org/> .
[] a :BookStore; :address [ a :PostalAddress; :addressLocality "Stockholm"; :streetAddress "Hantverkargatan 21" ]; :description """Innanför ytterdörren möts besökaren av ett rum fyllt med bågnande hyllor med konst- och fotoböcker."""; :name "Ryös antikvariat"; :openingHours "Mo-Fr 11:00-18:00" .
Lämpliga vokabulär
Schema.orgGoodRelationsrNews (IPTC)
Dublin Core TermsCreative CommonsFriend-of-a-Friend
Facebook OpenGraph
RDFa är en genväg till länkad data
● Ta vanliga webbsidor● Ringa in domändata i dessa● Låt söktjänster indexera denna data
.. men det finns fler vägar..
Webbens arkitektur
Identifikation: URI:er
Åtkomst: HTTP
Representation: öppna format, länkad hypertext
Komposition: länka alla slags resurser
2009
<http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html>
Principer
Använd URIer för att identifiera saker
Använd HTTP-URIer så att de kan hänvisas till och slås upp på webben
Skicka användbar information när URIn slås upp
Inkludera länkar till andra URIer för att stödja upptäckbarhet av relaterad information
Användbar information
★ make your stuff available on the web (whatever format)★★ make it available as structured data (e.g. excel)★★★ use non-proprietary formats (e.g. CSV)★★★★ use URLs to identify things (e.g. an RDF format)★★★★★ link your data to other data to provide context
Format
● RDFa● RDF/XML● Turtle● JSON-LD
The LOD Cloud
2008
2011
DBPedia
2007 – milstolpe för länkad data
● University of Leipzig● Freie Universität Berlin● OpenLink Software
Wikipedia
Use DBPedia to
.. query relationships and properties
associated with Wikipedia resources,
including links to other related datasets
SPARQL
SPARQL Protocol andRDF Query Language
Födda i Stockholm före år 1900
prefix foaf: <http://xmlns.com/foaf/0.1/>prefix dbo: <http://dbpedia.org/ontology/>prefix : <http://dbpedia.org/resource/>
select ?person ?name ?birth { ?person foaf:name ?name; dbo:birthPlace :Stockholm; dbo:birthDate ?birth . filter (?birth < "1900-01-01"^^xsd:date) .}order by ?name
Lista svenska kommuner
select * { ?kommun a yago:MunicipalitiesOfSweden; foaf:name ?name; geo:lat ?lat; geo:long ?long .}
201 gifta forskare
select (count(?person) as ?count){ ?person a foaf:Person, dbpedia-owl:Scientist; dbpprop:spouse ?spouse .}
11013 ogifta
select (count(?person) as ?count){ ?person a foaf:Person, dbpedia-owl:Scientist . minus { ?person dbpprop:spouse ?spouse . }}
Origins: Freebase
● by Metaweb● Contains data from various sources (e.g.
Wikipedia)● RDF is a key component● Uppköpta av Google July 16, 2010
"The Google Knowledge Graph is essentially Freebase++... this is
all good Semantic Web stuff"
– Alon Halevy, Google
Vokabulär
Använd befintliga
FOAF — Friend of a Friend
SIOC — Semantically Interlinked Online Communities
SKOS — Simple Knowledge Organization System
GoodRelations
rNews (IPTC)
Schema.org
W3C Geo, MusicOnt, ProgrammesOnt, DOAP, uniProt, OGP, ...
Egna vokabulär?
RDFS — RDF SchemaOWL — Web Ontology Language
Görs också som länkad data!
Termer kan länkas samman (samma betydelse, specialiseringar)
Arbeta konkret med användning
Kontinuerlig utvärdering av sök-/hittbarhet
Stöd för redaktörer och förvaltning!
Minska gapet mellan producent och konsument!
HTTP-URIer som namn på ting
Publicera vistitkort för saker
Beskrivingar i dokument
På webben
Jag
@prefix : <http://xmlns.com/foaf/0.1/> .
<http://neverspace.net/id> a :PersonalProfileDocument; :primaryTopic <http://neverspace.net/id#self> .
<http://neverspace.net/id#self> a :Person; :name "Niklas Lindström"; :homepage <http://neverspace.net/>; :workplaceHomepage <http://www.valtech.se/> .
<http://neverspace.net/id#self> foaf:interest cat:Metafictional_works .
# ...
<http://dbpedia.org/resource/Gödel,_Escher,_Bach> a :Book; dc:subject cat:Metafictional_works .
# ...
<http://www.ryo.se/butik> a :BookStore; :name "Ryös antikvariat"; :makesOffer [ :about <http://dbpedia.org/resource/Gödel,_Escher,_Bach>; :price "29:90"; :priceCurrency "SEK" ]; :address [ :streetAddress "Hantverkargatan 21"; :addressLocality "Stockholm" ] .
Triple Stores
Grafdatabaser
Lagra massiva mängder triples
Quad Stores (union av dokument med grafer)
API: REST + SPARQL
Fuseki, Sesame, 4Store,
Virtuoso, AllegroGraph, Stardog, Neo4J,
Oracle 11G, IBM DB2, Microsoft Trinity...
Federerad SPARQL
Libris + DBPedia + Bibsys.no
PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dbpedia: <http://dbpedia.org/ontology/>BASE <http://libris.kb.se/resource/>
construct{ <auth/94541> ?p ?o; dbpedia:abstract ?abstract; foaf:depiction ?depiction; owl:sameAs ?bibsysno .} where{{ <auth/94541> ?p ?o . } UNION{ <auth/94541> owl:sameAs ?uri . { SERVICE <http://dbpedia.org/sparql>{ ?uri dbpedia:abstract ?abstract . FILTER(langMatches(lang(?abstract), "en")) ?uri foaf:depiction ?depiction . } } UNION{ SERVICE <http://data.bibsys.no/data/authority>{ ?bibsysno owl:sameAs ?uri . } } }}
Grunden för Länkad Data
Flera datakällor, uttryckta i RDF,sammanlänkade på webben
Webben blir en
GigantiskGlobalGraf
Öppna upp era silon
Gå med i konversationen
Bör det finnas länkad offentlig basdata?
Om svenska kommuner..
Om högskolor/universitet..
.. annat än i DBPedia?
EUPSI-direktivet
E-delegationenNy vägledning för vidareutnyttjande av offentlig information
Vad motiverade att publicera HTML under 90-talet?
Dela data som dokument
För att andra gjorde det
Sedan kom: marknadsföring, annonsering, SEO...
Vad motiverar att publicera länkad data?
Dela data som data
För att andra gör det
Marknadsföring, annonsering, SEO...
Läget idag
Webbsidor med OGP, schema.org..
BBC, data.gov.uk, Library of Congress, KB Libris..
NY Times, AstraZeneca, Boeing, IBM (Watson)...
.. och resten i LOD-molnet
Publicera användbar data
Tydliga egenskaper (gemensamma: RDF)
Många länkar - även till externa resurser
Upptäck inkommande länkar
Sträva efter..
Meningsfull och sammanhängande data på
webben!
Om världen!
Några länkar..
<http://www.w3.org/standards/semanticweb/>
<http://linkeddata.org/>
<http://rdfa.info/>
...
Bildkälloreick arctranLänkad data - förenklat exempelScreenshots from the Google Knowledge Graph intro videoSome icons from OpenClipArt.org"Silos""Walled Gardens" by David Simonds via ISSLOD-DSSN and Design Issues: Socially Aware Cloud Storage (Tim Berners-Lee)"This is Not a Pipe"The LOD CloudLOD Cloud statsW3C LogosHighlighter pen by Guido "random" AlvarezPresentation vs. Semantics (Ivan Herman, RDF 1.1 Primer)Google Rich Snippets imageYahoo SearchMonkey cc-imageYahoo SearchMonkey product-imageLinked Open VocabulariesÌBM WatsonInternet Map"Yet another view from the ArtScience Museum" by William Cho