linked open data · 2017-02-09 · linked open dataで 広がる データ統合 萩野達也...
TRANSCRIPT
LINKED OPEN DATAで
広がるデータ統合
萩野 達也
慶應義塾大学 環境情報学部
World Wide Web Consortium
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAとは
Web技術を用いてデータを公開する
データが結びつく
さまざまな利用が可能になる
2
データ
Web空間
公開
データデータ
利用 問い合わせ
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
アプリケーション
WEBとインターネット
Webはインターネットのキラーアプリケーションインターネットはネットワークをつなぐことが主
Webはインターネット上でコンテンツを提供する
あらゆるサービスがWeb上で提供されている一般情報(ニュース,天気,新聞,雑誌)
企業情報(企業宣伝,製品紹介)コミュニティ情報(SNS)地図情報
オンラインショッピング
ネットバンク,ネットトレーディング
ネットゲーム
音楽・映像の配信・販売
教育コンテンツ3インターネット
Web基盤
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEBの誕生
1989年にスイスジュネーブCERNTim Berners-LeeCERNにおける情報管理のため
4
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEBのPROPOSALInformation Management: A Proposalhttp://www.w3.org/History/1989/proposal.html
提案理由
CERNにおいて情報が失われている
3つの解決案
5
木構造 キーワード ハイパーテキスト
管理しやすいが,現実の関係を表せない
キーワードを前もって決めることができない
自由度が高く,現実の関係を表すことができる
Web = ハイパーテキスト + インターネット
Tim Berners-Lee
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEBの最初の発明
HTMLとCSSWebの記述言語
SGMLを利用
CSSは後に登場
HTTPWebデータの転送
Anonymous FTPを単純化
マルチメディアに対応
URLWeb上の資源を指し示す
ハイパーリンク6
HTML
CSS
+
HTTP0.8
HTTP1.0
HTTP1.1
URL URI IRI
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEBの普及
無料にしたGopherはライセンスの問題で普及しなかった(?)
オープンなシステムだれでもが参加可能
検索ロボットが自動的に追加
厳密さにこだわらなかったリンクが切れていることも容認(404 Not Found)HTMLの文法エラーも多数
標準化への努力IETFWorld Wide Web Consortium
7
ハイパーテキストとしては欠陥
雪だるま式に普及
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEBの2つの目的
8
人と人とのコミュニケーション
• 人と人とのコミュニケーションを円滑にする
• いつでも,だれでも,どこからでも情報を手に入れることができる
• だれでもが情報発信できる
人と機械のコミュニケーション
• 問題解決• Web上の情報を機械的の処理す
る• Webは巨大な知識データベース
文書のWeb データのWeb
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
文書のWEBとデータのWEB
9
HTML
HTML
HTML
HTML
ハイパーリン
ク
ハイパーリン
ク
文書のWeb
RDFデータ
RDFデータ
RDFデータデータのWeb
RDFリンク
RDFリンクRDFリンク
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEB 1.0からWEB 3.0へ
10
1990 2000 2010
Web 1.0 Web 2.0 Web 3.0?
HTMLCSS XML
RDF OWL
AjaxHTTPURL
Web ServicesSNSblog
Social BookmarkLinked DataSPARQLRIF
個人の発信
企業の発信
個人の発信
readwrite
readonly
readwrite
組織内 世界全体
コミュニティ内
知的処理
readwrite
execute
世界全体
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
WEB 1.0からWEB 4.0へ
11
http://www.popxpop.com/archives/2007/02/web40.html© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
データのWEBの作り方
データをWeb上に公開する
統一された形式で公開する
公開されたデータを結びつける
公開されたデータを利用する
12
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
<table><tr><th>時</th><th colspan="19">平日</th>
</tr>...<tr><th>6</th><td>快高<br />02</td><td>11</td><td>19</td><td>快籠<br />27</td><td>34</td>....
</tr>....
</table>
HTMLによるデータの公開
時刻表HTML
13
http://www.jreast-timetable.jp/© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
XMLによるデータの公開
<?xml version="1.0" encoding="Shift_JIS"?><timetable>
<station name="辻堂"><line name="東海道" dir="上り" week="平日">
<train at="6:02" dest="高崎" kind="快速" /><train at="6:11" /><train at="6:19" /><train at="6:27" dest="籠原" kind="快速" />...<train at="6:62" kind="湘南ライナー" />...
</line>...
</station>...
</timetable>
機械的な処理が可能
DTDを決めておく必要がある
複数の形式で記述可能駅を軸に記述
列車を軸に記述14
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
より柔軟な記述
辻堂
東海道
列車1234
6:02
駅集合列車集合
藤沢
6:06
列車7890
終点
停車駅停車駅
発車
発車
列車駅
東京
路線集合小田急
江ノ電 15
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDF
Resource Description Frameworkデータの記述形式
ラベル付き有効グラフ
3つ組を基本とする
主語,述語はURI目的語は文字列またはURI
16
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:dc="http://purl.org/dc/elements/1.1/"xmlns:foaf="http://xmlns.com/foaf/0.1/">
<rdf:Description about="http://www.w3.org/abc.html"><dc:creator rdf:resource="http://www.w3.org/People/123"/>
</rdf:Description>
<rdf:Description about="http://www.w3.org/People/123"><foaf:name>萩野</foaf:name><foaf:mbox>[email protected]</foaf:mbox>
</rdf:Description></rdf:RDF>
RDFの例
http://www.w3.org/abc.html
萩野
creator
http://www.w3.org/People/123
mbox name
RDF/XML
17
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDFデータの表現方法
RDF/XMLXMLによりRDFを表現省略形など複数のXMLが同じRDFを示す
N Triple3つ組をそのまま表したもの
TurtleN Tripleを人が書きやすくしたもの
RDF/JSONJavascriptのオブジェクトの形式
18
<http://www.w3.org/abc.html> <http://purl.org/dc/elements/1.1/creator> <http://www.w3.org/People/123> .<http://www.w3.org/People/123> <http://xmlns.com/foaf/0.1/name> "萩野" .<http://www.w3.org/People/123> <http://xmlns.com/foaf/0.1/mbox> "[email protected]" .
@prefix dc: <http://purl.org/dc/elements/1.1/> .@prefix foaf: <http://xmlns.com/foaf/0.1/> .@prefix : <http://www.w3.org/>:abc.html dc:creator :People/123 .:People/123 foaf:name "萩野" .:People/123 foaf:mbox "[email protected]" .
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDFの利用
RSS 0.9 & 1.0RDF Site Summaryニュースの更新情報
FOAFFriend Of A Friend人物情報や人間関係の記述
http://xmlns.com/foaf/spec/
Microformats & RDFaHTMLにメタデータを埋め込む
GRDDLを使ってRDFを抽出 19
<rdf:RDF xmlns="http://purl.org/rss/1.0/"xmlns:dc="http://purl.org/dc/elements/1.1/"xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/">
<channel rdf:about="http://www3.asahi.com/"><title>asahi.com</title><link>http://www.asahi.com/</link><description>アサヒ・コム</description><dc:date>2009-07-26T14:50:42+09:00</dc:date><items>
<rdf:Seq><rdf:li rdf:resource="http://www.asahi.com/national/update/0726/SEB200907260008.html"/><rdf:li rdf:resource="http://www.asahi.com/national/update/0725/TKY200907250005.html"/>....
</rdf:Seq></items>
</channel><item rdf:about="http://www.asahi.com/national/update/0726/SEB200907260008.html">
<title>民家に土砂、男性埋まる 救助隊の呼びかけに応答 福岡</title><link>http://rss.asahi.com/click.phdo?i=7512da0f96b88b42370e97f15c9bfc9d</link><description>記事の中身</description>
</item>....
</rdf:RDF>
<div class="vcard"><span class="fn">萩野 達也</span><span class="adr"><span class="type">work</span>:<span class="postal-code">253-8520</span><span class="region">神奈川県</span><span class="locality">藤沢市</span><span class="street-address">遠藤5322</span>
</span><span class="tel"><span class="type">work</span>:<a href="tel:0466-49-3446" class="value">0466-49-3446></a>
</span></div>
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDFの特徴
URIを用いている
Web上の全てのものはURIを持つ
URIはコンテキストに依らず同じものを指す
URIはグローバル
述語もURIである
どのような語彙でデータを記述するかは記述者の自由
URIにより語彙を区別する
20
http://www.w3.org/abc.html
http://purl.org/dc/elements/1.1/creator
http://www.w3.org/People/123
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDF関連技術
RDFストアRDFデータの格納庫
RDFスクレイパーWebページなどからRDFデータを抽出
RDFコンバータ既存のデータをRDFに変換する
SPARQLRDFデータベースに対する問い合わせ言語
RDF Schema, OWLRDFの語彙の定義
RIF規則の記述
21
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
問い合わせ
RDFデータの利用
RDF問い合わせ言語(SPARQL)グラフ構造のRDFデータからURIやリテラル値などの情報やサブグラフを取得
RDFと合わせプロセッサ
(セマンティックWebのミド
ルウェア)
アプリケーションプログラム
RDFデータベース
APIhttp://www.example.../swbook
http://www.example.../swbook セマンティックWeb入門
dc:title
SELECT ?title
WHERE
dc:title
dc:creator 藤沢太郎
?title
クエリとデータベース中のRDFのグラフ構
造がマッチ
問い合わせの結果
変数titleの値としてリテラル値:セマンティックWeb入門が返される
22
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
SPARQL問い合わせSELECT節
値を取得したい変数の名前を記述
WHERE節変数を含んだグラフパターン(トリプルパターン)
@prefix foaf: <http://xmlns.com/foaf/0.1/> . _:a foaf:name "Johnny Lee Outlaw" . _:a foaf:mbox <mailto:[email protected]> . _:b foaf:name "Peter Goodguy" . _:b foaf:mbox <mailto:[email protected]> .
PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name, ?mbox WHERE { ?x foaf:name ?name .?x foaf:box ?mbox }
データ
クエリ
name mbox"Johnny Lee Outlaw" <mailto:[email protected]>
"Peter Goodguy" <mailto:[email protected]>クエリ結果
変数
トリプルパターン
23
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
RDFデータを結びつける
URIを用いる
Web上の全てのものはURIを持つ
同じURIは同じものを表す
異なるURIの場合
だれもが自由にURIを使ってよい
同じものであることが分かった時にsameAsで結ぶ
24
http://data.linkedmdb.org/resource/film/77
http://dbpedia.org/resource/Pulp_Fiction%28film%29
http://www.w3.org/2002/07/owl#sameAs
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED DATAシステムアーキテクチャ
25
RDFストア 既存データベース
Linked Data公開ツール
SPARQLエンドボイント
RDFダンプ
Linked Open Dataクラウド
Linked Data公開 Linked Data利用アプリケーション
Query Engine
統合RDFストア
RDFファイル
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAとしてのデータ公開
RDFを使ってデータを公開するRDFデータをそのままRDF/XMLやN Tripleとして公開SPARQLエンドポイントを公開
URIとしてHTTP URIを用いるそのURIに関してHTTPで問い合わせができるHTTPはRDFによるそのオブジェクトに関する情報を返す
Web上の他の情報源にRDFでリンクするRDFリンクによりデータのWeb全体をたどることができるようにするsameAsにより同一のオブジェクトを指し示すURIを結びつける
公開するデータにメタデータを付与公開されたデータの質を評価複数のデータソースから選択 26
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAクラウド
27
2007/5/12007/11/7 2008/3/31
2009/3/27 2010/9/22
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATA クラウド 2011/9/19
28
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.html© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAクラウドの構成
分野
メディア
地理
出版
ユーザ生成コンテンツ
政府
クロスドメイン
生命科学
ハブを介してリンクされているDBPediaGeoNames 29
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
DBPEDIA
Wikipediaのinfoboxをデータ化したもの
http://dbpedia.org/約370万のオブジェクトに関する情報
30
infobox
DBpedia
Wikipedia
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
メディアデータの例
各メディアが持つデータをLODにより統合
New York Timeshttp://data.nytimes.com/記事見出しのタグ(人名・組織名・地名)
BBC番組情報(BBC/Program)音楽情報(BBC/Music)
DBpedia人名・組織名・地名
31DBpediaDBpedia
New York
Times
New York
TimesBBCBBC
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
生命科学データの例
Linked Open Drug Data (LODD)http://www.w3.org/wiki/HCLSIG/LODD
32
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
政府データの例
オープンガバメントの3原則Transparency(透明性)Participation(国民参加)Collaboration(政府間および官民の連携・協業)
アメリカ政府data.gov地理・福祉・経済・統計の38万種類のRawデータの提供1084の政府作成アプリケーション236の国民が作ったアプリケーション51のモバイルアプリ
イギリス政府data.gov.ukRDFによるデータ公開に積極的174のアプリケーション
日本政府オープンガバメントラボopenlabs.go.jp 33
人口密度×家庭の収入の中央値
DataMasher
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAの特徴
データの特徴どのようなデータでも扱うことができる
だれでもがWeb上にデータを公開できる
データを表現するための語彙は自由に選んでよい
情報源間のRDFリンクによりグローバルなデータを作ることができる
アプリケーションの特徴データは表現形式から分離されている
データ自身の説明はデータ自身が行っている
分からない語彙はそのURIをたどればよい
RDFとHTTPによる統一されたデータモデルを持つ
複雑なWeb APIを用いなくてもよい
データはオープンであり、常に新しい情報が付け加えられる 34
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAの薦め
http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/★
どんな形式であれオープンライセンスで公開する画像でも構わない
★★構造化されたデータを用いるExcelのデータでも良い
★★★オープンなデータ形式を用いるCSVを使う
★★★★URIを用いる他の人が参照可能になる
★★★★★他のデータにリンクする関連するデータを得ることができる 35
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
LINKED OPEN DATAによるデータ統合
36
アプリケーション
RDFとして公開
データ
データ
データ相互にリンク
アプリケーション
複数の情報源を利用
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本
日本でのLINKED OPEN DATAライフサイエンス統合データベースプロジェクト
http://togows.dbcls.jp/
理化学研究所SciNetShttps://database.riken.jp/
国立国会図書館NDLSHhttp://id.ndl.go.jp/auth/ndlsh
国立情報学研究所CiNiiおよびKakenhttp://ci.nii.ac.jp/http://kaken.nii.ac.jp/
lod.ac美術館・博物館情報
37
© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本