linked open data · 2017-02-09 · linked open dataで 広がる データ統合 萩野達也...

38
LINKED OPEN DATA広がる データ統合 萩野 達也 慶應義塾大学 環境情報学部 World Wide Web Consortium © 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

Upload: others

Post on 10-Apr-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

LINKED OPEN DATAで

広がるデータ統合

萩野 達也

慶應義塾大学 環境情報学部

World Wide Web Consortium

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAとは

Web技術を用いてデータを公開する

データが結びつく

さまざまな利用が可能になる

2

データ

Web空間

公開

データデータ

利用 問い合わせ

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

アプリケーション

WEBとインターネット

Webはインターネットのキラーアプリケーションインターネットはネットワークをつなぐことが主

Webはインターネット上でコンテンツを提供する

あらゆるサービスがWeb上で提供されている一般情報(ニュース,天気,新聞,雑誌)

企業情報(企業宣伝,製品紹介)コミュニティ情報(SNS)地図情報

オンラインショッピング

ネットバンク,ネットトレーディング

ネットゲーム

音楽・映像の配信・販売

教育コンテンツ3インターネット

Web基盤

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEBの誕生

1989年にスイスジュネーブCERNTim Berners-LeeCERNにおける情報管理のため

4

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEBのPROPOSALInformation Management: A Proposalhttp://www.w3.org/History/1989/proposal.html

提案理由

CERNにおいて情報が失われている

3つの解決案

5

木構造 キーワード ハイパーテキスト

管理しやすいが,現実の関係を表せない

キーワードを前もって決めることができない

自由度が高く,現実の関係を表すことができる

Web = ハイパーテキスト + インターネット

Tim Berners-Lee

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEBの最初の発明

HTMLとCSSWebの記述言語

SGMLを利用

CSSは後に登場

HTTPWebデータの転送

Anonymous FTPを単純化

マルチメディアに対応

URLWeb上の資源を指し示す

ハイパーリンク6

HTML

CSS

+

HTTP0.8

HTTP1.0

HTTP1.1

URL URI IRI

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEBの普及

無料にしたGopherはライセンスの問題で普及しなかった(?)

オープンなシステムだれでもが参加可能

検索ロボットが自動的に追加

厳密さにこだわらなかったリンクが切れていることも容認(404 Not Found)HTMLの文法エラーも多数

標準化への努力IETFWorld Wide Web Consortium

7

ハイパーテキストとしては欠陥

雪だるま式に普及

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEBの2つの目的

8

人と人とのコミュニケーション

• 人と人とのコミュニケーションを円滑にする

• いつでも,だれでも,どこからでも情報を手に入れることができる

• だれでもが情報発信できる

人と機械のコミュニケーション

• 問題解決• Web上の情報を機械的の処理す

る• Webは巨大な知識データベース

文書のWeb データのWeb

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

文書のWEBとデータのWEB

9

HTML

HTML

HTML

HTML

ハイパーリン

ハイパーリン

文書のWeb

RDFデータ

RDFデータ

RDFデータデータのWeb

RDFリンク

RDFリンクRDFリンク

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEB 1.0からWEB 3.0へ

10

1990 2000 2010

Web 1.0 Web 2.0 Web 3.0?

HTMLCSS XML

RDF OWL

AjaxHTTPURL

Web ServicesSNSblog

Social BookmarkLinked DataSPARQLRIF

個人の発信

企業の発信

個人の発信

readwrite

readonly

readwrite

組織内 世界全体

コミュニティ内

知的処理

readwrite

execute

世界全体

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

WEB 1.0からWEB 4.0へ

11

http://www.popxpop.com/archives/2007/02/web40.html© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

データのWEBの作り方

データをWeb上に公開する

統一された形式で公開する

公開されたデータを結びつける

公開されたデータを利用する

12

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

<table><tr><th>時</th><th colspan="19">平日</th>

</tr>...<tr><th>6</th><td>快高<br />02</td><td>11</td><td>19</td><td>快籠<br />27</td><td>34</td>....

</tr>....

</table>

HTMLによるデータの公開

時刻表HTML

13

http://www.jreast-timetable.jp/© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

XMLによるデータの公開

<?xml version="1.0" encoding="Shift_JIS"?><timetable>

<station name="辻堂"><line name="東海道" dir="上り" week="平日">

<train at="6:02" dest="高崎" kind="快速" /><train at="6:11" /><train at="6:19" /><train at="6:27" dest="籠原" kind="快速" />...<train at="6:62" kind="湘南ライナー" />...

</line>...

</station>...

</timetable>

機械的な処理が可能

DTDを決めておく必要がある

複数の形式で記述可能駅を軸に記述

列車を軸に記述14

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

より柔軟な記述

辻堂

東海道

列車1234

6:02

駅集合列車集合

藤沢

6:06

列車7890

終点

停車駅停車駅

発車

発車

列車駅

東京

路線集合小田急

江ノ電 15

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDF

Resource Description Frameworkデータの記述形式

ラベル付き有効グラフ

3つ組を基本とする

主語,述語はURI目的語は文字列またはURI

16

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:dc="http://purl.org/dc/elements/1.1/"xmlns:foaf="http://xmlns.com/foaf/0.1/">

<rdf:Description about="http://www.w3.org/abc.html"><dc:creator rdf:resource="http://www.w3.org/People/123"/>

</rdf:Description>

<rdf:Description about="http://www.w3.org/People/123"><foaf:name>萩野</foaf:name><foaf:mbox>[email protected]</foaf:mbox>

</rdf:Description></rdf:RDF>

RDFの例

http://www.w3.org/abc.html

萩野

creator

http://www.w3.org/People/123

[email protected]

mbox name

RDF/XML

17

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDFデータの表現方法

RDF/XMLXMLによりRDFを表現省略形など複数のXMLが同じRDFを示す

N Triple3つ組をそのまま表したもの

TurtleN Tripleを人が書きやすくしたもの

RDF/JSONJavascriptのオブジェクトの形式

18

<http://www.w3.org/abc.html> <http://purl.org/dc/elements/1.1/creator> <http://www.w3.org/People/123> .<http://www.w3.org/People/123> <http://xmlns.com/foaf/0.1/name> "萩野" .<http://www.w3.org/People/123> <http://xmlns.com/foaf/0.1/mbox> "[email protected]" .

@prefix dc: <http://purl.org/dc/elements/1.1/> .@prefix foaf: <http://xmlns.com/foaf/0.1/> .@prefix : <http://www.w3.org/>:abc.html dc:creator :People/123 .:People/123 foaf:name "萩野" .:People/123 foaf:mbox "[email protected]" .

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDFの利用

RSS 0.9 & 1.0RDF Site Summaryニュースの更新情報

FOAFFriend Of A Friend人物情報や人間関係の記述

http://xmlns.com/foaf/spec/

Microformats & RDFaHTMLにメタデータを埋め込む

GRDDLを使ってRDFを抽出 19

<rdf:RDF xmlns="http://purl.org/rss/1.0/"xmlns:dc="http://purl.org/dc/elements/1.1/"xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/">

<channel rdf:about="http://www3.asahi.com/"><title>asahi.com</title><link>http://www.asahi.com/</link><description>アサヒ・コム</description><dc:date>2009-07-26T14:50:42+09:00</dc:date><items>

<rdf:Seq><rdf:li rdf:resource="http://www.asahi.com/national/update/0726/SEB200907260008.html"/><rdf:li rdf:resource="http://www.asahi.com/national/update/0725/TKY200907250005.html"/>....

</rdf:Seq></items>

</channel><item rdf:about="http://www.asahi.com/national/update/0726/SEB200907260008.html">

<title>民家に土砂、男性埋まる 救助隊の呼びかけに応答 福岡</title><link>http://rss.asahi.com/click.phdo?i=7512da0f96b88b42370e97f15c9bfc9d</link><description>記事の中身</description>

</item>....

</rdf:RDF>

<div class="vcard"><span class="fn">萩野 達也</span><span class="adr"><span class="type">work</span>:<span class="postal-code">253-8520</span><span class="region">神奈川県</span><span class="locality">藤沢市</span><span class="street-address">遠藤5322</span>

</span><span class="tel"><span class="type">work</span>:<a href="tel:0466-49-3446" class="value">0466-49-3446></a>

</span></div>

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDFの特徴

URIを用いている

Web上の全てのものはURIを持つ

URIはコンテキストに依らず同じものを指す

URIはグローバル

述語もURIである

どのような語彙でデータを記述するかは記述者の自由

URIにより語彙を区別する

20

http://www.w3.org/abc.html

http://purl.org/dc/elements/1.1/creator

http://www.w3.org/People/123

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDF関連技術

RDFストアRDFデータの格納庫

RDFスクレイパーWebページなどからRDFデータを抽出

RDFコンバータ既存のデータをRDFに変換する

SPARQLRDFデータベースに対する問い合わせ言語

RDF Schema, OWLRDFの語彙の定義

RIF規則の記述

21

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

問い合わせ

RDFデータの利用

RDF問い合わせ言語(SPARQL)グラフ構造のRDFデータからURIやリテラル値などの情報やサブグラフを取得

RDFと合わせプロセッサ

(セマンティックWebのミド

ルウェア)

アプリケーションプログラム

RDFデータベース

APIhttp://www.example.../swbook

http://www.example.../swbook セマンティックWeb入門

dc:title

SELECT ?title

WHERE

dc:title

dc:creator 藤沢太郎

?title

クエリとデータベース中のRDFのグラフ構

造がマッチ

問い合わせの結果

変数titleの値としてリテラル値:セマンティックWeb入門が返される

22

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

SPARQL問い合わせSELECT節

値を取得したい変数の名前を記述

WHERE節変数を含んだグラフパターン(トリプルパターン)

@prefix foaf: <http://xmlns.com/foaf/0.1/> . _:a foaf:name "Johnny Lee Outlaw" . _:a foaf:mbox <mailto:[email protected]> . _:b foaf:name "Peter Goodguy" . _:b foaf:mbox <mailto:[email protected]> .

PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name, ?mbox WHERE { ?x foaf:name ?name .?x foaf:box ?mbox }

データ

クエリ

name mbox"Johnny Lee Outlaw" <mailto:[email protected]>

"Peter Goodguy" <mailto:[email protected]>クエリ結果

変数

トリプルパターン

23

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

RDFデータを結びつける

URIを用いる

Web上の全てのものはURIを持つ

同じURIは同じものを表す

異なるURIの場合

だれもが自由にURIを使ってよい

同じものであることが分かった時にsameAsで結ぶ

24

http://data.linkedmdb.org/resource/film/77

http://dbpedia.org/resource/Pulp_Fiction%28film%29

http://www.w3.org/2002/07/owl#sameAs

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED DATAシステムアーキテクチャ

25

RDFストア 既存データベース

Linked Data公開ツール

SPARQLエンドボイント

RDFダンプ

Linked Open Dataクラウド

Linked Data公開 Linked Data利用アプリケーション

Query Engine

統合RDFストア

RDFファイル

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAとしてのデータ公開

RDFを使ってデータを公開するRDFデータをそのままRDF/XMLやN Tripleとして公開SPARQLエンドポイントを公開

URIとしてHTTP URIを用いるそのURIに関してHTTPで問い合わせができるHTTPはRDFによるそのオブジェクトに関する情報を返す

Web上の他の情報源にRDFでリンクするRDFリンクによりデータのWeb全体をたどることができるようにするsameAsにより同一のオブジェクトを指し示すURIを結びつける

公開するデータにメタデータを付与公開されたデータの質を評価複数のデータソースから選択 26

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAクラウド

27

2007/5/12007/11/7 2008/3/31

2009/3/27 2010/9/22

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATA クラウド 2011/9/19

28

http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.html© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAクラウドの構成

分野

メディア

地理

出版

ユーザ生成コンテンツ

政府

クロスドメイン

生命科学

ハブを介してリンクされているDBPediaGeoNames 29

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

DBPEDIA

Wikipediaのinfoboxをデータ化したもの

http://dbpedia.org/約370万のオブジェクトに関する情報

30

infobox

DBpedia

Wikipedia

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

メディアデータの例

各メディアが持つデータをLODにより統合

New York Timeshttp://data.nytimes.com/記事見出しのタグ(人名・組織名・地名)

BBC番組情報(BBC/Program)音楽情報(BBC/Music)

DBpedia人名・組織名・地名

31DBpediaDBpedia

New York

Times

New York

TimesBBCBBC

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

生命科学データの例

Linked Open Drug Data (LODD)http://www.w3.org/wiki/HCLSIG/LODD

32

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

政府データの例

オープンガバメントの3原則Transparency(透明性)Participation(国民参加)Collaboration(政府間および官民の連携・協業)

アメリカ政府data.gov地理・福祉・経済・統計の38万種類のRawデータの提供1084の政府作成アプリケーション236の国民が作ったアプリケーション51のモバイルアプリ

イギリス政府data.gov.ukRDFによるデータ公開に積極的174のアプリケーション

日本政府オープンガバメントラボopenlabs.go.jp 33

人口密度×家庭の収入の中央値

DataMasher

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAの特徴

データの特徴どのようなデータでも扱うことができる

だれでもがWeb上にデータを公開できる

データを表現するための語彙は自由に選んでよい

情報源間のRDFリンクによりグローバルなデータを作ることができる

アプリケーションの特徴データは表現形式から分離されている

データ自身の説明はデータ自身が行っている

分からない語彙はそのURIをたどればよい

RDFとHTTPによる統一されたデータモデルを持つ

複雑なWeb APIを用いなくてもよい

データはオープンであり、常に新しい情報が付け加えられる 34

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAの薦め

http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/★

どんな形式であれオープンライセンスで公開する画像でも構わない

★★構造化されたデータを用いるExcelのデータでも良い

★★★オープンなデータ形式を用いるCSVを使う

★★★★URIを用いる他の人が参照可能になる

★★★★★他のデータにリンクする関連するデータを得ることができる 35

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

LINKED OPEN DATAによるデータ統合

36

アプリケーション

RDFとして公開

データ

データ

データ相互にリンク

アプリケーション

複数の情報源を利用

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

日本でのLINKED OPEN DATAライフサイエンス統合データベースプロジェクト

http://togows.dbcls.jp/

理化学研究所SciNetShttps://database.riken.jp/

国立国会図書館NDLSHhttp://id.ndl.go.jp/auth/ndlsh

国立情報学研究所CiNiiおよびKakenhttp://ci.nii.ac.jp/http://kaken.nii.ac.jp/

lod.ac美術館・博物館情報

37

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本

まとめ

Linked Open Dataによるデータ公開とデータ統合

RDFの利用

http URIの利用

RDF linkで外部データと結ぶ

Linked Open Dataチャレンジ2011コンテストを通してLinked Open Dataの普及を目指す

http://lod.sfc.keio.ac.jp/challenge2011/

38

© 2011萩野 達也(慶應義塾大学) licensed under CC表示2.1日本