lodac プロジェクト 中間発表会 資料

45
Linked Open Data for ACademia LODAC Project - 学学学学学学学学学学学学学学 学学学学学学 学学学学学学学 ・・ Web 学学学学学 - 学学学学 [email protected] 学学学学学学学学 Linked Data 学学学学学学学学学学学学学 学学 学学学学学学学学 学学学学学学学学学学学 学学学学学学学学学学 学学学学学学学学学学学学学学 学学学学学 「・」 2012 学 12 学 10 学

Upload: hideaki-takeda

Post on 15-Jan-2015

1.192 views

Category:

Technology


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Project- 学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 -

武田英明[email protected]

国立情報学研究所

Linked Data でつくる新しいデータの世界

情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」プロジェクト 中間報告会2012 年 12 月 10 日

Page 2: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia本プロジェクトの狙い

• Linked Data によるデータ共有を実現する仕組みを確立する– 実践による探求:実際にデータをつくる

• サービス化、サービス提供• 経験の蓄積と方法論化• 問題の洗い出しと解決

Page 3: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Linked Data

• Tim Berners-Lee が提唱する新しいデータ共有の仕組み– これまでの Web :文書の Web (Web of

Documents)– Linked Data: データの Web (Web of Data)

• 孤立したデータの島から世界でつながるデータのcloud へ

Page 4: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia文書の Web

Page 5: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaデータの Web

このデータに対応する別のデータ

このデータに別のデータと同じ

この属性の意味は?

異なるデータ源のデータが相互に結びつく

Page 6: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Linked Data の記述のしかた• RDF(+RDFS, OWL) の利用

– 簡便な記述方法: < 主語 > < 述語 > < 目的語 > .

<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “ 武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://foaf.me/danbri#me> .

<http://www-kasm.nii.ac.jp/~takeda#me>

<http://foaf.me/danbri#me>

foaf:knows

foaf:Person

rdfs:type

“ 武田英明” “male”

foaf:name foaf:gender

Page 7: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Linked Open Data (LOD)• オープンでリンクできるデータ

– 今の Web が“文書の Web” 、 LOD は“データのWeb”

• Linked   Data の5原則– 事柄の名前に URI を使うこと– 名前の参照が HTTP URI でできること– URI を参照したときに関連情報が手に入るように

理解可能なデータを提供– 外部へのリンクも含めよう

(必ずしもオープンとは限らない⇒ Linked Data )

Page 8: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LOD Cloud: 相互リンクがある 200 以上のデータセット

世界における LOD への取り組み

Page 9: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaBio2rdf

Page 10: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia本プロジェクトの成果

• 美術館・博物館データの LOD 化による統合 (LODAC MUSEUM)

• 生物種データの LOD 化による統合(LODAC SPECIES)

• 関係するデータ、ソフトウエアの構築– 地理データ  (LODAC LOCATION)– DBpedia   Japanese– CKAN 日本語化

Page 11: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

本プロジェクトでの構築した DB

LODAC SPECIES: 種名をベースに多様な DB をリンクで接続

博物館標本

DB

種情報DB

Taxon Name DBGBIF BioSci.

DB

個別研究

DB

名前数:     113118トリプル数: 14,532,449

Data from Source BIntegrated data

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creatordc:creator

crm:P55_has_current_location

crm:P55_has_current_location

crm:P55_has_current_locationdc:creator

Data from Source AWork

Museum

Creator

Minimum Data to identify entitiesRaw Data for entities Raw Data for entities

LODAC Museum: 博物館・美術館のデータの LOD

検索拡張アプリ

CKAN ( 日本語 ): データセット登録レジストリ

DBPedia Japanese

LODAC Location: 位置情報統合

Page 12: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Linked Data に基づくデータ処理

• 収集: RDB 等からの変換、 Web スクレイピング

• 洗練:スキーマ定義、スキーマに基づく変換

• 統合:スキーママッピング、 ID マッピング

• 公開: RDF データ公開、 SPARQL エンドポイント

• 利用:データマッシュアップアプリケーション

収集 洗練 統合 公開 利用

RDFほとんどの処理は RDFで行われる

Page 13: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Museum

• Linked Data によるデータ処理のテストベッド

• 美術館・博物館情報の特徴– 分散性:国内だけでも 6,000– 大規模性:それぞれが 102~ 104 のデータ– スキーマの統一性と多様性:一定の標準+ α– 統合可能性:作者、作品、場所、モチーフなど– リンク性:様々な分野の他のデータとのリン

クの可能性

Linked Data による技術的実験、課題解決

Page 14: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Museum

• 国内の美術館の収集公開品に関する DB– 現在

• トリプル数: 40,059,131

– 館数: 114• 博物館 Web サイトからのコレクション情報• サイエンスミュージアムネットからの標本情報

• 作者、施設等によるデータ統合• RDF によるデータ公開• いくつかのアプリケーション

Page 15: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaWeb サイトから収集した情報の RDF 化の効

率化

属性 属性値

{ "institution": "iwate_art_museum", “segment": "20110516142455", "digest": "c9d1c62a480d8d80005a24583ec1fb12", " 作品分類 ": " 彫刻等 [ 金属 ]", "tstamp": "20110516052459778", " 作品名 ": " 三人の妖精 ( さんにんのようせい )", "anchor": "004790001_sakuhin.html", "title": " 岩手県立美術館 日本語版 ", “ “institutionalId": "004790001_sakuhin",  …     ・・・ " 技法/材質 ": " /ブロンズ/ ", " 作家名 ": " アリスティード・マイヨール“}

属性・属性値( JSON)

RDF 生成

RDF

subject: 自動生成した URI

predicate: 属性にマッピングしたプロパティ

object: 属性値

コレクション全体のプロパティ

コレクションごとのマッピングルール

変換処理とマッピングルールの考案を分離

博物館 Web サイト

スクレイピング( Apache Solr )

マッピングルール( JSON )

{ "meta": { "institutionalURI": "http://lod.ac/id/8144", "institutionalName": "岩手県立美術館 ", "dc:source": "http://www.ima.or.jp", "dc:rights": "岩手県立美術館 " }, "rules": { "lodac:genre": [ { "name": "作品分類 " } ], "dc:title": [ { "name": "作品名 ", ”lang": "ja", ・・・ ], "dc:created": [ { "name": "制作年 " } ], "dc11:creator": [ { "name": "作家名 ", "lang": "ja" } ], ......}

ルール考案

専門知識を有するユーザ

<http://lod.ac/ref/821708>  <http://lod.ac/ns/lodac#genre> "彫刻等 [金属 ]" ;  <http://purl.org/dc/elements/1.1/creator> " アリスティード・マイヨール "@ja ;  <http://purl.org/dc/terms/created> "1937 年 " ;  <http://purl.org/dc/terms/extent> "高さ 158.0" ;  <http://purl.org/dc/terms/isReferencedBy> <http://lod.ac/id/821708> ;  <http://purl.org/dc/terms/medium> "/ブロンズ /"@ja ;  <http://purl.org/dc/terms/rights> "岩手県立美術館 " ;

収集

Page 16: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaメタデータ設計

• 基本構造– 作品 – 作者 – 収蔵館

• 専門的正確さより相互運用可能性、簡便性を優先– DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM– できるだけフラット構造

PREFIX URI crm http://purl.org/NET/cidoc-crm/core#

dc http://purl.org/dc/terms/

dc11 http://purl.org/dc/elements/1.1/

foaf http://xmlns.com/foaf/0.1/

skos http://www.w3.org/2004/02/skos/core#

rdfs http://www.w3.org/2000/01/rdf-schema#

ical http://www.w3.org/2002/12/cal/ical#

rda2 http://RDVocab.info/ElementsGr2

lodac http://lod.ac/ns/lodac#

lodac:Work Property(一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of

メタデータ要素作品 :   46作者 :   23組織:  13書誌:  12

洗練

Page 17: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia統合のポリシー

• どうやって異なる情報源の情報を統合するか –責任の分担

• 各情報源はその情報に対する責任 – LODAC は単に ID を同定して管理。

• LODAC は統合の部分だけの責任– LODAC ID を各情報源 ID に関連づける

Data from Source B

17

Integrated data

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creatordc:creator

crm:P55_has_current_location crm:P55_has_current_location

crm:P55_has_current_location dc:creator

Data from Source A

Work

Museum

Creator

統合

Page 18: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia例:作者情報の統合

• 作者情報統合の手順– 統合元:日本美術シソーラス絵画編– 統合対象:各情報源データ中の作者情報– 統合元:文字列マッチング– 作品情報中の作者と作者ノードを関連づける

LODAC data

Link to Work

DBpedia

Basic Information for Creators

Links

統合

Page 19: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

19

データ統合

情報源 情報種別 データ数

国立美術館 (西美を除く 3 館 ) 作品 25180

国立西洋美術館 作品 4373

京都国立博物館 作品 5819

奈良国立博物館 作品 431

福島県立美術館 作品 20

栃木県立美術館 作品 32

秋田県立近代美術館 作品 22

岩手県立美術館 作品 1558

徳島県立近代美術館 作品 18482

山梨県立美術館 作品 262

東京都現代美術館 作品 5416

香川県立東山魁夷せとうち美術館 作品 266

日本美術シソーラス DB 作品 3800

日本美術シソーラス DB 人物 1332

日本美術シソーラス DB グループ 289

日本美術シソーラス DB 所蔵館情報 648

文化遺産オンライン 所蔵館情報 915

国指定文化財データベース 作品 10115

合計 103096

総データ数 特定項目キーの単純文字列統合実験結果

統合項目 情報源 データ数 統合数

所蔵館名 日本美術シソーラス 648 77

文化遺産オンライン 915

国宝・重文資料タイトル

日本美術シソーラス (作品 )

3800 74

国指定文化財 DB(作品 ) 10115

作者名による資料タイトル

日本美術シソーラス (人物 )

1332 15020

各館 (作品 ) 61861

作者名 日本美術シソーラス (人物 )

1332 615

各館 (作品 ) 61861

「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった

「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出

統合

Page 20: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaデータ公開

• RDF 公開– 参照解決可能なかたちでの公開

• SPARQL アクセス– SPARQL エンドポイント

公開

Page 21: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Name of creator

LODAC ID and associated Ref-Resource IDs

作者ページの例公開

Page 22: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

公開

Page 23: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaLinked Data の利用

- Yokohama Art Spot -

• 博物館情報と横浜の地域情報の LOD を連携した Web アプリケーション

• 横浜市内のアート関連情報– 施設情報– イベント情報– 収蔵品情報(一部の施設のみ)– Q&A 情報

LODAC Museum   ×  横浜 LOD   ×  PinQA

(博物館情報)(地域情報)

http://lod.ac/apps/yas/

利用

スポット情報

Page 24: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

施 設

ユーザYokohama Art Spot

RDFストア

SPARQLエンドポイント

RDFストア

SPARQLエンドポイント

XML

SPARQL

LODAC Museum

横浜 LOD

作品

所蔵館

アーティスト

アーティスト

施設

イベント

Yokohama Art Spot の構成

全体マップ表示における処理

施設

イベント

HTMLJavaScriptPythonSPARQLWrapper

OWLIM SE

ARC2

RDFストア

SPARQLエンドポイント

PinQA

質問

回答

ユーザ

SPARQL

JSON

SPARQL

JSON

D2R

スポット

Page 25: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

•施設名•アクセス

•ジャンル•休館日•住所•周辺地図

イベント情報(タイムライン表示)

イベント情報(リスト表示)

すべて横浜 LODのデータを使用

利用

Page 26: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

標準化された形式で記述

ユーザに適した表示が簡単に実現可能

利用

Page 27: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

施設情報ページにおける情報取得と表示

所蔵品情報(リスト表示)

所蔵品の提示・リンクはLODAC Museum から取得

横浜 LODだけでは不可能な情報探索が実現可能

利用

Page 28: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Species

• 生物多様性情報の Linked Data 化• 特徴

– 分散性:多数の DB• 分子生物学から生態学まで• 個別の種ごと、個別の関心ごと

– 大規模性:– スキーマの統一性と多様性

• 一定の統一性(学名など)、分野固有データ– 統合可能性:種やタクソンは共有– リンク性:多様な分野とのつながり

• 他の科学(極域科学、バイオミメティクス)• 市民科学• 教育

Page 29: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia生物多様性情報

• 種名情報– 生物名の目録の情報

• 分布情報– 標本や観察記録などの情報

• 種情報– 生物種の特徴を示す情報

学名: Papilio xuthus和名:ナミアゲハ界名:動物界門名:節足動物門綱名:昆虫綱目名:鱗翅目科名:アゲハチョウ科標本所蔵館:茨城自然博物館

Page 30: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

Photo of Papilio xuthus: 北九州市立自然史・歴史博物館

Papilio xuthus

標本種の同定

採集者

採集場所

命名

文献

言及

著者

シーケンス

著者

種情報

Papilio

上位 / 下位タクソン

文献

Page 31: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia生物種情報の現状

種名情報

分子情報Encyclopedia of Life

サイエンスミュージアムネット

BOLD

目的に応じて収録する種の範囲が異なる(収録ポリシーの違い:広く/深く/特定の目的/…)

WikipediaWikispecies

NCBI目的に応じて異なるサイ

ト(それぞれに異なる情

報)

相互のリンクは必ずしもあるわけではない

分布・標本情報

種情報

GBIF

Catalogue of LifeSpecies 2000ITIS (Integrated Taxonomic Information System)

Page 32: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia公開されている生物多様性情報

• GBIF : The Global Biodiversity Information Facility– 地球規模生物多様性情報機構– 種名・分布情報

• EoL : Encyclopedia of Life– 種情報

• CoL : Catalogue of Life– 種名情報– 分類群に関する情報

• BOLD : Barcode of Life Data Systems– DNA ・標本情報

• サイエンスミュージアムネット( S-Net )– 標本情報– GBIF と連携– 国立科学博物館が運営

Page 33: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Species

• データベース:辞書、専門図鑑、標本データ• 統合的データモデルの構築とデータ統合

– “ 名前による緩やかな統合”• インターフェース

– HTML• 個別の標本情報を閲覧• 関連する情報をリンク経由で閲覧

– SPARQL endpoint• ある種に関する標本情報の取得など柔軟な検索

• アプリケーション– タクソンを使った検索支援

• CiNii における文献検索• DBCLS におけるデータベースメタデータ検索支援

– GIS を使った可視化

Page 34: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Species

• 統合データベース– 図鑑等の文献

• 生物学辞書 (BDLS): DBCLS が多数の図鑑等から作成したもの

– 生物標本情報

• サイエンスミュージアムネット(国立科学博物館/ JBIF )

– 専門家が管理している DB

• 日本産蝶類和名学名便覧(日本昆虫学会/ JBIF )

• 南極昭和基地周辺の蘚苔類・地衣類・種子植物の標本データ(極地研)

– 蘚苔類 ( 例 :   http://lod.ac/id/2571912  )

– 地衣類 (Lichens) ( 例: http://lod.ac/id/2631214 )

• 動物標本データベース ( 例: http://lod.ac/id/2628412 )

収集

Page 35: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

統合のアプローチ• 種名・分類体系のグラフ• 緩やかに関係を辿れるように• リンクのルーティング

Chinese Swallowtail

Papilio xuthusLinnaeus, 1767

ナミアゲハ

Papilio

Papilio xuthus

Taxonspecies

type

http://eol.org/....

http://www.catalogueoflife.org/...

http://ja.wikipedia.org/....

http://www.ncbi.nlm.nih.gov/...

タクソン名のネットワーク

統合

Page 36: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia統合データモデル

Specimen

rdf:type

species

institutionName

collectedDate

collectionLocality

crm:has_current_location

Bryophytes

TaxonName

ScientificNameCommonName TaxonRank

species

rdfs:subClassOfrdfs:subClassOf

rdf:typerdf:type

hasCommonName

hasScientificName hasSuperTaxon

rdf:type

hasTaxonRank

rdf:type

hasTaxonRank

rdf:type

ButterflyBDLS

dcterms:source

dcterms:publisher

: Named Graph: owl:Class

統合

Page 37: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia統合結果

• トリプル数– 14,532,449

• Taxon names– 443,248

• Scientific name– 226,141

• Common name– 219,865

• hasScientificName property node– 87,160

• hasCommonName property node– 84,610

統合

Page 38: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

LODAC Museum

LODAC Species

S-Net

表示例

http://lod.ac/ref/1674506

公開

Page 39: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia検索支援

公開http://lod.ac/apps/lsdcs

Page 40: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

GIS インタフェース公開

http://dl.dropbox.com/u/22017402/nipr_map.html

Page 41: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia知見

• データベース統合における分野依存性、非依存性の発見– 多くの共通性:

• 名前による統合の有効性と限界• ID付与方針

– 個別性• 学名の扱い、名前のない個物の扱い

• 統合データベースの有効性– 新たなるデータの価値への誘導

Page 42: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia今後の展開

Page 43: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

共有

収集

利用 創造

公開

データ中心科学のためのオープン・データ・ライフサイクル基盤の研究開発

• データ・ライフサイクル– データの生産(創造)から共有、再利用までの循環が重要– このサイクルをいかにシームレス、ボーダレスに実現するか

• オープン・データ・ライフスタイル基盤構築の技術チャレンジ– 利用

• 情報抽出技術– 創造

• オントロジー構築技術• データ統合技術

– 公開・共有• Web技術

– 技術統合化 ・目標 -  領域内データ共有の加速 -  横断的研究の促進

新たな発見、組み合わせ   -   Citizen Science へのアプローチ

Page 44: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademiaオープン・データ・サイクル基盤構築の実

現に向けてのアプローチ

研究デー

研究プログラ

研究デー

タ研究

プログラム

研究デー

研究プログラ

地層ハブデータ

GISハブデー

Xハブデータ

公開技術

情報抽出

統合技術情報組織

個別研究

個別研究

個別研究データ・サイクル基盤

• Linked Data に基づくプラットフォーム– Web技術のデータへの適用

• “ 文書の Web” から”データの Web” へ

• 公開・共有の基盤技術• オープンデータのデファクト

– セマンティック Web の技術の利用

• 技術的蓄積• 情報抽出、オントロジー推論

Page 45: LODAC プロジェクト 中間発表会 資料

Linked Open Data for ACademia

http://lod.ac