lodac プロジェクト 中間発表会 資料
DESCRIPTION
TRANSCRIPT
Linked Open Data for ACademia
LODAC Project- 学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 -
国立情報学研究所
Linked Data でつくる新しいデータの世界
情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」プロジェクト 中間報告会2012 年 12 月 10 日
Linked Open Data for ACademia本プロジェクトの狙い
• Linked Data によるデータ共有を実現する仕組みを確立する– 実践による探求:実際にデータをつくる
• サービス化、サービス提供• 経験の蓄積と方法論化• 問題の洗い出しと解決
Linked Open Data for ACademia
Linked Data
• Tim Berners-Lee が提唱する新しいデータ共有の仕組み– これまでの Web :文書の Web (Web of
Documents)– Linked Data: データの Web (Web of Data)
• 孤立したデータの島から世界でつながるデータのcloud へ
Linked Open Data for ACademia文書の Web
Linked Open Data for ACademiaデータの Web
このデータに対応する別のデータ
このデータに別のデータと同じ
この属性の意味は?
異なるデータ源のデータが相互に結びつく
Linked Open Data for ACademia
Linked Data の記述のしかた• RDF(+RDFS, OWL) の利用
– 簡便な記述方法: < 主語 > < 述語 > < 目的語 > .
<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “ 武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://foaf.me/danbri#me> .
<http://www-kasm.nii.ac.jp/~takeda#me>
<http://foaf.me/danbri#me>
foaf:knows
foaf:Person
rdfs:type
“ 武田英明” “male”
foaf:name foaf:gender
Linked Open Data for ACademia
Linked Open Data (LOD)• オープンでリンクできるデータ
– 今の Web が“文書の Web” 、 LOD は“データのWeb”
• Linked Data の5原則– 事柄の名前に URI を使うこと– 名前の参照が HTTP URI でできること– URI を参照したときに関連情報が手に入るように
理解可能なデータを提供– 外部へのリンクも含めよう
(必ずしもオープンとは限らない⇒ Linked Data )
Linked Open Data for ACademia
LOD Cloud: 相互リンクがある 200 以上のデータセット
世界における LOD への取り組み
Linked Open Data for ACademiaBio2rdf
Linked Open Data for ACademia本プロジェクトの成果
• 美術館・博物館データの LOD 化による統合 (LODAC MUSEUM)
• 生物種データの LOD 化による統合(LODAC SPECIES)
• 関係するデータ、ソフトウエアの構築– 地理データ (LODAC LOCATION)– DBpedia Japanese– CKAN 日本語化
Linked Open Data for ACademia
本プロジェクトでの構築した DB
LODAC SPECIES: 種名をベースに多様な DB をリンクで接続
博物館標本
DB
種情報DB
Taxon Name DBGBIF BioSci.
DB
個別研究
DB
名前数: 113118トリプル数: 14,532,449
Data from Source BIntegrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creatordc:creator
crm:P55_has_current_location
crm:P55_has_current_location
crm:P55_has_current_locationdc:creator
Data from Source AWork
Museum
Creator
Minimum Data to identify entitiesRaw Data for entities Raw Data for entities
LODAC Museum: 博物館・美術館のデータの LOD
検索拡張アプリ
CKAN ( 日本語 ): データセット登録レジストリ
DBPedia Japanese
LODAC Location: 位置情報統合
Linked Open Data for ACademia
Linked Data に基づくデータ処理
• 収集: RDB 等からの変換、 Web スクレイピング
• 洗練:スキーマ定義、スキーマに基づく変換
• 統合:スキーママッピング、 ID マッピング
• 公開: RDF データ公開、 SPARQL エンドポイント
• 利用:データマッシュアップアプリケーション
収集 洗練 統合 公開 利用
RDFほとんどの処理は RDFで行われる
Linked Open Data for ACademia
LODAC Museum
• Linked Data によるデータ処理のテストベッド
• 美術館・博物館情報の特徴– 分散性:国内だけでも 6,000– 大規模性:それぞれが 102~ 104 のデータ– スキーマの統一性と多様性:一定の標準+ α– 統合可能性:作者、作品、場所、モチーフなど– リンク性:様々な分野の他のデータとのリン
クの可能性
Linked Data による技術的実験、課題解決
Linked Open Data for ACademia
LODAC Museum
• 国内の美術館の収集公開品に関する DB– 現在
• トリプル数: 40,059,131
– 館数: 114• 博物館 Web サイトからのコレクション情報• サイエンスミュージアムネットからの標本情報
• 作者、施設等によるデータ統合• RDF によるデータ公開• いくつかのアプリケーション
Linked Open Data for ACademiaWeb サイトから収集した情報の RDF 化の効
率化
属性 属性値
{ "institution": "iwate_art_museum", “segment": "20110516142455", "digest": "c9d1c62a480d8d80005a24583ec1fb12", " 作品分類 ": " 彫刻等 [ 金属 ]", "tstamp": "20110516052459778", " 作品名 ": " 三人の妖精 ( さんにんのようせい )", "anchor": "004790001_sakuhin.html", "title": " 岩手県立美術館 日本語版 ", “ “institutionalId": "004790001_sakuhin", … ・・・ " 技法/材質 ": " /ブロンズ/ ", " 作家名 ": " アリスティード・マイヨール“}
属性・属性値( JSON)
RDF 生成
RDF
subject: 自動生成した URI
predicate: 属性にマッピングしたプロパティ
object: 属性値
コレクション全体のプロパティ
コレクションごとのマッピングルール
変換処理とマッピングルールの考案を分離
博物館 Web サイト
スクレイピング( Apache Solr )
マッピングルール( JSON )
{ "meta": { "institutionalURI": "http://lod.ac/id/8144", "institutionalName": "岩手県立美術館 ", "dc:source": "http://www.ima.or.jp", "dc:rights": "岩手県立美術館 " }, "rules": { "lodac:genre": [ { "name": "作品分類 " } ], "dc:title": [ { "name": "作品名 ", ”lang": "ja", ・・・ ], "dc:created": [ { "name": "制作年 " } ], "dc11:creator": [ { "name": "作家名 ", "lang": "ja" } ], ......}
ルール考案
専門知識を有するユーザ
<http://lod.ac/ref/821708> <http://lod.ac/ns/lodac#genre> "彫刻等 [金属 ]" ; <http://purl.org/dc/elements/1.1/creator> " アリスティード・マイヨール "@ja ; <http://purl.org/dc/terms/created> "1937 年 " ; <http://purl.org/dc/terms/extent> "高さ 158.0" ; <http://purl.org/dc/terms/isReferencedBy> <http://lod.ac/id/821708> ; <http://purl.org/dc/terms/medium> "/ブロンズ /"@ja ; <http://purl.org/dc/terms/rights> "岩手県立美術館 " ;
収集
Linked Open Data for ACademiaメタデータ設計
• 基本構造– 作品 – 作者 – 収蔵館
• 専門的正確さより相互運用可能性、簡便性を優先– DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM– できるだけフラット構造
PREFIX URI crm http://purl.org/NET/cidoc-crm/core#
dc http://purl.org/dc/terms/
dc11 http://purl.org/dc/elements/1.1/
foaf http://xmlns.com/foaf/0.1/
skos http://www.w3.org/2004/02/skos/core#
rdfs http://www.w3.org/2000/01/rdf-schema#
ical http://www.w3.org/2002/12/cal/ical#
rda2 http://RDVocab.info/ElementsGr2
lodac http://lod.ac/ns/lodac#
lodac:Work Property(一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of
メタデータ要素作品 : 46作者 : 23組織: 13書誌: 12
洗練
Linked Open Data for ACademia統合のポリシー
• どうやって異なる情報源の情報を統合するか –責任の分担
• 各情報源はその情報に対する責任 – LODAC は単に ID を同定して管理。
• LODAC は統合の部分だけの責任– LODAC ID を各情報源 ID に関連づける
Data from Source B
17
Integrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creatordc:creator
crm:P55_has_current_location crm:P55_has_current_location
crm:P55_has_current_location dc:creator
Data from Source A
Work
Museum
Creator
統合
Linked Open Data for ACademia例:作者情報の統合
• 作者情報統合の手順– 統合元:日本美術シソーラス絵画編– 統合対象:各情報源データ中の作者情報– 統合元:文字列マッチング– 作品情報中の作者と作者ノードを関連づける
LODAC data
Link to Work
DBpedia
Basic Information for Creators
Links
統合
Linked Open Data for ACademia
19
データ統合
情報源 情報種別 データ数
国立美術館 (西美を除く 3 館 ) 作品 25180
国立西洋美術館 作品 4373
京都国立博物館 作品 5819
奈良国立博物館 作品 431
福島県立美術館 作品 20
栃木県立美術館 作品 32
秋田県立近代美術館 作品 22
岩手県立美術館 作品 1558
徳島県立近代美術館 作品 18482
山梨県立美術館 作品 262
東京都現代美術館 作品 5416
香川県立東山魁夷せとうち美術館 作品 266
日本美術シソーラス DB 作品 3800
日本美術シソーラス DB 人物 1332
日本美術シソーラス DB グループ 289
日本美術シソーラス DB 所蔵館情報 648
文化遺産オンライン 所蔵館情報 915
国指定文化財データベース 作品 10115
合計 103096
総データ数 特定項目キーの単純文字列統合実験結果
統合項目 情報源 データ数 統合数
所蔵館名 日本美術シソーラス 648 77
文化遺産オンライン 915
国宝・重文資料タイトル
日本美術シソーラス (作品 )
3800 74
国指定文化財 DB(作品 ) 10115
作者名による資料タイトル
日本美術シソーラス (人物 )
1332 15020
各館 (作品 ) 61861
作者名 日本美術シソーラス (人物 )
1332 615
各館 (作品 ) 61861
「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった
「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出
統合
Linked Open Data for ACademiaデータ公開
• RDF 公開– 参照解決可能なかたちでの公開
• SPARQL アクセス– SPARQL エンドポイント
公開
Linked Open Data for ACademia
Name of creator
LODAC ID and associated Ref-Resource IDs
作者ページの例公開
Linked Open Data for ACademia
公開
Linked Open Data for ACademiaLinked Data の利用
- Yokohama Art Spot -
• 博物館情報と横浜の地域情報の LOD を連携した Web アプリケーション
• 横浜市内のアート関連情報– 施設情報– イベント情報– 収蔵品情報(一部の施設のみ)– Q&A 情報
LODAC Museum × 横浜 LOD × PinQA
(博物館情報)(地域情報)
http://lod.ac/apps/yas/
利用
スポット情報
Linked Open Data for ACademia
施 設
ユーザYokohama Art Spot
RDFストア
SPARQLエンドポイント
RDFストア
SPARQLエンドポイント
XML
SPARQL
LODAC Museum
横浜 LOD
作品
所蔵館
アーティスト
アーティスト
施設
イベント
Yokohama Art Spot の構成
全体マップ表示における処理
施設
イベント
HTMLJavaScriptPythonSPARQLWrapper
OWLIM SE
ARC2
RDFストア
SPARQLエンドポイント
PinQA
質問
回答
ユーザ
SPARQL
JSON
SPARQL
JSON
D2R
スポット
Linked Open Data for ACademia
施設情報ページにおける情報取得と表示
•施設名•アクセス
•ジャンル•休館日•住所•周辺地図
イベント情報(タイムライン表示)
イベント情報(リスト表示)
すべて横浜 LODのデータを使用
利用
Linked Open Data for ACademia
施設情報ページにおける情報取得と表示
標準化された形式で記述
ユーザに適した表示が簡単に実現可能
利用
Linked Open Data for ACademia
施設情報ページにおける情報取得と表示
所蔵品情報(リスト表示)
所蔵品の提示・リンクはLODAC Museum から取得
横浜 LODだけでは不可能な情報探索が実現可能
利用
Linked Open Data for ACademia
LODAC Species
• 生物多様性情報の Linked Data 化• 特徴
– 分散性:多数の DB• 分子生物学から生態学まで• 個別の種ごと、個別の関心ごと
– 大規模性:– スキーマの統一性と多様性
• 一定の統一性(学名など)、分野固有データ– 統合可能性:種やタクソンは共有– リンク性:多様な分野とのつながり
• 他の科学(極域科学、バイオミメティクス)• 市民科学• 教育
Linked Open Data for ACademia生物多様性情報
• 種名情報– 生物名の目録の情報
• 分布情報– 標本や観察記録などの情報
• 種情報– 生物種の特徴を示す情報
学名: Papilio xuthus和名:ナミアゲハ界名:動物界門名:節足動物門綱名:昆虫綱目名:鱗翅目科名:アゲハチョウ科標本所蔵館:茨城自然博物館
:
Linked Open Data for ACademia
Photo of Papilio xuthus: 北九州市立自然史・歴史博物館
Papilio xuthus
標本種の同定
採集者
採集場所
命名
文献
言及
著者
シーケンス
著者
種情報
Papilio
上位 / 下位タクソン
文献
Linked Open Data for ACademia生物種情報の現状
種名情報
分子情報Encyclopedia of Life
サイエンスミュージアムネット
BOLD
目的に応じて収録する種の範囲が異なる(収録ポリシーの違い:広く/深く/特定の目的/…)
WikipediaWikispecies
NCBI目的に応じて異なるサイ
ト(それぞれに異なる情
報)
相互のリンクは必ずしもあるわけではない
分布・標本情報
種情報
GBIF
Catalogue of LifeSpecies 2000ITIS (Integrated Taxonomic Information System)
Linked Open Data for ACademia公開されている生物多様性情報
• GBIF : The Global Biodiversity Information Facility– 地球規模生物多様性情報機構– 種名・分布情報
• EoL : Encyclopedia of Life– 種情報
• CoL : Catalogue of Life– 種名情報– 分類群に関する情報
• BOLD : Barcode of Life Data Systems– DNA ・標本情報
• サイエンスミュージアムネット( S-Net )– 標本情報– GBIF と連携– 国立科学博物館が運営
Linked Open Data for ACademia
LODAC Species
• データベース:辞書、専門図鑑、標本データ• 統合的データモデルの構築とデータ統合
– “ 名前による緩やかな統合”• インターフェース
– HTML• 個別の標本情報を閲覧• 関連する情報をリンク経由で閲覧
– SPARQL endpoint• ある種に関する標本情報の取得など柔軟な検索
• アプリケーション– タクソンを使った検索支援
• CiNii における文献検索• DBCLS におけるデータベースメタデータ検索支援
– GIS を使った可視化
Linked Open Data for ACademia
LODAC Species
• 統合データベース– 図鑑等の文献
• 生物学辞書 (BDLS): DBCLS が多数の図鑑等から作成したもの
– 生物標本情報
• サイエンスミュージアムネット(国立科学博物館/ JBIF )
– 専門家が管理している DB
• 日本産蝶類和名学名便覧(日本昆虫学会/ JBIF )
• 南極昭和基地周辺の蘚苔類・地衣類・種子植物の標本データ(極地研)
– 蘚苔類 ( 例 : http://lod.ac/id/2571912 )
– 地衣類 (Lichens) ( 例: http://lod.ac/id/2631214 )
• 動物標本データベース ( 例: http://lod.ac/id/2628412 )
収集
Linked Open Data for ACademia
統合のアプローチ• 種名・分類体系のグラフ• 緩やかに関係を辿れるように• リンクのルーティング
Chinese Swallowtail
Papilio xuthusLinnaeus, 1767
ナミアゲハ
Papilio
Papilio xuthus
Taxonspecies
type
http://eol.org/....
http://www.catalogueoflife.org/...
http://ja.wikipedia.org/....
http://www.ncbi.nlm.nih.gov/...
タクソン名のネットワーク
統合
Linked Open Data for ACademia統合データモデル
Specimen
rdf:type
species
institutionName
collectedDate
collectionLocality
crm:has_current_location
Bryophytes
TaxonName
ScientificNameCommonName TaxonRank
species
rdfs:subClassOfrdfs:subClassOf
rdf:typerdf:type
hasCommonName
hasScientificName hasSuperTaxon
rdf:type
hasTaxonRank
rdf:type
hasTaxonRank
rdf:type
ButterflyBDLS
dcterms:source
dcterms:publisher
: Named Graph: owl:Class
統合
Linked Open Data for ACademia統合結果
• トリプル数– 14,532,449
• Taxon names– 443,248
• Scientific name– 226,141
• Common name– 219,865
• hasScientificName property node– 87,160
• hasCommonName property node– 84,610
統合
Linked Open Data for ACademia
LODAC Museum
LODAC Species
S-Net
表示例
http://lod.ac/ref/1674506
公開
Linked Open Data for ACademia検索支援
公開http://lod.ac/apps/lsdcs
Linked Open Data for ACademia
GIS インタフェース公開
http://dl.dropbox.com/u/22017402/nipr_map.html
Linked Open Data for ACademia知見
• データベース統合における分野依存性、非依存性の発見– 多くの共通性:
• 名前による統合の有効性と限界• ID付与方針
– 個別性• 学名の扱い、名前のない個物の扱い
• 統合データベースの有効性– 新たなるデータの価値への誘導
Linked Open Data for ACademia今後の展開
Linked Open Data for ACademia
共有
収集
利用 創造
公開
データ中心科学のためのオープン・データ・ライフサイクル基盤の研究開発
• データ・ライフサイクル– データの生産(創造)から共有、再利用までの循環が重要– このサイクルをいかにシームレス、ボーダレスに実現するか
• オープン・データ・ライフスタイル基盤構築の技術チャレンジ– 利用
• 情報抽出技術– 創造
• オントロジー構築技術• データ統合技術
– 公開・共有• Web技術
– 技術統合化 ・目標 - 領域内データ共有の加速 - 横断的研究の促進
新たな発見、組み合わせ - Citizen Science へのアプローチ
Linked Open Data for ACademiaオープン・データ・サイクル基盤構築の実
現に向けてのアプローチ
研究デー
タ
研究プログラ
ム
研究デー
タ研究
プログラム
研究デー
タ
研究プログラ
ム
地層ハブデータ
GISハブデー
タ
Xハブデータ
公開技術
情報抽出
統合技術情報組織
化
個別研究
個別研究
個別研究データ・サイクル基盤
• Linked Data に基づくプラットフォーム– Web技術のデータへの適用
• “ 文書の Web” から”データの Web” へ
• 公開・共有の基盤技術• オープンデータのデファクト
– セマンティック Web の技術の利用
• 技術的蓄積• 情報抽出、オントロジー推論
Linked Open Data for ACademia
http://lod.ac