32nd mtg in nibio
TRANSCRIPT
2014/5/30
第32回統合DBミーティングIntegrated MTG in NIBIO
本日の予定
• Sagace
– アクセス解析• 重みの効果について
– アンケート結果の報告と分析
– Sagaceに追加するDBについて
– ファセット項目の変更について
– 進捗報告
• 医薬基盤研内のデータのRDF化
– 進捗報告
• 今後の予定
2
アンケート集計結果
専門分野
• 半数弱が医学・薬学
25
1818
11
7
57 医学系
薬学系
理学系
情報系
農学系
工学系
その他:
医学・薬学の専門分野の方の職業別割合
28
9
33
研究職
教育職
学生(博士課程、修士
課程、学部生)
技術職(システムエン
ジニア含)
医学・薬学の専門分野の方の所属別割合(のべ人数)
21
13
12
大学
研究機関
企業
WETとDRYの割合
• ほぼ半々
27
25
10
9
4
33
33 2 2
Wet : Dry = 9 : 1
Wet : Dry = 0 : 10
Wet : Dry = 8 : 2
Wet : Dry = 5 : 5
Wet : Dry = 10 : 0
Wet : Dry = 1 : 9
Wet : Dry = 2 : 8
Wet : Dry = 6 : 4
Wet : Dry = 7 : 3
Wet : Dry = 3 : 7
Wet : Dry = 4 : 6
WETとDRYの割合医薬系のみの場合
• Wetの割合が高い
19
6
5
3
2
2
21 1 1 1 Wet : Dry = 9 : 1
Wet : Dry = 8 : 2
Wet : Dry = 5 : 5
Wet : Dry = 0 : 10
Wet : Dry = 1 : 9
Wet : Dry = 2 : 8
Wet : Dry = 4 : 6
Wet : Dry = 3 : 7
Wet : Dry = 6 : 4
Wet : Dry = 7 : 3
Wet : Dry = 10 : 0
研究対象生物
• どの分類も該当する
55
46
26
138
ヒト
動物(ヒト以外)
微生物
特定生物なし
植物
研究対象生物医薬系のみの場合(のべ)
• 圧倒的にヒトと動物が多い
33
24
3
ヒト
動物(ヒト以外)
微生物
研究テーマ
• 比較的バランスよく存在(違いは少ない)
【全体】 【医薬系】
68
53
41
26
25
18
159 5 ゲノム・遺伝子
タンパク質
細胞・組織
個体
パスウェイ・ネットワーク
化合物
その他の生体分子
糖鎖
その他(具体的に)
30
28
23
15
11
75 4 2
知名度
• 知らない人も多い(特に医薬系)
【全体】 【医薬系】
27
16
50
41 知らなかった
知っていた
知っていた人のきっかけ
• 学会等での宣伝活動も効果的
02468
1012141618
1ヶ月間の使用回数
• 回答者にリピーターはほぼいなかった…
22
17
1
0回
1~4回
5回以上
速度と精度の平均値
• 精度の方が評価が低い
2.62.72.82.9
33.13.23.33.4
ほしい情報が得られない理由• 検索結果そのものへの不満が多い
0
2
4
6
8
10
12
14
16
追加してほしいDB
• 抜粋(2つ以上)–国際特許
–セルライン
–学会情報
ファセットの評価
• まあまあとの評価が多い
31
28
16
133
3
4
5
2
1
ファセット項目が使いにくい理由
0
1
2
3
4
5
6
7
8
9
その他の意見
• 絞り込みのリセットボタン–次回対応可能
• 時間・ヒット数の連動– Apache Solrで対応可能になる可能性
• 生物種と生体の階層で絞り込めない–画面上で動作する新規チュートリアルの作成?
リッチスニペットの評価
• まあまあとの評価が多い
32
24
16
13
6
3
4
5
2
1
使いにくい理由
• 絞り込めるという見た目に工夫が必要
0
2
4
6
8
10
12
その他の意見
• もっと目立つようにしてほしい– UIの改善
• ファセット項目がDB毎であることが伝わっていない–チュートリアルの再考
他に希望するリッチスニペット2個以上の意見
• 画像の需要が高い
0
2
4
6
8
10
12
14
16
18
20
画像 データの出典 日付系 ID系 疾患名
DB管理者の意見
• 数は多くなかった
82
9
いいえ
はい
DB管理者のメタデータ導入可否
• あまり意欲的ではない
53
1
すぐには難しい
はい
いいえ
導入が難しい理由
• 導入の不便さが主な要因
3
31
4
マークアップが面倒そう。
マークアップの仕方が分からな
い。
導入したとしてもデータベース管
理側としての利点が分からない。
その他(具体的に):
まとめ
• 全体と医薬系とで検索の傾向が異なる– ターゲットを絞ったほうが良さそう
• 精度への不満が高い– システムの改善,スニペットの改善
– ファセット項目の変更
• ファセット,リッチスニペットの操作性– UIの変更,チュートリアルの修正で対応
まとめメタデータ導入について
• メタデータの導入が簡単にできる,もしくは自動化出来るツールの開発
• 画像,ID,最終更新日がマークアップできるDBを優先して交渉
• 最終更新日はマークアップ以外の方法で取得可能ならば,積極的に導入すべき
• メタデータとは別に画像検索の需要はありそうだが新規システム導入後が妥当
追加候補のDB
ファセット分類/データベース名 GenLibi[アーカイブデータ]
データベースの種類 文献・用語集・辞書生物種 ヒト;動物(ヒト以外)生体の階層 ゲノム・遺伝子分類 B
ファセット項目の変更について
• アンケート集計結果より,医薬系とその他の方の需要は異なる。
• NBDC横断検索との差別化,アクセスの多いユーザーのためにもターゲットを絞り込む。
• 前回のアクセス解析より3つ目のファセット分類のうち,化合物と細胞・組織以外は低かったため,この分類を創薬・疾患に関する項目に変更する。
ファセット項目変更
• 提案者による説明
• メンバーによる話し合い– 特に提案者以外の方の意見を聞く
• 上位5つまでの項目を個々人で決める– 原則多数決で決定。
– 決まらない場合は次回MTGで継続orメール等で相談。→ ファセット項目の粒度が異なり,1つのファセット分類の切り口でまとめられないので,再考することに(追記)
候補となるファセット項目
• 副作用(伊藤),副作用・有害情報(五十嵐さん)• がん(伊藤,五十嵐さん)• 漢方薬(伊藤)• 研究者(森田さん)• 医食同源(五十嵐さん)• レギュレーション・ガイドライン(五十嵐さん)• 小児(深川さん)• 難病・希少疾患(五十嵐さん)• 薬効・効能(五十嵐さん)• 感染症(五十嵐さん)
進捗報告
• SPAM対策の強化
• データベース固定検索の不具合の修正
• Open TG-GATEs(アーカイブ)のメタデータ反映の確認,不具合の修正
• クローラーを月1回自動更新に変更
• 難病研究資源バンクのインデックスを更新
• Apache SolrのテストについてNBDC大波さんと相談
• BH13の論文担当部分の作成
医薬基盤研内のデータのRDF化
• 希少疾病用医薬品・医療機器のRDF–運用システムにRDF出力機能を実装中(玉田さん)
• 実験動物研究資源バンクのRDF–更新データを反映
–マウス→遺伝子→タンパク質→化合物→薬
– PubChemで提供しているRDFとの統合を検討,Gene Symbol -> Gene IDの途中
今後の予定
• Sagace– ファセット項目に該当するDBの選定
– HyperEstraierの代替となるApache Solr(あるいは他の横断検索システム)をNBDCと合同で調査
– UIの修正
• 医薬基盤研内のDBのRDF化– サービス提供に向け,目的,ユースケースを考える。
• 次回– 6月20日(金)or 27日(金)?