large-scale data in life science
DESCRIPTION
Bigdata meetup in Tokyo at 8 Dec. 2011 by Tazro Inutano OhtaTRANSCRIPT
![Page 1: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/1.jpg)
LARGE SCALEDATA IN
LIFE SCIENCEライフサイエンス分野の大規模データ 現場での課題とこれから
![Page 2: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/2.jpg)
おことわり
��� ���������� �� �������������
![Page 3: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/3.jpg)
![Page 4: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/4.jpg)
![Page 5: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/5.jpg)
![Page 6: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/6.jpg)
![Page 7: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/7.jpg)
確かにそうなのですが
![Page 8: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/8.jpg)
今日はリレーショナル・データベースの話は一切出てきません
![Page 9: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/9.jpg)
NoSQLの話も出ません
![Page 10: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/10.jpg)
Update( new_suffix ){ current_suffix = active_point test_char = last_char in new_suffix done = false; while ( !done ) { if current_suffix ends at an explicit node { if the node has no descendant edge starting with test_char create new leaf edge starting at the explicit node else done = true; } else { if the implicit node's next char isn't test_char { split the edge at the implicit node create new leaf edge starting at the split in the edge } else done = true; } if current_suffix is the empty string done = true; else current_suffix = next_smaller_suffix( current_suffix ) } active_point = current_suffix}アルゴリズムの話や擬似コードも出ません
![Page 11: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/11.jpg)
理由は追って説明致しますので
![Page 12: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/12.jpg)
画面の前の皆さんも落ち着いて下さい
photo by http://www.photoxpress.com/stock-photos/1814937
![Page 13: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/13.jpg)
どうか平にご容赦を
photo by @meguu
![Page 14: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/14.jpg)
始めます
![Page 15: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/15.jpg)
Large-scale data in Life Science
Contents
fontin sans fonts by Jos Buivenga (exljbris). Thank You! -> www.exljbris.com
![Page 16: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/16.jpg)
LARGE SCALE DATA
IN LIFE SCIENCE
NOW IS THENEXT-GENERATION
![Page 17: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/17.jpg)
DBCLSについて 生命科学分野でのデータベースとは
LARGE SCALE DATA
IN LIFE SCIENCE
NOW IS THENEXT-GENERATION
生命 科学 分野での大きなデータ 例と特徴
「次 世代 」データとその問題 ア ー カ イ ブ と 解 析
対 「 次 世 代 」 現状と課題
![Page 18: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/18.jpg)
DBCLS:DATABASE CENTER
FOR LIFE SCIENCE
![Page 19: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/19.jpg)
大学共同利用機関法人 情報・システム研究機構ライフサイエンス統合データベースセンター / DBCLS国立遺伝学研究所,国立情報学研究所,統計数理研究所等と同じ機構に所属現所在地:東京大学浅野キャンパス内 (組織運営では同大学とは無関係)常勤職員20名強,リサーチアシスタント20名強
文部科学省委託研究開発事業統合データベースプロジェクト (H18~22)JSTライフサイエンスデータベース統合推進事業基盤技術開発プログラム (H23~25)
国内における自然科学分野データベース統合の中核機関http://dbcls.rois.ac.jp/
![Page 20: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/20.jpg)
大田 達郎 Tazro Inutano Ohta @iNut
特任専門技術員 / Technical Specialist
基盤技術開発プログラム:大規模データの利用技術開発に従事
![Page 21: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/21.jpg)
データベースとは
![Page 22: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/22.jpg)
生命科学系のデータベースとは
1. 研究成果が公開される場としてのDB 研究室,共同研究から国際コンソーシアムまで規模はさまざま
2. 公共の汎用研究リソースとしてのDB ゲノムや遺伝子から論文情報まで
![Page 23: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/23.jpg)
問題点 :
組織,プロジェクトが独自に構築されたDBが乱立する
プロジェクト(グラント)が終了すると維持されず放置される
→ それらを整備・統合し再利用性を高めるのがDBCLSの役割
生命科学系のデータベースとは
![Page 24: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/24.jpg)
Large-scale data in Life Science生命科学分野の大規模データ
![Page 25: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/25.jpg)
定義
![Page 26: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/26.jpg)
生命科学系の大規模データとは (例)
文献情報 2100万の論文要旨と230万の論文の全文情報 in PubMed
集団疫学のデータ 数百から数千の個人からなる集団について時系列で複数のデータが得られる
大規模塩基配列データ 新型のDNAシーケンサーによって高速・大量に生み出される塩基配列データ
![Page 27: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/27.jpg)
定義
分野共通の定義はない #ittamongachi
従来と比較してデータサイズが非常に大きい,データ量が多い
リアルタイム性は(他分野と比べて,今のところ)低い
生命科学系の大規模データとは (例)
![Page 28: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/28.jpg)
特徴
![Page 29: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/29.jpg)
メタデータの重要性 データについての情報を記述したメタデータがデータの解析に必須
アルゴリズム・ツールの実装者と実行者の関係 情報系研究者がツールを実装し,生物系研究者がそのツールで解析
一般的な生命科学系のデータの特徴
→ これらはそのまま大規模データにも当てはまる
![Page 30: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/30.jpg)
メタデータの重要性 データの解析にはそのデータを出した実験の情報が必須 細かい場合分けが必要なことが多く,メタデータは管理もコストが高い
一般的な生命科学系のデータの特徴
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT
or or
or or
?
?
photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
![Page 31: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/31.jpg)
メタデータの重要性 データの再現性のためにはメタデータの維持管理が重要 大規模データのDBにおいて大きな問題の1つとなっている
一般的な生命科学系のデータの特徴
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT
Data ID : 000001
organism : mouse
cell : nervous cell
sequencer : 454
date : 2011 12 08
photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
![Page 32: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/32.jpg)
アルゴリズム・ツールの実装者と実行者の関係 実行者がコアとなるプログラムを書いて実行するケースは少ない
情報系生物学研究者 : dry 実験系生物学研究者 : wet 一部のdry研究者が実装・公開したプログラムを, wet研究者ないしdryな共同研究者が実行するのが一般的
一般的な生命科学系のデータの特徴
![Page 33: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/33.jpg)
アルゴリズム・ツールの実装者と実行者の関係,問題点 実行環境に合わないツールが利用出来ない
エラーが起きた時に対応が難しい
→ 必然的にGUIソフトウェア,webインターフェースツール, クラウド実行環境などの需要が高い
一般的な生命科学系のデータの特徴
![Page 34: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/34.jpg)
具体例
![Page 35: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/35.jpg)
Next-generation sequencing data次世代塩基配列データ
![Page 36: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/36.jpg)
次世代DNAシーケンサとはDNAシーケンサ : 遺伝物質であるDNAの塩基配列を決定する装置 核酸4種類,ATGCの四文字で表せる(1塩基1バイト)
次世代DNAシーケンサ (NGS) = 超並列型 従来は一度に70KB程度,新型では0.5GB~1TBのアウトプット
断片化された大量の短い塩基配列(short read) そのままでは使えないので元の塩基配列を復元する必要がある
医学・生物学に大きな影響と進歩をもたらしている 10年かかったヒトゲノムも数日で完了,個人ゲノムの時代
![Page 37: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/37.jpg)
個人ゲノムの時代 : 23andme.com
![Page 38: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/38.jpg)
個人ゲノムの時代 : exome, 全ての遺伝子*のプロファイリング
*正確にはゲノムDNA上で転写される領域のうち機能する部分,exonの全探索grazie per le informazioni @ma_ko
![Page 39: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/39.jpg)
データ
![Page 40: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/40.jpg)
NGSデータ
画像データ (変換後削除) 30 TBシグナル強度 2~10 TB塩基配列データ(quality value含む) 中間ファイル ~1.5 TB程度 結果ファイル ~1.5 TB程度解析結果 中間ファイル ~45 TB程度 結果ファイル ~5 TB程度
*illumina社 HiSeq 2000の場合
![Page 41: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/41.jpg)
重い
![Page 42: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/42.jpg)
データの大きさによる問題受託シーケンスの場合など転送の問題がある 生のデータはネットワークで送るよりもHDDを宅急便で送った方が速い
バックアップの余裕がない 公共のデータベースへのsubmitをバックアップ代わりに?
そもそも普通のwet研究室にそんなにストレージはない 「秋葉原にHDD買いに行ってきます」「また?」
某表計算ソフトウェアにデータが載らない 「結果をE<censored>で下さい」「え?」「え?」「いやだからヱ
![Page 43: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/43.jpg)
https://twitter.com/#!/dritoshi/status/121817788200390656
HDD長者ぞくぞく誕生
![Page 44: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/44.jpg)
データの解析
![Page 45: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/45.jpg)
塩基配列の復元
de novo assemble
short read from NGS
referencegenome
reference alignment
2つのアプローチ
de novo assemble
reference alignment
![Page 46: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/46.jpg)
塩基配列の復元
de novo assembly短い配列同士の重なりあう部分を元に繋ぎ合わせることで復元(但し,短い配列のみによる完全なassembleは現状困難)
de novo assemble
short read from NGS
referencegenome
reference alignment
課題 : 現在公開されているツールはメモリ要求性が非常に高い
リードの長さ,ゲノムサイズに比例して要求メモリが増える
256GBメモリくらいでは全然足りない(!)
![Page 47: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/47.jpg)
![Page 48: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/48.jpg)
Velvethttp://www.ebi.ac.uk/~zerbino/velvet/
SOAPdenovohttp://soap.genomics.org.cn/soapdenovo.html
sequence assembly in wikipediahttp://en.wikipedia.org/wiki/Sequence_assembly
de novo assemble tool
![Page 49: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/49.jpg)
塩基配列の復元
reference alignment既に解読されたゲノム配列を参照配列として,相同性を元に復元
ヒトの場合は3GBのゲノムに100bp程度の短い配列を数億本当てる
課題 :計算量が多い参照配列を利用するため,一定のメモリ確保が必要
de novo assemble
short read from NGS
referencegenome
reference alignment
![Page 50: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/50.jpg)
Chr1 Chr2 Chr3
CPU1 CPU2 CPU3
対策 : マルチコアのマシンで分散処理参照配列を染色体ごとに分割し,それぞれをCPUに割り当てる
課題 :NGSでは類似の短い塩基配列が大量に出る為,誤った領域にアラインメントされる
シーケンサの性能向上でリード長は長くなり,また長い塩基配列の両端を読むなどの工夫によって解決
![Page 51: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/51.jpg)
実際にどう対処しているか
![Page 52: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/52.jpg)
Troubles not yet shooted最前線 現状と課題
![Page 53: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/53.jpg)
計算機的対策の現状ローカルのPC ゲノムサイズの小さい生物種やリード数によっては間に合うが…
PCクラスタ Sun Grid Engine等による分散処理,他組織のものを借りることも
クラウド AWSなどを利用したクラウド計算環境の提供が始まりつつある
スパコン 分散処理は強いが,ノードあたりの割り当てメモリが減ると計算が出来ない
![Page 54: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/54.jpg)
メモリはいくらあっても足りない上に
![Page 55: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/55.jpg)
専門のエンジニアがいないので
![Page 56: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/56.jpg)
超能力に目覚めたり
https://twitter.com/#!/dritoshi/status/110559890413600768
![Page 57: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/57.jpg)
特殊能力に目覚めたり
https://twitter.com/#!/dritoshi/status/113546074760822784
![Page 58: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/58.jpg)
精神が鍛えられたり
https://twitter.com/#!/dritoshi/status/114675417998311425
![Page 59: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/59.jpg)
マシンメンテで研究どころじゃない
![Page 60: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/60.jpg)
どうすれば
![Page 61: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/61.jpg)
クラウド!
![Page 62: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/62.jpg)
usegalaxy.org : online bioinformatics analysishttp://bcbio.wordpress.com/tag/galaxy/
![Page 63: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/63.jpg)
クラウドの問題点
手元のデータのアップロードに時間がかかる 計算機資源の問題は解決するが依然転送の問題が残る
医療データなどの個人情報は? セキュリティの確保は十分であるか
コストパフォーマンスは? これから先さらにスケールするデータ量に見合っているか
![Page 64: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/64.jpg)
それHadoopで…
![Page 65: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/65.jpg)
ITProより http://itpro.nikkeibp.co.jp/article/NEWS/20110927/369510/
日立feat. 遺伝研
![Page 66: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/66.jpg)
asahi.com より http://www.asahi.com/digital/bcnnews/BCN201111240007.html
インテックfeat. 理研ジェネシス
grazie per le informazioni @yag_ays!
![Page 67: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/67.jpg)
やってるそうですやってるとこは
![Page 68: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/68.jpg)
まとめます
![Page 69: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/69.jpg)
まとめ
生命科学分野の大きなデータとは 定義はないが,従来よりサイズ・量が大きい,個人ゲノムなど身近なところにも
保存・転送等のデータの取り回しに問題 重要なデータは消せない・転送にはバイク便しかないのか?
計算機の要求スペックが高い CPUだけでなく、RAMの要求が非常に高いのが問題
現状ではなんとかやりくり ツールの改良・分散処理など様々な方法が現在試みられている
![Page 70: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/70.jpg)
以上、長い話でしたが
![Page 71: Large-scale data in life science](https://reader034.vdocuments.site/reader034/viewer/2022052618/55494713b4c905194d8b5857/html5/thumbnails/71.jpg)
ご清聴ありがとうございました