ngs現場の会第4回研究会 モーニング教育セッション...
TRANSCRIPT
Windows/Mac環境で始める NGSデータ解析入門
無料のツールで解析環境を作ろう!
2015/07/03 株式会社ジナリスオミックス
バイオIT事業部 竹田 綾
NGS現場の会第4回研究会 モーニング教育セッション
NGSの「データ解析」とは
ライブラリー作製
シーケンシング
データ解析
<2次解析> ・アセンブリー ・マッピング
<高次解析> ・遺伝子アノテーション ・SNP解析 ・発現量解析 ・コピー数 ・菌叢推定 などなど
<1.5次?解析> ・生データQC
NGSの「データ解析」とは
ライブラリー作製
シーケンシング
データ解析
<2次解析> ・アセンブリー ・マッピング
<高次解析> ・遺伝子アノテーション ・SNP解析 ・発現量解析 ・コピー数 ・菌叢推定 などなど
<1.5次?解析> ・生データQC
このセッションでは・・・
論文に載っているNGSデータの詳細を確認したい!
自分のサンプルのNGSデータが届いたので、とにかく早く
結果が見たい!
・Linuxは使えないけどNGSデータを自分で解析してみたい人 ・『NGS超!入門』のレベルはクリアした人(slideshare.netで資料公開中)
このセッションでは・・・
論文に載っているNGSデータの詳細を確認したい!
自分のサンプルのNGSデータが届いたので、とにかく早く
結果が見たい!
・Linuxは使えないけどNGSデータを自分で解析してみたい人 ・『NGS超!入門』のレベルはクリアした人(slideshare.netで資料公開中)
データ解析の「解析環境」
安定して使いやすい大衆車: Windows/Mac
乗りこなせると速いスポーツカー: Linux
hDp://www.iu.a.u-‐tokyo.ac.jp/~kadota/JSLAB_1_kadota.pdf
GUI CUI
Virtual Machine (VM)とは
仮想機械(かそうきかい、仮想マシン、バーチャルマシン、
英語: virtual machine、VM)とは、コンピュータの動作を
エミュレートするソフトウェアやフレームワークである。ま
た、エミュレートされた仮想のコンピュータそのものも仮
想機械という。仮想機械によって、1つのコンピュータ上
で複数のコンピュータやOSを動作させたり、別のアーキ
テクチャ用のソフトウェアを動作させることができる。
hDps://ja.wikipedia.org/wiki/仮想機械
汎用解析環境 NGS解析
核酸配列 解析
タンパク 配列解析
マイクロ アレイ
ワーク フロー
実験 支援
配布形態
Bio Linux ◯ ◯
◯ ー ー △ VM / ISO file for install media
Galaxy ◯ ◯ ◯ ー ◯ △ ソースコード / Cloud instance
GenePaDern △ ー ー ◯ ー ー パッケージ (Mac, Linuxのみ)
Chipster ◯
◯
◯
◯
◯
ー VM (サーバ) Java(クライアント)
UGENE ◯ ◯ ◯ ◯ ◯ ◯ パッケージソフト(Win / Mac / Linux)
hDp://environmentalomics.org/bio-‐linux/
BioLinux hDps://galaxyproject.org
Galaxy
hDp://www.broadins]tute.org/cancer/so^ware/genepaDern
GenePaDern
hDp://chipster.csc.fi
Chipster hDp://ugene.unipro.ru
Unipro UGENE
ワークフロー
解析コマンドどうしを繋げて、やりたい解析を実現
一度作ったものを保存しておけば、同じ解析を異なるサンプルのデータに適用できる 他の人が作ったワークフローをそのまま再現することも可能
Virtual Box・BioLinux をインストールしてみました
hDps://www.virtualbox.org/
hDp://environmentalomics.org/bio-‐linux/
OS: Windows7 Professional 64bit プロセッサ: Intel Core i3-‐3240 [email protected] 実装メモリ(RAM): 8.00GB
BioLinuxを起動するまでの作業
• Virtual Boxをダウンロードしインストール(7分) • BioLinuxのダウンロード(3.3GB=約25分)
• BioLinuxのインストール(約20分)~その後の設定もろもろ(5分)
「(Rで)塩基配列解析」でお
馴染みの東京大学大学院農学生命
科学研究科 門田幸二さんらの、日
本乳酸菌学会誌連載の資料を、ガッ
ツリ参考にさせていただきました!
hDp://www.iu.a.u-‐tokyo.ac.jp/~kadota/book/JSLAB2_VirtualBox_win.pdf hDp://www.iu.a.u-‐tokyo.ac.jp/~kadota/book/JSLAB2_BioLinux8_iso_win.pdf
ハードドライブ(ファイルサイズ)の設定
仮想ハードドライブは、実際に使えるサイズ以上を指定しても、特にエラーが出たりはしない。今回は、344GBの空きがあったので、300GBと設定した。
メモリーサイズ・CPU数の設定
それぞれ、マシンスペックに応じてリーズナブルな範囲が緑で示されているので、それを参考に。
共有フォルダーの設定
ホストOS(この場合Windows)とBiolinuxとの間でデータのやりとりをするために、共有フォルダーを設定。
hDp://pc-‐karuma.net/virtualbox-‐folder-‐share/
Galaxyがすぐ使えます
Galaxyチュートリアルはたくさんあります!
• 本家 – hDps://usegalaxy.org/
• GalaxyによるNGS解析(DBCLS大田さん) – hDps://github.com/inutano/training/tree/master/ajacs-‐advanced-‐01 – hDps://www.youtube.com/watch?v=CHCJVN-‐d9qo
• DBCLSのGalaxy(統合TVリンク多数) – hDp://galaxy.dbcls.jp/
• Galaxy Workshop Tokyo 2015(Community Galaxyパッケージ) – hDp://wiki.pitagora-‐galaxy.org/wiki/index.php/
Galaxy_Workshop_Tokyo_2015
などなど、他にも目的別チュートリアルも多数
Galaxyチュートリアルはたくさんあります!
• 本家 – hDps://usegalaxy.org/
• GalaxyによるNGS解析(DBCLS大田さん) – hDps://github.com/inutano/training/tree/master/ajacs-‐advanced-‐01 – hDps://www.youtube.com/watch?v=CHCJVN-‐d9qo
• DBCLSのGalaxy(統合TVリンク多数) – hDp://galaxy.dbcls.jp/
• Galaxy Workshop Tokyo 2015(Community Galaxyパッケージ) – hDp://wiki.pitagora-‐galaxy.org/wiki/index.php/
Galaxy_Workshop_Tokyo_2015
などなど、他にも目的別チュートリアルも多数
使い方は自習しましょう!
hDp://qiita.com/dritoshi/items/707d3dd1fe9ed4f3b5b6
Virtual Machineとして入手可能な 各種アプリケーション別解析パイプライン
解析パイプライン 生物種 解析内容 UI
MyPro hDp://sb.nhri.org.tw/MyPro/index.html
微生物 バクテリア全ゲノムシーケンスデータの De novo アセンブリーからアノテーション解析
CUI
CloVR-‐Microbe hDp://clovr.org/methods/clovr-‐microbe/
微生物 バクテリア全ゲノムシーケンスデータの De novo アセンブリーからアノテーション解析
GUI CUI
CloVR-‐16S hDp://clovr.org
微生物 (メタ16S)
メタ16Sアンプリコンシーケンスデータの菌叢解析 GUI CUI
TREVA hDp://bioinforma]cs.petermac.org/treva/
ヒト、マウス
エクソーム、ターゲットシーケンスデータのマッピング解析、SNV, Indel, CNV解析(生殖細胞、体細胞変異)
CUI
MAP-‐Rseq hDp://bioinforma]cstools.mayo.edu/research/maprseq/
ヒト RNA-‐seqデータのマッピング解析、SNV解析、発現量解析、融合遺伝子解析
CUI
CAP-‐miRSeq hDp://bioinforma]cstools.mayo.edu/research/cap-‐mirseq/
ヒト、マウス miRNA-‐seqデータのマッピング解析、既知microRNA、新規microRNAアノテーション解析、SNV解析、発現量解析、発現変動遺伝子解析
CUI
HiChIP hDp://bioinforma]cstools.mayo.edu/research/hichipseq-‐pipeline/
ヒト、マウス ChIP-‐seqデータのマッピング解析、ピーク検出、モチーフ検出、GO解析
CUI
SV-‐AUTOPILOT hDps://bioimg.org/sv-‐autopilot
任意 ゲノムシーケンスデータのマッピング解析、構造変異解析 CUI
CloVR-‐16S
HiChIP
Virtual Machineとして入手可能な 各種アプリケーション別解析パイプライン
• 目的に応じて、必要な工程が決められていて、インプット/アウトプットがわかりやすい
• 説明資料が豊富なことが多い(必要なコマンドの解説など)
• 既存のパイプライン以外のことをしようとすると、設定がむずかしい
• 含まれる個別のツールのライセンス形態が統一されていない
アカデミックフリー(企業には有償)のものもあるので、 特に企業の利用はライセンス要確認!
汎用解析環境 NGS解析
核酸配列 解析
タンパク 配列解析
マイクロ アレイ
ワーク フロー
実験 支援
配布形態
Bio Linux ◯ ◯
◯ ー ー △ VM / ISO file for install media
Galaxy ◯ ◯ ◯ ー ◯ △ ソースコード / Cloud instance
GenePaDern △ ー ー ◯ ー ー パッケージ (Mac, Linuxのみ)
Chipster ◯
◯
◯
◯
◯
ー VM (サーバ) Java(クライアント)
UGENE ◯ ◯ ◯ ◯ ◯ ◯ パッケージソフト(Win / Mac / Linux)
hDp://ugene.unipro.ru/
hDp://ugene.unipro.ru/
UGENE: “It works perfectly on Windows , MacOS, and Linux”
• Windows 64bit full installer packageダウンロード(5分) • ダブルクリックでインストール(約3分)
UGENEを動かしてみました
hDp://www.ncbi.nlm.nih.gov/sra/ERR047092/
hDps://ja.wikipedia.org/wiki/レンサ球菌
豚レンサ球菌 Streptococcus suis
hDp://trace.ddbj.nig.ac.jp/DRASearch/
hDp://www.ncbi.nlm.nih.gov/sra/
hDp://www.ebi.ac.uk/ena
hDp://trace.ddbj.nig.ac.jp/DRASearch/
hDp://www.ncbi.nlm.nih.gov/sra/
1.7GHz Intel Core i7 8 GB RAM
1.7GHz Intel Core i7 8 GB RAM
計算時間の例(論文から)
• Variant calling →15min – Reference: hg19 ch11 (UCSC) – BAM: ch11 alignment of NA20887 (1000 genome project)
• Tuxedo pipeline(RNA-‐seq) →8.5hr – RNA-‐seq sample from Human cell line
2.9 GHz Intel processor 4コア 16 GB RAM
Golosova et al, (2014) PeerJ, DOI 10.7717/peerj.644
hDp://ugene.unipro.ru/podcast.html
感想とまとめ
• UGENEのインストール(WindowsもMacも)はとても簡単だった
– 手元にあった端末で、手軽にNGSデータを扱えるようになった!
– コマンドラインやLinux、サーバーなどの知識は必要なし
• ワークフローと、そこに出てくる個々のツールについての知識は必要
– 自分が必要としている解析については、ツールの特徴やオプション・アルゴリズムなどを(少なくとも生物学的な観点で)理解する必要がある
参考資料
Win/Mac用NGS解析ソフト(有償)
De novo RNA-‐seq
Variant Small RNA
ChIP-‐seq
Methyl-‐seq
Meta-‐genome Win Mac
CLC Genomic Workbench (Qiagen)
◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯
GenomeJack (三菱スペース)
◯ ◯ ◯ ◯ ◯
Strand NGS (Agilent Technologies)
◯ ◯ ◯ ◯ ◯ ◯ ◯
Partek Genomics Suite (Partek)
◯ ◯ ◯ ◯ ◯ ◯ ◯
詳しくは、それぞれのメーカー・販売代理店へ
機能リストは当社調べのため、過不足等の可能性がありますので、あくまでも参考程度としてください。
By 清水さん (岩手医科大) @atsushi_ngs
多サンプルNGS研究の 新しいプラットフォーム
NGSデータの蓄積・管理・分析をこの1台で。
GGMとは ジナリスの開発した次世代シーケンシングデータ蓄積管理システムGenaGenomeManager(GGM)は、増え続けるNGSデータの効率的な蓄積、管理を可能にし、今後重要となるゲノムビッグデータの効率的な活用を支援します。
����� ���
��������
���
���
���� �
���
��������
����������
��������
���� �
��������������������
配列データとメタデータの一元管理
• 配列データ – 異なるシーケンサーによる配列データ – 多様なアプリケーション: DNA-‐seq, RNA-‐seq, …
• メタデータ – 実験情報 – 解析パラメータ – サンプル情報 – 臨床情報
GGMを使ってできること
1. NGSデータおよび関連情報の登録・管理
2. データ解析・マイニング (a) 変異解析 (b) 発現解析 (c) 多サンプル比較 (d) 変異解析、発現解析の統合解析
NGSDNA-seq, RNA-seq, ChIP-seq etc…
NGS $(BAM,$VCF,$BED,$etc.)
$NGS etc.
Management Mode
Study Mode
アルコール感受性遺伝子検査
エタノール アセトアルデヒド 酢酸
ADH2 ALDH2
His47Arg: 低活性 Glu487Lys: 低活性
0/16 5/16
お酒に強いか?強くないか?
任意のメタデータの項目を追加できる
1000人ゲノムから日本人Exomeデータ16人分を取得し、お酒に強い/弱いのどちらかのPhenotypeに特徴的な変異(Variant)箇所を探す
16人分のデータのVariant数(Variant locus)は、のべ約310万箇所
任意に登録したメタデータ「お酒に強い/弱い」の項目で二群比較を行う (Genotypeで、Group AまたはGroup Bに特徴的なVariantを探す) 310万箇所 → 47箇所 に絞り込むことができた (約4秒)
変異箇所の詳細ページを表示すると、各サンプルのリードカウントや、アミノ酸情報なども確認できる
そもそもそんなに多サンプルのデータをお持ちでない方へ
ゲノム解析クラウドサービス
������������
��
�� � HDD USB
� �
�
� GiNeS
�����
3
!!
!!
Free 0 0 20GB
Basic 10,000 20,000 20GB
Basic.+.M1op4on 20,000 40,000 40GB
50,000
M
50,000
20GB &
1,000
(1)$ $(2)$
(3)$ $
(4)$ $(5)$ $
(ギネス)
������������
��
�� � HDD USB
� �
�
� GiNeS
�����
3
!!
!!
Free 0 0 20GB
Basic 10,000 20,000 20GB
Basic.+.M1op4on 20,000 40,000 40GB
50,000
M
50,000
20GB &
1,000
(1)$ $(2)$
(3)$ $
(4)$ $(5)$ $
月々1万円から!!
そもそもそんなに多サンプルのデータをお持ちでない方へ
ゲノム解析クラウドサービス
(ギネス)
ジナリス・オミックス・クラブ 会員募集中
今年から新連載「バイオデジタル革命の夜明け」スタート!