バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07
Post on 17-Jan-2016
30 Views
Preview:
DESCRIPTION
TRANSCRIPT
バイオインフォマティクス研修会
ゲノム配列解析および機能解析
2014.08.07
全体の流れサンプル DNA
↓ シーケンシング
シーケンスリード (fastq ファイル )
↓ アセンブル
コンティグ / スキャフォルド
↓ 遺伝子予測
遺伝子塩基配列
↓ 翻訳
遺伝子アミノ酸配列
↓ 類似配列データベース検索
機能予測
本日の演習はここから
見つかった遺伝子をタンパク質立体構造データベース (PDB) から探して立体構造を表示させる。
ショットガンシーケンシング
染色体 DNA
↓ 水流などでランダムに断片化
↓ 特定の長さの断片のみを回収
↓ 断片の末端を 250 塩基ずつだけ解読
ショートリード
断片化 DNA
ゲノムアセンブリ
↓ 同じ部分配列をのりしろとしてリードを繋ぎ合わせる
↓ 間の配列が読まれていなくても橋渡しされていれば並べる
ショートリード
コンティグ
スキャフォルド
理想的には元のゲノム配列全長を復元できる (いつもそううまくいくとは限らない?)
作業の準備 .1必要なファイルはここにありますhttps://archive.iii.kyushu-u.ac.jp/public/LXTkAARII05AftUBucxHdxakaWn1UpLzfLejV5-Tb9p7
ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。
ショートリードの fastq ファイル。 P1 と P2 がペアになっている。
タブレット(アセンブル結果表示ソフト)velvet ( アセンブラ ) 。
velvet.cmd はなくてもよい。
contig から遺伝子配列を切り出すためのプログラム
}
}
基本的な UNIX コマンド
コマンドの例 : ls ファイルやディレクトリ ( フォルダ ) のリストを表示。 pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。 cd カレントディレクトリを変更。 cd Desktop “Desktop” というディレクトリに移動 cd .. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に移動 cd ~ 自分のホームディレクトリに移動 (= cd) less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定する。
実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1画面送り、 [Q] で終了。
コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。
画面下の「ターミナル」をクリックするとコマンドラインが現れる。Mac ではほとんどの UNIX コマンドを実行可能。
タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。ダブルクリックして進めて行き、インストール先には /Applications ではなく自分のホームディレクトリを指定してください。ホームディレクトリはコマンドラインで cd pwdと打てば表示されます。それを copy&paste してください。
その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ移します。 mv Downloads/* .とコマンドを打つ(警告は無視)か、マウス操作で移動させてください。
extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。 chmod u+x extract velvetg velvethこの時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。
作業の準備 .2
ショートリード (fastq ファイル )
@M01347:38:000000000-A55N6:1:1101:12076:6805 1:N:0:1TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAA+CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHGGHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH@M01347:38:000000000-A55N6:1:1101:8798:6836 1:N:0:1TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTA+FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHGHEHFHDGDCGHHHGHGHHHHFGHHH@M01347:38:000000000-A55N6:1:1101:10079:6918 1:N:0:1ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTT+CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHHHHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH
塩基配列
クォリティ
リード ID
PC の文字コード33 59 64 73 104 126 | | | | | | !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... | | | | 0.2......................26...31........41
クォリティ (QV)
L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)
例 ) ある塩基の QV が「 H 」なら、 H→39なので、 エラー率 p = 10^(-3.9) 1/8000≒
その塩基は 8000 個に 1 個の確率で 誤りであるということを表している。
クォリティ QV = -10 log ( エラー率 p) 数字が大きいほどエラー率が低い (=正確 )
コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。
ゲノムアセンブリ
Velvet アセンブラ(無償ソフトウェア)を用いる。
Velvet は velveth と velvetg の2つのプログラムから成っている。 velveth : リードを細分化して「のりしろ」のリストを準備する。 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。
./velveth asm201 201 -fastq -shortPaired –separate P1_10k.fq P2_10k.fq
./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd .. 。 ls コマンドでファイルの一覧が表示される。
ここで重要なファイルは、 contigs.fa : コンティグ配列 velvet_asm.afg : リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせたもの )
リード結果の保存先 のりしろの長さ
アライメントビューワtablet を用いてアライメント ( リードの重なり ) を確認する。
これをダブルクリックまたはコマンド open ~/Tablet.app で実行
読み込むファイルは、asm201 内の velvet_asm.afg
見たい contig を選択。今回は1つしかない。
ソフトウェアにバグがあり、最初の部分だけデタラメに見える(アライメントされなかった仲間外れのリードが表示されてしまう)
リードアライメント
概要表示から見たい部分を押せばフォーカスが移動する
スクロールバー
ズームの調整や Variants( エラー ) の強調コンティグは多数のリードから成っている
コンティグ構築の際には、多数決で塩基が決定される。
よく見ると所々に誤りが…
欠失エラー
置換エラー
コンティグ配列
>NODE_1_length_5386_cov_122.646118CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAAAATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAG
GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTga
less contigs.fa と打てば表示される。
カバレッジ (平均して何本のリードが重なっているか )
コンティグ番号
配列の長さ
> から始まる行 (ヘッダ ) に配列の情報が書かれている。今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がった。小文字はクォリティが低い塩基。
遺伝子予測Glimmer 3.02 (無償ソフトウェア)のウェブ版を用いて、コンティグ配列上から遺伝子を探す。http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
ここを押して実行
contigs.fa ファイルを指定。
または contigs.fa 内の塩基配列をここに copy&paste してもよい。
遺伝子配列の切り出し
contigs.fa から遺伝子領域を切り出すには、 ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txtとコマンドを打つ。nuc.txt に各遺伝子の塩基配列が保存される。
nuc.txt の内容を見るには less nuc.txt
orf から始まるすべての行をテキストエディットに copy&paste する。
フォーマットを標準テキストに変更してから、[command] + [S] で保存する。保存場所はホームディレクトリに。 ([command] + [shift] + [H])ファイル名は orf.txt とする。
GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score-------- ----- ----- -- ----->NODE_1_length_5386_cov_122.646118orf00001 5583 200 +3 5.68orf00002 311 838 +2 11.73orf00004 847 1833 +1 9.11orf00007 1870 3438 +1 6.85orf00009 3692 4150 +2 3.82orf00010 4150 4266 +1 5.41orf00011 4303 5586 +1 11.84
見つかった遺伝子の位置と方向だけが書かれている。それを元にコンティグから切り出す必要がある。
>orf00001 5583 200 len=204GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGA>orf00002 311 838 len=528ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTCACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCAACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATT
European Bioinformatics Institute (EBI) のサービスを用いる。http://www.ebi.ac.uk/Tools/st/emboss_transeq
塩基配列からアミノ酸配列への翻訳
ここを押して実行
nuc.txt を指定する。
または遺伝子の塩基配列をcopy&paste 。
今回は Bacterial が望ましいが、Standard のままでも問題ない。
結果のアミノ酸配列はテキストエディットに貼り付けて、protein.txt として保存。
>orf00001_1 5583 200 len=204VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQVKFNVTVYRNLPTTRDSIMTS*>orf00002_1 311 838 len=528MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLTVNAGNGGFLHCIQMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAYDVYPLDGRHDGGYYTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKEIICLQPLK*>orf00004_1 847 1833 len=987MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVGMGDAGIKSAIQGSNVPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLGGKSAADKGKDTRDY
コドン表
NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
配列相同性検索 ( 機能予測 )
ここを押して実行。しばらく時間がかかる。
アミノ酸配列の一つを貼り付ける。まずは len=987 の配列を選んだ。
(987 とは塩基配列の長さであり、アミノ酸配列長としては 1/3 の 329 残基である )
nr は報告されている全生物種全タンパク質の配列を集めたデータベース。
検索結果 .1
スクロールしていくと詳細の記述がある。
Microvir_H という機能ドメインに似ている。
既知配列と似ている領域が図示されている。ほぼ全長にわたって高い類似性を持つ配列が、データベース内に多数あるということを示している。
検索結果 .2
minor spike protein Hファージがバクテリアに感染するときに突き刺す注射針の役目
今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。ファージはバクテリアにだけ感染するウィルスの一種なので、それ以外の様々なバクテリアからもファージ由来の遺伝子が検出される。
[] 内に生物種が書かれている。ここに挙がっているのはほとんどがバクテリア
データベースから見つかった類似配列が、似ている順に並べられている。
検索結果 .3 アライメント
データベース上の配列に全長が完全一致 !
「 Minor spike protein 」であることに間違いなさそう。
今回は完全一致だったが、30% 程度以上合っていれば同じ機能を持つことが多い。
入力配列
データベースから見つかった配列
NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
配列相同性検索 ( 機能予測 )
ここを押して実行。
アミノ酸配列の一つを貼り付ける。len=1284 の配列を選んだ。
( アミノ酸配列としては 1/3 の 426 残基に相当 )
capsid というファージやウイルスの殻となるタンパク質がヒットする。
Protein Data Bank (PDB)http://www.rcsb.org/pdb/home/home.do
タンパク質立体構造データベース
capsid phix174 と入力。
全部で 9 個が登録されている。
最も古い 1991年の構造 (2BPA) を見てみる。タンパク質を結晶化して X線回折によって解かれた構造である。
ファージ phiX174 の構造
概観のサムネイル。capsid が 60 個組み合わさって、正 20 面体を構成している。
12 個の頂点から突き出た角は、G タンパク質および H タンパク質からできている。
ここを押すとより詳細に見ることができる。(少し時間がかかる)
ファージ phiX174 の構造
マウス操作で拡大・縮小・回転ができる。
Asymmetric Unit を選べば個々の部品だけを見ることができる。
正 20 面体
ファージ phiX174 の構造
β シート
αヘリックス
大きい方の β シートが capsid 。小さい方は major spike 。ヘリックスや細い白線の大部分は橋渡しタンパク質。
ファージが感染する瞬間の電顕写真
Nature 505, 432–435 (16 January 2014)実際にスパイクを突き刺している様子が観察されている
top related