バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07

バイオインフォマティクス研修会

ゲノム配列解析および機能解析

2014.08.07

全体の流れサンプル DNA

　　↓　シーケンシング

シーケンスリード (fastq ファイル )

　　↓　アセンブル

コンティグ / スキャフォルド

　　↓　遺伝子予測

遺伝子塩基配列

　　↓　翻訳

遺伝子アミノ酸配列

　　↓　類似配列データベース検索

機能予測

本日の演習はここから

見つかった遺伝子をタンパク質立体構造データベース (PDB) から探して立体構造を表示させる。

ショットガンシーケンシング

染色体 DNA

↓ 　水流などでランダムに断片化

↓ 　特定の長さの断片のみを回収

↓ 　断片の末端を 250 塩基ずつだけ解読

ショートリード

断片化 DNA

ゲノムアセンブリ

↓ 　同じ部分配列をのりしろとしてリードを繋ぎ合わせる

↓ 　間の配列が読まれていなくても橋渡しされていれば並べる

ショートリード

コンティグ

スキャフォルド

理想的には元のゲノム配列全長を復元できる　　　　　（いつもそううまくいくとは限らない？）

作業の準備 .1必要なファイルはここにありますhttps://archive.iii.kyushu-u.ac.jp/public/LXTkAARII05AftUBucxHdxakaWn1UpLzfLejV5-Tb9p7

ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。

ショートリードの fastq ファイル。 P1 と P2 がペアになっている。

タブレット（アセンブル結果表示ソフト）velvet ( アセンブラ ) 。

velvet.cmd はなくてもよい。

contig から遺伝子配列を切り出すためのプログラム

基本的な UNIX コマンド

コマンドの例 :　 ls ファイルやディレクトリ ( フォルダ ) のリストを表示。　 pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。　 cd カレントディレクトリを変更。　 cd Desktop “Desktop” というディレクトリに移動　 cd .. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に移動　 cd ~ 自分のホームディレクトリに移動 (= cd)　 less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定する。

実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1画面送り、 [Q] で終了。

コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。

画面下の「ターミナル」をクリックするとコマンドラインが現れる。Mac ではほとんどの UNIX コマンドを実行可能。

タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。ダブルクリックして進めて行き、インストール先には /Applications ではなく自分のホームディレクトリを指定してください。ホームディレクトリはコマンドラインで　 cd　 pwdと打てば表示されます。それを copy&paste してください。

その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ移します。　 mv Downloads/* .とコマンドを打つ（警告は無視）か、マウス操作で移動させてください。

extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。　 chmod u+x extract velvetg velvethこの時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。

作業の準備 .2

ショートリード (fastq ファイル )

@M01347:38:000000000-A55N6:1:1101:12076:6805 1:N:0:1TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAA+CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHGGHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH@M01347:38:000000000-A55N6:1:1101:8798:6836 1:N:0:1TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTA+FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHGHEHFHDGDCGHHHGHGHHHHFGHHH@M01347:38:000000000-A55N6:1:1101:10079:6918 1:N:0:1ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTT+CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHHHHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH

塩基配列

クォリティ

リード ID

PC の文字コード33 59 64 73 104 126 | | | | | | !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... | | | | 0.2......................26...31........41

クォリティ (QV)

L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)

例 ) ある塩基の QV が「 H 」なら、 H→39なので、　エラー率 p = 10^(-3.9) 1/8000≒

　その塩基は 8000 個に 1 個の確率で　誤りであるということを表している。

クォリティ QV = -10 log ( エラー率 p) 　　　　数字が大きいほどエラー率が低い (=正確 )

コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。

ゲノムアセンブリ

Velvet アセンブラ（無償ソフトウェア）を用いる。

Velvet は velveth と velvetg の２つのプログラムから成っている。　 velveth : リードを細分化して「のりしろ」のリストを準備する。　 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。

./velveth asm201 201 -fastq -shortPaired –separate P1_10k.fq P2_10k.fq

./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd .. 。 ls コマンドでファイルの一覧が表示される。

ここで重要なファイルは、　 contigs.fa : コンティグ配列　 velvet_asm.afg : 　リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせたもの )

リード結果の保存先のりしろの長さ

アライメントビューワtablet を用いてアライメント ( リードの重なり ) を確認する。

これをダブルクリックまたはコマンド open ~/Tablet.app で実行

読み込むファイルは、asm201 内の velvet_asm.afg

見たい contig を選択。今回は１つしかない。

ソフトウェアにバグがあり、最初の部分だけデタラメに見える（アライメントされなかった仲間外れのリードが表示されてしまう）

リードアライメント

概要表示から見たい部分を押せばフォーカスが移動する

スクロールバー

ズームの調整や Variants( エラー ) の強調コンティグは多数のリードから成っている

コンティグ構築の際には、多数決で塩基が決定される。

よく見ると所々に誤りが…

欠失エラー

置換エラー

コンティグ配列

>NODE_1_length_5386_cov_122.646118CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAAAATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAG

GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTga

less contigs.fa と打てば表示される。

カバレッジ (平均して何本のリードが重なっているか )

コンティグ番号

配列の長さ

> から始まる行 (ヘッダ ) に配列の情報が書かれている。今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がった。小文字はクォリティが低い塩基。

遺伝子予測Glimmer 3.02 （無償ソフトウェア）のウェブ版を用いて、コンティグ配列上から遺伝子を探す。http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

ここを押して実行

contigs.fa ファイルを指定。

または contigs.fa 内の塩基配列をここに copy&paste してもよい。

遺伝子配列の切り出し

contigs.fa から遺伝子領域を切り出すには、　 ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txtとコマンドを打つ。nuc.txt に各遺伝子の塩基配列が保存される。

nuc.txt の内容を見るには less nuc.txt

orf から始まるすべての行をテキストエディットに copy&paste する。

フォーマットを標準テキストに変更してから、[command] + [S] で保存する。保存場所はホームディレクトリに。 ([command] + [shift] + [H])ファイル名は orf.txt とする。

GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score-------- ----- ----- -- ----->NODE_1_length_5386_cov_122.646118orf00001 5583 200 +3 5.68orf00002 311 838 +2 11.73orf00004 847 1833 +1 9.11orf00007 1870 3438 +1 6.85orf00009 3692 4150 +2 3.82orf00010 4150 4266 +1 5.41orf00011 4303 5586 +1 11.84

見つかった遺伝子の位置と方向だけが書かれている。それを元にコンティグから切り出す必要がある。

>orf00001 5583 200 len=204GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGA>orf00002 311 838 len=528ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTCACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCAACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATT

European Bioinformatics Institute (EBI) のサービスを用いる。http://www.ebi.ac.uk/Tools/st/emboss_transeq

塩基配列からアミノ酸配列への翻訳

ここを押して実行

nuc.txt を指定する。

または遺伝子の塩基配列をcopy&paste 。

今回は Bacterial が望ましいが、Standard のままでも問題ない。

結果のアミノ酸配列はテキストエディットに貼り付けて、protein.txt として保存。

>orf00001_1 5583 200 len=204VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQVKFNVTVYRNLPTTRDSIMTS*>orf00002_1 311 838 len=528MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLTVNAGNGGFLHCIQMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAYDVYPLDGRHDGGYYTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKEIICLQPLK*>orf00004_1 847 1833 len=987MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVGMGDAGIKSAIQGSNVPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLGGKSAADKGKDTRDY

コドン表

NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

配列相同性検索 ( 機能予測 )

ここを押して実行。しばらく時間がかかる。

アミノ酸配列の一つを貼り付ける。まずは len=987 の配列を選んだ。

(987 とは塩基配列の長さであり、アミノ酸配列長としては 1/3 の 329 残基である )

nr は報告されている全生物種全タンパク質の配列を集めたデータベース。

検索結果 .1

スクロールしていくと詳細の記述がある。

Microvir_H という機能ドメインに似ている。

既知配列と似ている領域が図示されている。ほぼ全長にわたって高い類似性を持つ配列が、データベース内に多数あるということを示している。

検索結果 .2

minor spike protein Hファージがバクテリアに感染するときに突き刺す注射針の役目

今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。ファージはバクテリアにだけ感染するウィルスの一種なので、それ以外の様々なバクテリアからもファージ由来の遺伝子が検出される。

[] 内に生物種が書かれている。ここに挙がっているのはほとんどがバクテリア

データベースから見つかった類似配列が、似ている順に並べられている。

検索結果 .3 アライメント

データベース上の配列に全長が完全一致 !

「 Minor spike protein 」であることに間違いなさそう。

今回は完全一致だったが、30% 程度以上合っていれば同じ機能を持つことが多い。

入力配列

データベースから見つかった配列

NCBI の BLAST ( ウェブ版 ) を用いるhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

配列相同性検索 ( 機能予測 )

ここを押して実行。

アミノ酸配列の一つを貼り付ける。len=1284 の配列を選んだ。

( アミノ酸配列としては 1/3 の 426 残基に相当 )

capsid というファージやウイルスの殻となるタンパク質がヒットする。

Protein Data Bank (PDB)http://www.rcsb.org/pdb/home/home.do

タンパク質立体構造データベース

capsid phix174 と入力。

全部で 9 個が登録されている。

最も古い 1991年の構造 (2BPA) を見てみる。タンパク質を結晶化して X線回折によって解かれた構造である。

ファージ phiX174 の構造

概観のサムネイル。capsid が 60 個組み合わさって、正 20 面体を構成している。

12 個の頂点から突き出た角は、G タンパク質および H タンパク質からできている。

ここを押すとより詳細に見ることができる。（少し時間がかかる）

マウス操作で拡大・縮小・回転ができる。

Asymmetric Unit を選べば個々の部品だけを見ることができる。

正 20 面体

β シート

αヘリックス

大きい方の β シートが capsid 。小さい方は major spike 。ヘリックスや細い白線の大部分は橋渡しタンパク質。

ファージが感染する瞬間の電顕写真

Nature 505, 432–435 (16 January 2014)実際にスパイクを突き刺している様子が観察されている

バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07

Documents

多変量データ解析と時系列解析

バウンスメール解析システム bouncehammer

（解析版）2014年高考山东卷英语试题解析（精编...

naite#14 メトリクス解析（データ解析）の初歩

ディジタルホログラフィーの解像度解析 -...

femtet 2020...copyright © murata software co., ltd. all...

spm 解析ソフトウェア

2．2...

インテリジェントビデオ解析システム（iva）...インテリジェントビデオ解析システム（iva）...

matlabによる大規模フリートデータ解析 part2:...

スペクトル解析ソフトウエア...

c ií c cÝ5?, a. ¡ - midas...

コンパイラの解析 (1)

遺伝子解析...

bios/cmos 解析

トランスクリプトーム解析・...

糖鎖のシークエンス解析および立体構造解析糖鎖のシークエンス解析および立体構造解析...

akciosujsag.hu - penny market, 2014.08.07-08.13

ブラインド解析コンテスト2009参加者リスト(3)...

fermilab e653 再解析

バイオインフォマティクス研修会 ゲノム配列解析および機能解析 2014.08.07

バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07