植物ゲノム情報統合ポータルサイトplant gardenの構築 ......・sraデータの内容...
TRANSCRIPT
目的
現在、モデル植物や実用作物など多種多様な植物のゲノム配列が解読されている。近年のシークエンシング技術の進展により、今後、迅速にかつ高精度でゲノム配列が解読され、より多様な植物のゲノム配列が明らかになると考えられる。一方、様々な品種についてリシークエンスや転写産物の解読も行われており、品種間の塩基配列やゲノム構造の違いが調べられている。従来の統合化推進プログラムでは植物ゲノム統合ポータルサイトPGDBj(http://pgdbj.jp)を構築し、緑色植物40種とラン藻213種のオルソログ、65植物種約26万件のDNAマーカー、45種約1万6千件のQTL情報を
公開した。第三期では、ゲノムワイドなデータに対応するようPGDBjの内容を一新し、新たにPlant GARDENを構築す
る。各植物で公開されているゲノムワイド多型情報をゲノムブラウザ上に集約させ、さらに、複数植物間での遺伝子配列の類似性に基づいたデータリンク基盤を構築することで、ゲノムを横断的に比較できるシステムを開発する。また、ユーザがNGSデータを投入しSNP解析を実施できるカスタム型多型・ハプロタイプ検出システムを構築している。
ポータルサイト Plant Genome DataBase Japan
(PGDBj)(2011年~)
本研究はJSTのバイオサイエンスセンター(NBDC)の「統合化推進プログラム」の支援により実施した。
RDF;オルソログDB:3,424万件(SPARQLエンドポイント:http://pgdbj.jp/sparql)
データリンク基盤の構築 (阪大グループ)
・大規模な遺伝子間の類似性検索・シンテニー様領域の検出・効率の良いデータの追加と更新
詳細は以下のポスターにて発表
「32 種を超えた植物ゲノム情報統合のためのデータリンク基盤の構築(市原ら)」
遺伝子のアミノ酸配列の類似関係に基づいた植物種や系統群を超えた対応関係の整理と蓄積を行うシステムを構築する。
ゲノムブラウザJBrowseを用いて、各生物種についてのゲノム塩基配列(Pseudomolecule、scaffolds)に対して、遺伝子、転写産物、多型、DNAマーカー、近縁種との相同性など様々な情報を合わせて閲覧、比較できるサイトを開設する。
ユーザが独自で取得したNGSデータを本システムに投入することによって、多型(SNP、InDel、CNV、SV)やLD、ハプロタイプを検出する仕組みを構築する。
対象とする植物種・かずさで解読した11植物種とPseudomoleculeとして解読された27植物種(ミヤコグサ、シバ、ダイコンで構築中)・データリンク基盤の構築で用いられている植物種・植物種は適宜追加
植物ゲノム配列情報解析ツール
SNP CNV SV
ダウンロード
ユーザーがローカルで処理
結果ファイルのUpload
ハプロタイプ
他系統との比較など
植物ゲノム情報統合ポータルサイトPlant GARDENの構築
○平川英樹1 、原田大士朗1 、Andrea Ghelfi 1 、Jeffrey Fawcett 1 、白澤沙知子1 、市原寿子2 、中谷明弘2、磯部祥子1 、田畑哲之1
E-mail : [email protected]. かずさDNA研究所、2. 大阪大学大学院医学研究系研究科
次世代シークエンサー(NGS)の普及
2011年~
新たな植物種で全ゲノム情報が次々と公開
品種間や変異株がもつゲノムワイドな多型情報を迅速・安価に収集
異種間でのゲノム関連情報の比較
増え続けるゲノム関連情報の統合
品種、系統などの個体ゲノム解析による多型・ハプロタイプ検出
2018年~
必要情報を閲覧して取得
ユーザ所有のデータを解析プログラムの開発
ゲノム、トランスクリプトーム、プロテオーム、メタボローム、マーカー、変異、形質などの情報を公開。国内外の様々な植物ゲノム関連データベースを統合し、横断検索を実施可能。
現在構築中。今年度末に公開予定
登録植物種: ゲノム解読された350種以上を対象(Pseudomolecule:約90種)
植物種の選択
登録データ・参照配列・連鎖地図、マーカー、QTLなど・SRAデータの内容
多型・ハプロタイプ検出システムの構築(かずさグループ)
高速アノテーションシステム(Hayai-Annotation)
詳細は以下のポスターにて発表(Ghelfiら)「30 Killer Applications in Plant GARDEN: Integration of Bioinformatics Tools for Plant Science and Breeding」
NGSに対応した統合化データベースの構築
DNAマーカーDB
オルソログDB
横断検索システム
緑色植物:40種ラン藻:213種
DNAマーカー:65種QTL:45種
KNapSAcK MassBase
他データベース(メタボローム)
リソースDB
Citrusリソース約900種
6種
http://pgdbj.jp
Plant GARDENにデータを移行。移行完了までは公開
配列類似情報によるデータリンク
アミノ酸配列
3
M S A V K S A L
M S A V Y S A L
M G A V Y S A I
M S V V K S A L
M H V V R S A L
M S A V K S A L
M S A V Y S A L
M G A V Y S A I
M S V V K S A L
M H V V R S A L
クラスタリング
配列クラスタ
3
M S A V K S A L
M S A V Y S A L
M G A V Y S A I
M S V V K S A L
M H V V R S A L
M S A V K S A L
M S A V Y S A L
M G A V Y S A I
M S V V K S A L
M H V V R S A L
配列プロファイル
プロファイル生成
データベース化
植物名からの選択
形質、配列、キーワードからの選択
解析ツールの選択・SNP検出ツールなど
データ一覧・全情報、マーカー、形質
植物のゲノム関連情報
Total 366
Curated 319
Assembly Level CDSCDS, GFF,
AA_fasta
Complete Genome 3 3 3
Chromosome 89 52 52
Scaffold 138 43 40
Contig 19 6 5
unknown 20 12 11
・植物ゲノム解読に関するキュレーション・DB(スキーマ)の設計など詳細は以下のポスターにて発表「33 世界における植物ゲノム解析の現状と課題(原田ら)」
ゲノム解読が行われた植物種数(2018年8月)
・ユーザが投入した配列に対して高速にアノテーションを実施データベース:UniProtKBプログラム:USEARCHアノテーション:Product名、GO、EC番号
SNP解析ツールは既に公開(https://pgdbjsnp.kazusa.or.jp)共通ユーザ、パスワード設定ユーザがfastqファイルをアップロード・QC、トリミング、マッピング、SNP検出を実行結果はメールで送信される。
デモユーザー募集!ご希望の方は [email protected] にご連絡ください!
Plant GARDENの構築 (かずさグループ)
ゲノムブラウザの構築 (かずさグループ)
DNAマーカー情報・EST-SSR、SNP、CAPSなど
QTL情報・QTL領域(物理地図上)
ゲノムワイド多型情報(NCBI SRA)・ゲノム配列(リシークエンス)・RNA-Seq、RAD-Seq、BS-Seq、ChIP-Seqなど
公開されたゲノム情報・ゲノム配列
Pseudomolecule(染色体数に収束したもの)・遺伝子配列、アミノ酸配列
ミヤコグサで構築しているJBrowseの例
アノテーションに基づいた遺伝子
様々な品種のNGS
データなどから得られたSNPやInDel
MG-20
B129
rel 3.0 (chr01: 32919951..33005300)
緑: 同義置換紫: 非同義置換赤: Truncated gene、偽遺伝子青: イントロン、その他
varianteffect
ミヤコグサ
SNPアノテーション(遺伝子機能への影響)の程度(一部)HIGH(影響が大きい)
Frameshift(フレームシフト)Exon loss variant(エキソンの消失)Start lost(開始コドンの欠失)Stop gained(停止コドンの生成)Stop lost(停止コドンの欠失)
MODERATE(中程度)Inframe insertion(1個以上のコドンの挿入)Inframe deletion(1個以上のコドンの欠失)Missense variant(非同義置換)3’ (5’) UTR Truncation(第一エキソンの消失)
LOW(低い)Initiator codon variant(開始コドンから他の
アミノ酸残基への置換)Start retained(開始コドンから開始コドンへの置換)Synonymous variant(同義置換)
SNPの位置
SNP
SNPアノテーション(SnpEff)
厚み
ご希望の植物でJBrowseを構築します!ご希望がありましたら [email protected] にご連絡ください!
Licensed under a Creative Commons表示4.0国際ライセンス© 2018 平川英樹 、原田大士朗 、Andrea Ghelfi、Jeffrey Fawcett、白澤沙知子、市原寿子、中谷明弘、磯部祥子、田畑哲之
SNPアノテーション情報
・ ゲノム配列が解読された植物について、ゲノム情報、DNAマーカー、QTL情報、ゲノムワイド多型情報をJBrowse上に集約させ、ゲノム情報の統合化を行う。・ DNAマーカー、QTL情報のキュレーションを行い更新する。