[ddbjing31] ddbj と nig supercomputer の使い方

86
DDBJ NIG Super Computer 国立遺伝学研究所 大量遺伝情報研究室 中村保一

Upload: dna-data-bank-of-japan-center

Post on 30-Jul-2015

91 views

Category:

Education


5 download

TRANSCRIPT

Page 1: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJ と

NIG Super Computer国立遺伝学研究所 大量遺伝情報研究室

中村保一

Page 2: [DDBJing31] DDBJ と NIG SuperComputer の使い方

自己紹介

使い倒し系バイオインフォマティスト

植物とか微生物のゲノム解析+DB屋

@yaskaz a.k.a. ikasumipapa, 猫教授

The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 408, 796-815.

シロイヌナズナの約 1/4

(27 Mb, 6200 genes) の解析

http://genome.kazusa.or.jp/cyanobase/

光合成細菌のゲノム解析+データベース。Social Bookmark による遺伝子注釈系

Page 3: [DDBJing31] DDBJ と NIG SuperComputer の使い方

1996 Synechocystis sp. PCC 68032000 Arabidopsis thaliana2000 Mesorhizobium loti2001 Anabaena (Nostoc) sp. PCC 71202002 Bradyrhizobium japonicum2002 Thermosynechococcus elongatus BP-12003 Gloeobacter violaceus PCC 74212007 Microcystis aeruginosa NIES-8432008 Lotus japonicus2012 Bradyrhizobium sp. S233212012 Solanum lycopersicum2012 Eucalyptus globulus2012 Hevea brasiliensis (Para rubber tree)2014 Klebsormidium flaccidum (an algae) 2014 Weissella oryzae SG25T 2014 Lactobacillus oryzae SG293T 2014 Lactobacillus hokkaidonensis LOOC260T

Marchantia polymorpha (a liverwort) Citrus sinensis Schizosaccharomyces japonicus

CyanobacteriaRhizobiaPlantsOthers

Page 4: [DDBJing31] DDBJ と NIG SuperComputer の使い方

ゴムノキ Hevea brasiliensis

ゲノムサイズ 1.4 Gb

5万2千 スキャフォールド / N50: 120 kb

ゼニゴケ Marchantia polymorpha

ゲノムサイズ 220 Mb

4400 スキャフォールド / N50: 1.3 Mb

ウンシュウミカン Citrus unshiu

ゲノムサイズ 360 Mb

2万1千 スキャフォールド / N50: 385 kb

進行中のゲノムプロジェクト

Page 5: [DDBJing31] DDBJ と NIG SuperComputer の使い方

ゲノム不安定性難治疾患変異データベースの構築神沼英里,  中村保一(遺伝研)

2014年度進捗  

■荻研  exome  データ活用のための  Web  インタフェイスを設計・実装

新機能①変異統計量視覚化 新機能②オープンデータ情報の利用

厚生労働科学研究委託費「ゲノム不安定性を示す難治性遺伝性疾患群の症例収集とゲノム・分子機能解析による病態解明」分担

新機能③疾患変異のゲノム位置視覚化

疾患変異DB

例:SNV情報を基に、1000ゲノムのアリル頻度情報を米NCBI経由で取得

1000genomes

米NCBI

Page 6: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJ (http://www.ddbj.nig.ac.jp/)

Page 7: [DDBJing31] DDBJ と NIG SuperComputer の使い方

•全世界で解読された塩基配列情報を •査定して受入れ •データベースに蓄積し •公開して共有する

塩基配列データバンクとはこのような事業

データベース

Page 8: [DDBJing31] DDBJ と NIG SuperComputer の使い方

国際塩基配列データベース (INSDC) の一員

•米国: GenBank (NCBI) •欧州: ENA (EBI) •日本: DDBJ

Page 9: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJ (from Release note 92) 44 Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata, Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata, Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

ENA (from Release note 115) 27 Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson, Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu, Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister, Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester, Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane

GenBank (from Release note 195) 68 Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman

Page 10: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJEBI NCBI

世界三極てなことを申しやすが

Page 11: [DDBJing31] DDBJ と NIG SuperComputer の使い方

日本: 遺伝研DDBJ, DRA, JGA米国: NCBI

GenBank, SRA, GEO, PubMed, RefSeq, dbGAP etc.欧州: EBI

ENA, ERA, ArrayExpress, UniProt, InterPro, EnsEMBLetc.

Page 12: [DDBJing31] DDBJ と NIG SuperComputer の使い方

(́・ω・`) ショボーン

Page 13: [DDBJing31] DDBJ と NIG SuperComputer の使い方

INSDC:DDBJ/ /NIG

ENA/EBI/EMBLGenBank/NCBI/NLM/NIHNakamura Y, Cochrane G, Karsch-Mizrachi I on behalf of the International Nucleotide Sequence Database Collaboration. (2013) The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res., 41 (D1), D21-D24. Epub 2012 Nov 24.

Page 14: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJが運営しているデータベース

INSDC:  オープンアクセス

個⼈人の遺伝型と表現型JGAアクセス制限

ヒトデータ審査委員会

DDBJ

アセンブリ

アノテーション

リード  

Quality  value

アライメント

DRA

BioProject  BioSample

DDBJ  センター

DRA: DDBJ Sequence Read Archive

JGA: Japanese Genotype-phenotype Archive

Page 15: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Trad INSDC

Page 16: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJ登録ファイルの例LOCUS AB091058 2109 bp DNA linear BCT 02-SEP-2003DEFINITION Gluconacetobacter xylinus cmcase, ccp genes for endo-beta-1,4-glucanase, cellulose complementing protein, complete cds.ACCESSION AB091058VERSION AB091058.1KEYWORDS .SOURCE Gluconacetobacter xylinus ORGANISM Gluconacetobacter xylinus Bacteria; Proteobacteria; Alphaproteobacteria; Rhodospirillales; Acetobacteraceae; Gluconacetobacter.REFERENCE 1 (bases 1 to 2109) AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Direct Submission JOURNAL Submitted (28-AUG-2002) to the DDBJ/EMBL/GenBank databases. Contact:Kenji Tajima Hokkaido University, Graduate School of Engineering; N13W8, Kita-ku, Sapporo, Hokkaido 060-8628, JapanREFERENCE 2 AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Cloning of Cellulose Synthesis Related Genes from Acetobacter xylinum ATCC23769 and ATCC53582: Comparison of Cellulose Synthetic Ability Between ATCC23769 and ATCC53582 JOURNAL Unpublished (2002)COMMENT FEATURES Location/Qualifiers source 1..2109 /db_xref="taxon:28448" /mol_type="genomic DNA" /note="synonym:Acetobacter xylinum" /organism="Gluconacetobacter xylinus" /strain="ATCC 53582" CDS 10..1038 /codon_start=1 /gene="cmcase" /product="endo-beta-1,4-glucanase" /protein_id="BAC82540.1" /transl_table=11 /translation="MSVMAAMGGAQVLSSTGAFADTAPDAVAQQWAIFRAKYLRPSGR VVDTGNGGESHSEGQGYGMLFAASAGDLASFQSMWMWARTNLQHTNDKLFSWRFLKGH QPPVPDKNNATDGDLLIALALGRAGKRFQRPDYIQDAMAIYGDVLNLMTMKAGPYVVL MPGAVGFTKKDSVILNLSYYVMPSLLQAFDLTADPRWRQVMEDGIRLVSAGRFGQWRL PPDWLAVNRATGALSIASGWPPRFSYDAIRVPLYFYWAHMLAPNVLADFTRFWNNFGA NALPGWVDLTTGARSPYNAPPGYLAVAECTGLDSAGELPTLDHAPDYYSAALTLLVYI ARAEETIK"

CDS 1035..2096 /codon_start=1 /gene="ccp" /product="cellulose complementing protein" /protein_id="BAC82541.1" /transl_table=11 /translation="MSASGSDEVAGGGQAGSPQDFQRVLRSFGVEGGQYSYRPFVDRS FDVTGVPEAVERHFDQAEHDTAVEEQVTPAPQIAVAPPPPPVVPDPPAIVTETAPPPP VVVSAPVTYEPPAAAVPAEPPVQEAPVQAAPVPPAPVPPIAEQAPPAAPDPASVPYAN VAAAPVPPDPAPVTPAPQARVTGPNTRMVEPFSRPQVRTVQEGATPSRVPSRSMNAFP RTSASSISERPVDRGVADEWSPVPKARLSPRERPRPGDLSFFFQGMRDTRDEKKFFPV ASTRSVRSNVSRMTSMTKTDTNSSQASRPGSPVASPDGSPTMAEVFMTLGGRATELLS PRPSLREALLRRRENEEES"BASE COUNT 343 a 661 c 661 g 444 tORIGIN 1 cgttccttta tgtcggtcat ggcggcgatg ggaggggcgc aggtgctttc atccaccggt 61 gcgttcgcag acaccgcccc cgatgcggtc gcgcagcaat gggccatctt ccgcgccaag 121 tatcttcgtc ccagcggacg tgtcgtggat acgggcaatg gtggcgaatc ccatagtgag 181 gggcagggct atggcatgct ctttgccgcg tcggcggggg accttgcgtc gttccagtcg 241 atgtggatgt gggcgcgcac caacctgcag cataccaatg acaagctgtt ttcctggcgg 301 ttcctcaagg ggcatcagcc cccggtgccc gacaagaaca atgccacaga tggcgacctg 361 ctgatcgcgc ttgcgcttgg tcgtgcgggc aagcgtttcc agcgccccga ttacattcag 421 gacgccatgg ccatttatgg cgatgtgctg aacctgatga cgatgaaggc gggaccgtat 481 gtcgtcctca tgcccggtgc tgtcggcttt accaagaagg acagcgtgat cctcaacctg 541 tcctattacg tcatgccctc gctgctgcag gcgttcgacc ttacggccga cccgcgctgg 601 cgtcaggtga tggaagacgg gattcgcctt gtttccgccg gccgtttcgg gcagtggcgc 661 ctgccccccg actggctggc ggtgaatcgc gccaccggtg cgctgtcgat cgcatcggga 721 tggccgccgc gcttttccta tgatgcgatt cgggtgccgc tttattttta ttgggcgcat 781 atgctggcgc cgaacgtgtt ggctgatttc acccgattct ggaataattt cggggctaat 841 gccctgccag gatgggttga tctgacaaca ggggcgcgtt cgccgtacaa cgccccgcct 901 ggatatcttg ctgttgccga atgcacgggg cttgattctg ccggggaact cccgacactg 961 gatcatgcgc ccgattatta ttccgcagcg ttgacgctgc tcgtttacat cgcgcgggcg 1021 gaggagacta taaagtgagt gcttcagggt ctgatgaggt ggctggggga gggcaggctg 1081 gaagtccgca ggattttcag cgggtcctgc gttcttttgg tgtcgaaggt gggcagtatt 1141 cctaccggcc gtttgttgac cgttcctttg atgtgacagg cgtgcccgag gctgttgaaa 1201 ggcacttcga tcaggcggag catgacacgg cggttgagga gcaggtcact cccgcgccac 1261 aaatcgcggt cgcaccgcca ccgccgccag tcgttcctga cccgcccgcc atcgtgacgg 1321 aaaccgcgcc cccgccgcct gtcgtggtca gcgctccggt cacgtatgaa cccccggctg 1381 ccgccgtgcc ggcagagcct cccgttcagg aagcccccgt gcaggcggcg ccggttcccc 1441 ccgcgcctgt gcccccgatt gcggagcagg ctcctcccgc ggcgccggac ccggcatccg 1501 tgccgtatgc gaacgtcgcg gcagcacccg ttccacctga tcccgcaccg gttacgcctg 1561 cgccgcaggc gcgcgtgacg gggccgaaca cccgtatggt ggagcccttt tcccgcccgc 1621 aggtccgcac ggtgcaggag ggggcaaccc cgtcacgtgt accttcgcgt tcaatgaacg 1681 ctttcccccg cacatcagca tcgtccataa gtgagcgtcc ggtggacagg ggtgttgccg 1741 atgaatggag tcctgttccg aaggcacgcc tcagcccgcg ggagcgtccg cgtcccggcg 1801 atctgagctt tttctttcag gggatgcgcg acacccgtga tgaaaagaag ttctttcccg 1861 tggcgtccac gcgatcagtt cgttctaatg tttccaggat gaccagcatg accaagacag 1921 acacgaattc ctctcaggct tctcgtcccg gcagccccgt cgcctcgcct gatgggtcgc 1981 ccacaatggc cgaagtgttc atgacgctgg gtggtcgtgc gacggaactc ctcagccccc 2041 gtccttcgct gcgggaggcg ctgttgcgtc gtcgtgaaaa cgaagaagaa tcctaaggcc 2101 ctatattca

//

Page 17: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝子・立体構造の論文には登録が不可欠

©2012 PLoS Licensed Under CC Attribution 2.5

論文投稿時の注意:論文の著者は、論文で言及した塩基配列や立体構造などのデータについて、インターネットで参照可能な公共データベースの登録番号を掲載しなければならない

Page 18: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Traditional DDBJ / INSDC

塩基数 1800億

登録数 1.8億

Page 19: [DDBJing31] DDBJ と NIG SuperComputer の使い方
Page 20: [DDBJing31] DDBJ と NIG SuperComputer の使い方
Page 21: [DDBJing31] DDBJ と NIG SuperComputer の使い方

「特許」データの割合

Page 22: [DDBJing31] DDBJ と NIG SuperComputer の使い方

INSDCに多くの配列が登録された生物種

DDBJに登録されている生物種 Top 100のワードクラウド(数が多いほど大きい字で表示)

Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.

ヒト

トウモロコシ マウス

ラット

ブタ

ウシ

Page 23: [DDBJing31] DDBJ と NIG SuperComputer の使い方

NCBI Taxonomy (30万種を超える生物種)

Page 24: [DDBJing31] DDBJ と NIG SuperComputer の使い方

生物学の情報爆発

Page 25: [DDBJing31] DDBJ と NIG SuperComputer の使い方

http://www.1000genomes.org/

Page 26: [DDBJing31] DDBJ と NIG SuperComputer の使い方

http://1001genomes.org/

Page 27: [DDBJing31] DDBJ と NIG SuperComputer の使い方

「環境」シーケンス

•特定の環境からサンプリングした生物相のDNAを、培養することなく全解析することができる

•“MetaGenomics” Metagenomics is the study of metagenomes, genetic material recovered directly from environmental samples. The broad field may also be referred to as environmental genomics, ecogenomics or community genomics. (by Wikipedia)

Page 28: [DDBJing31] DDBJ と NIG SuperComputer の使い方

現在進行中の配列決定プロジェクト

https://gold.jgi-psf.org/

Metagenome Environmental

Page 29: [DDBJing31] DDBJ と NIG SuperComputer の使い方

NGS [次世代]Next-Generation Sequencer

[新型]New Generation Sequencer

Page 30: [DDBJing31] DDBJ と NIG SuperComputer の使い方

新型シーケンサーの特徴:高速・大量

イルミナ HiSeq 2500 / 2000

一解析で6000億塩基 (600ギガベース)

ヒト一人のDNAがおよそ30億塩基対なので

一解析でざっくり200人分ゲノムが取得できる

http://www.illuminakk.co.jp/systems/hiseq_systems.ilmn より引用

Page 31: [DDBJing31] DDBJ と NIG SuperComputer の使い方

従来のシーケンサーと新型シーケンサー従来法 新型

DNAの細分化 DNAの細分化

試験管のなかで末尾にタグを付加大腸菌の中でDNAを増やす

固体の基盤上に貼付け、DNAをスポットとして増幅

試験管のなかで複製していく

DNA分子の大きさで分別し蛍光の色で配列を読み取る

基盤上でDNAを複製していき、各段階の塩基毎の蛍光を撮影する

反応が途中で停止する

Page 32: [DDBJing31] DDBJ と NIG SuperComputer の使い方

NGSの例: illumina: GA の原理

フラットな固層上に適当な間隔でDNAを1分子ずつ固定、基盤上で「ブリッジPCR」を行い、スポットとしてDNAを増幅

相補鎖合成を行いながら化学発光をとらえる

4つの塩基に別々の蛍光標識をつけておいて、結合した塩基の場所をスポットの光として特定し、塩基配列を解読していく

元データは時系列の高密度な画像データ

http://www.youtube.com/watch?v=77r5p8IBwJk

Page 33: [DDBJing31] DDBJ と NIG SuperComputer の使い方

新型シーケンサはなぜ高速?→「集積度」

•従来法は溶液やゲル中での反応と分離 • 固体担体を用いて超高密度化を可能にした

マイクロプレート 24 × 16 = 384穴

イルミナ社 GA フローセル 数千万スポット

Page 34: [DDBJing31] DDBJ と NIG SuperComputer の使い方

さらに「ポータブル」シーケンサ

Page 35: [DDBJing31] DDBJ と NIG SuperComputer の使い方

PaperPaper

Paper

Paper

NGSreads

assemble mapping

annotation

DDBJGenBankENATrad INSDC

re-annotation

omics paper

DORGEOArrayExpressOmics Data Archives

papers

DRASRAERAopen accesscontigs

Paper

genome paper

The ecosystem of sequence data

JGAdbGAPEGAcontrolled access

genomedatabase

公開NGSデータ

制限公開NGSデータ

公開解析済データ

Page 36: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DRADDBJ Sequence Read Archive

公開NGSデータ

Page 37: [DDBJing31] DDBJ と NIG SuperComputer の使い方

新世代シークエンサから出力される配列や

アライメントデータを登録・公開

DDBJ Sequence Read Archive (DRA)

ERA2008年開始

SRA2007年開始

International Nucleotide Sequence Databank Collaboration

DRA2008年開始

Page 38: [DDBJing31] DDBJ と NIG SuperComputer の使い方

SRA growth (NCBI)http://trace.ncbi.nlm.nih.gov/Traces/sra

公開分2,055 TBases

Page 39: [DDBJing31] DDBJ と NIG SuperComputer の使い方

登録関係情報

http://trace.ddbj.nig.ac.jp/dra/

データ取得

解析パイプライン

DRAウェブサイト ⇒ [DRA] で検索

データ検索

Page 40: [DDBJing31] DDBJ と NIG SuperComputer の使い方

公開データの DRA Search での検索公開データは EBI SRA / NCBI SRA と共有されています

生物名 etc での絞り込み

検索結果リスト

ダウンロード

詳細(メタデータ記述)

Page 41: [DDBJing31] DDBJ と NIG SuperComputer の使い方

JGAJapanese

Genotype-phenotype Archive

New!

Page 42: [DDBJing31] DDBJ と NIG SuperComputer の使い方

JGAとは

Japanese Genotype-phenotype Archive (JGA)

個人の遺伝学的なデータと表現型情報を保存し、提供

匿名化されているメタデータのみを受け付け

Informed Consent により JGA データの利用は特定の研究目的に制限されている

データの登録と利用は事前に NBDC に申請し、認可されている必要がある

メタデータの体系は SRA を拡張したもの

NGS データに加えアレイや variation データを登録できる

ウェブサイト: http://trace.ddbj.nig.ac.jp/jga/  

メールアドレス: [email protected]

Page 43: [DDBJing31] DDBJ と NIG SuperComputer の使い方

[JGA DDBJ] で検索http://trace.ddbj.nig.ac.jp/jga/

Page 44: [DDBJing31] DDBJ と NIG SuperComputer の使い方

[JGA DDBJ] で検索http://trace.ddbj.nig.ac.jp/jga/

NBDC: 登録・利用を認可DDBJ: アーカイブ

Page 45: [DDBJing31] DDBJ と NIG SuperComputer の使い方

JGAの登録・利用フロー

登録者

JGA へのデータ提供を申請NBDC

JGA登録アカウント

提供申請を認可

メタデータ

JGA 登録用エクセルシートに記入

ツールでデータファイルを暗号化し、  ディスクを郵送 利用者

Data set ごとに利用を申請

利用申請を認可

利用アカウント

データをディスクで郵送

復号化のための鍵を別ルートで送付

セキュア エリア

再暗号化

概要を公開し、JGA で利用できる  データリストを表示

当面、メタデータはエクセルで投稿し、アレイ・配列データはディスクで郵送。  今年度中に JGA 全体をオンライン化し、データの提供・利用をアカウントで管理するシステムに移行する。

Page 46: [DDBJing31] DDBJ と NIG SuperComputer の使い方

JGA

https://ddbj.nig.ac.jp/jga/viewer/view/studies

Page 47: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJDNA Data Bank of Japan

公開解析済データ

Page 48: [DDBJing31] DDBJ と NIG SuperComputer の使い方
Page 49: [DDBJing31] DDBJ と NIG SuperComputer の使い方

[DDBJ] で検索 http://www.ddbj.nig.ac.jp

「登録」 からどうぞ

Page 50: [DDBJing31] DDBJ と NIG SuperComputer の使い方

新データ登録支援システム (D-easy)

http://ddbj.nig.ac.jp/submission/

種々の入力補完 テンプレートによる 入力簡素化

Page 51: [DDBJing31] DDBJ と NIG SuperComputer の使い方

PaperPaper

Paper

Paper

NGSreads

assemble mapping

annotation

DDBJGenBankENATrad INSDC

re-annotation

omics paper

DORGEOArrayExpressOmics Data Archives

papers

DRASRAERAopen accesscontigs

Paper

genome paper

The ecosystem of sequence data

JGAdbGAPEGAcontrolled access

genomedatabase

Page 52: [DDBJing31] DDBJ と NIG SuperComputer の使い方

PaperPaper

Paper

Paper

NGSreads

assemble mapping

annotation

DDBJGenBankENATrad INSDC

re-annotation

omics paper

DORGEOArrayExpressOmics Data Archives

papers

DRASRAERAopen accesscontigs

Paper

genome paper

The ecosystem of sequence data

JGAdbGAPEGAcontrolled access

genomedatabase

公開NGSデータ

制限公開NGSデータ

公開解析済データ

Page 53: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スーパーコンピュータ

Page 54: [DDBJing31] DDBJ と NIG SuperComputer の使い方
Page 55: [DDBJing31] DDBJ と NIG SuperComputer の使い方

今や生物学は情報学である

Page 56: [DDBJing31] DDBJ と NIG SuperComputer の使い方

費用の話で恐縮ですが

DDBJ事業費スパコンその他のnig

nig全体: 約30億

DDBJ事業費: 3.2億

スパコン: 約7.2億

Page 57: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スパコン

Page 58: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スーパーコンピュータサイト tophttp://sc.ddbj.nig.ac.jp/

Page 59: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スーパーコンピュータ(全容)

Page 60: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スーパーコンピュータ(概要)

5.5 PB MAID

大容量省電力HDD

7 PB Lustre 高速HDD

“medium” 2TB memory

x 10 台

“thin” 64GB memory

x 554 台

“fat” 10TB memory (SGI UV) 1 台

CC-PD from OpenClipart

Page 61: [DDBJing31] DDBJ と NIG SuperComputer の使い方

ソフトウェア構成http://sc.ddbj.nig.ac.jp/

Page 62: [DDBJing31] DDBJ と NIG SuperComputer の使い方

遺伝研スーパーコンピュータ上で使える開発環境

• 「プログラミング環境について」

• 「科学技術計算ライブラリについて」

… まあ、普通に使うぶんにはとくに用はないか

http://sc.ddbj.nig.ac.jp/index.php/system-software-config

Page 63: [DDBJing31] DDBJ と NIG SuperComputer の使い方

シェル

• 「シェル環境について」 • システムへのログインシェルは、bash, tcsh, zsh が利用可能です。

UNIX にコマンドを出すためのプログラムである「シェル」は複数のなかから選べます。お好きなものをどうぞ。

「シェルスクリプト」が書けるようになると、ぐっと大量の解析作業が捗るようになりますよ。

http://sc.ddbj.nig.ac.jp/index.php/system-software-config

Page 64: [DDBJing31] DDBJ と NIG SuperComputer の使い方

スクリプト言語

• 「一般ユーザが利用可能なスクリプト言語」 • ログインノード、計算ノードで一般ユーザが利用可能なスクリプト言語環境は以下の通りです。

さらに「スクリプト言語」が使えるようになると、一連の解析を効率的に繋いで高度化できますよ!

http://sc.ddbj.nig.ac.jp/index.php/system-software-config

Page 65: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Running Batch Job on Grid Engine (automatic load balancing at request level)

# run a script on a login node.bash your_script.sh

# run a script on a calculation node.qsub –cwd –S /bin/bash your_script.sh

Page 66: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Running Jobs on Medium and Fat nodes# run a script on a thin node.qsub –cwd –S /bin/bash your_script.sh

# run a script on a medium node.qsub –cwd –l month –l medium –S /bin/bash your_script.sh

# run a script on the fat node.qsub –cwd –l month –l fat –S /bin/bash your_script.sh

Page 67: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Memory Request (for each CPU core)# This job runs on 1 CPU core and 128GB memory.qsub –cwd –l month -l medium -l s_vmem=128G,mem_req=128G –S /bin/bash your_script.sh

# This job runs on 10 CPU core (in the same node) and 1280GB memory. qsub –cwd –l month -l medium -l s_vmem=128G,mem_req=128G -pe def_slot=10 –S /bin/bash your_script.sh

Page 68: [DDBJing31] DDBJ と NIG SuperComputer の使い方

このように非常に簡単にお使い頂けます by SEさん

Page 69: [DDBJing31] DDBJ と NIG SuperComputer の使い方

( ゚д゚) ポカーン

Page 70: [DDBJing31] DDBJ と NIG SuperComputer の使い方

もっと誰にでも使いやすく

Page 71: [DDBJing31] DDBJ と NIG SuperComputer の使い方

「クラウド」によるNGS解析支援

http://ja.wikipedia.org/wiki/ファイル:Cloud_computing_icon.svg CC-BY-SA 3.0 by 百楽兎

Page 72: [DDBJing31] DDBJ と NIG SuperComputer の使い方

http://trace.ddbj.nig.ac.jp/dra/

解析パイプライン

解析パイプラインも提供してますhttp://trace.ddbj.nig.ac.jp/dra/

Page 73: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DRA pipeline: ソフトウェアよく用いられる

解析用ソフトウェアを 用意。クリックだけで

実行可能

Page 74: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DRA pipeline: 比較対象イネ、マウスなど 解析比較対象となる 配列を多数用意

Page 75: [DDBJing31] DDBJ と NIG SuperComputer の使い方

NGS’s + SC’s in Biology

“medium” 2TB memory

x 10

“fat” 10TB memory

(SGI UV)

Page 76: [DDBJing31] DDBJ と NIG SuperComputer の使い方

スパコン利用申請はこちら•[ 遺伝研 スーパーコンピュータ ] で検索

無料です!

Page 77: [DDBJing31] DDBJ と NIG SuperComputer の使い方

現在進行中の配列決定プロジェクト

https://gold.jgi-psf.org/

Complete

Page 78: [DDBJing31] DDBJ と NIG SuperComputer の使い方

本日ただいま6653生物種のゲノム解読完了

Page 79: [DDBJing31] DDBJ と NIG SuperComputer の使い方

では6653種の生物種の理解は完了したのか?

Page 80: [DDBJing31] DDBJ と NIG SuperComputer の使い方

いやいや滅相もない

Page 81: [DDBJing31] DDBJ と NIG SuperComputer の使い方
Page 82: [DDBJing31] DDBJ と NIG SuperComputer の使い方

正確な解析情報を付与して

Page 83: [DDBJing31] DDBJ と NIG SuperComputer の使い方

研究に使い倒して役立てよう

Page 84: [DDBJing31] DDBJ と NIG SuperComputer の使い方

配列生産者 配列DB

配列利用者

Page 85: [DDBJing31] DDBJ と NIG SuperComputer の使い方

DDBJ (http://www.ddbj.nig.ac.jp/)

データベースも がんばります

Page 86: [DDBJing31] DDBJ と NIG SuperComputer の使い方

Cc, the first-ever cloned cat.

ご清聴 ありがとう ございました