ddbj sequence read archive (dra) の紹介 (第25回 ddbjing 講習会)
TRANSCRIPT
第25回 DDBJing 講習会 in 三島 (2012.1.26)
DDBJ Sequence Read Archive (DRA)
の紹介
国立遺伝学研究所
生命情報・DDBJ研究センター
日本DNAデータバンク
児玉 悠一
国際協力
SRA 2007 年~
ERA 2008 年~
DRA 2008 年~
Sequence Read Archive
データ形式は3極で同一 形式は共同で策定
登録はどこか1極でOK 公開データは共有される
1次データ ベースコール
Quality
スポット座標
454 (Roche)
Solexa (Illumina)
SOLiD (ABI) etc
登録対象
画像データ
配列のみのデータ @SRR001654.1 9460:7:1:830:763 length=36
GTCAATATTAATCATACCAATATACTCAAAAAATAA
+SRR001654.1 9460:7:1:830:763 length=36
I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""
@SRR001654.2 9460:7:1:402:781 length=36
GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC
+SRR001654.2 9460:7:1:402:781 length=36
II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$
@SRR001654.3 9460:7:1:433:775 length=36
GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC
+SRR001654.3 9460:7:1:433:775 length=36
II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#
fastq データ 塩基配列 + Quality Value
メタデータ (データに関する情報:実験手法、解析方法 etc)
ランデータ
メタデータ in XML
<?xml version="1.0" encoding="UTF-8"?>
<EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063"
expected_number_reads="547063" accession="SRX000017">
<TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE>
<STUDY_REF accession="SRP000011" refname="2005892953"/>
<DESIGN>
<DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun
Library</DESIGN_DESCRIPTION>
<SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/>
<LIBRARY_DESCRIPTOR>
<LIBRARY_NAME>2010007891</LIBRARY_NAME>
<LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY>
<LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE>
<LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION>
<LIBRARY_LAYOUT>
<SINGLE/>
</LIBRARY_LAYOUT>
</LIBRARY_DESCRIPTOR>
<SPOT_DESCRIPTOR>
<SPOT_DECODE_SPEC>
<NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT>
<READ_SPEC>
<READ_INDEX>0</READ_INDEX>
Submission
Study
Experiment (24 h)
Experiment (12 h)
Experiment (0h)
Sample
Run Run
Run
24 h
12 h
0 h
例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析
登録後オブジェクトを追加できます
オブジェクトでデータを表現
データ登録
登録者
ランデータ
メタデータ
ファイルを転送
ファイル受付サーバ
登録受付システム D-way 登録マニュアルに従い、まずは D-way アカウントを申請してください
http://trace.ddbj.nig.ac.jp/dra/submission.shtml
ウェブ上で作成
ランデータの転送
詳細はウェブサイトをご覧くださいhttp://trace.ddbj.nig.ac.jp/dra/documentation.shtml
登録に対応するディレクトリ drauser/submission/drauser-0004
にファイルを転送
ランデータファイル
ファイル受付サーバ
機種 ファイル
454 sff
Illumina qseq
SOLiD csfasta + QV.qual
アクセッション番号発行
アクセッション番号
メタデータとランデータが揃い status が data_validated になった後、査定を開始します。
不備がなければアクセッション番号を発行します。
※不備がある場合は Submission.Contact に記入された メールアドレス宛に問い合わせます
※Contact にはできるだけ複数の連絡先を指定してください
データの公開
生物名 etc での絞り込み
検索結果リスト
ダウンロード
指定された公開予定日になるとデータが自動的に公開されます。 公開されたデータは EBI/NCBI SRA にミラーされます
詳細
1次データ
アノテーションされた塩基配列データ
定量データ
プロジェクトデータ
BioProject
次世代シークエンサの登場で 生産性が飛躍的に向上!
↓ これらをつなぐ ID がない!
↓
BioProject
↓ 1つのプロジェクト/ラボからのデータが 複数のデータベースに登録されるように
プロジェクトの登録
ゲノム配列の登録 (必須) 複数のデータベースにまたがって登録する 複数のプロジェクトメンバーからの登録 登録するデータ量が多い
プロジェクトを登録するケース
D-way から
プロジェクトのゴール、研究費、対象生物、データの種類 etc を登録
連絡先
DDBJ Sequence Read Archive
http://trace.ddbj.nig.ac.jp/dra
DDBJ BioProject
http://trace.ddbj.nig.ac.jp/bioproject