DDBJ Sequence Read Archive

第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
第26回 DDBJing 講習会 in 三島 (2013.1.24)
DDBJ Sequence Read Archive
DDBJ BioProject
の紹介
国立遺伝学研究所
国
遺伝学研究所
生命情報・DDBJ研究センター
日本DNAデータバンク
児玉 悠一
1
DDBJ Sequence Read Archive
次世代 (以降) シークエンサ
から出力される
1次データのための公共データベース
2
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
国際協力
Sequence Read Archive
DRA 2008 年~
データ形式は3極で同一
形式は共同で策定
登録はどこか1極でOK
公開データは共有される
SRA
ERA
2007 年~
2008 年~
3
次世代データの流れ
解析パイプライン
定量データ
1次データ
プロジェクトデータ
アノテーションされた塩基配列データ
4
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
登録対象
配列のみのデータ
454 (R
(Roche)
h )
Solexa (Illumina)
@SRR001654.1 9460:7:1:830:763 length=36
GTCAATATTAATCATACCAATATACTCAAAAAATAA
+SRR001654.1 9460:7:1:830:763 length=36
I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""
@SRR001654.2 9460:7:1:402:781 length=36
GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC
+SRR001654.2 9460:7:1:402:781 length=36
II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$
@SRR001654.3 9460:7:1:433:775 length=36
GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC
+SRR001654.3 9460:7:1:433:775 length=36
II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#
画像データ
1次データ
fastq データ
ベースコール
Q
Quality
スポット座標
塩基配列 + Quality Value
ランデータ
SOLiD (ABI) etc
メタデータ (データに関する情報:実験手法、解析方法 etc)
5
登録に必要なデータ
ランの結果
“メタデータ
メタデータ”” + “ランデータ
ランデータ””
どんな実験?
どんな研究?
どんなサンプル?
6
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
メタデータ
6個の
オブジェクト
実体は
XML ファイル
フ イル
ランデータは
Run の下に
アクセッション番号は
それぞれのオブジェクトに
対して発行されます
7
メタデータ in XML
<?xml version="1.0" encoding="UTF-8"?>
<EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063"
expected_number_reads="547063" accession="SRX000017">
<TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE>
<STUDY_REF
S
accession="SRP000011"
S
refname="2005892953"/>
f
/
<DESIGN>
<DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun
Library</DESIGN_DESCRIPTION>
<SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/>
<LIBRARY_DESCRIPTOR>
<LIBRARY_NAME>2010007891</LIBRARY_NAME>
<LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY>
<LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE>
<LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION>
<LIBRARY_LAYOUT>
<SINGLE/>
</LIBRARY_LAYOUT>
</LIBRARY_DESCRIPTOR>
<SPOT_DESCRIPTOR>
<SPOT_DECODE_SPEC>
<NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT>
<READ_SPEC>
<READ_INDEX>0</READ_INDEX>
8
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
オブジェクトでデータを表現
例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析
Submission
Study
Sample
Experiment (24 h)
Experiment (12 h)
Experiment (0h)
Run
Run
Run
登録後オブジェクトを追加できます
24 h
12 h
0h
9
データ登録
登録マニュアルに従い、まずは
登録アカウントを申請してください
登録受付システム
http://trace.ddbj.nig.ac.jp/dra/submission.shtml
メタデータ
ウェブ上で作成
登録者
ランデータ
ファイルを転送
ファイル受付サーバ
10
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
登録アカウント
アカウントをウェブ上で取得、
ログインします
新規登録 (drauser-0004)
の詳細画面に移動します
新規登録を作成
11
登録詳細画面
メタデータ作成ツール
を起動します
12
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
メタデータの作成
オブジェクト
に対応したタブ
XML を意識することなく、
を意識することなく
情報を入力していくだけで
メタデータを作成できます
ポップアップ説明
入力支援
13
メタデータの投稿
テンプレートや
過去の登録内容を
利用できます
チェックが通ったメタデータを投稿します
入力内容をチェックします。
エラーメッセージが表示された場合は
内容を修正します
14
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
ランデータの転送
機種
454
Illumina
SOLiD
ファイル
sff
qseq
csfasta + QV.qual
詳細はウェブサイトをご覧ください
http://trace.ddbj.nig.ac.jp/dra/documentation.shtml
登録に対応するディレクトリ
drauser/submission/drauser-0004
にファイルを転送
ランデータ
ファイル
ファイル受付サーバ
15
ランデータのチェック
表示されるエラーメッセージに従い
メタデータの修正やランデータファイルの
再転送をしてください
ランデータファイルの情報
ランデータファイル
のチェックを開始
16
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
アクセッション番号発行
アクセッション番号
メタデータとランデータが揃い
status が data_validated になった後、査定を開始します。
不備がなければアクセッション番号を発行します。
※不備がある場合は Submission.Contact に記入された
メールアドレス宛に問い合わせます
※Contact にはできるだけ複数の連絡先を指定してください
17
データの更新
メタデータの更新
例) pubmed id の追加
公開予定日の変更
※4年後まで指定でき、延長可能です
18
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
データの公開
指定された公開予定日になるとデータが自動的に公開されます。
公開されたデータは EBI/NCBI SRA にミラーされます
生物名 etc での絞り込み
検索結果リスト
ダウンロード
詳細
19
BioProject
定量データ
次世代シークエンサの登場で
次世代シ
クエンサの登場で
生産性が飛躍的に向上!
1次データ
↓
1つのプロジェクト/ラボからのデータが
複数のデータベースに登録されるように
プロジェクトデータ
↓
アノテーションされた塩基配列データ
これらをつなぐ ID がない!
↓
BioProject
20
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
データをグループ化
複数のデータベースに存在するデータをグループ化
大きなプロジェクトは2階層で表現
例) ゲノム支援プロジェクト
動物ゲノム
植物ゲノム
21
プロジェクトの登録
プロジェクトを登録するケース




ゲノム配列の登録 (必須)
複数のデータベースにまたがって登録する
複数のデ
タベ スにまたがって登録する
複数のプロジェクトメンバーからの登録
登録するデータ量が多い
登録アカウントから
プロジ クトのゴ ル
プロジェクトのゴール、
研究費、対象生物、デー
タの種類 etc を登録
22
第26回DDBJing 講習会 in 三島
『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』
連絡先
DDBJ Sequence Read Archive
htt //t
http://trace.ddbj.nig.ac.jp/dra
ddbj i
j /d
[email protected]
DDBJ BioProject
http://trace.ddbj.nig.ac.jp/bioproject
[email protected]
23