AJACS52@農工大 DDBJ/スパコン/ゲノム注釈

!
AJACS52@農工大
DDBJ/スパコン/ゲノム注釈
国立遺伝学研究所
大量遺伝情報研究室
中村保一
自己紹介
@yaskaz
a.k.a. catlover, ikasumipapa,
猫教授
使い倒し系バイオインフォマティスト
!
!
植物とか微生物のゲノム解析+DB屋
The Arabidopsis Genome Initiative
(2000) Analysis of the genome sequence
of the flowering plant Arabidopsis
thaliana. Nature, 408, 796-815.!
!
シロイヌナズナの 1/4!
(27 Mb, 6200 genes) の解析
http://genome.kazusa.or.jp/
cyanobase/
!
光合成細菌のゲノム解析+データ
ベース。Social Bookmark によ
る遺伝子注釈系
1990年!
京大院(農)
ゼニゴケミト
コンドリア!
ゲノム
コレ
古典的配列決定 (dideoxy法) の原理
• Polymerase Chain Reaction
•http://www.youtube.com/watch?
v=QaWLJVGEFi8
!
• Sanger Sequencing (dideoxy method)
•http://www.youtube.com/watch?
v=oYpllbI0qF8
•http://www.youtube.com/watch?
v=6ldtdWjDwes
【tips】
統合TVも便利だけど
他にもYouTubeで
実験系原理探すと
わかりやすいのがあるよ
イニシエの basecalling
digitizer
CCGCCCCTAGTGGCGATCGCCAGGGAACAAACCGCTGGCCGGGGGCAATGGGGTCGGACT
TGGCAGTCTCCTCCGGGGGGATTGTACCTATCTCTGTGGTTAGCCACTGATTTACCAATC
AGTTATGGTCCCCATCTAGTTCTATGGAGTGCCTGGGGCATTGCCCACGCGCTGATTCAG
CACGGTATTCCAGTGCAAGTTAAATGGCCCAATGACCTGTTATTGAAGGGGAAAAAATTA
GCTGGCATTAAAACCGAAAGCAAAATCAATGGGAACAGAATCACCGCCGCCATCATTGGG
GTGGGCATTAACTGGACTAACCCAGTACCAGCCACTGGCATTGCCCTAGGGCCCTTTTGT
GAAGCGGAATCAATCCAGAGTATCAACAGTCTGACGGATTTAGCTGAAATTACCCTGGCG
GGGCTCACCCTTGGTTGGCATCGTTACCAAAGAGAAGGCATTGCAGGCATTTTGGTAGAT
TATCTCCAATTATTTGCCCATCGGGGCCGGGAAATTAGCCTAACCCAGGGAGTTGGCATA
186 kb
院生7人!
がかりで!
まる2年
1996 Synechocystis sp. PCC 6803!
2000 Arabidopsis thaliana!
2000 Mesorhizobium loti!
2001 Anabaena (Nostoc) sp. PCC 7120!
2002 Bradyrhizobium japonicum!
2002 Thermosynechococcus elongatus BP-1!
2003 Gloeobacter violaceus PCC 7421!
2007 Microcystis aeruginosa NIES-843!
2008 Lotus japonicus!
2012 Bradyrhizobium sp. S23321!
2012 Solanum lycopersicum!
2012 Eucalyptus globulus!
2012 Hevea brasiliensis (Para rubber tree)!
2014 Klebsormidium flaccidum (an algae) !
2014 !Weissella oryzae SG25T!
2014 !Lactobacillus oryzae SG293T!
2014 !Lactobacillus hokkaidonensis LOOC260T!
!
Marchantia polymorpha (a liverwort)!
!
Citrus sinensis!
!
Schizosaccharomyces japonicus!
Cyanobacteria!
Rhizobia!
Plants!
Others
Our on-going genome projects
a liverwort, Marchantia polymorpha!
220 Mb genome!
4.4 k scaffolds / N50: 1.3 Mb
a rubber tree, Hevea brasiliensis!
1.4 Gb genome!
52.7 k scaffolds / N50: 120 kb
a citrus tree, Citrus unshiu!
360 Mb genome!
21.1 k scaffolds / N50: 385 kb
遺伝研/DDBJは静岡県三島市にあります
DDBJ (http://www.ddbj.nig.ac.jp/)
塩基配列データバンクとはこのような事業
• 全世界で解読された塩基配列情報を
• 査定して受入れ
• データベースに蓄積し
• 公開して共有する
データベース
国際塩基配列データベース (INSDC) の一員
•米国: GenBank (NCBI)
•欧州: ENA (EBI)
•日本: DDBJ
DDBJ (from Release note 92)
Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto,
Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata,
Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee,
Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata,
Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa,
Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai,
Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma,
Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura
!
ENA (from Release note 115)
Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson,
Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,
Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister,
Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester,
Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane
!
GenBank (from Release note 195)
Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent
Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko,
Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard
McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright,
Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya
Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael
Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena
Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava
Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter
Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric
Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman
INSDCに多くの配列が登録された生物種
Images created by the Wordle.net web application are licensed
under a Creative Commons Attribution 3.0 United States License.
トウモロコシ
マウス
ブタ
ヒト
ラット
DDBJに登録されている生物種 Top 100の
ワードクラウド(数が多いほど大きい字で
表示)
ウシ
NCBI Taxonomy (30万種)
NCBI Taxonomy / Felis catus
DDBJ (http://www.ddbj.nig.ac.jp/)
生物学の!
情報爆発
http://www.1000genomes.org/
http://1001genomes.org/
「環境」シーケンス
•特定の環境からサンプリングした生物相のDNA
を、培養することなく全解析することができる
•
MetaGenomics
Metagenomics is the study of metagenomes,
genetic material recovered directly from
environmental samples. The broad field
may also be referred to as environmental
genomics, ecogenomics or community
genomics. (by Wikipedia)
現在進行中の配列決定プロジェクト
Metagenome
Environmental
https://gold.jgi-psf.org/
NGS!
!
[次世代]Next-Generation Sequencer!
⇩!
[新型]New Generation Sequencer
新型シーケンサーの特徴:高速・大量
http://www.illuminakk.co.jp/systems/hiseq_systems.ilmn
より引用
イルミナ HiSeq 2500 / 2000
一解析で6000億塩基 (600ギガベース)
ヒト一人のDNAがおよそ30億塩基対なので
一解析でざっくり200人分ゲノムが取得できる
従来のシーケンサーと新型シーケンサー
従来法
DNAの細分化
新型
DNAの細分化
大腸菌の中でDNAを増やす
試験管のなかで末尾にタグを付加
試験管のなかで複製していく
固体の基盤上に貼付け、DNAをス
ポットとして増幅
反応が途中
で停止する
DNA分子の大きさで分別し蛍光の
色で配列を読み取る
基盤上でDNAを複製していき、各
段階の塩基毎の蛍光を撮影する
新型シーケンサはなぜ高速?→「集積度」
• 従来法は溶液やゲル中での反応と分離
• 固体担体を用いて超高密度化を可能にした
マイクロプレート
24
16 = 384穴
イルミナ社 GA フローセル
数千万スポット
さらに「ポータブル」シーケンサ
DRA!
!
DDBJ Sequence Read Archive
DDBJ Sequence Read Archive (DRA)
新世代シークエンサから出力される配列や
アライメントデータを登録・公開
DRA!
2008年開始
ERA!
SRA!
2008年開始
2007年開始
International Nucleotide Sequence Databank Collaboration
SRA growth (NCBI)
http://trace.ncbi.nlm.nih.gov/Traces/sra
公開分!
1.84 PetaBases
DRAウェブサイト
[DRA] で検索
http://trace.ddbj.nig.ac.jp/dra/
登録関係情報
解析パイプライン
データ検索
データ取得
公開データの DRA Search での検索
公開データは EBI SRA / NCBI SRA と共有されています
生物名 etc での絞り込み
検索結果リスト
ダウンロード
詳細(メタデータ記述)
NGS s + SC s in Biology
“medium”
2TB memory
x 10
“fat”
10TB memory
(SGI UV)
遺伝研スーパー
コンピュータ
遺伝研スパコン
遺伝研スーパーコンピュータサイト top
http://sc.ddbj.nig.ac.jp/
遺伝研スーパーコンピュータ(全容)
遺伝研スーパーコンピュータ(概要)
“thin”
64GB memory
x 554 台
7 PB
Lustre
高速HDD
“medium”
2TB memory
x 10 台
5.5 PB
MAID
大容量省電力HDD
CC-PD from OpenClipart
“fat”
10TB memory
(SGI UV) 1 台
遺伝研スーパーコンピュータ(全容)
解析パイプラインも提供してます
http://trace.ddbj.nig.ac.jp/dra/
解析パイプライン
DRA pipeline: ソフトウェア
よく用いられる
解析用ソフトウェアを
用意。クリックだけで
実行可能
DRA pipeline: 比較対象
イネ、マウスなど
解析比較対象となる
配列を多数用意
DDBJ パイプライン、体験してみましょう
http://p.ddbj.nig.ac.jp
ゲストとして
ログイン
処理に使うNGSの配列ファイルの用意
アップロード!
されている配列
処理に使うNGSの配列ファイルの用意
FTP で手元から!
アップロード可能
処理に使うNGSの配列ファイルの用意
公開データを!
インポート可能
今回はupload済のエントリから
納豆菌の!
公開データが!
インポート済
velvet で!
アセンブル!
しましょう
配列のセットの形式を選んで次へ
オプションのパラメータを選べます
特になければ!
そのまま次へ
終了したらメイルが来ます
連絡先いれたら!
実行可能
でも今は!
押さないで!
「RUN を押した」と思ってください
処理状況は!
こちらから
アセンブル結果の!
基本情報
結果ファイル
Mappingの例 (DRAsearch+pipeline)
シロイヌナズナ!
alternative splicing
データのIDはこちら
p.ddbj.nig.ac.jp を開き、さっきのIDを入力
でも今は!
押さないで!
あらかじめ、ロードしておきました
Bowtie2 を選んで NEXT
配列を選んで confirm, NEXT
TAIR10(最新)を選んでNEXT
option 変更なければそのままNEXT
終了したらメイルが来ます
連絡先いれたら!
実行可能
でも今は!
押さないで!
「RUN を押した」と思ってください
処理状況は!
こちらから
実行結果
パラゴムノキ
Hevea brasiliensis ゲノム塩基配列解析
中村 保一 1、長崎 英樹 1、谷澤 靖洋 1、
稲見 圭悟 2、森 徹平 2、渡辺 訓江 2 1
国立遺伝学研究所、2 ブリヂストン・中央研究所
第31回日本植物細胞分子生物学会大会(札幌) 2013.9.11
http://www.city.sapporo.jp/zoo/
背景:天然ゴムを産出する植物
天然ゴム (Natural Rubber:NR)
合成ゴム:石油を原料として合成するゴム
!
!
!
グアユール (キク科)
!
!
!
!
インドゴムノキ
!
(イチジク属クワ科)
ベンジャミンゴム
(イチジク属クワ科)
ロシアタンポポ
(キク科)
2000種以上の植物がゴムを産出するが、工業用途で栽培され
ているのはパラゴムノキのみ
背景:パラゴムノキの分類と歴史
科: トウダイグサ科(Euphorbiaceae)パラゴム属の熱帯木本植物!
学名: Hevea brasiliensis!
和名: パラゴムノキ − パラ:原産地ブラジル北部の地名(パラ州)に由来する!
英名: Para rubber tree!
!栽培の歴史!
!1870年代 英国人がブラジルから英国へ持ち出し、その後植民地で栽培!
1900年代∼ 東南アジア、アフリカにおいて Michelin, Firestone, Goodyear のプランテー!
ション始まる
パラゴムノキのブラジル産原種
(インドネシアゴム研究所)
パラゴムノキの花 背景:パラゴムノキのタッピング
ゴム成分はパラゴムノキの樹液(=ラテックス)中に 30%∼ 40% 含有
幹の周囲
1/4-1/2
を左から
右に45度
の角度で
切付
ラテックス採取
(タッピング)
ゴムノキで作っ
た長机・椅子
ラテックスの回収
植林後 25 年
収穫が終わった木の
伐採
・植林後 5 ∼ 25 年の間、2, 3 日に 1 度、早朝からタッピング
・1 回のタッピングで 100 - 300 ml のラテックス回収
・最盛期は 10 ∼ 18 年(ゴム採取量:平均 3.0 - 4.0 kg/tree/year)
・廃材は家具、建具あるいは燃料として再利用される
アセンブルの最適化(1)
イルミナ社の超並列型シーケンサ HiSeq2000 により取得された、パラゴ
ムノキPB260株ゲノム由来の27億本のペアエンドリードと10億本のメイト
ペアリードの、最適なアセンブル方法を求めた。最もよい結果を得たアセ
ンブラは、ヘテロ性の高いゲノムに対応できる手法を適用した Platanus(東
工大・伊藤研開発)であった。
SOAPdenovo
Platanus
399,725,173
1,759,465,307
1,363,826,042
スキャフォールド (本)
46,850
108,574
75,028
N50 (nt)
20,988
50,277
83,244
AllPathsLG
アセンブル全長 (nt)
※ 1000 nt 以上のスキャフォールドを集計対象
・AllpathsLG:リードに対してRepeatMaskerを実行してからアセンブル(リピート領域を除き、
負荷を軽減するため)メモリ使用量が大きく全リードを入力することはできなかったので、
投入リード数を制限した試行 (PairEnd : 700 Mreads, MatePair : 600 Mreads)
・SOAPdenovo:複数の Kmer 選択によるアセンブル最適化後の結果
・Platanus:デフォルト条件で実行
!
ゲノム塩基配列再現性の検証
coverage (%)
この概要配列のゲノムのカバー率を調べるため、22,646 本の cDNA 塩基
配列 Li et al. (BMC Genomics 2012, 13: 192) を BLAT により概要配列にマッ
ピングしたところ、パラゴムノキのゲノム上で遺伝子が豊富な領域の
88.8% をカバーしていると推測された。
アセンブルの最適化(2)
Scaffolding tool Opera* を使用し、Platanus で作成した PB260株のスキャ
フォールドを再処理し、スキャフォールドの高品質化を図った。
!
!
!
!全長 (nt)
!
!スキャフォールド (本)
!
!最長スキャフォールド (nt)
!
!N50 (nt)
!
!
!不明塩基 (N) の割合
!
!
!
Platanus
Opera
1,363,826,042
1,496,410,288
75,028
52,712
918,526
1,248,878
83,244
120,621
15.70%
20.90%
※ 1000 nt 以上のスキャフォールドを集計対象
* Song Gao, Wing-Kin Sung, and Niranjan Nagarajan. (2011) Opera: Reconstructing Optimal
Genomic Scaffolds with High-Throughput Paired-End Sequences. Journal of Computational Biology,
18(11): 1681-1691. doi:10.1089/cmb.2011.0170.
PB260株配列への他4品種のリードマッピング
同種異株である GT1, AVROS2037, RRIM921, RRIM600 のリード配列の
PB260株スキャフォールドへのマッピングを行い、その結果をもとにそれ
ぞれの株とPB260株間のSNPsの検出を行った。
リード数
(ペア)
マップ率
カバー
率
深度
ホモSNPs
候補
ヘテロSNPs
候補
GT1
246,103,836
84%
94.7%
24.8 1,718,169
2,106,622
RRIM921
327,521,157
88.6%
96.7%
41.4 1,972,458
4,776,597
AVROS2307
304,265,359
85.6%
94.6%
40.6 1,970,606
2,616,656
RRIM600
236,546,937
86.8%
92.6%
32.7 1,777,313
2,208,894
※ 1000 nt 以上のスキャフォールドを集計対象
・QV Filter により読取精度の低い塩基をリードから除いた。
・RepeatMasker で scaffold 中の反復配列を検出し、その中に含まれる SNP を除外
・マッピングソフトウェア BWA を用い、マッピングを行った。BWA はデフォルト条件で実行
・BWA の結果から SAMtoolsを用いて、変異候補を検出し、VCFファイル中のFQ値が -40 以下
となるSNPをホモ、-40 を越えるSNPをヘテロとしてカウント。FQ値は経験則に基づく
!
パラゴム三品種間の CDS 中の共通 SNPs 予測
パラゴムノキ遺伝子cDNAとPB260株ス
キャフォールドとの相同性検索を行い、
その結果をもとに遺伝子領域中に含まれ
ると予想される SNPs を検出し株間比較
を実施した。
GT1
GT1
1,770,563
345,230
AVROS2037
2,039,278
RRIM921
2,047,584
267,032
324,855
336,223
GT1∩AVROS2037
670,085
AVROS2037∩RRIM921
661,078
RRIM921∩GT1
591,887
AVROS2037
RRIM921
パラゴムノキゲノムの決定により
推定 14 億塩基対からなるパラゴムノキのゲノ
ム構造の解明とデータベース化により、遺伝基
盤情報をもとにしたDNAマーカーの作成など
の分子育種研究を推進
•生産性が高く、高品質のラテックスを産出する
パラゴムノキを選抜する技術の開発
•耐病性・環境ストレス耐性に優れた品種の開発
などの応用研究の展開に資する予定である
BI人材養成カリキュラムNGS速習コース
•「バイオインフォマティクス人材養成カリキュラ
ム NGS 速習コース」で検索
•企画・スケジュール
•http://events.biosciencedbc.jp/training/
ajacs47
•動画・資料
•http://biosciencedbc.jp/human/human-
resources/workshop#NGS_sokusyu_2014
•少々長いのですが(二週間のコース)突っ込んで
勉強するには、こちらも役立つと思います