CLC Genomics Workbench で行う 微生物変異検出解析

2013年3月22日(金)
山口大学遺伝子実験施設センターセミナー
CLC Genomics Workbench で行う
微生物変異検出解析
株式会社CLCバイオジャパン
シニアフィールドバイオインフォマティクスサイエンティスト
宮本真理 Ph.D.
[email protected]
1
アジェンダ
•
•
•
•
Genomics Workbench 概要
微生物変異解析 活用例
変異解析ワークフロー
各種機能説明
– 変異検出
– 変異比較
• 発現解析
• アノテーション関連新製品紹介
2
Genomics Workbench 概要
3
CLC Genomics Workbench
•
•
•
•
•
•
4
解析ワークフロー
新規生物種
変異解析
ChIP-seq
RNA-seq
small RNA
インポート
インポート
インポート
インポート
インポート
Quality check
Quality check
Quality check
Quality check
タグの抽出
De Novo
アッセンブリ
マッピング
マッピング
RNA-seq
miRBase
ダウンロード
BLAST検索
変異検出
ピーク検出
RPKM計算
アノテーション付け
GOアノテーション
フィルタリング
ピーク精査
群間比較
既知のmiRNAと
それ以外の分類
5
変異解析活用例
6
活用事例
次世代シーケンサーデータにより、
キャッサバ葉枯細菌病の耐性に関
するエフェクター保存領域を特定。
•
キャッサバは芋の一種で熱帯地域で広く栽
培されている植物。
•
キャッサバ葉枯細菌病は深刻な病害虫で、
これに耐性をもつタンパクを同定し、キャッ
サバを病害虫に耐性のある品種に改良す
ることが安定したキャッサバの供給へつな
がる。
Bart, R. et al. Correction for Bart et al., High-throughput genomic sequencing of cassava bacterial
blight strains identifies conserved effectors to target for durable resistance. Proceedings of the
National Academy of Sciences 109, 13130–13130 (2012).
7
活用事例:ワークフロー
CBBの分離
Cassava Bacterial Blight キャッサバ病害虫
耐性種の分離
Illumina シーケンス
ゲノムDNAを分離し、Illuminaにてシーケンス
De Novo
De NovoアッセンブリによりContig作成
Mapping
近縁種へマッピング
SNV検出
系統間比較
エフェクター予測
変異検出
系統間の比較
エフェクターの予測
8
活用事例:結果
9
変異解析ワークフロー
10
変異解析ワークフロー
インポート
Quality check
マッピング
変異検出
アミノ酸置換の検出
変異の比較
11
2種類の検出方法
• Quality-Based Variant Detection:クオリティと、変異の見ら
れる頻度から変異のサイトを検出。
• Probabilistic Variant Detection:確率モデルを使い、変異の
サイトを検出。
12
Quality-Based Variant Detection
Mapping後のデータに対し、を設定し、許容するミスマッ
チや、gap、またQuality ScoreによりSNP detectionに含
めるデータのフィルタリングを行う。
SNP とCallするために、最低必要なカバレッジや、SNPの
頻度を設定する。
13
Probabilistic Variant Detection Algorithm 詳細
Bayes model
P(A)
A
P(B)
B
P(A∩B)
A∩B
P( A  B )  P( B | A) P( A)
P( A  B )  P( A | B ) P( B )
P( B | A) P( A)  P( A | B ) P( B )
ベイズの定理
事後確率
Posterior
P( A | B ) P( B )
P( B | A) 
P( A)
事前確率
Prior
尤度
Likelihood
14
Probabilistic Variant Detection Algorithm 詳細
Reference
A
?
A
A
T
T
C
P( R | S ) P( S )
P( S | R ) 
P( R )
? : Site type (ex) A/A, A/T, A/C ... ?
S : Site type
R : Reads
P( R | S ) : Error Model を使って推定
P( S )
: Genome Model を使って推定
15
Probabilistic Variant Detection Algorithm 詳細
• Genome Model
– Reference がAのとき、Readの大部分はAになると仮定し、初期の確率を以下のように
設定し、EMアルゴリズムを使ってそれぞれの確率を推定する。
•
EMアルゴリズム(Expectation Maximization algorithm)は、得られたデータから推定したい現象が観察できな
い場合に、その確率を推定する、一般的な統計の手法。
Site Type
A/A
A/C
A/G
A/T
T/C
T/G
T/T
G/C
C/C
G/G
G/A/C/T/-
Initial Probability
0.2475
0.001
0.001
0.001
0.001
0.001
0.2475
0.001
0.2475
0.2475
0.001
0.001
0.001
0.001
16
Probabilistic Variant Detection Algorithm 詳細
• Error Model
– リードに含まれるエラーを考慮するため、尤度のところにエラーを考慮した確
率を推定する。初期値を以下のように設定し、EMアルゴリズムにて確率を推
定する。
Reference
Reads
A
C
G
T
-
A
C
G
T
-
0.90
0.025
0.025
0.025
0.025
0.025
0.90
0.025
0.025
0.025
0.025
0.025
0.90
0.025
0.025
0.025
0.025
0.025
0.90
0.025
0.025
0.025
0.025
0.025
0.90
17
Probabilistic Variant Detection Algorithm 詳細
変異コール
• ErrorモデルとGenomeモデルにより事後確率が計算できました。この時、リ
ファレンスと同じアレルである場合も計算されます。
• Reference : A -> A/A と考えます。A/Aの事後確率が15%と計算でき
たとします。
• ウィザード中のパラメータで、”参照配列と異なる確率”を指定しています。
これを90%とすると、A/Aの確率は10%以下であるということになります。
• A/Aの確率が15%という事は、指定した閾値を満たさないため、このポジ
ションは変異としてコールされません。
A
Reference
?
それぞれの事後確率
A/A = 0.15
A/T = 0.8
A/C = 0.6
A/G = 0.01 .. etc.
18
Probabilistic Variant Detection Algorithm 詳細
変異コール
•
参照配列と異なる確率を80%とすると、A/Aが15%の場合、そのポジションは変
異があるとされ、リファレンスと異なるアレル(≠A/A)のうち、最も事後確率が高
いものを変異のアレルとして返します。
Reference
A
?
それぞれの事後確率
A/A = 0.15
A/T = 0.8
A/C = 0.6
A/G = 0.01 .. etc.
19
Probabilistic Variant Detection Algorithm 詳細
• Post Filtering
• Homopolymer フィルター
– 454やPGMのデータにおいてホモポリマー領域に見つかった変異をコー
ルしないようにする。
– ホモポリマー領域は、連続する塩基 AAA– というように連続した後に
ギャップが入る場合、ホモポリマーとして認識する。
• Forward/Reverse フィルター
– Min( (#Forward/#Total), (#Reverse/#Total)) の値が0.05以上のものをリ
ストに含める。
– 例: Min((10/40),(5/40))=0.125 <- Callされる
Min((10/40),(1/40))=0.025 <- Callされない
20
変異比較ツール
21
DEMO
22
ツールの場所
Track Tools > Annotate and Filter
一般的なアノテーション付とフィルタリング
変異解析に便利なツール群
• Resequencing Analysis > Annotate and Filter
• Resequencing Analysis > Compare Variants
• Resequencing Analysis > Functional Consequences
23
Annotate and Filter
• Annotate from Overlapping Annotations
– 変異トラックにオーバーラップするアノテーションを追加。
– インプット:変異トラック、アノテーションに使うトラック
• Filter Annotations on Name
– 遺伝子名など、興味の対象となるアノテーションの名前からリストをつくり
トラックとして登録。
– インプット:アノテーショントラック
• Filter against Overlapping Annotations
– 興味のあるアノテーショントラックとのオーバーラップの有無に応じてフィ
ルタリング。 Filter Annotation on Nameで作成したトラックの活用も可能。
– インプット:変異トラック、フィルターに使用するトラック
24
Compare Variant Within Group
• グループ内に変異があるかどうかを検出するツール。たとえ
ばグループ内で浸透率が100%でないような変異の場合、%
を指定してフィルターをかけることができる。
• インプット:複数の変異トラック
A
A
A
A
A
A
A
A
C
C
C
C
25
Fisher Exact Test
• Case-Control study のための検定。Case (例:患者)群と
Control(例:健常者)群において、どの変異が統計的に有意
に観測されているかを返す。
• インプット:CaseとControlのトラック、参照ゲノムトラック
変異あり
変異なし
Case:Sample 1
5
2
Control:Sample 2
1
8
26
Filter against Control Reads
• Caseの変異トラックとControlのリードとの比較。
• CaseとControlの変異トラックを比較した場合、Controlでは変
異としてコールされなかったもの(カバレッジ不足や設定が厳
しすぎるために起こる)がCaseでのみ見られる変異のように
見えてしまうことがある。
• このツールはCaseの変異とControlのリードを比較することで
見落としを防ぐツールとなる。確認としての利用もひとつの使
い方。
• インプット:ケース群の変異トラック、コントロール群のマッピ
ングファイル
27
Annotate from Known Variant
• Variant Database を取り込み後、変異に対してアノテーショ
ン付を行う。たとえばCosmicの変異の情報を追加するなど
が行える。
• インプット:変異トラック、フィルターに利用する
トラック
28
Filter against known variants
• Variant Database トラックとしてインポートされたデータを使っ
たフィルタリング。
• インプット:変異トラック、フィルターに利用するトラック。
29
Annotate with Exon Numbers
• 何番目のエクソンで起こっている変異かについてアノテー
ションとして追加。テーブルにもその数が追加される。
• インプット:変異トラック、mRNAアノテーショントラック
30
Filter Marginal Variant calls
• 変異のリストに対して、さらに頻度やForward/reverse
balance, 塩基のクオリティなどでフィルターをかける。この
ツールを利用することで、再度変異検出を行わずにフィル
ターをかけることができる。
• インプット:変異トラック、参照配列
31
機能的アノテーション付
• GO Enrichment Analysis
– GOアノテーションを付加する機能。
– インプット:変異トラック、Gene トラック、GOファイル(インポート済みのも
の)
• Amino Acid Changes
– アミノ酸置換の有無を調べる
– インプット:変異トラック、CDSトラック、ゲノムトラック
• Annotate with Conservation Score
– あらかじめ計算されたConservation scoreをインポートし、変異と照らし合
わせて見れるようにする。
– インプット:変異トラック、Conservation score トラック
• Predict Splice Site Effect
– スプライスサイトへの影響をしらべるためのツール。
– インプット:変異トラック、mRNAトラック
32
RNA-seq 解析
33
RNA-seq 解析ソリューション
参照配列あり
参照配列なし
参照配列へマッピング
De Novo アッセンブリで
Contig作成
Exon-Exon間にまたがるもの
などを修正
アノテーション付加
発現量の計算
アノテーション付けされた
Contigに対してRNA-seq
発現量計算
Haas,
B.J.,
and
Zody,
M.C.
Advancing
RNA‐Seq
analysis
Nature
Biotechnology
(2010)
34
RNA-seq 解析ソリューション
•
スプライスバリアントの探索
•
Milos, Fatih Ozsolak, P. M. RNA sequencing: advances, challenges and opportunities.
Nature Reviews Genetics 12, 87–98 (2010).
融合遺伝子の探索
35
small RNA
•
•
•
•
•
miRNA (micro RNA)
長さ21から23塩基ほどの1本鎖RNA。発現の調
節に関与。
stRNA (small temporal RNA)
1993年に初めてE.elegansで発見された。Dicer
は関与していない。
siRNA (small interfering RNA)
20-25塩基対からなる二本鎖RNA。RNAiに関与
する。
piRNA (piwi-interacting RNA)
small RNAの中ではもっとも長い24-31塩基1本
鎖RNA。トランスポゾンの抑制に関与。
rasiRNA (Repeat associated small interfering
RNA) -> piRNA (2007年からpiRNAと呼ばれて
る)
http://finchtalk.geospiza.com/2009/05/small-rnas-get-smaller.html
36
miRBase
•
microRNAを登録するデータベース。登録数18000以上
Kozomara, A. & Griffiths-Jones, S. miRBase: integrating microRNA
annotation and deep-sequencing data. Nucleic acids research 39,
D152-7 (2011).
37
発現解析ソリューション
• Genomics Workbench でできること
–
–
–
–
RNA-seq, 発現量(RPKM)の計算
新規Exonの発見
融合遺伝子の探索
small RNA のタグ分類
• プラグインを使ってできること
– 新規Transcriptの探索 Transcript Discovery plug-in (beta)
38
RNA-seq 解析フロー
インポート
リードデータ、ゲノムのインポート
Quality check
Quality の低い塩基、リードの排除
RNA-seq
ゲノム、トランスクリプトへマッピング
RPKM算出
RPKM(reads per kilo base per million)算出
群間比較
ケース・コントロール群があるようなデータの
場合、群間の比較が可能
GO解析
GSEA解析
有意差が見られるものについて、GOやGSEAな
どのアノテーション解析が可能。
39
RNA-seq
 Navigation Areaから使用するリードデータを選択。
 Toolboxから RNA-Seq Analysis を選択、ダブルクリック。
 ウィザードが起動し、選択したデータが選ばれていることを確認。
40
RNA-seq


アノテーション付のデータ、アノテーション無しのリファレンス、いずれか
を選択。
インポートしているゲノムのデータを選択。
41
RNA-seq




Maximum number of mismatches: (Short read パラメータ)
リード中に最大何個までのミスマッチを許容するか。
Minimum length fraction: (Long read パラメータ)マッチする
際に考慮するリードの長さの割合。
Minimum similarity fraction: (Long read パラメータ)
Minimum length fraction で指定した長さのうち、一致する
べき割合。
Maximum number of hits for a read:1つのリードがマッチ
する最大の数。この数以上の箇所にマップされたリードは、
マップされません。


Use color space:カラースペースを使用する場合
Strand specific alignment:センス鎖特異的にマップさせた
い場合のオプション



Minimum distance:ペアの最小距離
Maximum distance:ペアの最大距離
Use ‘include broken pairs’ counting scheme:指定した距
離に納まらなかったリードもカウントしたい場合
42
RNA-seq




Exon discovery:新規エクソンの探索を行いたい場合
Required relative expression level:新規エクソンとする場
合に、その遺伝子の発現量のうち、どのぐらいの割合を
持っている必要があるか。
Minimum number of reads: 新規エクソンとする場合に最低
限必要なリード数。
Minimum length: 新規エクソンとする場合の最小の長さ。
43
RNA-seq





Create list of un-mapped sequences: マップされなかった
リードをリストとして回収するオプション
Create report: レポート作成
Create fusion gene table: Fusion gene の候補をリストで
作成するかどうか。
Minimum read count:(Pair-end オプション)作成する場合、
Fusionとするための最小リードカウント。
Expression value: デフォルトはRPKM。このほか、Total
Exonなども選択可。後で変更も可能。
44
RNA-seq
45
RNA-seq

Exon-Exon間は点線で表示。緑はセンス鎖、赤はアンチセ
ンス鎖にマップされていることを示している。
46
アノテーション関連 新プラグイン
47
De Novo 活用例
• 新規生物種のゲノム同定
ゴムの木のドラフトゲノム
Genomics Workbench De Novo 使用
Yamin, A. et al. Draft genome sequence of the rubber tree Hevea brasiliensis. (2013).
http://en.wikipedia.org/wiki/Hevea_brasiliensis
48
De Novo 活用例:解析の流れ
Illuminaリード
Fragment: 200bp, PE
Fragment: 200bp, PE
Rocheリード
shotgun, SE
N
Fragment: 8 kb, PE
N
Fragment: 8 kb, SE
N
SOLiDリード
Fragment: 20 kb, PE
N
Fragment: 20 kb, SE
Fragment: 2 kb, PE
N
Preliminary Contigs
*RepeatModeler, RepeatMasker などを使って、リピート領域の推定
N
Fragment: 200bp, PE
Final Contigs
Fragment: 200bp, SE
Fragment: 500bp, PE
:Newbler
Fragment: 2 kb, PE
N
49
De Novo 活用例:結果
ドラフト配列から遺伝子の予測、オーソログの確認などを行い、近縁種13種と比較(a)。
共通するものが多かった4種類とさらに比較(b)。
50
De Novo 活用例
• トランスクリプトーム De Novo
ニシンのトランスクリプトームゲノム
Genomics Workbench De Novo、RNA-seq、
SNP Detection 使用
Roberts, S. B., Hauser, L., Seeb, L. W. & Seeb, J. E. Development of Genomic Resources for Pacific Herring through
Targeted Transcriptome Pyrosequencing. 7, (2012).
51
De Novo 活用例:解析の流れ
インポート
Quality check
De novo
ORF予測
GO アノテーション
RNA-seq
SNP 検出
52
De Novo 活用例:結果
53
Whole Genome De Novo
ワークフロー
クオリティチェック
トリミング
De novo アッセンブリ
コンティグのさらなる
連結
Microbial
Finishing Module
54
Transcriptome De Novo
ワークフロー
クオリティチェック、トリミング
De Novo
RNA-seq
ORF
予測
GO,
InterPro
BLAST2GO
プラグイン
様々な結果から、発現差のあったトランスクリ
プトの生物学的な性質を調べたり、変異の有
無を調べる。
55
CLC Microbial Finishing Module
56
Genome Finishing Module概要
• Genome Finishing ModuleはGenomics Workbenchに追加して
利用する有償のモジュールです。
• De Novo 後、作成されたコンティグをつなげたり、間違ってつ
ながっているようなところを修正する、リシーケンスのための
プライマー設計などが行えるツールです。
• 作成されたContigを近縁種にマップして、つなげていくアプ
ローチと、Contig同士の類似度を比較してつなげていくなど
のアプローチが可能です。
57
Genome Finishing Module
•
•
•
•
•
•
•
•
•
•
Add Reads to Contigs. リードを追加する機能
Align Contigs. コンティグを参照配列へ貼り付ける、
またはコンティグ自身に張り付ける
Analyze Contigs. コンティグのカバレッジや、アライ
メントの間違っている個所などにアノテーションを付
ける。
Collect Paired Reads Statistics. 異なるコンティグに
またがってマップされたペアを調べるツール。
Create Amplicons. リシーケンスのために対象となる
アンプリコンの領域にアノテーションを付ける。
Create Primers. プライマー設計
Extend Contigs. コンティグを延長し、オーバーラップ
を見つけやすくするためのツール
Find Sequence. 配列を名前や塩基配列で検索する
ツール。
Reassemble Regions. 選択した領域で再度アッセンブ
リを行う。小さな間違ったアッセンブリを直すときなど
に使う。.
Sample Reads. リードが多すぎるときに簡便のため、
リードを減らすツール。
58
Genome Finishing Module
価格
PC固定ライセンス
• アカデミック : 937,500 円 → 468,000円
• コマーシャル: 1,875,000 円 → 937,600円
ネットワークライセンス
• アカデミック:1,875,000 円 → 937,600 円
• コマーシャル:3,750,000 円 → 1,875,000円
•
•
•
ご利用にあたっては、Genomics Workbench 6.0.1以降が必要となります。
ライセンスには初年度のアップグレード・サポート費用が含まれます。
ライセンスは永続ライセンスとなりますが、2年目以降のアップグレード・サポート
費用は別途メンテナンスライセンスの更新により可能です。
59
機能
•
Contig Match テーブルで、Contigの近縁種とのマッチを調べ
•
Contig同士の重なりをチェック。
60
機能紹介
•
問題なさそうなら、そのままJoin contigsツールで、連結。
•
リシーケンスが必要な
可能性のある領域に
アノテーションをつけ
ておく。
61
機能紹介
•
リシーケンスしたいアノ
テーションをもつ領域に
対してプライマー設計。
•
対象となるアノテーショ
ンをもつ領域すべてに
対して一度にプライ
マー設計ができるので、
作業時間の大幅短縮
が可能。
62
BLAST2GO プラグイン概要
• BLAST2GO プラグインはGenomics Workbench に追加して利用する有償
のプラグインです。
• BLAST、GOへのマッピング、アノテー
ション付け、InterProでのアノテーション
補完などのツールをGenomics
Workbench から直接実行可能です。
• BLASTはGenomics Workbench 内で実
行したもの、または別のマシンで実行し
た .xml 形式の結果ファイルを取り込む
ことも可能
63
BLAST2GO プラグイン概要
•
BLASTデータを
BLAST2GO project へ変
換直後。GOやInerProのア
ノテーションが何もついて
いない状態。
•
GOのアノテーションが付い
た状態。
64
BLAST2GO プラグイン概要
•
GO Slim でGOをシンプル
に。
•
ツリー構造で書くことで、ど
のGOが多く選ばれている
か、関係が分かりやすい。
65
BLAST2GO プラグイン概要
•
InterProでアノテーションを
付け、マージした状態。
•
Genomics Workbenchで実
行していたRNA-seqの結
果にBLAST2GOでまとめ
たアノテーションを追加し
た状態。
66
RNA-seqの結果へアノテーション付け
•
トランスクリプトーム De Novoなどでは、リードをContigの状態にし、アノテーション
なしでRNA-seqを行います。Contigにしておいた配列をBLAST2GOでアノテーショ
ン付けしておくことで、RNA-seqの結果にアノテーション結果を張り付けることが
可能です。
Experiment
BLSAT2GOの
結果から作
成したアノ
テーション
ファイル
67
RNA-seqの結果へアノテーション付け
68
BLAST2GOプラグイン
価格
アカデミックユーザー
• Single computer license, 1 year ¥121,900
• Single computer license, 2 year ¥209,400
• Single computer license, 3 year ¥279,400
• Network license, 1 year ¥305,700
• Network license, 2 year ¥486,900
• Network license, 3 year ¥664,400
69