CLC Genomics Workbench 7.0新機能と 改良版マッピングプラグインのご紹介 株式会社CLCバイオジャパン シニアフィールドバイオインフォマティクスサイエンティスト 宮本真理 Ph.D [email protected] 1 アジェンダ • Genomics Workbench 概要 – 活用例 • Genomics Workbench 7.0 アップデート内容 • Mapping プラグインベータ版 • Microbial Genome Finishing Module によるPacBio対応 2 CLC Genomics Workbench • • • • • • 3 活用例 病気の原因や関連遺伝子探索 • 自閉症の関連遺伝子を調べるため、NG Sがスクリーニング的に利用され、 Genomics Workbench はマッピング、変異 検出の1つの方法として利用された(3種 類の異なる方法で2/3に見られる変異を その後の解析対象としている)。 • 候補となった遺伝子から2413個を使った カスタムマイクロアレイが作成され、Case =3000人、Control=6000人のケース コントロールスタディが行われた • 11遺伝子がOdd ratio 1.5 で自閉症スペク トラムの子供に見つかった。 Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F, Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5. 4 活用例 Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F, Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5. 5 活用例 “Nontheless, variant calling using the three methods shown in Table 1 identified over one million sequence variants called by at least two of the three methods. Analysis using cSNP classifier resulted in the detection of 2,825 putative functional candidate SNPs, including 210 nonsense variants, 1,614 non- conservative missense variants, 35 frameshift variants and 966 splice site variants.” 3つの方法を使っても100万以上の変異は2/3の方 法で変異とされていた。cSNPの分類により、2825の 新規機能関連SNPsを見つけ、その中には、210のナ ンセンス変異、1614の非保存ミスセンス変異、35の フレームシフト変異と966のスプライスサイトでの変 異があった。 Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F, Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5. 6 Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F, Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5. 7 活用例 ゲノム未知の生物に対するトランスクリ プトーム解析 • 五葉松のサビキンに対する感受性を調 べるため、De novo トランスクリプトーム。 De novo アセンブリにてトランスクリプトを 作成し、アノテーション。 • 未感染、感染し感受性を示したもの、感 染し耐性を示したものについて発現差解 析。Genomics Workbench はDe Novo ア センブリ、RNA-seq, 発現差解析で利用 されている。 • 発現差があったものについてさらに機能 解析を行っている。 Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884. 8 活用例 Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884. 9 活用例 Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884. 10 新バージョン 11 アップデート RNA-seq • ビューの大幅な改良 • 高速マッピング • 遺伝子間へのマッピングも可能に • EdgeRの搭載 解析パイプライン • ワークフローツールの更なる改良 系統樹解析 • 系統樹描画の機能拡張 12 RNA-seq ビュー改良 13 RNA-seq ビュー改良 発現差+変異も見やすい 14 発現解析: EdgeR搭載 • EdgeRは論文でもよく紹介されるカウントデータに対する発現差解析で す。 • RPKMのノーマライズ法は、発現差解析においては、十分ではないとい う指摘がありました。 • 7.0より、EdgeRに搭載されている内容と同じく、ノーマライズにはTMM を使い、発現差解析はExact Test を採用した発現差解析を行えるよう になりました。 15 コンセンサス配列 • コンセンサス配列の作成の際、参照配列のアノテーションを 付加させることが可能に。 16 系統樹ツール Workflow ツール改良 より使いやすくなったワークフローツール Minimap Grid設定 ビューモードの切り替え や、色の設定 18 DEMO 19 プラグインアップデート 新マッピングプラグイン(ベータ版) 20 マッピングの詳細 インデックスファイル作成 スコア計算 フィルタリング 21 マッピングの詳細 • インデックスファイルの作成 – ?インデックス Genome Read どこが似てるかな・・・? Genomeの端から端まで順番に調べていては、膨大な時間がかかる 22 マッピングの詳細 • Genomeにインデックスと言う辞書の索引のようなものを作成し、検索効 率を上げる。 Genome A Index AACGT… AAGGT… AATCT…. C CAATC… CAGGC… CGTTC…. G Read GAATC… GCACT… GCCGT… (※これはイメージで実際のSuffix array ではありません。) どこが似てるかな・・・? 23 • Suffix Array T[i] A G T T C G $ Suffix i Suffix i AGTTCG$ 1 $ 7 GTTCG$ 2 AGTTCG$ 1 TTCG$ 3 CG$ 5 TCG$ 4 G$ 6 CG$ 5 GTTCG$ 2 G$ 6 TCG$ 4 $ 7 TTCG$ 3 Suffix Array, SA 24 Sort i 1 2 3 4 5 6 7 SA[i] 7 1 5 6 2 4 3 i 1 2 3 4 5 6 7 T[i] A G T T C G $ i 1 2 3 4 5 6 7 SA[i] 7 1 5 6 2 4 3 1 A C G G T T 2 G G $ T C T 3 T $ T G C 4 T C $ G 5 C G 6 G $ 7 $ $ $ もとの配列S と、Suffix Array, SAを使って高速に検索できる。 TGCAGACATTAGGAATTAAAAATTGAATCCATTGGACATGATGGTACCATGCTACCGAAACTTAAAACTCACTTTCAGAATTCCATCAGTGAT ATATGGGAGTAGTAATGTTGTCTAGGAATCATGAGTAATCACTACCCCAGTGGATACACTAAATAACCTGTAGCTGATCAATGTTTCTTGCCA GCCTTGACTTGCTTTCAAGTTGGTTTTTATCAACATTAACATCCTTCAACAGGAGGTCAACCCCAGAGGGAGATCCAAGCCACTTTCTGCTAG CTTCACTTGTGATGAACTTTTTACCATGTGATCATTTATTCT………………………………………………………………….GAAGGATGTATAAATGCTGA GGGCAGATAAAAACAACAAAAACCTTATTCCCCCTTTTCTAACCAGAATCCTTTTTTTCTTACACAACTCTCATATGAATCATTTGGAGAGAAT TTAGAAATAAAGATTAAAATCACTTTTCAATGTGTCCCTTTTACTGCCTGTAACTTCAACTAGCAGGTTTGAAGTTAGAGCCCTGTAATTTCTG TGGAGATTGACAAAGGCTACTTACCTTAATCTCCTGCTATCTTATGATGGGGTGCTGAATAGTATCTCACCTAAAAGGAGCTCAGGCAGGTC AGCAAAAATAGGAAAGTGTCATAGACTTAAGATAGGTAAATGATTTGTTGTTGGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTTG TTTTTCGAGACA$ SA = {3,009,821,212 3,009,821,210, ……………………………………………………………………………………………………………………………………..} GGATGTATAAA TGCAGACATTAGGAATTAAAAATTGAATCCATTGGACATGATGGTACCATGCTACCGAAACTTAAAACTCACTTTCAGAATTCCATCAGTGAT ATATGGGAGTAGTAATGTTGTCTAGGAATCATGAGTAATCACTACCCCAGTGGATACACTAAATAACCTGTAGCTGATCAATGTTTCTTGCCA GCCTTGACTTGCTTTCAAGTTGGTTTTTATCAACATTAACATCCTTCAACAGGAGGTCAACCCCAGAGGGAGATCCAAGCCACTTTCTGCTAG CTTCACTTGTGATGAACTTTTTACCATGTGATCATTTATTCT………………………………………………………………….GAAGGATGTATAAATGCTGA GGGCAGATAAAAACAACAAAAACCTTATTCCCCCTTTTCTAACCAGAATCCTTTTTTTCTTACACAACTCTCATATGAATCATTTGGAGAGAAT TTAGAAATAAAGATTAAAATCACTTTTCAATGTGTCCCTTTTACTGCCTGTAACTTCAACTAGCAGGTTTGAAGTTAGAGCCCTGTAATTTCTG TGGAGATTGACAAAGGCTACTTACCTTAATCTCCTGCTATCTTATGATGGGGTGCTGAATAGTATCTCACCTAAAAGGAGCTCAGGCAGGTC AGCAAAAATAGGAAAGTGTCATAGACTTAAGATAGGTAAATGATTTGTTGTTGGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTTG TTTTTCGAGACA$ 26 マッピングの詳細 • インデックスから、似ている場所の候補をいくつか選び、ミスマッチやGap を考慮してアライメントスコアを計算。 まとめると Genome Index あそことあそこだよ Read 27 マッピングの詳細:問題点 • 実はSuffix Array は非常にメモリ空間を使う。おおよそゲノムサイズx5倍 +αがこれまでは最低必要でした(ヒトゲノム 3Gb の場合、24Gbのメモリ) Genome Index ・・・・out of memory・・・ 28 新プラグイン • Suffix Array をBW変換という方法を使って圧縮しやすい形へ変換して圧 縮。小さなメモリでも大きなゲノムを扱えるように工夫。ヒトゲノムは8GB 程度のメモリを持つコンピュータでマッピング可能に。 Genome Index ヒトゲノムなら8GBのコ ンピュータでOKだよ。 29 BW変換(Burrow Wheeler Transform) AGTTCG$ $AGTTCG G $ G$ GTTCG$A AGTTCG$ $ A $A TTCG$AG CG$AGTT T C TC TCG$AGT G$AGTTC C G CG CG$AGTT GTTCG$A A G$AGTTC TCG$AGT T T TT $AGTTCG TTCG$AG G T GT Sort Sort G 連結 これがBW変換後の配列 B=[“G$TCATG”] BW変換後は圧縮しやすい形になり、かつ復元できるのが特徴 AG これは元の文字列の連 続する2文字の組み合 わせ。これから元の文 字列が復元できる。 30 ベンチマーク:精度 • ベンチマークのIlluminaデータの中から100,000 リードを抽出。 • マッピングはSingle endモードで実施。 • アライメントスコアをMatch = +1, Mismatch = -2, Gap/deletion = -3 として 計算し、アライメントスコア/リードの長さ x 100 としてスコア化 • 精度の比較として、Smith-Waterman アルゴリズムの結果と、それぞれの アルゴリズムを比較。 31 ベンチマーク:精度 32 補足 • プラグインの正式リリースは夏の予定。それまでにスピード・精度を他ア ルゴリズムと比較したホワイトペーパーをリリース予定。 • 現行バージョンのホワイトペーパーは以下よりダウンロード可能。 • ベータ版のアルゴリズムは、Genomics Workbench 7.0 のプラグインとし てすでに利用可能。 33 プラグインアップデート Microbial Genome Finishing Module 34 Microbial Genome Finishing Module 概要 • Create Primers:プライマー設計のた めのツール • Extend Contigs:コンティグにリードを マッピングし、その結果からコンティグ を伸長させる。 • Find Sequence:目的の配列を検索す るツール。 • Join Contigs:コンティグ同士の連結 • Reassemble Regions:コンティグについ て指定した領域を再アセンブリする。 • Remove Extension of Contigs:Extend Contigs にて伸長した部分を削除する。 • Sample Reads:リードが多すぎるような 場合に指定した量を取り出すツール 35 PacBio対応 • Microbial Genome Finishing Module • エラーコレクション済みのPacBioリードをScaffoldように利用可能 36 まとめ • Genomics Workbench 7.0までは変異解析のツールを充実させることに開 発の重点が置かれていましたが、今後は変異解析やChIP-seqなどの開 発に重点を置き、さらに使いやすく有用な製品開発を行います。 • 解析のスピードと精度向上のためのアルゴリズム改良も引き続き行って いきます。 • お客さまからのフィードバックもお待ちしております。 37 ご清聴ありがとうございました。 38
© Copyright 2024 Paperzz