Table of Contents 今日の流れ 生物情報科学実験Ⅰ ∼ショットガンアセンブリ∼ Day4 ゲノム配列解読法 { 全ゲノムショットガン法 コンティグの作成 課題提出方法 東京大学大学院 新領域創成科学研究科 特任助手 笠原 雅弘 ([email protected]) ゲノム配列の解読 理想の世界 { 「ゲノム配列解読機」に1本の染色体を投入 ↓ 何時間か待つと染色体の全配列を出力 Sanger 法 (1/2) 一本鎖 DNA が鋳型 primer/ddNTP/dNTP を加え伸張 実際の世界 { { そもそも1本の染色体(1分子)から 塩基配列を解読することはできない 1回の読み取りでは 1000塩基対が限度 1 Sanger 法 (2/2) 質量の違いで分離、色を見る Sanger 法を使う際の制約 多コピーの鋳型が必要(ex: 0.1μg) { プライマーが必要 { 全ゲノムショットガン法 (Whole genome shotgun method) 読みたい配列の先頭数十塩基(25程度) を知っている必要がある Whole Genome Shotgun Sequencing 概略 ゲノム ゲノム配列をランダムに細かく裁断し 断片配列を非常にたくさん読む方法 { 全く同じ配列を持った一本鎖DNAを 大量に用意する必要がある 読まれた断片配列はコンピューター処理に より統合処理を行う Sanger 法を使う場合、断片配列はベク ター配列にクローニングされる { Pyrosequencing 法等、クローニングを経な いシークエンシング技術も最近は出てきてい る 2 Whole Genome Shotgun Sequencing 概略 ゲノム断片 Whole Genome Shotgun Sequencing 概略 ゲノム断片 リード リード 読まれていない 部分 Whole Genome Shotgun Sequencing 概略 リード Overlap-Layout-Consensus Contigs (コンティグ) コンティグ間ギャップ Shotgun assembler の基本パターン Overlap phase Consensus phase consensus sequence Scaffolds (スキャッフォルド/Supercontigs/スーパーコンティグ) Layout phase タイリングパス(ゲノム配列を覆 うようなリード列)を求める 3 Original genome U1 今日の課題 R U2 R U3 Shotgun reads Overlap を計算してContig を作る { Overlap-layout-consensus モデルで言うと ころの、Overlap, layout をこなす Ideal overlap graph Real overlap graph オーバーラップの計算 単純な方式 両鎖リードを使ったアセンブル 両鎖を使ったアセンブル { 全てのリードの対に関して Overlap alignment を実行する A B { 非常に遅い C A B C 相補鎖を生成する シードによる絞り込み方式 { 少なくとも1つのシードを共有している リードの対に対してのみ Overlap alignment を実行する ※アセンブルすると2つの相補的な contig 配列ができあがることに注意 C B A A B C 4 HashTable を使った候補絞り込み アラインメントの工夫(1/2) アラインメントの工夫(2/2) オーバーラップ情報の保存 ※課題プログラム中では areTheTwoReadAlreadyTried 変数が該当します 5 Original genome U1 R U2 R U3 Contig を作る Shotgun reads Contig を作るためには { { Ideal overlap graph リードを繋げていけば良い どのような条件で繋げて良いのだろう? 基本リード Real overlap graph タイリングパスと包含リード ゲノム配列 包含されるリードを除外しても ゲノム配列をリードで覆うことができる C B A D A→B→C ⇒ 観察 D 6 観察 観察 ゲノム配列 包含されるリードを除外すると 「前進」するリードの列が見えてくる 最小前進タイリングパスと 短いリピート配列 ゲノム配列 短いリピート配列を乗り越える { 各リードから「最も前進距離が短いリード」を Best overlap として有向Edgeを張る 必須課題4-1 課題URL 課題 web ページから Overlap.zip をダウンロードし、 ComputeOverlaps.java を実装せよ 去年のショットガンシークエンシング実習において 得られた断片配列が課題 web ページから入手できる のでそれを使うこと 次スライドの注意点を良く読むこと ソースプログラム、Read flow graph の画像ファイル、 Overlap graph の画像ファイルを提出せよ { A R B 反復配列Rがリード長より短かけれ ば両者が混じることはない C R D ※長いリピート配列に対しては別種 のアルゴリズムが必要であるが今 回の演習には含まれない http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/ 7 注意点 GraphVizによる表示 全く同じ長さのリードがあった場合に、除外する リードが相補鎖同士整合性がとれるようにする B と D を残したりしないように!B/B か D/D を残す ComputeOverlaps. showReadFlowGraphByGraphVizメソッド でグラフを表示できる { C B D { A A D B { C OverlapGraph リードをノード(点)とし、オーバーラップを エッジ(矢印)としたグラフ構造 結果は C:¥temp に jpeg ファイルとして出力 される リードフローグラフは readflowgraph.jpeg オーバーラップグラフは overlapgraph.jpeg ReadFlowGraph リードをノード(点)とし、ベストオーバー ラップをエッジ(矢印)としたグラフ構造 8 必須課題 4-2 応用課題 4-3 最小前進タイリングパス法は短いリピート配列 があっても正しくタイリングパスを生成すること ができる { { Overlap alignment を計算する際に、 共通しているシード周辺のみの対角線を 計算するように動的計画法を書き換えよ 配列1 リピート配列の長さが大きくなってくると正しくタイリ ングパスを生成できない場合があるが具体例を一 つ挙げて論ぜよ プログラムを書く必要は無い 対角線の幅は 「シード以外も100%のマッチ率で塩 基アラインした場合の重なり塩基数」 ×0.1 + 11 とせよ。 シード 配列2 応用課題 4-3 の注意 ・banded alignment と言う DP空間 0.1 はシークエンシングエラー許容パ ラメータ、11 は確率的なゆらぎを許 容するための定数項である ベクターと挿入断片の位置関係 シードが、同じ組のリードにおいて、 2カ所以上で共有される場合に注意 配列1 MCS(Multi cloning site) に DNA断片が挿入される 複数の対角線をチェッ クする必要がある 配列2 DP空間 9 Mate pair (paired end) Scaffolding ベクターに組み込んだ、断片配列の両端 はゲノム上で近い位置の逆鎖にある Mate pair の関係を使うと contig を関連 づけることができる ゲノム配列 Contigs 課題提出について Contig 間に飛んでいる mate pair を利 用して Scaffold を生成せよ URL http://www.tigr.org/tdb/benchmark/ から、微生物ゲノムの全ゲノムショットガン データをダウンロード可能 report4 として提出すること 必須課題〆切 残念ながら実習データには mate pair が無い 応用課題〆切 { { { Brucella suis が最もアセンブルしやすいの で、それを選ぶと良い 合計100MBytes 以内で好きなもの(ファイ ル)を提出してください B Shotgun reads Mate pair チャレンジ課題 4-4 A { { { http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/ 9月1日14時45分 9月8日10時00分 提出方法は基礎(Java)コースと同じ { 分からない場合には質問 10
© Copyright 2025 Paperzz