4日目資料(2006/08/28)

Table of Contents 今日の流れ
生物情報科学実験Ⅰ
∼ショットガンアセンブリ∼ Day4
„
ゲノム配列解読法
{
„
„
全ゲノムショットガン法
コンティグの作成
課題提出方法
東京大学大学院 新領域創成科学研究科 特任助手
笠原 雅弘
([email protected])
ゲノム配列の解読
„
理想の世界
{
„
「ゲノム配列解読機」に1本の染色体を投入
↓
何時間か待つと染色体の全配列を出力
Sanger 法 (1/2)
„
„
一本鎖 DNA が鋳型
primer/ddNTP/dNTP を加え伸張
実際の世界
{
{
そもそも1本の染色体(1分子)から
塩基配列を解読することはできない
1回の読み取りでは 1000塩基対が限度
1
Sanger 法 (2/2)
„
質量の違いで分離、色を見る
Sanger 法を使う際の制約
„
多コピーの鋳型が必要(ex: 0.1μg)
{
„
プライマーが必要
{
全ゲノムショットガン法
(Whole genome shotgun method)
„
読みたい配列の先頭数十塩基(25程度)
を知っている必要がある
Whole Genome Shotgun Sequencing 概略
ゲノム
ゲノム配列をランダムに細かく裁断し
断片配列を非常にたくさん読む方法
{
„
全く同じ配列を持った一本鎖DNAを
大量に用意する必要がある
読まれた断片配列はコンピューター処理に
より統合処理を行う
Sanger 法を使う場合、断片配列はベク
ター配列にクローニングされる
{
Pyrosequencing 法等、クローニングを経な
いシークエンシング技術も最近は出てきてい
る
2
Whole Genome Shotgun Sequencing 概略
ゲノム断片
Whole Genome Shotgun Sequencing 概略
ゲノム断片
リード
リード
読まれていない
部分
Whole Genome Shotgun Sequencing 概略
リード
Overlap-Layout-Consensus
„
Contigs (コンティグ)
コンティグ間ギャップ
Shotgun assembler の基本パターン
Overlap phase
Consensus phase
consensus
sequence
Scaffolds (スキャッフォルド/Supercontigs/スーパーコンティグ)
Layout phase
タイリングパス(ゲノム配列を覆
うようなリード列)を求める
3
Original genome
U1
今日の課題
R
U2
R
U3
Shotgun reads
„
Overlap を計算してContig を作る
{
Overlap-layout-consensus モデルで言うと
ころの、Overlap, layout をこなす
Ideal overlap graph
Real overlap graph
オーバーラップの計算
„
„
単純な方式
両鎖リードを使ったアセンブル
„
両鎖を使ったアセンブル
{
全てのリードの対に関して
Overlap alignment を実行する
A
B
{
非常に遅い
C
A
B
C
相補鎖を生成する
シードによる絞り込み方式
{
少なくとも1つのシードを共有している
リードの対に対してのみ
Overlap alignment を実行する
※アセンブルすると2つの相補的な contig 配列ができあがることに注意
C
B
A
A
B
C
4
HashTable を使った候補絞り込み
アラインメントの工夫(1/2)
アラインメントの工夫(2/2)
オーバーラップ情報の保存
※課題プログラム中では
areTheTwoReadAlreadyTried
変数が該当します
5
Original genome
U1
R
U2
R
U3
Contig を作る
Shotgun reads
„
Contig を作るためには
{
{
Ideal overlap graph
リードを繋げていけば良い
どのような条件で繋げて良いのだろう?
基本リード
Real overlap graph
タイリングパスと包含リード
ゲノム配列
„
包含されるリードを除外しても
ゲノム配列をリードで覆うことができる
C
B
A
D
A→B→C
⇒
観察
D
6
観察
観察
ゲノム配列
„
包含されるリードを除外すると
「前進」するリードの列が見えてくる
最小前進タイリングパスと
短いリピート配列
„
ゲノム配列
短いリピート配列を乗り越える
{
各リードから「最も前進距離が短いリード」を
Best overlap として有向Edgeを張る
必須課題4-1
„
課題URL
„
課題 web ページから Overlap.zip をダウンロードし、
ComputeOverlaps.java を実装せよ
去年のショットガンシークエンシング実習において
得られた断片配列が課題 web ページから入手できる
のでそれを使うこと
次スライドの注意点を良く読むこと
ソースプログラム、Read flow graph の画像ファイル、
Overlap graph の画像ファイルを提出せよ
{
„
A
R
B
反復配列Rがリード長より短かけれ
ば両者が混じることはない
„
C
R
D
※長いリピート配列に対しては別種
のアルゴリズムが必要であるが今
回の演習には含まれない
„
http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/
7
注意点
GraphVizによる表示
全く同じ長さのリードがあった場合に、除外する
リードが相補鎖同士整合性がとれるようにする
„
B と D を残したりしないように!B/B か D/D を残す
ComputeOverlaps.
showReadFlowGraphByGraphVizメソッド
でグラフを表示できる
{
C
B
D
{
A
A
D
B
{
C
OverlapGraph
„
リードをノード(点)とし、オーバーラップを
エッジ(矢印)としたグラフ構造
結果は C:¥temp に jpeg ファイルとして出力
される
リードフローグラフは
readflowgraph.jpeg
オーバーラップグラフは
overlapgraph.jpeg
ReadFlowGraph
„
リードをノード(点)とし、ベストオーバー
ラップをエッジ(矢印)としたグラフ構造
8
必須課題 4-2
„
応用課題 4-3
最小前進タイリングパス法は短いリピート配列
があっても正しくタイリングパスを生成すること
ができる
{
{
„
Overlap alignment を計算する際に、
共通しているシード周辺のみの対角線を
計算するように動的計画法を書き換えよ
配列1
リピート配列の長さが大きくなってくると正しくタイリ
ングパスを生成できない場合があるが具体例を一
つ挙げて論ぜよ
プログラムを書く必要は無い
„
対角線の幅は
「シード以外も100%のマッチ率で塩
基アラインした場合の重なり塩基数」
×0.1 + 11 とせよ。
シード
配列2
応用課題 4-3 の注意
・banded alignment と言う
DP空間
0.1 はシークエンシングエラー許容パ
ラメータ、11 は確率的なゆらぎを許
容するための定数項である
ベクターと挿入断片の位置関係
シードが、同じ組のリードにおいて、
2カ所以上で共有される場合に注意
配列1
MCS(Multi cloning site) に
DNA断片が挿入される
複数の対角線をチェッ
クする必要がある
配列2
DP空間
9
Mate pair (paired end)
„
Scaffolding
ベクターに組み込んだ、断片配列の両端
はゲノム上で近い位置の逆鎖にある
„
Mate pair の関係を使うと contig を関連
づけることができる
ゲノム配列
Contigs
„
課題提出について
Contig 間に飛んでいる mate pair を利
用して Scaffold を生成せよ
„
URL
http://www.tigr.org/tdb/benchmark/
から、微生物ゲノムの全ゲノムショットガン
データをダウンロード可能
„
„
report4 として提出すること
必須課題〆切
残念ながら実習データには mate pair が無い
„
応用課題〆切
{
„
{
{
Brucella suis が最もアセンブルしやすいの
で、それを選ぶと良い
合計100MBytes 以内で好きなもの(ファイ
ル)を提出してください
B
Shotgun
reads
Mate pair
チャレンジ課題 4-4
A
{
{
{
„
http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/
9月1日14時45分
9月8日10時00分
提出方法は基礎(Java)コースと同じ
{
分からない場合には質問
10