生命情報学基礎論

生命情報学基礎論
矢田 哲士
京都大学大学院情報学研究科
2012 年 7 月 2 日
ab initio 法
• 遺伝子配列の統計的な特徴に着目し,それに
類似した領域がゲノム配列に存在すれば,そ
の領域には遺伝子が存在すると推定
• 遺伝子の各領域には,それぞれに特異的な塩
基組成の偏りが存在
• 遺伝子の構造には,文法的な制約が存在
• これらの特徴は,遺伝子の転写や翻訳に関す
る分子的な機序を反映
原核生物遺伝子の構造
RBS
5'
AGGAG
CDS
ATG
...
TAA
3'
コドンの出現頻度の偏り (大腸菌)
ATG 88.20
GTG 8.73
TTG 2.66
AAA
AAC
AAG
AAT
CAA
CAC
CAG
CAT
GAA
GAC
GAG
GAT
TAA∗
TAC
TAG∗
TAT
3.40
2.17
1.10
1.91
1.47
0.93
2.97
1.28
3.96
1.93
1.89
3.31
0.19
1.23
0.02
1.65
ACA 0.80
ACC 2.30
ACG 1.52
ACT 0.90
CCA 0.84
CCC 0.56
CCG 2.27
CCT 0.72
GCA 2.08
GCC 2.55
GCG 3.27
GCT 1.54
TCA 0.81
TCC 0.90
TCG 0.88
TCT 0.86
AGA
AGC
AGG
AGT
CGA
CGC
CGG
CGT
GGA
GGC
GGG
GGT
TGA∗
TGC
TGG
TGT
0.28
1.61
0.17
0.94
0.38
2.11
0.62
2.04
0.88
2.83
1.19
2.44
0.11
0.63
1.53
0.52
ATA 0.53
ATC 2.40
ATG 2.42
ATT 2.98
CTA 0.39
CTC 1.05
CTG 5.16
CTT 1.14
GTA 1.09
GTC 1.48
GTG 2.60
GTT 1.81
TTA 1.37
TTC 1.58
TTG 1.28
TTT 2.21
CDS モデル
B
A
A
A
A
A
C
A
A
G
T
T
G
T
T
T
A
T
G
T
A
A
C
T
G
T
A
G
T
T
G
T
G
A
E
開始コドン上流域のアラインメント
*****
-----TTGAACAAGCAGGAGTATGTCATTG
---TTATCACCGGAGCGGAGGGTTAATC----CCAACCAAATCAAGGAGCGAAACAG---AGCACCACATATAAGGAGATCCTGC----CTGCTGGAATGGCAGGAGGCCCATC---CGCCGCGAGATAACAGGAAAAAGTC----
RBS モデル
B
A
C
G
T
E
0.60
0.14
0.12
0.14
0.06
0.05
0.82
0.08
0.02
0.05
0.89
0.04
0.72
0.07
0.08
0.13
0.23
0.11
0.49
0.17
開始コドンと RBS の距離分布
Frequency
0.3
0.2
0.1
0.0
0
5
10
15
スペーサモデル
B
n
n
n
n
n
n
n
n
n
n
n
E
遺伝子発見 HMM
B
RBS
model
Spacer
model
CDS
model
E
ゲノム比較法
• 機能的に重要な情報を持つ領域がシンテニィ
領域間で保存
• シンテニィ領域とは,共通の祖先ゲノムの同
じ場所から由来している領域
• シンテニィ領域のゲノム配列を比較し,互い
に保存されている領域が存在すれば,その領
域には遺伝子が含まれていると推定
• 全ゲノムショットガン法の確立
ゲノム配列のアラインメント
コード領域を取り出す手掛かり
コード領域のアラインメント
G
Q
K
V
L
G G T C A G A A A G T A C T T
| | : | | | | | : | | : | | :
G G A C A G A A G G T T C T C
非コード領域のアラインメント
G T T A A C T G - G T A A C G
| : : | : | | | . | | : | . |
G C A A G C T G A G T T A - G
コード領域を取り出す HMM
開始
‘|’
‘:’
‘.’
‘|’
‘:’
‘.’
‘|’
‘:’
‘.’
終了
遺伝子発見 HMM
β1
P(A, |)
P(A, :)
P(A, .)
P(A, |)
P(A, :)
P(A, .)
P(A, |)
P(A, :)
P(A, .)
β2
P(A, |)
P(A, :)
P(A, .)
P(A, |)
P(A, :)
P(A, .)
P(C, |)
P(C, :)
P(C, .)
β3
P(A, |)
P(A, :)
P(A, .)
P(A, |)
P(A, :)
P(A, .)
P(G, |)
P(G, :)
P(G, .)
β 61
P(T, |)
P(T, :)
P(T, .)
P(T, |)
P(T, :)
P(T, .)
P(T, |)
P(T, :)
P(T, .)
β 62
β 63 P(T, |)
β 64
開始
P(A, |)
P(A, :)
P(A, .)
P(T, |)
P(T, :)
P(T, .)
P(G, |)
P(G, :)
P(G, .)
P(T, :)
P(T, .)
P(A, |)
P(A, :)
P(A, .)
P(A, |)
P(A, :)
P(A, .)
P(T, |)
P(T, :)
P(T, .)
P(G, |)
P(G, :)
P(G, .)
P(A, |)
P(A, :)
P(A, .)
P(T, |)
P(T, :)
P(T, .)
P(A, |)
P(A, :)
P(A, .)
P(G, |)
P(G, :)
P(G, .)
終了
低
ab
in
iti
o
法
ゲ
ノ
ム
比
較
Sp
法
転
産
写
物
法
依
存
高
遺伝子発見プログラムの予測精度
低
Sn
高
予測精度の改善の見通し
• 転写産物依存法
単離できる EST や cDNA には、遺伝子の発現
量や発現時期などの制約
• ab initio 法
本質的には,細胞内における遺伝子の転写と
翻訳の仕組みが詳しく理解され,その仕組み
をプログラムに実装
• ゲノム比較法
大規模シークエンシング時代を背景として,
3 種類以上のゲノム比較による遺伝子発見が
現実