Gene - in silico biology, inc.

§1 微生物ゲノムアノテーション
microbial genome annotation
第1回
2005年4月7日
18:30∼20:00
大山 彰
Akira Ohyama
第1回:4月7日(木)
① 理論:微生物ゲノムアノテーション基礎知識
② 実例:微生物アノテーションの例
③ 微生物シーケンシングプロジェクト(次週へ)
第2回:4月14日(木)
① 理論:アセンブルの理論
② 実例:アセンブルの実際
③ 実習:グラム陽性菌のアノテーション
第3回:4月21日)
① 理論:QCとLabAutomation
② 実例:QCとLabAutomationの実際
③ 実習:グラム陰性菌のアノテーション
第4回(4月28日)
① 理論:遺伝子同定と機能割り当て
② 実例・実習:古細菌のアノテーション
第5回(5月12日)
① 試験:微生物ゲノムアノテーション(45分)
② ディスカッション:ゲノムアノテーション、バイオインフォマティクスなど(45分)
微生物ゲノムアノテーションの基礎
Genbankへの注釈付加とは?
微生物の分類
微生物全塩基配列決定状況
アノテーションの目的
微生物アノテーションの例
Genbankを眺める
どのような注釈がなされているか
微生物シーケンシングプロジェクト(次週)
プロジェクトの流れと使用する道具
微生物ゲノムアノテーションの基礎
ショットガンライブラリの作成
各フラグメントのシーケンシング
ベースコールと配列品質の管理
ゲノム配列決定段階
他種DNAやベクターの除去
フラグメント間オーバーラップ検出
クラスタリングとコンティグの形成
コンティグ同士の比較解析
コンティグ内のORF同定
コンティグ両端のプライマー設計
再アセンブル
ORF同定
他生物種ゲノムとの比較
アノテーション段階
遺伝子機能同定
全ゲノムORFマップの作成
ーケンシング・アノテーション
プロジェクト
物質としてのDNA
自前で物質としてのDNA
から全ゲノム塩基配列を
決定し、注釈までつける。
シーケンシングと
アセンブル
情報としてのDNA
注釈なし塩基配列
遺伝子探索と
アノテーション
注釈つき塩基配列
アノテーションには
国際塩基配列データベース
の意味と内容を知ることが重
注釈があまりついていない
既知ゲノム塩基配列を利用する
アノテーション
プロジェクト
インターネッ
トによるアク
セス可能
ノム
ゲ
知
既
注釈つき 参照する
を
塩基配列
DDBJ,EMBL,Genbank
国際塩基配列データベース
への登録
FTPサイ
の公開
国際塩基配列データベースには世界
で3箇所のセンターがある。
DDBJ(日本)
EMBL(欧州)
GENBANK(米国)
新規に決定された塩基配列は上記3
センターのどこに登録しても、同じ内
容がほかの2センターにも登録される。
登録は随時可能であるが、登録塩基
配列の正式リリースは2,3ヶ月ごと
に1回である。
それぞれ、登録の場合の書式
(フォーマット)が若干異なるが、内容
は同一である。登録はテキストファイ
ルの形式で行われる。
注釈つき塩基配列ファイルの構造は
右のように大きく3つの部分に分かれ
ている。
ヘッダー領域
塩基配列のID、物質の由来、
文献などを記載
フィーチャー領域
塩基配列上に見出された
生物学的な特徴を
Featureという表現で
記述している。
Featureの性質を
Qualifierとして
記述している。
塩基配列領域に対する
フィーチャーの位置も示す。
塩基配列領域
塩基配列そのものを記載している
Genbank File を眺める
A4配布資料を見てください
OCUS
AL009126
4214630 bp DNA circular CON 07-JUL-2003
EFINITION Bacillus subtilis complete genome.
CCESSION AL009126
BCT
ERSION AL009126.2 GI:38680335
EYWORDS complete genome.
OURCE
Bacillus subtilis subsp. subtilis str. 168
ORGANISM Bacillus subtilis subsp. subtilis str. 168
Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.
EFERENCE 1 (bases 1 to 4214630)
AUTHORS Kunst,F., Ogasawara,N., Moszer,I., Albertini,A.M., Alloni,G.,
OCUS名、ACCESSION Numberなどは記号のため内容を知るには、
ファイルを開いて、そのDEFINITION行あるいはSOURCE/ORGANISM
行を見る必要がある
注:このため、データベースにはインデックスファイルというものが
フィーチャー領域が始まる
EATURES
source
チャーキー
gene
CDS
Location/Qualifiers
1..4857432
/organism="Salmonella typhimurium LT2"
/mol_type="genomic DNA"
/strain="LT2; SGSC 1412; ATCC 700720"
物質の由来を示す
塩基配列上のフィーチャーの位置を示す
190..255
/gene="thrL"
遺伝子名
/note="synonym: STM0001“
190..255
/note="similar to E. coli thr operon leader peptide
(AAC73112.1); Blastp hit to AAC73112.1 (21 aa),
85-1073758644dentity in aa 1 - 21"
使用する遺伝暗号表
/codon_start=1
/transl_table=11
/product="thr operon leader peptide"
遺伝子産物(蛋白質)
/protein_id="AAL18965.1"
の機能説明
/db_xref="GI:16418494"
/translation="MNRISTTTITTITITTGNGAG"
翻訳アミノ酸配列
スタートコドン
IGIN
1
61
121
181
241
301
agagattacg
cgccagcagc
cgggcagata
acaacatcca
aacggtgcgg
gctttttttt
tctggttgca
acatgaacaa
ctttaaccaa
tgaaccgcat
gctgacgcgt
cgaccagaga
agagatcatg
gtttcggaat
tataggaata
cagcaccacc
acaggaaaca
tcacgaggta
acagggggaa
gtgatcaatt
caagacagac
accattacca
cagaaaaaag
acaaccatgc
ttggttgaaa
taaaaattta
aaataaaaat
ccatcaccat
cccgcacctg
gagtgttgaa
ataaatatat
ttgacttagg
gacagagtac
taccacaggt
aacagtgcgg
gttcggcggt
.
.
4857061
4857121
4857181
4857241
4857301
4857361
4857421
cgtgaggatt
ccgatggcgg
caattagcag
ttacaggcgt
cacaaattaa
atgttgcacc
tttaaaataa
ccggtctgac
cggattaccc
gtttaatgca
tacgcgcgcg
ccgactggct
gtttggtcca
ta
caatgacgag
ttcgctcaat
acagaccaca
ccttttacgc
acaacagcga
tgatattgaa
ctggcgctgg
ctgggtcagg
gaatccgttg
ctgctaacga
atcggcctgc
aaaaaactaa
cggatgtatt
cggtcatggt
atattgctga
ctctggaggc
tgggacagcg
caaaataacg
gaccggcgtg
gtattgctat
tgaatcgcag
ggccgatgac
agatacggta
tgctgtaatt
前頁のGen
およびCDS
⇒の位置か
始まる
gene
-35_signal
protein_bind
-10_signal
protein_bind
RBS
CDS
75812..77028
/gene="carA"
/note="synonym: STM0066"
75812..75820
/note="putative -35_signal for carA;
RegulonDB:STMLTH004690"
75820..75832
/note="putative binding site for ArgR, RegulonDB:
STMS1H000031"
/bound_moiety="ArgR"
75836..75844
/note="putative -10_signal for carA;
RegulonDB:STMLTH004690"
75852..75870
/note="putative binding site for ArgR, RegulonDB:
STMS1H000028"
/bound_moiety="ArgR"
75868..75873
/note="putative RBS for carA; RegulonDB:STMS1H000453"
75880..77028
/EC_number="6.3.5.5"
/note="carbamoyl-phosphate synthase small chain.
(SW:CARA_SALTY)"
/codon_start=1
/transl_table=11
/product="carbamoyl-phosphate synthetase,
glutamine-hydrolysing small subunit"
gene
rRNA
gene
tRNA
gene
tRNA
gene
rRNA
gene
rRNA
gene
tRNA
gene
289189..290732
/gene="rrsH"
/note="synonym: STM0249"
289189..290732
/product="16S ribosomal RNA"
290800..290873
/gene="ileV"
/note="synonym: STM0250"
290800..290873
/product="tRNA-Ile"
290986..291058
/gene="alaV"
/note="synonym: STM0251"
290986..291058
/product="tRNA-Asx"
291244..294336
/gene="rrlH"
/note="synonym: STM0252"
291244..294336
/product="23S ribosomal RNA"
294519..294640
/gene="rrfH"
/note="synonym: STM0253"
294519..294640
/product="5S ribosomal RNA"
294838..294911
/gene="aspU"
/note="synonym: STM0254"
294838..294911
/product="tRNA-Val"
295059..295872
/gene="yafB"
/note="synonym: STM0255"
c_feature:
最上位のFeature Keyで、他のすべての
ture Keyの代わりに使える。
c_difference
a) conflict
b) unsure
c) old_sequence
d) variation
e) modified_base
e
c_signal
a) promoter
1) CAAT_signal
2) TATA_signal
3) -35_signal
4) -10_signal
5) GC_signal
b) RBS
c) polyA_signal
d) enhancer
e) attenuator
f) terminator
g) rep_origin
h) oriT
c_RNA
a) prim_transcript
1) precursor_RNA
Feature Keyは階層構造となっており、上位の
Feature Keyは下位のFeature Keyの代わりに使用で
きる。たとえば、-35_signalの代わりにromoterを使
用してもよいし、さらにmisc_signalを使用しても
よい。
例外
source
a) mRNA
b) 5'clip
c) 3'clip
d) 5'UTR
e) 3'UTR
f) exon
g) CDS
1) sig_peptide
2) transit_peptide
3) mat_peptide
h) intron
i) polyA_site
j) rRNA
k) tRNA
l) scRNA
m) snRNA
n) snoRNA
5. Immunogobulin related
a) C_region
b) D_segment
c) J_segment
d) N_region
e) S_region
f) V_region
g) V_segment
6. repeat_region
a) repeat_unit
b) LTR
c) satellite
7. misc_binding
a) primer_bind
b) protein_bind
8. misc_recomb
a) iDNA
9. misc_structure
a) stem_loop
b) D-loop
10. gap
11. operon
The DDBJ/EMBL/GenBank Feature Table: Defini
Version 6.2 Oct 15 2004
DNA Data Bank of Japan, Mishima, Japan.
EMBL Nucleotide Sequence Database, Cambridg
GenBank, NCBI, Bethesda, MD, USA.
gene=
note=
codon_start=
ransl_table=
product=
ranslation=
EC_number=
:遺伝子名を記述
:ノート(遺伝子名が書かれる場合もある)
:コドンの何番目の塩基からCDSがスタートするか
:遺伝暗号表を指定する
:遺伝子産物を記述
:CDSの場合、アミノ酸配列を記述
:酵素の場合
ここでアノテーションの付加状況をみてみよう
A3参考資料を見てください
. 塩基配列の開始点が統一されていない(次ページ参照)
. 近縁種同士でも逆相補鎖となっている場合がある(次ページ参照)
. 注釈つけられるアノテーション(フィーチャーキーの種類)が異なる(A3資
料参照)
. ORFの判定基準に相違(相同性判定基準)
. 機能の割り当て基準に相違
C.tetani
C.acetobutylicum
C.tetani
C.tetani
Genbankなどに登録されている注釈付き塩基配列の中には、近縁種のゲノムにあっても、+
鎖を逆にとっていたり、塩基配列の開始点を異なる部位にとるものが多い。
 例:Clostridium acetobutylicumとC.tetaniなど
近縁ゲノムのファイルをそろえる必要がある
 制限酵素消化による環状ゲノム開裂
 逆相補鎖生成
 セルフライゲーション
およびアノテーションが公開されているもののリスト
ストは以下のように作成されている。
. 古細菌(A)、真正細菌(B)の区別
. 染色体区分
. 染色体形状(環状・線状)
. 属名・種名・株NOなど
. 全塩基数
. 登録されたGenbankファイルに記載されているフィーチャーの数
① 多くのフィーチャーキーうち、普遍的に登録されているのは、以下の数種
CDS, gene, rRNA, source, tRNA
② mics_featureはいろいろなフィーチャーキーの代わりに使われている。
③ Promoterなども登録されているゲノムはわずかである。
④ 研究グループにより、アノテーションに大きな差がある。
微生物とは
真菌類
(fungi)
植物
シアノバクテリア
(Cyanobacteria)
プロテオバクテリア
(proteobacteria)
真核生物
(eukaryotes)
ム陽性細菌
m-positive bacteria)
真性細菌
(eubacteria)
古細菌
(archaea)
動物
好熱硫黄細菌
(Sulfolobus)
メタン生産菌
(Methanogens)
好塩菌
(Halophiles)
合成生物
解糖系
光合成系
有機物
脂質代謝系
従属栄養生物
TCAサイクル
学合成系
ATP
NADH
アミノ酸代謝系
共役系
無機物
学合成独立栄養生物
化学
輸送
電子伝達系
H+
ADP
原菌
E.coli O157
Clostridium perfringens
病原菌
E.coli K-12
Clostridium acetobutylicum
有用微生物
酢酸菌
乳酸菌
ブタノール菌
アミノ酸生産菌
エタノール生産菌
クエン酸生産菌
ビタミンB6
ビタミンB12
極限環境微生物(Extremophile)
好塩菌(halophile)
高度好塩菌
好熱菌(thermophile)
高度好熱菌
好冷菌
好酸菌
好アルカリ菌
Halobacterium, Halococcus
Thermoplasma, Sulfolobus
Pyrococcus
Shewanella oneidensis
Bacillus acidocaldarius
Bacillus halodurans
Acetobacter aceti など
Lactococcus lactis など多数
Clostridium acetoburylicumなど
Corynebacterium glutamicumなど
Saccharomyces cerevisiaeなど
Aspergillus nigerなど
Rhizobium melilotiなど
Propionibacterium freudenreichiiな
1枚削除
(一部の
合計
227
(163)
古細菌
21
(18)
真性細菌
206
(141)
酵母等
9
(4)
2005年4月6日現在(2004年4月)
菌株名
アブラムシと共生する真性細菌
250
累積数のグラフ
200
150
古細菌
真性細菌
真核微生物
100
病原性大腸菌
50
0
1995 1998 2001 2004
(出典:NCBIよりカウント)
もっとも小さな真性細菌ゲノム
真核生物
もっとも大きな真性細菌ゲノム(修正)
ゲノムサイズ
Aeropyrum pernix
1,666,695
Agrobacterium tumefaciens
5,673,465
Bacillus subtilis
4,214,814
Bifidobacterium longum
2,256646
Buchnera sp.
655,725
Chlamydia trachomatis
1,042,519
Chlamydophila pneumoniae
1,229,858
Clostridium acetobutylicum
4,132,880
Corynebacterium glutamicum
3,309,400
Deinococcus radiodurans
3,284,156
Escherichia coli O157
5,528,445
Escherichia coli K-12
4,639,221
Haemophilus influenzae
1,830,138
Helicobacter pylori
1,667,867
Lactococcus lactis
2,365,589
Methanococcus janaschii
1,739,927
Mycobacterium tuberculosis
4,403,836
Mycoplasma genitalium
Saccharomyces cerevisiae
580,074
12,070,522
Streptococcus pyogenes
1,900,521
Synechosystis sp.
3,573,470
Bradyrhizobium japonicum
9,105,828
Shewanella oneidensis
5,131,416
微生物ゲノムアノテーション
病原菌の場合
病原菌とその近縁菌との間のゲノム構造、遺伝子の違い、発現制御の違い
などを研究して、病原菌のコントロール方法を知る。
例:Staphylococcus aureusの薬剤耐性株と普通株の比較
有用微生物の場合
工業生産菌のいくつかの生産能力などに差異がある菌株を比較し、どのよう
なしくみで、有用物質の生産が行われるかを知る。
さらに、遺伝子を改変し、その生産能力を高める
例:Corynebacterium glutamicum
空気中の炭酸ガスの固定
例:Chlorobium属、Hydrogenobacter属
有害物質や未利用バイオマスの分解にも利用される
PCBやダイオキシンなどの難分解性の物質でも分解できる微生物が存在する
例:Pseudomonas属、Rhodococcus属など
遺伝子の有無の比較
異種ゲノム間の全遺伝子相同性検索
遺伝子が共通に存在しても)遺伝子の並び順の比較
Operon(Regulon)構造の比較
転写構造の比較
転写制御方法の比較
代謝Pathwayの比較
Genome, Transcriptome
Transcriptome, Proteome,
Interactome,Genome
Proteome, Metabolome
いくつかの真正細菌の
ゲノム領域の一部を表示
実際にGenbankをグラフィカルにみるための
ゲノム閲覧ソフトウェアのダウンロードサイト
http://www.insilicobiology.co.jp/