§1 微生物ゲノムアノテーション microbial genome annotation 第1回 2005年4月7日 18:30∼20:00 大山 彰 Akira Ohyama 第1回:4月7日(木) ① 理論:微生物ゲノムアノテーション基礎知識 ② 実例:微生物アノテーションの例 ③ 微生物シーケンシングプロジェクト(次週へ) 第2回:4月14日(木) ① 理論:アセンブルの理論 ② 実例:アセンブルの実際 ③ 実習:グラム陽性菌のアノテーション 第3回:4月21日) ① 理論:QCとLabAutomation ② 実例:QCとLabAutomationの実際 ③ 実習:グラム陰性菌のアノテーション 第4回(4月28日) ① 理論:遺伝子同定と機能割り当て ② 実例・実習:古細菌のアノテーション 第5回(5月12日) ① 試験:微生物ゲノムアノテーション(45分) ② ディスカッション:ゲノムアノテーション、バイオインフォマティクスなど(45分) 微生物ゲノムアノテーションの基礎 Genbankへの注釈付加とは? 微生物の分類 微生物全塩基配列決定状況 アノテーションの目的 微生物アノテーションの例 Genbankを眺める どのような注釈がなされているか 微生物シーケンシングプロジェクト(次週) プロジェクトの流れと使用する道具 微生物ゲノムアノテーションの基礎 ショットガンライブラリの作成 各フラグメントのシーケンシング ベースコールと配列品質の管理 ゲノム配列決定段階 他種DNAやベクターの除去 フラグメント間オーバーラップ検出 クラスタリングとコンティグの形成 コンティグ同士の比較解析 コンティグ内のORF同定 コンティグ両端のプライマー設計 再アセンブル ORF同定 他生物種ゲノムとの比較 アノテーション段階 遺伝子機能同定 全ゲノムORFマップの作成 ーケンシング・アノテーション プロジェクト 物質としてのDNA 自前で物質としてのDNA から全ゲノム塩基配列を 決定し、注釈までつける。 シーケンシングと アセンブル 情報としてのDNA 注釈なし塩基配列 遺伝子探索と アノテーション 注釈つき塩基配列 アノテーションには 国際塩基配列データベース の意味と内容を知ることが重 注釈があまりついていない 既知ゲノム塩基配列を利用する アノテーション プロジェクト インターネッ トによるアク セス可能 ノム ゲ 知 既 注釈つき 参照する を 塩基配列 DDBJ,EMBL,Genbank 国際塩基配列データベース への登録 FTPサイ の公開 国際塩基配列データベースには世界 で3箇所のセンターがある。 DDBJ(日本) EMBL(欧州) GENBANK(米国) 新規に決定された塩基配列は上記3 センターのどこに登録しても、同じ内 容がほかの2センターにも登録される。 登録は随時可能であるが、登録塩基 配列の正式リリースは2,3ヶ月ごと に1回である。 それぞれ、登録の場合の書式 (フォーマット)が若干異なるが、内容 は同一である。登録はテキストファイ ルの形式で行われる。 注釈つき塩基配列ファイルの構造は 右のように大きく3つの部分に分かれ ている。 ヘッダー領域 塩基配列のID、物質の由来、 文献などを記載 フィーチャー領域 塩基配列上に見出された 生物学的な特徴を Featureという表現で 記述している。 Featureの性質を Qualifierとして 記述している。 塩基配列領域に対する フィーチャーの位置も示す。 塩基配列領域 塩基配列そのものを記載している Genbank File を眺める A4配布資料を見てください OCUS AL009126 4214630 bp DNA circular CON 07-JUL-2003 EFINITION Bacillus subtilis complete genome. CCESSION AL009126 BCT ERSION AL009126.2 GI:38680335 EYWORDS complete genome. OURCE Bacillus subtilis subsp. subtilis str. 168 ORGANISM Bacillus subtilis subsp. subtilis str. 168 Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus. EFERENCE 1 (bases 1 to 4214630) AUTHORS Kunst,F., Ogasawara,N., Moszer,I., Albertini,A.M., Alloni,G., OCUS名、ACCESSION Numberなどは記号のため内容を知るには、 ファイルを開いて、そのDEFINITION行あるいはSOURCE/ORGANISM 行を見る必要がある 注:このため、データベースにはインデックスファイルというものが フィーチャー領域が始まる EATURES source チャーキー gene CDS Location/Qualifiers 1..4857432 /organism="Salmonella typhimurium LT2" /mol_type="genomic DNA" /strain="LT2; SGSC 1412; ATCC 700720" 物質の由来を示す 塩基配列上のフィーチャーの位置を示す 190..255 /gene="thrL" 遺伝子名 /note="synonym: STM0001“ 190..255 /note="similar to E. coli thr operon leader peptide (AAC73112.1); Blastp hit to AAC73112.1 (21 aa), 85-1073758644dentity in aa 1 - 21" 使用する遺伝暗号表 /codon_start=1 /transl_table=11 /product="thr operon leader peptide" 遺伝子産物(蛋白質) /protein_id="AAL18965.1" の機能説明 /db_xref="GI:16418494" /translation="MNRISTTTITTITITTGNGAG" 翻訳アミノ酸配列 スタートコドン IGIN 1 61 121 181 241 301 agagattacg cgccagcagc cgggcagata acaacatcca aacggtgcgg gctttttttt tctggttgca acatgaacaa ctttaaccaa tgaaccgcat gctgacgcgt cgaccagaga agagatcatg gtttcggaat tataggaata cagcaccacc acaggaaaca tcacgaggta acagggggaa gtgatcaatt caagacagac accattacca cagaaaaaag acaaccatgc ttggttgaaa taaaaattta aaataaaaat ccatcaccat cccgcacctg gagtgttgaa ataaatatat ttgacttagg gacagagtac taccacaggt aacagtgcgg gttcggcggt . . 4857061 4857121 4857181 4857241 4857301 4857361 4857421 cgtgaggatt ccgatggcgg caattagcag ttacaggcgt cacaaattaa atgttgcacc tttaaaataa ccggtctgac cggattaccc gtttaatgca tacgcgcgcg ccgactggct gtttggtcca ta caatgacgag ttcgctcaat acagaccaca ccttttacgc acaacagcga tgatattgaa ctggcgctgg ctgggtcagg gaatccgttg ctgctaacga atcggcctgc aaaaaactaa cggatgtatt cggtcatggt atattgctga ctctggaggc tgggacagcg caaaataacg gaccggcgtg gtattgctat tgaatcgcag ggccgatgac agatacggta tgctgtaatt 前頁のGen およびCDS ⇒の位置か 始まる gene -35_signal protein_bind -10_signal protein_bind RBS CDS 75812..77028 /gene="carA" /note="synonym: STM0066" 75812..75820 /note="putative -35_signal for carA; RegulonDB:STMLTH004690" 75820..75832 /note="putative binding site for ArgR, RegulonDB: STMS1H000031" /bound_moiety="ArgR" 75836..75844 /note="putative -10_signal for carA; RegulonDB:STMLTH004690" 75852..75870 /note="putative binding site for ArgR, RegulonDB: STMS1H000028" /bound_moiety="ArgR" 75868..75873 /note="putative RBS for carA; RegulonDB:STMS1H000453" 75880..77028 /EC_number="6.3.5.5" /note="carbamoyl-phosphate synthase small chain. (SW:CARA_SALTY)" /codon_start=1 /transl_table=11 /product="carbamoyl-phosphate synthetase, glutamine-hydrolysing small subunit" gene rRNA gene tRNA gene tRNA gene rRNA gene rRNA gene tRNA gene 289189..290732 /gene="rrsH" /note="synonym: STM0249" 289189..290732 /product="16S ribosomal RNA" 290800..290873 /gene="ileV" /note="synonym: STM0250" 290800..290873 /product="tRNA-Ile" 290986..291058 /gene="alaV" /note="synonym: STM0251" 290986..291058 /product="tRNA-Asx" 291244..294336 /gene="rrlH" /note="synonym: STM0252" 291244..294336 /product="23S ribosomal RNA" 294519..294640 /gene="rrfH" /note="synonym: STM0253" 294519..294640 /product="5S ribosomal RNA" 294838..294911 /gene="aspU" /note="synonym: STM0254" 294838..294911 /product="tRNA-Val" 295059..295872 /gene="yafB" /note="synonym: STM0255" c_feature: 最上位のFeature Keyで、他のすべての ture Keyの代わりに使える。 c_difference a) conflict b) unsure c) old_sequence d) variation e) modified_base e c_signal a) promoter 1) CAAT_signal 2) TATA_signal 3) -35_signal 4) -10_signal 5) GC_signal b) RBS c) polyA_signal d) enhancer e) attenuator f) terminator g) rep_origin h) oriT c_RNA a) prim_transcript 1) precursor_RNA Feature Keyは階層構造となっており、上位の Feature Keyは下位のFeature Keyの代わりに使用で きる。たとえば、-35_signalの代わりにromoterを使 用してもよいし、さらにmisc_signalを使用しても よい。 例外 source a) mRNA b) 5'clip c) 3'clip d) 5'UTR e) 3'UTR f) exon g) CDS 1) sig_peptide 2) transit_peptide 3) mat_peptide h) intron i) polyA_site j) rRNA k) tRNA l) scRNA m) snRNA n) snoRNA 5. Immunogobulin related a) C_region b) D_segment c) J_segment d) N_region e) S_region f) V_region g) V_segment 6. repeat_region a) repeat_unit b) LTR c) satellite 7. misc_binding a) primer_bind b) protein_bind 8. misc_recomb a) iDNA 9. misc_structure a) stem_loop b) D-loop 10. gap 11. operon The DDBJ/EMBL/GenBank Feature Table: Defini Version 6.2 Oct 15 2004 DNA Data Bank of Japan, Mishima, Japan. EMBL Nucleotide Sequence Database, Cambridg GenBank, NCBI, Bethesda, MD, USA. gene= note= codon_start= ransl_table= product= ranslation= EC_number= :遺伝子名を記述 :ノート(遺伝子名が書かれる場合もある) :コドンの何番目の塩基からCDSがスタートするか :遺伝暗号表を指定する :遺伝子産物を記述 :CDSの場合、アミノ酸配列を記述 :酵素の場合 ここでアノテーションの付加状況をみてみよう A3参考資料を見てください . 塩基配列の開始点が統一されていない(次ページ参照) . 近縁種同士でも逆相補鎖となっている場合がある(次ページ参照) . 注釈つけられるアノテーション(フィーチャーキーの種類)が異なる(A3資 料参照) . ORFの判定基準に相違(相同性判定基準) . 機能の割り当て基準に相違 C.tetani C.acetobutylicum C.tetani C.tetani Genbankなどに登録されている注釈付き塩基配列の中には、近縁種のゲノムにあっても、+ 鎖を逆にとっていたり、塩基配列の開始点を異なる部位にとるものが多い。 例:Clostridium acetobutylicumとC.tetaniなど 近縁ゲノムのファイルをそろえる必要がある 制限酵素消化による環状ゲノム開裂 逆相補鎖生成 セルフライゲーション およびアノテーションが公開されているもののリスト ストは以下のように作成されている。 . 古細菌(A)、真正細菌(B)の区別 . 染色体区分 . 染色体形状(環状・線状) . 属名・種名・株NOなど . 全塩基数 . 登録されたGenbankファイルに記載されているフィーチャーの数 ① 多くのフィーチャーキーうち、普遍的に登録されているのは、以下の数種 CDS, gene, rRNA, source, tRNA ② mics_featureはいろいろなフィーチャーキーの代わりに使われている。 ③ Promoterなども登録されているゲノムはわずかである。 ④ 研究グループにより、アノテーションに大きな差がある。 微生物とは 真菌類 (fungi) 植物 シアノバクテリア (Cyanobacteria) プロテオバクテリア (proteobacteria) 真核生物 (eukaryotes) ム陽性細菌 m-positive bacteria) 真性細菌 (eubacteria) 古細菌 (archaea) 動物 好熱硫黄細菌 (Sulfolobus) メタン生産菌 (Methanogens) 好塩菌 (Halophiles) 合成生物 解糖系 光合成系 有機物 脂質代謝系 従属栄養生物 TCAサイクル 学合成系 ATP NADH アミノ酸代謝系 共役系 無機物 学合成独立栄養生物 化学 輸送 電子伝達系 H+ ADP 原菌 E.coli O157 Clostridium perfringens 病原菌 E.coli K-12 Clostridium acetobutylicum 有用微生物 酢酸菌 乳酸菌 ブタノール菌 アミノ酸生産菌 エタノール生産菌 クエン酸生産菌 ビタミンB6 ビタミンB12 極限環境微生物(Extremophile) 好塩菌(halophile) 高度好塩菌 好熱菌(thermophile) 高度好熱菌 好冷菌 好酸菌 好アルカリ菌 Halobacterium, Halococcus Thermoplasma, Sulfolobus Pyrococcus Shewanella oneidensis Bacillus acidocaldarius Bacillus halodurans Acetobacter aceti など Lactococcus lactis など多数 Clostridium acetoburylicumなど Corynebacterium glutamicumなど Saccharomyces cerevisiaeなど Aspergillus nigerなど Rhizobium melilotiなど Propionibacterium freudenreichiiな 1枚削除 (一部の 合計 227 (163) 古細菌 21 (18) 真性細菌 206 (141) 酵母等 9 (4) 2005年4月6日現在(2004年4月) 菌株名 アブラムシと共生する真性細菌 250 累積数のグラフ 200 150 古細菌 真性細菌 真核微生物 100 病原性大腸菌 50 0 1995 1998 2001 2004 (出典:NCBIよりカウント) もっとも小さな真性細菌ゲノム 真核生物 もっとも大きな真性細菌ゲノム(修正) ゲノムサイズ Aeropyrum pernix 1,666,695 Agrobacterium tumefaciens 5,673,465 Bacillus subtilis 4,214,814 Bifidobacterium longum 2,256646 Buchnera sp. 655,725 Chlamydia trachomatis 1,042,519 Chlamydophila pneumoniae 1,229,858 Clostridium acetobutylicum 4,132,880 Corynebacterium glutamicum 3,309,400 Deinococcus radiodurans 3,284,156 Escherichia coli O157 5,528,445 Escherichia coli K-12 4,639,221 Haemophilus influenzae 1,830,138 Helicobacter pylori 1,667,867 Lactococcus lactis 2,365,589 Methanococcus janaschii 1,739,927 Mycobacterium tuberculosis 4,403,836 Mycoplasma genitalium Saccharomyces cerevisiae 580,074 12,070,522 Streptococcus pyogenes 1,900,521 Synechosystis sp. 3,573,470 Bradyrhizobium japonicum 9,105,828 Shewanella oneidensis 5,131,416 微生物ゲノムアノテーション 病原菌の場合 病原菌とその近縁菌との間のゲノム構造、遺伝子の違い、発現制御の違い などを研究して、病原菌のコントロール方法を知る。 例:Staphylococcus aureusの薬剤耐性株と普通株の比較 有用微生物の場合 工業生産菌のいくつかの生産能力などに差異がある菌株を比較し、どのよう なしくみで、有用物質の生産が行われるかを知る。 さらに、遺伝子を改変し、その生産能力を高める 例:Corynebacterium glutamicum 空気中の炭酸ガスの固定 例:Chlorobium属、Hydrogenobacter属 有害物質や未利用バイオマスの分解にも利用される PCBやダイオキシンなどの難分解性の物質でも分解できる微生物が存在する 例:Pseudomonas属、Rhodococcus属など 遺伝子の有無の比較 異種ゲノム間の全遺伝子相同性検索 遺伝子が共通に存在しても)遺伝子の並び順の比較 Operon(Regulon)構造の比較 転写構造の比較 転写制御方法の比較 代謝Pathwayの比較 Genome, Transcriptome Transcriptome, Proteome, Interactome,Genome Proteome, Metabolome いくつかの真正細菌の ゲノム領域の一部を表示 実際にGenbankをグラフィカルにみるための ゲノム閲覧ソフトウェアのダウンロードサイト http://www.insilicobiology.co.jp/
© Copyright 2024 Paperzz