ゲノム情報に基づく遺伝子機能予測と パスウェイ解析 坊農 秀雅 2003 年 5 月 i 要旨 生物学はポストシーケンス時代へと移行しつつある。ポストシーケンス時代の遺 伝子機能解析ではターゲットとなる遺伝子配列があらかじめすべて分かっていて、 その分かっている情報が最大限活用され、例えばリン酸化される可能性のあるシー ケンスモチーフなどがあらかじめ提示される。そういった機能予測情報は、例え ば膨大な組み合わせの考えられる遺伝子間相互作用の可能性を絞り込むことなど 実験の手間を減らし、生物学の理解の速度を加速する。著者は「パスウェイ解析」 と呼ばれる方法、すなわちゲノムの決まったある特定の生物種の遺伝子すべてを、 現在までに生物学的知識としてまとめあげられているパスウェイの上に載せる方 法で、ゲノムスケールの遺伝子機能を予測することを検討した。具体的には代謝パ スウェイを例として (1) 遺伝子コード領域が容易に予測可能な微生物と (2)cDNA 配列情報から遺伝子構造が実験的に得られている哺乳類のモデル生物マウスで解 析を行った。 20世紀初頭より蓄積された代謝パスウェイの知識に対して、酵素の機能割り 当てを双方向からのスコアの最高値を取る配列相同性検索 (bi-directional best hit) を利用して、ゲノムが決まったばかりの生物種で代謝パスウェイを再構築するシ ステム GFIT(Gene Function Identification Tool) を開発した。そして GFIT を使っ て当時ゲノムの決まった生物種(9種類)すべての遺伝子配列から各生物種のオー ソロガス遺伝子を割り当てていくことで20種類のアミノ酸合成経路の再構築を 行い、その結果アスパラギン酸アミノトランスフェラーゼ [EC: 2.6.1.1] の基質特 異性の緩和を仮定することで大腸菌 (E.coli)、ヘムフィルス (H.influenzae)、枯草 菌 (B.subtilis) では完全に、またシアノバクテリア (Synechocystis sp.) と酵母菌 (S.cerevisiae) ではおそらく、再構築されると予測できた。 また高等真核生物では遺伝子のエクソン・イントロン構造や選択的スプライン ii シングの多様性の問題から、ゲノム配列のみからコンピュータ予測される遺伝子 構造だけでは遺伝子の数が確定しない問題がある。哺乳類のモデル生物マウスに おいては cDNA として実験的に得られた転写配列情報が、理化学研究所マウスエ ンサイクロペディアプロジェクトによって大量に利用可能となったのでそれを利用 して代謝経路の再構築をマウスにおいても解析した。さらに理研 20k マイクロア レイを用いたマウス 20 組織の発現プロファイル情報も合わせて、より多くのデー タを組み合わせた代謝パスウェイ解析を行い、トリプトファン分解経路において これまで知られているパスウェイとは別のパスウェイの存在を示唆する結果が得 られた。 iii 略語 生物種名の略語 ・ Hsa : Homo sapiens (ヒト) ・ Mmu : Mus musculus (マウス) ・ Sce : Saccharomyces cerevisiae (出芽酵母) ・ Eco : Escherichia coli (大腸菌) ・ Hin : Haemophilus influenzae (ヘムフィルス) ・ Hpy : Helicobacter pylori 26695 ・ Bsu : Bacillus subtilis (枯草菌) ・ Mge : Mycoplasma genitalium ・ Mpn : Mycoplasma pneumoniae ・ Syn : Synechocystis sp. (シアノバクテリア) ・ Mja : Methanococcus jannaschii その他の略語 ・ FANTOM : Functional annotation of mouse (マウスの機能アノテーション) ・ GFIT : Gene Function Identification Tool ・ GO: Gene Ontology iv ・ HMM : Hidden Markov Model(隠れマルコフモデル) ・ KEGG : Kyoto Encyclopedia of Genes and Genomes ・ ORFs : Open Reading Frames ・ READ : Riken Expression Array Database (理研 cDNA マイクロアレイデー タベース) ・ RTPS : Representative Transcript and Protein Set ・ S.D. : Standard Deviation (標準偏差) ・ SPOT: Search and Point Ortholog Table ・ WWW : World Wide Web v 目次 要旨 i 略語 iii 第 1 章 序論 1 1.1 遺伝子機能予測の重要性 . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 パスウェイ解析によるアプローチ . . . . . . . . . . . . . . . . . . . 2 1.3 本研究の目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 第 2 章 方法 2.1 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 微生物の遺伝子コード配列 . . . . . . . . . . . . . . . . . . . 7 2.1.2 マウスの転写配列 . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 パスウェイデータ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 オーソロガス遺伝子の同定 . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 プロファイル解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5 Gene Ontology アノテーション . . . . . . . . . . . . . . . . . . . . 17 2.6 マイクロアレイデータ . . . . . . . . . . . . . . . . . . . . . . . . . 19 配列データ 第 3 章 結果 3.1 23 代謝パスウェイ再構築による酵素遺伝子の機能予測 . . . . . . . . . 23 3.1.1 システムの特徴 . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.2 オーソログ同定と酵素番号の割り当て 3.1.3 代謝パスウェイの再構築 . . . . . . . . . . . . . . . . . . . . 27 3.1.4 アミノ酸合成経路の再構築 . . . . . . . . . . . . . . . . . . . 31 . . . . . . . . . . . . 24 vi 3.1.5 3.2 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス 遺伝子機能解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.1 マウス cDNA の機能アノテーション . . . . . . . . . . . . . 38 3.2.2 マウスの代謝パスウェイ再構築 . . . . . . . . . . . . . . . . 39 3.2.3 マイクロアレイによる遺伝子発現プロファイル解析 . . . . . 43 理研マウス cDNA マイクロアレイ . . . . . . . . . . . . . . . 43 マウス 20 組織での遺伝子発現プロファイル . . . . . . . . . 43 アミノ酸分解経路のパスウェイ解析 . . . . . . . . . . . . . . 47 3.2.4 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 第 4 章 結論 53 参考文献 54 vii 表目次 2.1 解析 1 に用いた生物種 . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 マウス cDNA 配列の内訳 . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 KEGG 代謝パスウェイのカタログ項目とマップ数 . . . . . . . . . . 10 2.4 使用した理研マウス cDNA マイクロアレイの種類 . . . . . . . . . . 19 2.5 マイクロアレイで発現プロファイルを測定した 20 種類の組織 3.1 map00300 における酵素の二項関係 . . . . . . . . . . . . . . . . . . 28 3.2 ゲノムの決まった 9 生物種でのアミノ酸合成経路の再構築 . . . . . 33 3.3 酵素番号の階層 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4 組織特異的な発現をする遺伝子数 . . . . . . . . . . . . . . . . . . . 44 3.5 GO slim の語彙 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6 マウスのトリプトファン代謝経路における missing enzyme の特徴 . 49 . . . 20 ix 図目次 2.1 KEGG/PATHWAY におけるクレブス回路 . . . . . . . . . . . . . . 10 2.2 Hin で再構築されたクレブス回路 . . . . . . . . . . . . . . . . . . . 11 2.3 オーソログとパラログ . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 GFIT(otable) 2.5 GFIT(spot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1 パスウェイデータベースによる酵素遺伝子の機能予測 . . . . . . . . 23 3.2 解析を行った時点での酵素遺伝子数の統計 . . . . . . . . . . . . . . 25 3.3 Eco におけるリシン合成経路の再構築 . . . . . . . . . . . . . . . . . 30 3.4 アミノ酸合成経路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.5 Syn と Sce におけるリシン合成経路 . . . . . . . . . . . . . . . . . . 36 3.6 ヒトとマウスの酵素遺伝子の種類によるメタボロー厶比較 . . . . . 39 3.7 metabolomapper のウェブインターフェース . . . . . . . . . . . . . 41 3.8 cDNA 配列情報から再構築されたマウスのクエン酸回路 . . . . . . . 42 3.9 組織特異的な遺伝子の GO slim による機能分類 . . . . . . . . . . . 46 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.10 再構築されたマウスのトリプトファン分解経路 . . . . . . . . . . . . 48 3.11 トリプトファン分解経路の酵素遺伝子の発現プロファイル . . . . . 50 1 第1章 1.1 序論 遺伝子機能予測の重要性 ゲノムプロジェクトの進展により 2003 年 4 月にヒトゲノム解読が宣言され、ま たこれまでに論文として報告されたものだけでも 100 種類以上の生物種のゲノム が読み解かれている1 。これらの生物種には大腸菌や出芽酵母のように遺伝学的に 遺伝子の機能解析が進んでいるものもあれば、多くの古細菌のように遺伝学的な アプローチがこれまでほとんどとられてこずに、それゆえに機能既知の遺伝子が ほとんど知られていない生物種も存在する。ゲノムにコードされているタンパク 質のすべてを解析するプロテオームプロジェクト [17] は出芽酵母を始めとしてゲ ノムが読み解かれた生物種で始まっている。このように、ある特定の生物種の持つ 遺伝子すべての機能をこれまでと同じような遺伝学的な方法で組織的に同定して いくことも重要である。しかし、対象とする生物種がこれからどんどん増え、すべ ての遺伝子破壊株を作成していくのが困難となれば、コンピュータ上で遺伝子機 能が予測でき、ウェットの実験で確認する際のヒントになることが望ましい [69]。 コンピュータ上での遺伝子の機能推定法として以前からよく行われてきた BLAST や FASTA による配列相同性検索 [2, 53] は、組織的に検索をかけることでゲノム スケールの配列解析でますますその威力を発揮している。とくにほとんど一致し た、非常によく似た配列を検索するプログラム (BLAT や SSAHA)[38, 46] が近年 開発され、ゲノム中を高速に検索するツールとしてよく用いられるようになってき ている。しかし、配列相同性検索プログラムがはじき出す統計的な有意性は必ず しも生物学的な有意性と相関がない。すなわち、同じ機能を果たす遺伝子群が互 いに配列相同性がなく(オーソロガスな関係にならず)、単系統にならなかったり 1 http://www.genome.ad.jp/kegg/catalog/org list.html 2 第 1 章 序論 (non-orthologous gene displacement[39])、生物学的には全く異なる機能を持つ遺 伝子同士が非常に高い配列相同性を持つ(哺乳類の肝臓における尿素回路中のア ルギノコハク酸リアーゼ [EC:4.3.2.1] と眼球の δ クリスタリンとの非常に高い配列 相同性 [56])ことがある。また検索する対象のデータベース中の遺伝子が orphan annotation と呼ばれる、なんら機能的な注釈付けがなされていない遺伝子である 割合は、ゲノム決定に伴う大量の塩基配列データの自動的な処理にともない、増 えてきている [14]。そうなると配列相同性検索を行って質問配列と有意な遺伝子配 列がわかったとしても、その遺伝子配列に十分に機能的な類推の得られる注釈が 付いているという保証はない。こうした遺伝子配列情報と機能情報のギャップを埋 め、遺伝子機能解析に役に立つデータベースを作成し、必要な実験回数を減らす ことは非常に重要な課題であり、またそういった遺伝子機能データベースを維持 していく必要が今後とも必要である [69]。 1.2 パスウェイ解析によるアプローチ 京都大学化学研究所スーパーコンピューターラボラトリーではこうした機能予測 のためのデータベースの必要性を先見し、1995 年から KEGG(Kyoto Encyclopedia of Genes and Genomes)2 と呼ばれる、遺伝子とゲノムの百科事典作りを行ってき た [48, 65]。遺伝子とゲノムの統合されたデータベースは、線虫の ACeDB[18] や 酵母の SGD[62] のように各モデル生物ごとに作られてきていて、それぞれの生物 を中心とした解析には有用なリソースとなっている。KEGG は以下の点において これらのモデル生物種ごとのデータベースと異なり、ユニークである。 1. パスウェイというダイアグラムで遺伝子間ネットワークが記述されている。 2. ダイアグラム上のノード(代謝経路の場合、化合物)やエッジ(酵素)に、 特定の生物の持つそれらのセットをマッピングすることができる。 3. それらの結果を複数比較することでパスウェイの生物種間比較が可能である。 2 http://www.genome.ad.jp/kegg/ 1.3. 本研究の目的 3 このダイアグラムには代謝経路の他、アポトーシスなどのシグナル伝達経路を始 めとして、リボゾームを構成するタンパク質などの生体分子の会合や細胞周期、転 写や翻訳の装置に関わる遺伝子群などが現在記述されている。また同様のパスウェ イのデータベースには KEGG の他に大腸菌に特化した Ecocyc[35] やゲノムシーケ ンシングが進行中のさまざまな微生物の自動的な代謝パスウェイ再構築を行ってい る WIT(What Is There)[51] がある。これらのデータベースとは相互リンクを張っ てお互いに協力してデータベースの維持に努めている。これまでの解析から得ら れた知識をコンピュータ上で扱える形でデータベース化して知識ベースとするこ とは、今後大量に決定されてくる様々な生物のゲノムを解析するうえで役に立つ と考えられる。実際、パスウェイデータベースを機能アノテーションに使おうとい う動きがある [23]。現在のところ KEGG では酵素番号を遺伝子機能の identifier と して扱い、代謝経路を再構築することに成功している。さらに酵素番号を拡張し、 オーソログ ID(ortholog identifier) として遺伝子機能情報のカタログ化を現在すす めている [32]。KEGG のオーソログ ID のほかに、英国 EBI の Ashburner らによ る Gene Ontology3 や米国 NCBI による COG(Clusters of Orthologous Groups)4 [58] などのプロジェクトでも遺伝子機能のカタログ化が進められている。 1.3 本研究の目的 本研究では代謝パスウェイについて、微生物と哺乳類でそれぞれに利用可能な 情報をできるかぎり利用して遺伝子の機能予測法の開発ならびに開発した方法を 用いた解析を行った。 微生物の代謝パスウェイ 代謝パスウェイは20世紀初頭の生化学の成果によりもっとも良く分かっている 生物学パスウェイの代表例である。これまで代謝マップ [67, 68] やウォールチャー ト [24] という形で印刷物としてまとめあげられてきたが、最近では DNA やタンパ 3 4 http://www.geneontology.org/ http://www.ncbi.nlm.nih.gov/COG/ 4 第 1 章 序論 ク質の配列情報のようにデータベース化がすすんでいる [26]。しかし、こういった 代謝パスウェイは進化的に近い生物では全く同じであるという仮定の元に解析の 進んだモデル生物種でその存在が確認されたパスウェイを継ぎ接ぎしたものであ ることが多く、これまで特定の一生物種の代謝パスウェイ全体を見直すことはな かった。 数種類の微生物の全ゲノムが決まり、ある特定の生物種が持つすべての酵素を 予測して代謝パスウェイ全体を再構築しどういったパスウェイを持っているかど うか予測することが可能となった。例えば、独立栄養の生物であれば生命維持に 必要な物質群を作るための代謝パスウェイをすべて持っているはずであり、これ までに分かっているパスウェイであればその存在が確認でき、必要であるはずの 物質を合成するパスウェイが見いだされないのであればまだ知られていない代替 パスウェイが存在するはずである。代謝パスウェイ再構築を実現するための一連 の解析手順の検討とそれを実現するためのシステムの構築を目的として、当時ゲ ノムの決まっていた微生物 9 生物種で、微生物もその経路を持っていると考えら れるアミノ酸合成パスウェイの再構築を例として解析を行った。 哺乳類の代謝パスウェイ さまざまな生物種のパッチワークでしかなかった高等真核生物の代謝パスウェイ も全ゲノム配列の決定とそれを補う cDNA 配列の決定プロジェクトの進展により 単一種の生物における代謝パスウェイの特徴が鳥瞰できるようになってきている [12]。2003 年 4 月に約半世紀ぶりに新種のビタミン、ピロロキノリンキノン (PQQ) が発見された [36] が、この発見も主要なモデル生物のゲノム配列が解読され、代 謝パスウェイの知識がデータベース化され必要なときに膨大な代謝パスウェイ中 から必要な部分だけをすぐに閲覧できるようになってきたことによるところが大 きいものと考えられる。しかしながら微生物と比べて遺伝子構造がイントロンの 存在により複雑となっており、コンピュータによる遺伝子構造予測も不十分で、ま た mRNA のコピーである cDNA を配列決定する方法でその不備さが補われてはい るものの、高等真核生物の完全な遺伝子セットの解明にはまだ時間がかかるもの 1.3. 本研究の目的 5 と考えられる。そこで本研究ではこれまでのゲノム配列情報に加えて、マイクロ アレイによる遺伝子発現情報を組み合わせることで、より多くの情報を解析対象 として代謝パスウェイの再構築を行った。解析対象の生物としてはヒトに近いモ デル生物としてしばしば用いられているマウスを用いた。 7 第2章 2.1 2.1.1 方法 配列データ 微生物の遺伝子コード配列 KEGG システムに含まれる遺伝子のデータベース (KEGG/GENES)[32, 48] に はゲノム配列が公開されると(論文が公表されると)そのゲノム配列とその論文の 著者らによる遺伝子コード領域 (Open Reading Frames; ORFs) の情報が含まれ、 現時点でのゲノムの決まったすべての生物種の全塩基配列、ORFs から予測され る全タンパク質配列が取得できる。配列取得の手段としては京都大学化学研究所 で開発された DBGET/LinkDB システムを用いた [21, 66]。著者が解析を始めた時 点で KEGG/GENES データベースに登録されていた、既にゲノム配列が完全に決 まった生物種すべてのデータを用いた。その一覧を表 2.1 に示す。 「解析1:パスウェイデータベースによる酵素遺伝子の機能予測」では表 2.1 の 9生物種 (Sce, Eco, Hin, Hpy, Bsu, Mge, Mpn, Syn, Mja) に対して解析を行った。 この解析では主に遺伝子コード領域の配列解析を行ったため、特に断らないかぎ り、翻訳されたアミノ酸配列データで解析を行った。 2.1.2 マウスの転写配列 「解析2:代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス 遺伝子機能解析」では RTPS (Representative Transcript and Protein Set) と呼ば れる、マウスの代表転写配列セット(核酸配列)[49] を、理化学研究所ゲノム科学 総合研究センター遺伝子構造・機能研究グループの FTP サイト1 から取得した。こ 1 ftp://fantom.gsc.riken.go.jp/ 8 第 2 章 方法 生物種 ゲノム 遺伝子数 (Mb) 発表 [文献] 真核生物 Sce 13 6602 1997[1] プロテオバクテリア Eco 4.60 4405 1997[8] Hin 1.83 1775 1995[19] Hpy 1.66 1632 1997[59] Bsu 4.20 221 1997[40] Mge 0.58 522 1995[20] Mpn 0.81 710 1997[30] Syn 3.57 3215 1995[34] グラム陽性細菌 シアノバクテリア 1996[33] 古細菌 Mja 1.66 1821 1996[15] 表 2.1: 解析 1 に用いた生物種 解析を始めたときにゲノム配列の決まったすべての 生物種である。 2.2. パスウェイデータ 9 のセットには表 2.2 に示すように、FANTOM2 セットとして公開された 60,770 個 の理研マウス cDNA クローンをゲノム配列上の転写単位 (Transcript Unit) として クラスタリングして得られた 33,409 クラスターに加えて、mRNA やタンパク質と して公共データベースに登録されている配列も加えて再度クラスタリングしなお した結果得られた 37,086 クラスターの代表配列が含まれる [49]。このクラスタリ ングでは mRNA 配列をゲノム配列にマッピングして、ゲノム上のある領域にマッ ピングされる遺伝子をクラスターとしているので、選択的スプライシングによっ て生み出される転写産物も同じクラスターに入っている。 データソース cDNA クローン(配列)数 クラスター数 60,770 clones 33,409 44,106 sequences 3,677 FANTOM2 GenBank Mouse RNA non-EST Refseq mouse mRNA 37,086 合計 2.2: 表 マ ウ ス cDNA 配 列 の 内 訳 ゲノム配列から予測されたコー ド 配 列 は 含 ま ず、す べ て 発 現 が あった mRNA に 由 来 す る 配 列 の み が 集 め ら れ て い る 。文 献 [49] の 補 遺 情 報 (supplemental information; http://fantom.gsc.riken.go.jp/fantom2/SI/sup09.pdf) より改変。 2.2 パスウェイデータ 代謝パスウェイは両方の解析において KEGG/PATHWAY データベースに登録 されているすべてのパスウェイを使った。表 2.3 に KEGG/PATHWAY 中の代謝 パスウェイに登録されているカタログ項目とマップ数を示す。 これらは日本生化学会による代謝マップ [67, 68] やウォールチャート [24] を電子 化し、ほかにもいろいろな代謝マップやデータベースを参考にして維持してきて いる。 図 2.1 はクレブス回路(トリカルボン酸 (TCA) 回路)の KEGG における表現方 10 第 2 章 方法 Carbonhydrate Metabolism 12 Energy Metabolism 6 Lipid Metabolism 8 Nucleotide Metabolism 3 Amino Acid Metabolism 16 Metabolism of Other Amino Acids 11 Metabolism of Complex Carbonhydrates 5 Metabolism of Complex Lipids 6 Metabolism of Cofactors, Vitamins, and Other Substrates 14 合計 81 表 2.3: KEGG 代謝パスウェイのカタログ項目とマップ数 2000 年 1 月現在。 図 2.1: KEGG/PATHWAY におけるクレブス回路 2.2. パスウェイデータ 11 図 2.2: Hin で再構築されたクレブス回路 法(ダイヤグラム)で、グラフのノードが化学物質、エッジ(矢印)が酵素反応を 表している。これらはインターネットにつながったほとんどすべてのコンピュータ に入っているウェブブラウザーを使って見ることができ、化学物質と酵素反応は京 都大学化学研究所で開発、維持されている LIGAND データベース [27] にハイパー リンクが張られている。図 2.2 は Hin で再構築したクレブス回路である。もとも と真核生物のミトコンドリアにあるこの回路は Hin では完全には存在しておらず、 左側半分(α-ケトグルタル酸 (2-Oxo-glutarate) からオキザロ酢酸 (Oxaloacetate) まで)だけとなっている [19]。 KEGG においてはこのようにさまざまな生物種で知られているパスウェイをリ ファレンスとしてダイアグラムで表現し、特定の生物で知られている酵素(番号) のセットをそのダイアグラムに対してマッピングすることでその生物種特有のパ スウェイを表現している。したがってリファレンスパスウェイにないものは表現 できないが、これらのパスウェイは毎日更新され、WWW を通してすぐに最新の リファレンスパスウェイに対して検索をすることができる。 12 2.3 第 2 章 方法 オーソロガス遺伝子の同定 オーソロガス遺伝子とは本来、種分岐が起きたときに別れた遺伝子と定義づけ られる。したがって、それらの遺伝子系統樹をかいたときに種系統樹と同じ樹形 が得られることでそれらがオーソロガスの関係にあることがわかる(図 2.3)。 図 2.3: オーソログとパラログ 種分岐の時に分かれた遺伝子同士の関係が「オーソロガス」であり、生物種 1 の遺 伝子 A1 は生物種 2 の遺伝子 A2 のオーソログ(オーソロガス遺伝子)である。ま た遺伝子 B1 と遺伝子 B2 も同じくオーソロガスであるが、それ以外の関係をパラ ロガスと言う。 (文献 [61] より改変) バクテリアの完全なゲノム配列が使えるようになったことで、以下のような手 続きで異なる 2 生物種の遺伝子ペアのオーソロガスな関係を見いだすことが可能 となった [45, 61]。まず、2つのゲノムにコードされた遺伝子群の間の総当たりの アミノ酸配列レベルの配列相同性を計算しておく。ここでアミノ酸配列レベルで 2.3. オーソロガス遺伝子の同定 13 測っているのは、塩基配列よりもアミノ酸配列の方が保存されているからで、バ クテリアは進化スピードが速いので遺伝子の比較をする際にはアミノ酸レベルで ないと比較できないほど diverse していることが多い。生物種 1 の遺伝子 A が生物 種 2 の遺伝子の中では遺伝子 B に最も似ていて、かつ生物種 2 の遺伝子 B が生物 種 1 の遺伝子の中で一番似ているものが遺伝子 A であるとき、遺伝子 A と遺伝子 B がオーソロガスであるとした。もちろんこれは計算操作上の定義であって、遺 伝子重複によるパラログが複数あって状況が複雑になっていたり、3 つ以上の生物 種を比較したときにペアワイズの比較の矛盾点が出てきたりする。そこで最終的 には生物学的見地からして妥当な機能割り当てを人手で編集して KEGG のオーソ ログテーブル [32] を維持している。 この双方向からのスコアの最高値を取る相同性検索を行ってオーソロガス遺伝子 を探す方法 (reciprocal (bi-directional) best hit 法 [50]) を用いて、遺伝子機能予測を 行うことができる。全く遺伝子機能の注釈の付いていないゲノムの決まった生物種 の ORFs に、すでにある程度遺伝子機能注釈の付いたゲノムの決まっている生物種 との間でオーソロガスなペアを探し、その機能注釈をオーソロガスの関係にある遺 伝子にもつける。このような検索は原理的には配列相同性プログラムの BLAST や FASTA を組み合わせれば実現可能である。しかし、それらの検索をシステマティッ クにかつ多くの結果を総合して必要な部分だけを人間が見るように工夫する必要 がある。そのようなことを実現するプログラム群をプログラム言語 PERL[60] を用 いて UNIX 上で開発し、GFIT(Gene Function Identification Tool) システムとして 構築した [9]。ある生物のゲノムにコードされているすべての遺伝子のアミノ酸配 列を質問配列として検索するため計算量が非常に多く、WWW 上の CGI(Common Gateway Interface) としてではなく、あらかじめ UNIX サーバー上で計算を行って おいて結果だけを WWW 上で見れるような形態をとっている2 。図 2.4 に示すよう に片方のみのベストヒット(通常の配列相同性検索)の結果もあわせて表示する ようになっていて、KEGG プロジェクトで酵素番号を割り当てる際に使用されて いる。さらに現在では、図 2.5 にその概念図を示すように、KEGG のオーソログ テーブルに対して検索を行い、ゲノム(染色体)上での相対的な近さの情報も取り 2 http://www.genome.ad.jp/kegg/comp/GFIT.html 14 第 2 章 方法 入れて機能予測に使えるように GFIT を拡張した。これまでの GFIT(otable) に 加え、この拡張は GFIT(spot(Search and Point Ortholog Table)) と呼んでいる。 GFIT(spot) では、整理されたデータ(KEGG のオーソログテーブル)に対して 検索し、配列相同性のスコアだけでなく、それがどれぐらい多くの生物種と配列 相同性があったか人目でわかるようになっている。また、ゲノム上の位置の情報 を取り入れることで、通常は遺伝子ごとに個々に機能予測するところを、バクテ リアの転写基本単位と考えられているオペロン単位で遺伝子機能予測することが 可能である [9]。 2.4 プロファイル解析 マウスの cDNA 配列解析では、上記のオーソロガス遺伝子ペアの探索による強 い配列相同性の情報のほか、ドメインやモチーフと呼ばれる、遺伝子機能に関わ る弱い配列相同性の情報も利用した。 一般的には、弱い配列相同性の検出としては PSI-BLAST[2] が良く使われている。 PSI-BLAST は 1 本の質問配列から出発して、アミノ酸配列レベルの BLAST(blastp) を繰り返すことで質問配列と配列相同性のある配列を対話的に選択して次の検索 の seed にし、最終的に通常の BLAST 検索では見つからないような配列相同性を 検出する。ここで、通常の配列相同性検索では配列の類似度を計算する際に特定の アミノ酸置換マトリックスを使用している(default で、BLAST では BLOSUM62、 FASTA では BLOSUM50 を使用している)のに対して、PSI-BLAST ではユーザー によって選ばれたアミノ酸配列群の疑似的なマルチプルアラインメントから探し たいドメインに特化したアミノ酸置換マトリックスを作成して、それを利用して いる。この「探したいドメインに特化したアミノ酸置換マトリックス」がプロファ イルと呼ばれているもので、Gribskov らが始めに提唱した [29]。そのため、この タイプのプロファイルは「Gribskov のプロファイル」と呼ばれる。 しかし、 「Gribskov のプロファイル」よりも表現力の高い HMM(Hidden Markov Model:隠れマルコフモデル) を用いることで、保存されたドメインを「プロファイ ル HMM」として表現できること、ワシントン大学セントルイス校の Eddy らに 2.4. プロファイル解析 15 図 2.4: GFIT(otable) GFIT(otable) の出力の例 (query:Hpj )。Hpj のすべての ORFs に対して、ゲノム の決まった各生物種への有意な best hit がテーブルになっている。その生物種に 対して bi-directional best hit が見つかった生物種は赤(アミノ酸長がほぼ (±20%) 同じ)や黄色(それ以外)となっている。タイトル行の右をクリックすると右下 のような粗いアラインメントが表示されるようになっている。 16 第 2 章 方法 図 2.5: GFIT(spot) GFIT(spot) による KEGG のオーソログテーブルに対するサーチの概念図。オー ソログテーブル(図上部)は横が機能グループ(この場合、ABC 輸送系で使われ る各タンパク質)、縦が生物種となっている。ゲノム上の位置情報を考慮して(こ の場合、超好熱性古細菌 Pyrococcus horikoshii のゲノム)、オペロン単位で ORFs の遺伝子機能予測できる(図下部)。 2.5. Gene Ontology アノテーション 17 よって開発された HMM を使った配列解析パッケージ HMMER3 が超並列計算機上 で非常に高速に動くことなどの理由からプロファイル HMM を使って解析を行った。 HMM は 1970 年代の初めからごろから音声認識の情報処理モデルとして研究さ れてきた確率論的モデルで、1990 年代の中ごろから生物学に応用されるようになっ てきた。プロファイル HMM はマルチプルアラインメントから得られる統計的な 特徴を確率プロファイルとしてモデル化したものである [70]。 とくに、HMMER ではプロファイル HMM とデータベース中でヒットした領域 とのアラインメントスコアだけでなく、BLAST 同様、ランダムな配列からの統計 に基づく E-value(期待値)を計算してくれる。これは HMMER のプロファイル を生成した際に、そのプロファイル HMM をランダムなアミノ酸配列データベー スを利用しカリブレーションして、期待値を計算するのに必要な K と λ の値を計 算しておき、データベースサーチの際に利用するのである。つまり、E-value の値 が 1 であれば、そのデータベースをサーチしたときに偶然 1 回ヒットするぐらい の珍しさであるということである。この E-value は、検索に使ったプロファイル がデータベース中で出現する期待値として扱うことが統計的にはできるので、異 なる長さのプロファイルでも一律に扱うことができる。 プロファイルは以下に述べる Gene Ontology アノテーションのパイプラインで 用いられ、cDNA 配列中に Pfam データベース4 [5] に登録されているタンパク質配 列ドメインを持つかどうかを見つけるときと、superfamily データベース5 [28] に登 録されている構造ドメインを持つかどうかを見つけるときに用いた。 2.5 Gene Ontology アノテーション 高等真核生物では遺伝子機能の記述方法として Gene Ontology (GO6 )[3] による ものが用いられてきている。GO とは「たとえ遺伝子とタンパク質の役割について の知識が蓄積し変わっていっても、すべての生物種に適用可能な、規制された用 3 http://hmmer.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/ 5 http://supfam.org/ 6 http://www.geneontology.org/ 4 18 第 2 章 方法 語集 (controlled vocabulary)」のことである。はじめは 3 種類の高等真核生物(酵 母、ショウジョウバエ、マウス)のモデル生物データベース(それぞれ SGD[62], Flybase[16], MGD[7])で用いられていたのが他のモデル生物種でも用いられる ようになってきた。現在 GO には三つのオントロジーがあり、それぞれ分子機能 (molecular function)、生物学的プロセス (biological process)、細胞内構成要素 (cellular component) となっている。決まった用語集の中から機能を付けるので、タ イプミスやよくわからない記述などはなく、またそれぞれのオントロジーが階層 的になっているので機能注釈のコンピュータ解析が可能となっている。この Gene Ontology の ID(GOID) を用いることで、酵素にしか付けることの出来ない酵素番 号を越える遺伝子機能を網羅することができ、その結果遺伝子機能の電子化を計 ることが可能となる。また、そのアノテーションがどういった根拠によるものか evidence code と呼ばれるものが採用されており、アノテーションの質もデータベー ス化されている。例えば ISS(Inferred from Sequence or strucural Similarity: 配列 および構造類似性による予測)、NAS(Non-traceable Author Statement: 追跡不可 能な筆者による記述)、IEA(Inferred from Electronic Annotation: コンピュータに よる機械的な注釈付けによる予測) などがある7 。理化学研究所では上述の MGD のグループと共同で、理化学研究所で新規に配列決定したマウス cDNA クローン を含むマウスの RTPS に GO アノテーションを行い、各モデル生物種ですでに知 られている遺伝子に付けられた信頼度の高い Gene Ontology アノテーションを利 用して、配列相同性検索とプロファイル解析によるタンパク質機能モチーフの同 定を組み合わせるパイプラインを構築した [49]8 。ここで付けられるアノテーショ ンは evidence code が IEA のものがほとんどとなるが、MGD で curation されたも のは IEA から ISS などに変更され、人手によるチェックも反映されるような仕掛 けとなっている。これらのデータも理研の FTP サイト9 で公開されており、そこ からデータを取得した。 7 http://www.geneontology.org/doc/GO.evidence.html http://fantom.gsc.riken.go.jp/fantom2/SI/sup16 go.pdf 9 ftp://fantom.gsc.riken.go.jp/ 8 2.6. マイクロアレイデータ 2.6 19 マイクロアレイデータ cDNA マイクロアレイによる遺伝子発現データベース READ(Riken Expression Array Database[11])10 で公開されている、理研 19k set (21,168 スポット、うちコ ントロールが 2,304 スポット)[44] を用いたマウスの 49 種類の組織での発現プロ ファイルに加えて、さらに新規な 2 枚の cDNA マイクロアレイを開発した [13]。そ れらは表 2.4 に示すように、理研 20k chip-2、理研 20k chip-3 と呼ばれる(それぞ れ 21,168 スポット、うちコントロールスポットが 1,584 スポット)。 cDNA コントロール 理研 19k set 21,168 18,864 2,304 理研 20k chip-2 21,168 19,584 1,584 理研 20k chip-2 21,168 19,584 1,584 合計 63,504 58,032 5,472 名称 スポット数 表 2.4: 使用した理研マウス cDNA マイクロアレイの種類 それらを用いて表 2.5 に示したマウスの 20 種類の組織で発現プロファイリング したデータをマウスの代謝経路再構築解析に用いた。 マイクロアレイデータは、データの信頼性を高めるためにすべての実験は2回 づつ同じ RNA テンプレートをラベリングして別の実験として行った。マウス 49 組織の発現プロファイルのデータ [44] と同じく、リファレンスとする胎生 17.5 日 のサンプルに合わせてすべてのデータを標準化した。PRIM と呼ばれるプログラ ムを使用して、再現性のあるデータのみを使用した [31]。PRIM では、以下の処理 を行ってデータとして使えるスポットを選択する。 1. 人間の目で見て明らかにスポットが欠けているものなどを除く 2. リファレンスとターゲット組織の両方のシグナル強度がいづれかのチャンネ ルのバックグラウンドシグナルの 3S.D.(Standard Deviation; 標準偏差)よ りも低い場合、そのスポットを除く 10 http://READ.gsc.riken.go.jp/ 20 第 2 章 方法 分類 組織名 tissue ID 免疫 脾臓 spleen 09 胸腺 thymus 58 腎臓 kidney 06 心臓 heart 10 肺 lung 12 肝臓 liver 13 大脳 brain 07 小脳 cerebellum 15 小脳胎生 10 日 cerebellum neonate10day 65 胎盤 placenta 16 精巣 testis 17 子宮 uterus 83 膵臓 pancreas 18 小腸 small intestine 20 胃 stomach 22 結腸 colon 90 皮膚 皮膚 skin neonate10day 47 骨 骨 bone 98 筋肉 筋肉 muscle xm 脂肪 脂肪 adipose B4 循環器 神経 生殖 消化器 表 2.5: マイクロアレイで発現プロファイルを測定した 20 種類の組織 2.6. マイクロアレイデータ 21 3. 重複実験の結果、平均最小二乗直線から ±2S.D. 以上外れる再現性のないス ポットを除く さらにこの後2つの実験結果をピアソンの相関係数を計算することで比較し、 0.7 以上の再現性が得られたデータのみ使い、それ以下の場合は実験を繰り返した。 上述のマウスの RTPS 37,086 クラスターのうち約 60%(22,217 クラスター)が 解析に用いた 3 種類のマイクロアレイセット上の cDNA クローンに含まれていた。 これまでのマウスのマイクロアレイの中でもっとも多くの種類の遺伝子が見るこ とが可能となり、より多くのパスウェイで酵素遺伝子の発現パターンを見ること が可能となった。 23 第3章 3.1 3.1.1 結果 代謝パスウェイ再構築による酵素遺伝子の機能予測 システムの特徴 KEGG ではゲノムの決まるごとにそのカタログを作り、データベース化してき ている。遺伝子の機能割り当てもそれに合わせて行っていく必要がある。そこで、 図 3.1 に示したような一連の作業によって KEGG/PATHWAY データベースを用 いて、代謝パスウェイ再構築をして、それぞれのパスウェイ単位の遺伝子機能予 測を行い、知識ベース化してきた。 図 3.1: パスウェイデータベースによる酵素遺伝子の機能予測 24 第 3 章 結果 この一連のステップを踏んでいくことで、最終的に KEGG/PATHWAY の誤り や足りない部分の修正、新たに加わったゲノムの遺伝子機能予測漏れの指摘、さ らには ORF 割り当ての間違いを知ることができる。お互いの一致しない点を解決 していくことで、結果として遺伝子の機能予測と KEGG/PATHWAY の両方が良 くなってくると考えられる。実際的な細かい作業については以下で述べる。 3.1.2 オーソログ同定と酵素番号の割り当て 代謝パスウェイの再構築は始めの酵素番号付けの質に大きく依存する。しかし、 この酵素番号は普通、ゲノムを決定したグループによる機能割り当てには含まれて いないので、酵素番号を付ける作業が必要になる。方法の章でも触れたように、著者 は GFIT(Gene Function Identification Tool) と呼ばれる新しいコンピュータツール を開発した。GFIT は既知遺伝子と新しくゲノムが決められた生物種中の新規遺伝 子とのオーソロガスな関係を利用して新規遺伝子に遺伝子機能を付け (bidirectional best hit 法)、特に自動的に酵素遺伝子を同定して酵素番号を割り当てることに利 用された。 しかしオーソロガスな関係だけを使って酵素番号を割り当てていくだけでは制限 が厳しいので割り当てられる ORF の数も少なく、またその時点で KEGG/GENES データベースに入っていない酵素番号は割り当てられない。そこで酵素番号の割 り当てを行う時までにゲノムの決まった生物種にオーソロガス遺伝子が一つもな いときはタンパク質 1 次構造のデータベース SWISS-PROT[4] に入っている酵素の データも利用して、酵素番号の割り当てを行っていった。しかし、ゲノムの決まっ た生物種の増加に伴ってこの SWISS-PROT への参照の回数は減ってきているが、 現段階でも GFIT を最初のスクリーニングに使って、その後に人手で最後のチェッ クを行って酵素番号を付けている。 解析を行った 1997 年 11 月現在でゲノムが決まっていた9生物種で図 3.2 に示す ような数だけ酵素番号を割り当てることができた。この時点での酵素番号割り当て に基づくと、酵素遺伝子の全遺伝子数に対する割合はバクテリアで約 20%、酵母 菌で約 14%であった。おおまかに言って、すべての生物種で酵素のうちの 75%か 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 25 7C 9E :;<=>? 5 6B 8D @A F NG OH QJ RKLHIJM PI ! "#$%&' ()*+,-./01234 図 3.2: 解析を行った時点での酵素遺伝子数の統計 酵素遺伝子の全遺伝子に対する割合は生物種によって異なり、ゲノムの大きな生 物種ほどその割合は小さい。その一方、KEGG/PATHWAY のリファレンスパス ウェイダイアグラムにマップされた遺伝子の割合は約 80%と一定している。 26 第 3 章 結果 ら 80%の遺伝子が KEGG/PATHWAY のリファレンスパスウェイダイアグラムに マップすることができた。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 3.1.3 27 代謝パスウェイの再構築 代謝パスウェイの再構築の方法として以下の 2 種類の方法を検討した。 1. 二項関係で表現されたパスウェイのつながり [26] の情報からからパス計算を する。 2. 代謝パスウェイのダイアグラム上に予測された酵素をマッピングする。 1 の方法(パス計算)には専用プログラムを C や C++といった手続き言語で書 いて利用する方法とデータベース言語を使って非手続き的にする方法が考えられ る。後者のデータベース言語を使ったゲノム解析は情報科学的な側面からも注目 されていて [64]、演繹オブジェクト指向データベースの開発とそのゲノム解析への 応用が五斗らによってなされている [25]。概念的には、酵素 E によって化合物 X が化合物 Y に変換される反応を reaction(E, X, Y ) と表現すると、代謝パスウェイは以下のルールで計算できる [63]。 path(X, Y, [E]) ←− reaction(E, X, Y ) path(X, Y, [E|EL]) ←− reaction(E, X, Z), path(Z, Y, EL) かぎ括弧 [] はリストを表し、path(X, Y, EL) はリスト EL 中の酵素が順に反応を 触媒することによって、化合物 X から化合物 Y が生成されることを意味している。 この考え方に基づき、筆者はウィスコンシン州立大学マディソン校で開発された 演繹データベースシステム CORAL[55] を利用して、代謝パスウェイへの応用を試 みた。しかし実際には、ATP や水といった、しばしば出ている化合物で生物学的 には関係のないパスウェイがつながってしまう等の問題があり、表 3.1 に示すよう にパスウェイを酵素間のつながりとして表現した。 この CORAL を使った解析は、KEGG の代謝パスウェイで異なる代謝マップで 同じパスウェイが載っている部分の抽出等に使われた。しかし、階層が深くなっ たり、一部の条件を緩くして計算を行ったりすると組み合わせの数が爆発し、現 28 第 3 章 結果 relation ("2.7.2.4", "1.2.1.11", "map00300"). relation ("1.2.1.11", "1.1.1.3", "map00300"). relation ("1.2.1.11", "4.2.1.52", "map00300"). relation ("4.2.1.52", "1.3.1.26", "map00300"). relation ("1.3.1.26", "2.3.1.117", "map00300"). relation ("2.3.1.117", "2.6.1.17", "map00300"). relation ("2.6.1.17", "3.5.1.18", "map00300"). relation ("3.5.1.18", "5.1.1.7", "map00300"). relation ("5.1.1.7", "4.1.1.20", "map00300"). relation ("4.1.1.20", "5.1.1.5", "map00300"). relation ("1.1.1.3", "4.2.1.52", "map00300"). relation ("1.4.1.16", "5.1.1.7", "map00300"). relation ("1.4.1.16", "4.1.1.20", "map00300"). relation ("2.3.1.117", "2.3.1.-", "map00300"). relation ("2.3.1.-", "1.3.1.26", "map00300"). relation ("2.3.1.-", "2.6.1.-", "map00300"). relation ("2.6.1.-", "3.5.1.47", "map00300"). relation ("3.5.1.47", "3.5.1.18", "map00300"). relation ("3.5.1.47", "5.1.1.7", "map00300"). relation ("6.1.1.6", "4.1.1.20", "map00300"). 表 3.1: map00300 における酵素の二項関係 実際には他のマップにおける酵素の二項関係も考慮に入れて計算を行うため、い くつかのマップにまたがる検索も可能である。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 29 実的な代謝パスウェイ解析には使えなかった。また、それぞれの生物種ごとに割 り当てた酵素番号を元にこの解析を行うと、遺伝子の機能割り当てが完全でない ため、長いパスウェイの比較は事実上不可能であった。 もともと不完全な遺伝子の機能割り当ての知識を利用して代謝パスウェイの再 構築を行うため、現在の代謝マップに載っていない、パスウェイを見つけること は(それだけでは)できないという制約があるものの、2 の方法が現実的である。 そこで、各生物種ごとに割り当てられた酵素番号をダイヤグラムに色をつけるこ とで、各生物種固有の代謝パスウェイを調べた。 個々の再構築した代謝パスウェイのつながりを調べることで missing enzyme(欠 けている酵素)を見いだすことができる。例えば図 3.3 は Eco におけるリシン合 成経路のダイアグラムで、これを見ることで Eco ではこのパスウェイは完全でな く、N-アセチルジアミノピメリン酸デアセチラーゼ [EC:3.5.1.47]、もしくはスク シニルジアミノピメリン酸アミノトランスフェラーゼ [EC:2.6.1.17] があればパス ウェイはつながる。つまりこれらの酵素があればこのパスウェイは完全になるの で、これらの酵素のことを missing enzyme と呼ぶことにする。 代謝パスウェイの再構築によって見つかる missing enzyme は次のいづれかの可 能性を示唆する。 1. KEGG/PATHWAY データベースが間違っている。 2. ORF の予測が間違っているために酵素が予測されなかった。 3. 酵素は存在するのだが他とのホモロジーが見つからなかったため検出できな かった。 1 の指摘により KEGG/PATHWAY データベースを見直し、より正確なものに していくことが可能であるので、missing enzyme の解析は重要である。イントロ ンのない原核生物のゲノムでは正確に ORF 予測がされているため、2 の可能性は バクテリアのパスウェイ再構築ではあまり問題とならない。現在ではまだゲノム の決まった生物種の種類が多くないため 3 の可能性が一番大きいが、今後さまざま な生物のゲノムが決まっていくに連れてこの可能性は減少するものと考えられる。 30 第 3 章 結果 LYSINE BIOSYNTHESIS Glycine, serine and threonine metabolism L-Homoserine 2.3.1.1.1.1.3 L-Aspartate 2,3-Dihydrodipicolinate 2.7.2.4 1.2.1.11 1.3.1.26 4.2.1.52 L-Aspartate 2,3,4,5L-4-Aspartyl 4-semialdehyde Tetrahydrophosphate dipicolinate Aspartate metabolism N-Acetyl-L-2-amino6-oxopimelate 2.6.1.- N-Acetyl-L-2,6diaminopimelate N-Succinyl-L-2,6diaminopimelate 3.5.1.47 2.3.1.117 2.6.1.17 N-Succinyl-2-amino6-oxopimelate 3.5.1.18 2,6-Diaminopimelate 5.1.1.7 L-2-Amino6-oxopimelate 1.4.1.16 meso-2,6-Diaminopimelate L-LystRNA(Lys) 4.1.1.20 6.1.1.6 L-Lysine 図 3.3: Eco におけるリシン合成経路の再構築 N-アセチルジアミノピメリン酸デアセチラーゼ [EC:3.5.1.47]、もしくはスクシニ ルジアミノピメリン酸アミノトランスフェラーゼ [EC:2.6.1.17] があれば、リシン の合成経路は完全となる。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 3.1.4 31 アミノ酸合成経路の再構築 アミノ酸合成経路は植物やバクテリアでアミノ酸を作り出すパスウェイとして 良く知られている。哺乳類ではこれらの合成経路の一部を持っていないため、自 分では作りだすことができないアミノ酸は必須アミノ酸 (Arg, His, Ile, Leu, Lys, Met, Phe, Thr, Trp, Val) として知られている。これらの合成経路は生化学の教科 書に図 3.4 のように知識としてまとめられ、ピルビン酸などの糖や他のアミノ酸か らのパスウェイで生成されている。 ゲノム配列が決まりすべての ORFs のアミノ酸配列が予測されたバクテリアで、 これらのアミノ酸合成経路を代謝パスウェイ再構築で見いだすことができるかど うか、興味のあるところである。また独立栄養の生物であればすべてのパスウェイ を自分で持っているはずという制約があり、再構築できなければまだデータベー ス化されていない、まだ知られていないパスウェイがそのアミノ酸合成をしてい るはずである。このような新規パスウェイの発見という観点からもこのアミノ酸 合成経路は興味深い。 表 3.2 はゲノムの決まった 9 生物種 (Sce, Eco, Hin, Hpy, Bsu, Mge, Mpn, Syn, Mja) でのアミノ酸合成経路の再構築の結果で、2種類のマイコプラズマ (Mge,Mpn) はこのパスウェイを構成する酵素が全くなかった。再構築の結果はその度合いに 応じて 5 つのカテゴリーに分類できた。 1. 再構築は完全で、現時点の KEGG に反映されている。 2. GFIT によって見いだされた候補遺伝子を補うことで再構築はおそらく完全 になる。 3. リファレンスパスウェイを更新する必要があるという事実(後述)が見つか り、再構築は完全である。 4. パスウェイの大部分は再構築できるのだが、存在する missing enzyme を代 替する酵素遺伝子や代替反応経路が見つからない。 5. パスウェイを構成する酵素の多くが見つからず、再構築できない。 32 第 3 章 結果 AMINO ACID METABOLISM Histidine metabolism Tyrosine metabolism Phe, Tyr & Trp biosynthesis Tryptophan metabolism Phenylalanine metabolism Cysteine metabolism Gly, Ser & Thr metabolism Val, Leu & Ile biosynthesis Val, Leu & Ile degradation Methionine metabolism Lysine biosynthesis Lysine degradation Ala & Asp metabolism Urea cycle and metabolism of amino groups Glutamate metabolism Arg & Pro metabolism 01150 9/4/97 図 3.4: アミノ酸合成経路 アミノ酸は基本的に、図左側に模式的に示されている解糖系や TCA サイクルで作 られる化合物や他のアミノ酸から合成されている。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 KEGG Amino map ID acid 00251 33 Sce Eco Hin Hpy Bsu Mge Mpn Syn Mja Gln ++ ++ ++ ++ ++ - - ++ ++ Glu ++ ++ ++ ++ ++ - - ++ ++ Asn ++ ++ ++ ? ++ - - ++ ++ Asp ++ ++ ++ ? ++ - - ++ ++ Ala ++ 2.6.1 2.6.1 ++ ++ - - ++ ++ Ser ++ ++ ++ ++ ++ - - ++ ++ Gly ++ ++ ++ ++ ++ - - ++ ++ Thr ++ ++ ++ ++ ++ - - ++ ++ 00271 Met ++ ++ ++ - ++ - - ++ - 00272 Cys ++ ++ ++ ++ ++ - - ++ - 00290 Val ++ ++ ++ - ++ - - ++ ++ Leu ++ ++ ++ - ++ - - ++ + Ile ++ ++ ++ - ++ - - ++ ++ 00300 Lys ? 2.6.1 2.6.1 2.6.1 2.6.1 - - ? ? 00330 Arg ++ ++ + - ++ - - + ++ Pro ++ ++ ++ ++ + - - ++ - 00340 His + ++ ++ - ++ - - + ++ 00400 Phe ++ ++ ++ ? ++ - - ++ ? Tyr ++ ++ ++ ? ++ - - ++ ? Trp ++ ++ ++ + ++ - - ++ ? 00252 00260 表 3.2: ゲノムの決まった 9 生物種でのアミノ酸合成経路の再構築 ++, 現時点の KEGG の機能割り当てで再構築可能 +, KEGG の機能割り当てに対してホモログも加えることで再構築可能 2.6.1, アミノトランスフェラーゼの広い基質特異性を仮定すると再構築可能 ?, パスウェイは存在するはずであるが、欠けている多くの酵素の予測不可能 -, このパスウェイは存在しない(未知のパスウェイがそのアミノ酸を合成している) 34 第 3 章 結果 表 3.2 で、酵素番号 (EC number) の階層(表 3.3)で 2.6.1. に分類される酵素は アミノトランスフェラーゼ(トランスアミナーゼ)である。この酵素は一般にア ミノ酸の前駆体にアミノ基を付加する酵素で、例えば酵素番号 2.6.1.6 はロイシ ンのアミノトランスフェラーゼである。アスパラギン酸アミノトランスフェラー ゼ [EC:2.6.1.1] はアスパラギン酸とグルタミン酸に対して基質特異性があると一般 に考えられているが、他のアミノ酸に対する酵素活性を支持する実験事実もある。 Marvrides らはニワトリのアスパラギン酸アミノトランスフェラーゼが芳香族アミ ノ酸に対しても活性があることを報告している [41]。また、Birolo らは活性部位を 解析して Sulfolobus solfataricus のアスパラギン酸アミノトランスフェラーゼは、 アラニンを基質として用いたときでもかなり高い活性を持つことを発見した [6]。 Mehta らによる配列解析によると L-アスパラギン酸、L-アラニン、L-チロシンと L-フェニルアラニンのアミノトランスフェラーゼは同じサブグループに分類する ことができるとある [42, 43]。 これらの事実を考慮に入れると、Eco, Hin, Hpy, Bsu に存在しているアスパラ ギン酸アミノトランスフェラーゼ [EC:2.6.1.1] はアラニンやリシンに対しても酵素 活性を持つことが仮定できる。こう仮定すると、Eco, Hin, Bsu では 20 種類すべ てのアミノ酸の合成経路が完全となる(表 3.2、図 3.3)。Syn のリシン合成経路は、 この仮定をしてもまだいくつかの missing enzyme を含んでいる(図 3.5)が、ゲ ノム機能解析が進めば現時点では割り当てられなかった酵素遺伝子も見つかって くると考えられる。また、Sce はバクテリアとは全く異なるリシン合成経路を持っ ているようで(図 3.5)、現時点では割り当てられなかったいくつかの酵素がその 合成パスウェイ中に存在している。 表 3.2 に示したように古細菌の Mja はメチオニン、システイン、プロリンの合成 経路が再構築できず、また胃の病原体 Hpy はメチオニン、バリン、ロイシン、イ ソロイシン、アルギニン、ヒスチジンの合成経路をおそらく欠いている。これら の結果はそれぞれの生物種の住む環境や進化を反映しているようである。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 1. Oxidoreductases 2. Transferases 2.1 Transferring one-carbon groups 2.2 Transferring aldehyde or ketone residues 2.3 Acyltransferases 2.4 Glycosyltransferases 2.5 Transferring alkyl or aryl groups, other than methyl groups 2.6 Transferring nitrogenous groups 2.6.1 35 Transaminases(Aminotransferases) 2.6.1.1 Aspartate transaminase; Glutamic-oxaloacetic transaminase; Glutamic-aspartic transaminase; Transaminase A 2.6.1.2 Alanine transaminase; Glutamic-pyruvic transaminase; Glutamic-alanine transaminase 2.6.1.3 Cysteine transaminase 2.6.1.4 Glycine transaminase 2.6.1.5 Tyrosine transaminase 2.6.1.6 Leucine transaminase .. . 2.6.3 Oximinotransferases 2.6.99 Transferring other nitrogenous groups 2.7 Transferring phosphorus-containing groups 2.8 Transferring sulfur-containing groups 2.9 Transferring other groups 3. Hydrolases 4. Lyases 5. Isomerases 6. Ligases 表 3.3: 酵素番号の階層 酵素番号はその反応の種類、働く官能基、基質によって階層的に分類されている。 この例はアミノトランスフェラーゼについて階層を解いていったものである。 http://www.genome.ad.jp/dbget-bin/get htext?ECtable(KEGG の酵素番号階 層テーブル) より抜粋。 36 第 3 章 結果 LYSINE BIOSYNTHESIS Glycine, serine and threonine metabolism N-Acetyl-L-2-aminoN6-Acetyl-LL-2,66-oxopimelate diaminopimelate 2.3.1.2.6.1.- L-Homoserine 1.1.1.3 L-Aspartate 2.7.2.4 2,3-Dihydrodipicolinate 1.2.1.11 1.3.1.26 4.2.1.52 L-Aspartate 2,3,4,5L-4-Aspartyl 4-semialdehyde Tetrahydrophosphate dipicolinate N-Succinyl-L-2,6diaminopimelate 3.5.1.47 2.3.1.117 2.6.1.17 N-Succinyl-2-amino6-oxopimelate 3.5.1.18 Aspartate metabolism 2,6-Diaminopimelate 5.1.1.7 UDP-N-acetylmuramoylL-2-AminoL-alanyl-D-glutamyl1.4.1.16 6-oxopimelate meso-2,6-diaminopimeloylD-alanyl-D-alanine 6.3.2.15 6.3.2.13 UDP-N-acetylmuramoylL-alanyl-D-glutamylmeso-2,6-diaminopimelate Glycolysis Acetyl-CoA Homo-cisHomocitrate aconitate 4.1.3.21 4.2.1.79 2-Oxoglutarate 4.2.1.36 meso-2,6-Diaminopimelate L-LystRNA(Lys) 4.1.1.20 6.1.1.6 5-Adenyl-2L-2-Aminoadipate aminoadipate 6-semialdehyde 5.1.1.5 1.5.1.7 1.2.1.31 1.2.1.31 1.5.1.10 5.1.1.9 D-Lysine 1.5.1.8 5-Adenyl-2-aminoL-Saccharopine L-Lysine adipatesemialdehyde 1.2.1.31 2.6.1.36 Homoisocitrate Citrate cycle Pyruvate metabolism 1.1.1.155 Oxaloglutarate L-2-Aminoadipate 2,5-Diaminohexanoate 2.6.1.39 2-Oxoadipate 2-Amino3-oxohexanoate 1.4.1.12 Lysine degradation 5.4.3.4 2.6.1.21 2-Oxo-6-amino caproate 00300 10/18/97 図 3.5: Syn と Sce におけるリシン合成経路 影のついた四角の箱が Syn 、太枠になっている四角の箱が Sce で見つかった酵素 遺伝子を表す。 3.1. 代謝パスウェイ再構築による酵素遺伝子の機能予測 3.1.5 37 考察 酵素反応と代謝パスウェイの知識は、過去の膨大な数の生化学の実験によって 蓄積してきたものである。これらの実験は普通は特定の生物種、特定の組織から 分離した酵素で行われてきたものなので、異なった生物では異なった酵素の一群 が使われている可能性がある。その可能性の一つを示すものが、アミノトランス フェラーゼの例である。実際、改定以前の代謝マップ [67] では載っていなかった、 芳香族アミノ酸におけるアミノトランスフェラーゼとしてのアスパラギン酸アミ ノトランスフェラーゼに関しては、改定された代謝マップ [68] では訂正され、チ ロシンやフェニルアラニンの合成パスウェイ中のアミノトランスフェラーゼとし て加えられていた。 今回行ったアミノ酸合成経路の再構築だけでも、生化学的にも遺伝学的にも解 析が進んでいる大腸菌や酵母でさえも、すべてのアミノ酸合成経路に出てくるす べての酵素が同定されていないことが分かった。調べた多くの生物でほとんどの アミノ酸合成経路が見いだされた一方、マイコプラズマはアミノ酸合成経路に現 れる酵素は、他のパスウェイでも使われているもの以外は全く見いだされなかっ たのは興味深い。ゲノムサイズを小さくするために、アミノ酸合成経路の酵素を コードする遺伝子を捨てていったのであろうか? 最近、Thermus thermophilus で、始めは配列相同性からアルギニン合成経路の オペロンと思われた一群の配列が、遺伝子破壊実験による解析から実はリシン合 成経路であったことが示された [47]。 このように配列相同性検索の結果を信用しすぎることの危険性もある。 先程の例で見つかったリシンの合成パスウェイはまだ KEGG には登録されてい ない、新規なものも一部含んでいた。このような情報は程なく KEGG に取り込ま れ、酵素パスウェイの可能性の一つとして今後使われるようになる。このように 新たに分かった代謝パスウェイの事実を、リファレンスパスウェイとして KEGG に登録していけば、よりよい代謝経路の再構築が行われるようになっていく。 38 第 3 章 結果 3.2 代謝パスウェイ再構築とトランスクリプトーム情報 に基づくマウス遺伝子機能解析 3.2.1 マウス cDNA の機能アノテーション 昨今ヒトや多くのモデル生物種のゲノム配列が読み解かれ、そこから予測され る遺伝子構造を基にしたアミノ酸配列が世界中のゲノムデータベース中に満ちあ ふれ、一見するとすべての遺伝子の配列さらには機能がわかったかのような錯覚 を覚える。しかし、データベースのエントリーを注意深く見てみると、それは実 際に発現している遺伝子として cDNA が取られたものがすべてではなく、機械的 に予測された遺伝子構造情報、さらにはその予測構造情報からさらに予測した遺 伝子機能情報であったりする。まさに「砂上の楼閣」で、より「生の」生物に近 い「生物情報」のデータベース化が急務である。 理化学研究所ゲノム科学総合研究センター遺伝子構造・機能研究グループでは世 界に先駆けてさまざまなマウスの組織の cDNA ライブラリーを作成し、得られた cDNA を大量にクローニングしてその全長配列を解読してきた(理研マウスエンサ イクロペディアプロジェクト)[37]。これまで蓄積されてきた様々な遺伝子に関す る知識を注釈付けして、構築してきた cDNA 資源を遺伝子の「百科事典(エンサイ クロペディア)」たらしめるために FANTOM (functional annotation of mouse) 会 議が開かれた [54]。具体的にはすべての cDNA クローンに対してどのように cDNA の機能注釈付け (functional annotation) を行うかに始まり、実際の機能注釈作業ま でを会期中に行った。それらの結果を蓄積したものが FANTOM-DB1 である [10]。 つまり、FANTOM-DB は GenBank のようなすべての遺伝子配列に関するデータ を集めたデータベースではなく、理研マウス cDNA クローンに関する配列情報と その特徴、そして人手で注釈付けされた機能情報に関するデータベースとなって いる。 1 http://fantom.gsc.riken.go.jp/db/ 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析39 3.2.2 マウスの代謝パスウェイ再構築 微生物の酵素番号予測のときのようにオーソログを同定して機能割り当てをす ることが、リファレンスとするデータセットが完備されていない高等真核生物で は困難なため、上述のような GO アノテーションパイプラインを構築して GO ア ノテーションを実行し、そして付けられた GO アノテーションのうち、酵素番号 に関連づけられたものを抽出した。その結果、酵素番号が付けられたのは 3,583 ク ラスター(これは RTPS 全体(37,086 クラスター)の約 10%に相当する)で、図 3.2 に示した微生物の酵素遺伝子の割合よりも低く、高等真核生物では酵素以外の 遺伝子がより多く含まれてその割合が低下していることを示唆する。その 3,583 ク ラスターには 726 種類のユニークな酵素番号が含まれ、KEGG/GENES で維持管 理されているヒトの酵素番号セット 720 種類の酵素番号の数と比較してもほぼ同 数となった。 Mouse 726 Human 720 138 582 144 図 3.6: ヒトとマウスの酵素遺伝子の種類によるメタボロー厶比較 全酵素遺伝子(メタボローム)の比較のベン図。582 種類の遺伝子が同一であった。 次にヒトとマウスの重なりを比較したところ、582 種類の酵素番号が同一であっ た。一致しなかった酵素番号を比較してみると主な違いは酵素番号の 4 ケタ目の 数字の違いによるもので、ヒトまたはマウスに際立ってユニークな酵素は見出せ 40 第 3 章 結果 なかった。前節でも議論したように酵素番号の 4 桁目の違いは基質特異性の違い であることが多く、それゆえに機能予測が困難で間違った機能予測に起因する違 いが出てきていた。これらの比較解析を行う過程で GO 内部の酵素番号割り当て ミス(酵素の名前が書かれているのに酵素番号が割り当てられていない)やデー タベース中の間違いに気付くことが多々あった。現時点の知識ではヒトとマウス での明確な違いは見出せなかったが、それゆえにマウスはヒトのよいモデル生物 であることの一面を示している。 それらから再構築されるパスウェイを KEGG システム上でそのパスウェイのグ ラフの結合性がすぐに見ることが出来るように metabolomapper と呼ばれるウェブ アプリケーションを作成した2 。このウェブアプリケーションは与えられた遺伝子 とその酵素番号の対応表から KEGG へのリンクを自動的に作成することで KEGG 上の任意のリファレンスとなるマップに対して酵素番号をマッピングできる(図 3.7,3.8)。 ゲノム配列から遺伝子コード領域予測から得られる遺伝子配列セットと異なり、 RTPS はどこかの組織で実際に mRNA として発現のあった遺伝子配列のセットで 偽遺伝子の混入はなく、より実際の生体内で機能している遺伝子セットが反映さ れている。しかしながら、RTPS だけではどこの組織で発現していたかは特定でき ない。そこで、どこの組織で発現していたか、の情報を加えて再解析すべく、マ イクロアレイによる遺伝子発現プロファイル情報を加えた代謝パスウェイ再構築 解析を進めた。 2 http://fantom.gsc.riken.go.jp/metabolome/ 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析41 図 3.7: metabolomapper のウェブインターフェース 赤丸で示されたリンクをたどると、そのパスウェイマップにある酵素番号を引数に して、KEGG のウェブサイトを介して図 3.8 に示されたパスウェイが表示される。 42 第 3 章 結果 図 3.8: cDNA 配列情報から再構築されたマウスのクエン酸回路 影のついた四角の箱が FANTOM2 セットが公開される前の公共データベースの データから予測された酵素遺伝子によるパスウェイ、赤枠になっている四角の箱 が今回の解析の結果確認された酵素遺伝子を表す。 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析43 3.2.3 マイクロアレイによる遺伝子発現プロファイル解析 理研マウス cDNA マイクロアレイ マウス 49 組織に対する理研 19k cDNA マイクロアレイ(理研 19k と略する)の解 析 [44] と同様に、胎生 17.5 日目の胎仔より調整した cDNA をすべての組織に対する コントロールとして、マウスの 20 種類の組織よりそれぞれ調整した cDNA との比 較を理研 20k chip-2, chip-3 の 2 種類のマイクロアレイ(それぞれ理研 20k-2,20k-3 と略する)を用いて実験した。それぞれ 19,584 個のユニークな cDNA が載せられ、 また理研 19k には 18,763 個のユニークな cDNA が載っていて、それぞれに重なり がないので合計 57,931 種類の cDNA の遺伝子発現プロファイルを 20 種類の組織 に対して測定したことになる。 マウス 20 組織での遺伝子発現プロファイル 得られたマウス 20 組織での遺伝子発現プロファイルの特徴を解析すべく、組織 特異的に発現している遺伝子の機能の特徴を解析した。特定の遺伝子に対して、マ イクロアレイの対数比のデータで平均と分散を計算して標準化したときにある組 織で+3 S.D. を越えるものがあるとき、その組織で組織特異的に発現しているとし た(表 3.4)。精巣特異的な遺伝子がとくにたくさん見つかった。 そして、その cDNA クローンが入るクラスターに付けられた GO アノテーショ ンを元にして GO slim terms3 で機能分類を行った。GO slim terms は機能分類の大 抵の部分をカバーするように選ばれた GO のオントロジーで高レベルの GO term で、その一覧は表 3.5 に示す。 一目見ると NA(Not Assigned) が組織特異的とされた遺伝子のなかにも多く存在 している(図 3.9)が、これは哺乳類の遺伝子の機能に対する我々の知識のなさを 暗示している。心臓、肝臓、胃、腎臓といった比較的研究の進んでいる臓器では GO アノテーションの付いた遺伝子の割合が高く、これはおそらく転写機構の複 雑度が比較的低く、機能がよくわかった臓器であることを反映しているのであろ う。胎盤にはシグナル伝達機能を持つと割り当てられた遺伝子が高い割合で含まれ 3 http://www.ebi.ac.uk/proteome/goslimterms.html 44 第 3 章 結果 分類 組織名 tissue 免疫 脾臓 spleen 365 231 胸腺 thymus 559 371 腎臓 kidney 101 58 心臓 heart 163 96 肺 lung 207 130 肝臓 liver 245 142 大脳 brain 138 83 小脳 cerebellum 238 150 小脳胎生 10 日 cerebellum neonate10day 228 143 胎盤 placenta 333 190 精巣 testis 3067 1576 子宮 uterus 39 29 膵臓 pancreas 387 226 小腸 small intestine 254 163 胃 stomach 103 51 結腸 colon 70 40 皮膚 皮膚 skin neonate10day 379 237 骨 骨 bone 53 34 筋肉 筋肉 muscle 263 178 脂肪 脂肪 adipose 27 16 循環器 神経 生殖 消化器 cDNA 数 クラスター数 表 3.4: 組織特異的な発現をする遺伝子数 クラスター数が図に示された数と一致しないのは一つの遺伝子に複数の GO term が割り当てられることがあるからである。 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析45 cell adhesion molecule chaperone defense/immunity protein enzyme enzyme regulator ligand binding or carrier molecular function unknown motor signal transducer structural protein toxin transcription regulator transporter 表 3.5: GO slim の語彙 上記の他に NA(Not Assigned の略)が使われているが、これは GO アノテーショ ン (molecular function) がそのクラスターに対してない場合に割り当てられる。 46 第 3 章 結果 図 3.9: 組織特異的な遺伝子の GO slim による機能分類 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析47 ているが、これは数多くの分泌性成長因子 (placental lactogen2, placental growth factor, prolactin-like protein A,B,C,F,G など) がこのクラスに含まれているからと 考えられる。 アミノ酸分解経路のパスウェイ解析 微生物においてはアミノ酸合成経路を調べたので、哺乳類ではその逆のアミノ酸 分解経路を哺乳類におけるパスウェイ解析の例として解析を行った。哺乳類におい ては 20 種類のアミノ酸は必須アミノ酸と非必須アミノ酸に分類される。必須アミノ 酸は他のアミノ酸から合成することが出来ず、食事から摂取する必要がある。非必 須アミノ酸は他のアミノ酸から合成して得ることが可能である。metabolomapper から見ることが出来るような、機械的な酵素番号割り当てだけではいくつかの酵 素が欠けているように見えるが、他のより下等な真核生物のオーソログ遺伝子と 配列比較解析を注意深く行うとそう言った酵素を見出すことができる。そのような パスウェイ再構築解析の興味深い例としてトリプトファン分解経路を以下に示す。 図 3.10 の点線で示された経路でトリプトファンが分解されることが知られてい る。EC3.5.1.9(アリールホル厶アミダーゼ)はコンピュータでの予測ではヒトで もマウスでも見出されていないが、そのタンパク質配列はごく最近報告されてい て、その相当する cDNA クローンも FANTOM2 セット中に人手による curation に よって見出されている [52]。このタンパク質配列が公表されてから公共データベー スに取り込まれるまでのタイムラグが、この遺伝子の自動機能アノテーションの 失敗の原因であった(表 3.6)。また 2 種類の酵素 EC1.14.13.9(キヌレイン 3-モ ノオキシゲナーゼ)と EC1.13.11.6(3-ヒドロキシアントラニル酸 3,4-ジオキシゲ ナーゼ)に関しても人手による curation の結果 RTPS 中にその酵素をコードする 遺伝子配列を見出すことができた(表 3.6)。 しかし、その他の 3 つの酵素 EC4.1.1.45(アミノカルボキシルムコン酸セミア ルデヒドデカルボキシラーゼ)、EC1.2.1.32(アミノムコン酸セミアルデヒドデヒ ドロゲナーゼ)、EC1.5.1.-(2-アミノムコン酸レダクターゼ)は RTPS 中に見出す ことは出来なかった。EC4.1.1.45 をコードする遺伝子配列がラット [57]、そしてマ ウスとヒト [22] でクローニングされたのがちょうどごく最近報告された。この遺 48 第 3 章 結果 図 3.10: 再構築されたマウスのトリプトファン分解経路 影のついた四角の箱がヒトですでに見出されている酵素遺伝子、赤枠になってい る四角の箱が今回の解析の結果マウストランスクリプトームで見つかった酵素遺 伝子を表す。 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析49 酵素番号 3.5.1.9 1.14.13.9 1.13.11.6 4.1.1.45 1.2.1.32 1.5.1.- 酵素名 アリールホル厶アミダーゼ キヌレイン 3-モノオキシゲナーゼ 3-ヒドロキシアントラニル酸 3,4-ジオキシゲナーゼ アミノカルボキシルムコン酸 セミアルデヒドデカルボキシラーゼ アミノムコン酸セミアルデヒド デヒドロゲナーゼ 2-アミノムコン酸レダクターゼ 予測された その遺伝子が欠けている cloneID ように見えた理由 9030621K19 4930567E01 0610012J07 最近クローニングされたため F530007C24 GO term の割り当てのエラー 酵素名は付いていたが、酵素 番号が付けられていなかった 最近クローニングされたため なし なし 表 3.6: マウスのトリプトファン代謝経路における missing enzyme の特徴 伝子の cDNA クローン (cloneID: F530007C24) は端読み配列は登録されていたも のの (5’EST: BB847230, 3’EST: BB745194)、現在の RTPS には含まれていなかっ た。この cDNA クローン自体は腎臓の cDNA ライブラリーから得られたものであ るが、マウスの cDNA を集めるにあたってかなりあとになってからクローニング されたクローンであり、その発現量が低いことを示唆している。残りの 2 つの酵 素遺伝子に関しては現時点で利用可能なトランスクリプトームセットに見出すこ とが出来なかった。すなわちマウスには全くないか、あってもこれまで cDNA ラ イブラリーを作成してきた臓器では発現量が非常に低いことを示唆している。発 現量が低いということは、アセチル CoA に向かうこの代謝パスウェイがマウスで は普通は使われていないか、また別のまだ見出されていない酵素群があって代替 経路があるかもしれないことを示唆している。 図 3.11 に示したマイクロアレイによる発現情報解析から、前者の可能性を示唆 する一連の事実が得られた。トリプトファン分解経路にある酵素をコードする遺 伝子の発現プロファイルから、このパスウェイの上流部分(図 3.10 で青色の点線 で示した部分、すなわちトリプトファンから 2-アミノ-3-カルボキシムコン酸 6-セ ミアルデヒドに至るまでの経路)では肝臓と腎臓で遺伝子発現が高い一方、下流 部分(図 3.10 で紫色の点線で示した部分)では心臓で発現が高くなっている(図 3.11)。このことは、代謝経路上でこの 2 種類の臓器が共役しているか、もしくは 50 第 3 章 結果 kidney heart liver 図 3.11: トリプトファン分解経路の酵素遺伝子の発現プロファイル 図 3.10 の経路でパスウェイの上流から酵素遺伝子をその発現プロファイルととも に並べた。 マウスではこのアセチル CoA に至るパスウェイが使われていないということを意 味している可能性がある。2-アミノ-3-カルボキシムコン酸 6-セミアルデヒドから 非酵素反応でキノリン酸となるので、その後ニコチン酸アミド合成へ向かう、ニ コチン酸およびニコチン酸アミド代謝パスウェイ(KEGG/PATHWAY のマップ で map00760)がマウスにおけるトリプトファン代謝の代替経路となりうると考え られる。 3.2.4 考察 ゲノムから予測された遺伝子コード領域配列ではなく転写産物として得られた cDNA 配列の存在に基づいて、代謝パスウェイに酵素番号をマッピングすること で哺乳類の代謝系全体が包括的に理解できた。実際に転写された配列を配列決定 して得られたデータを用いたため、ゲノ厶中にコードされてはいるものの発現量 の非常に低い遺伝子は含まれず、より生体の遺伝子構成を反映した配列セットを 解析することが可能となった。トリプトファン代謝経路の例に示されるように、コ 3.2. 代謝パスウェイ再構築とトランスクリプトーム情報に基づくマウス遺伝子機能解析51 ンピュータによる配列情報のみからの機能アノテーションだけでは推論すること は現時点では不可能であるが、マイクロアレイによる遺伝子発現情報はパスウェ イを解析していくうえで重要な付加情報となった。 また機能的に類似した酵素群がある特定のパスウェイの似た化学反応を触媒す る可能性も特筆すべきことである。こういった情報がうまく活かされて今後の新 たな生理機能の発見につながっていくものと考えられる。 53 第4章 結論 ゲノム配列情報やマイクロアレイによる遺伝子発現情報を始めとする様々な種類 の生物情報の洪水の中で、それらを有機的に結びつけどう遺伝子の機能に持って いくかが、ポストシーケンス時代の至上命題となっている。まさに、生物学は情 報学である。 筆者はゲノム情報に基づく遺伝子の機能予測法を、代謝パスウェイという比較 的これまでに解析されてきた系で検討、開発を行った。パスウェイのネットワー クのデータベース化をはかり、遺伝子同士のネットワークとそのノードにある遺 伝子のゲノム配列解析とあわせて、 「パスウェイ解析」と呼ばれるような手法とし て機能予測をゲノムの決まった生物に対して行ってきた。特に注目したアミノ酸 合成経路の再構築では、その生化学的、遺伝学的性質が良く分かったと考えられ ていた大腸菌や酵母でさえも完全に再構築できず、まだ未同定である酵素が存在 していることがわかった。また、マウスでのアミノ酸分解経路の解析ではマイク ロアレイによる遺伝子発現プロファイルを加えることで共発現していると考えら れる酵素群が見出され、その結果これまで考えられていたパスウェイとは別のパ スウェイが主に使われている可能性が示唆された。 そこで予測された結果のほとんどが、まだウエットの実験で確認されていない 事実ではあるが、 「コンピューター上での実験」によって予測された事実として受 け止められることを願いたい。今後は、これまで genome を考慮して解析してき た遺伝子の機能を、大規模なタンパク質の分析によって得られる、アミノ酸残基の リン酸や脂質などによる修飾のデータやそれらを定量したデータも含めて解析を 進めて、より多くの情報に立脚した遺伝子機能解析法を開発していく予定である。 参考文献 [1] The yeast genome directory. Nature 387, 6632S (1997), 5. [2] Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25, 17 (1997), 3389–402. [3] Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, A. P., Dolinski, K., Dwight, S. S., Eppig, J. T., Harris, M. A., Hill, D. P., Issel-Tarver, L., Kasarskis, A., Lewis, S., Matese, J. C., Richardson, J. E., Ringwald, M., Rubin, G. M., and Sherlock, G. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet 25, 1 (May 2000), 25–29. [4] Bairoch, A., and Apweiler, R. The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res 28, 1 (2000), 45–48. [5] Bateman, A., Birney, E., Cerruti, L., Durbin, R., Etwiller, L., Eddy, S. R., Griffiths-Jones, S., Howe, K. L., Marshall, M., and Sonnhammer, E. L. L. The Pfam protein families database. Nucleic Acids Res 30, 1 (Jan 2002), 276–280. [6] Birolo, L., Arnone, M. I., Cubellis, M. V., Andreotti, G., Nitti, G., Marino, G., and Sannia, G. The active site of sulfolobus solfataricus aspartate aminotransferase. Biochim Biophys Acta 1080, 3 (1991), 198–204. 55 56 参考文献 [7] Blake, J. A., Richardson, J. E., Bult, C. J., Kadin, J. A., and Eppig, J. T. MGD: the Mouse Genome Database. Nucleic Acids Res 31, 1 (Jan 2003), 193–195. [8] Blattner, F. R., Plunkett, G., r., Bloch, C. A., Perna, N. T., Burland, V., Riley, M., Collado-Vides, J., Glasner, J. D., Rode, C. K., Mayhew, G. F., Gregor, J., Davis, N. W., Kirkpatrick, H. A., Goeden, M. A., Rose, D. J., Mau, B., and Shao, Y. The complete genome sequence of Escherichia coli K-12. Science 277, 5331 (1997), 1453–74. [9] Bono, H., Goto, S., Fujibuchi, W., Ogata, H., and Kanehisa, M. Systematic prediction of orthologous units of genes in the complete genomes. In Genome Informatics 1998, S. Miyano and T. Takagi, Eds. Universal Academy Press, 1998, pp. 32–40. [10] Bono, H., Kasukawa, T., Furuno, M., Hayashizaki, Y., and Okazaki, Y. FANTOM DB: database of Functional Annotation of RIKEN Mouse cDNA Clones. Nucleic Acids Res 30, 1 (Jan 2002), 116–118. [11] Bono, H., Kasukawa, T., Hayashizaki, Y., and Okazaki, Y. READ: RIKEN Expression Array Database. Nucleic Acids Res 30, 1 (Jan 2002), 211–213. [12] Bono, H., and Okazaki, Y. Functional transcriptomes: comparative analysis of biological pathways and processes in eukaryotes to infer genetic networks among transcripts. Curr Opin Struct Biol 12, 3 (Jun 2002), 355–361. [13] Bono, H., and Okazaki, Y. Study of mouse metabolic pathways with riken full-length cdna microarrays. In Perspectives in Gene Expression, K. Appasani, Ed. Eaton Publication, 2003. 参考文献 57 [14] Bork, P., and Koonin, E. V. Predicting functions from protein sequences– where are the bottlenecks? Nat Genet 18, 4 (1998), 313–8. [15] Bult, C. J., White, O., Olsen, G. J., Zhou, L., Fleischmann, R. D., Sutton, G. G., Blake, J. A., FitzGerald, L. M., Clayton, R. A., Gocayne, J. D., Kerlavage, A. R., Dougherty, B. A., Tomb, J. F., Adams, M. D., Reich, C. I., Overbeek, R., Kirkness, E. F., Weinstock, K. G., Merrick, J. M., Glodek, A., Scott, J. L., Geoghagen, N. S. M., and Venter, J. C. Complete genome sequence of the methanogenic archaeon, Methanococcus jannaschii. Science 273, 5278 (1996), 1058–73. [16] Consortium.., F. The FlyBase database of the Drosophila genome projects and community literature. Nucleic Acids Res 31, 1 (Jan 2003), 172–175. [17] Costanzo, M. C., Hogan, J. D., Cusick, M. E., Davis, B. P., Fancher, A. M., Hodges, P. E., Kondu, P., Lengieza, C., LewSmith, J. E., Lingner, C., Roberg-Perez, K. J., Tillberg, M., Brooks, J. E., and Garrels, J. I. The Yeast Proteome Database (YPD) and Caenorhabditis elegans Proteome Database (WormPD): comprehensive resources for the organization and comparison of model organism protein information. Nucleic Acids Res 28, 1 (2000), 73–76. [18] Durbin, R., and Thierry-Mieg, J. The ACEDB genome database. In Computational Methods in Genome Research, S. Suhai, Ed. Plenum Press, New York, 1994, pp. 45–55. ftp://lirmm.lirmm.fr/. [19] Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., Merrick, J. M., and et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269, 5223 (1995), 496–512. 58 参考文献 [20] Fraser, C. M., Gocayne, J. D., White, O., Adams, M. D., Clayton, R. A., Fleischmann, R. D., Bult, C. J., Kerlavage, A. R., Sutton, G., Kelley, J. M., and et al. The minimal gene complement of Mycoplasma genitalium. Science 270, 5235 (1995), 397–403. [21] Fujibuchi, W., Goto, S., Migimatsu, H., Uchiyama, I., Ogiwara, A., Akiyama, Y., and Kanehisa, M. DBGET/LinkDB: an integrated database retrieval system. Pac Symp Biocomput (1998), 683–94. [22] Fukuoka, S.-I., Ishiguro, K., Yanagihara, K., Tanabe, A., Egashira, Y., Sanada, H., and Shibata, K. Identification and expression of a cDNA encoding human alpha-amino-beta-carboxymuconate-epsilonsemialdehyde decarboxylase (ACMSD). A key enzyme for the tryptophanniacine pathway and ”quinolinate hypothesis”. J Biol Chem 277, 38 (Sep 2002), 35162–35167. [23] Galperin, M. Y., and Brenner, S. E. Using metabolic pathway databases for functional annotation. Trends Genet 14, 8 (1998), 332–3. [24] Gerhard, M., Ed. Biological Pathways, 3 ed. Boehringer Mannheim, 1992. [25] Goto, S. A Study on Development of a Deductive Object-Oriented Database adn Its Application to Genome Analysis. PhD Thesis, Kyushu University, 1994. [26] Goto, S., Bono, H., Ogata, H., Fujibuchi, W., Nishioka, T., Sato, K., and Kanehisa, M. Organizing and computing metabolic pathway data in terms of binary relations. Pac Symp Biocomput (1996), 175–86. [27] Goto, S., Nishioka, T., and Kanehisa, M. LIGAND: chemical database for enzyme reactions. Bioinformatics 14, 7 (1998), 591–9. Using Smart Source Parsing. 参考文献 59 [28] Gough, J., and Chothia, C. SUPERFAMILY: HMMs representing all proteins of known structure. SCOP sequence searches, alignments and genome assignments. Nucleic Acids Res 30, 1 (Jan 2002), 268–272. [29] Gribskov, M., McLachlan, A. D., and Eisenberg, D. Profile analysis: detection of distantly related proteins. Proc Natl Acad Sci U S A 84, 13 (1987), 4355–8. [30] Himmelreich, R., Hilbert, H., Plagens, H., Pirkl, E., Li, B. C., and Herrmann, R. Complete sequence analysis of the genome of the bacterium Mycoplasma pneumoniae. Nucleic Acids Res 24, 22 (1996), 4420–49. [31] Kadota, K., Miki, R., Bono, H., Shimizu, K., Okazaki, Y., and Hayashizaki, Y. Preprocessing implementation for microarray (PRIM): an efficient method for processing cDNA microarray data. Physiol Genomics 4, 3 (Jan 2001), 183–188. [32] Kanehisa, M., and Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res 28, 1 (2000), 27–30. [33] Kaneko, T., Sato, S., Kotani, H., Tanaka, A., Asamizu, E., Nakamura, Y., Miyajima, N., Hirosawa, M., Sugiura, M., Sasamoto, S., Kimura, T., Hosouchi, T., Matsuno, A., Muraki, A., Nakazaki, N., Naruo, K., Okumura, S., Shimpo, S., Takeuchi, C., Wada, T., Watanabe, A., Yamada, M., Yasuda, M., and Tabata, S. Sequence analysis of the genome of the unicellular cyanobacterium Synechocystis sp. strain PCC6803. ii. sequence determination of the entire genome and assignment of potential protein-coding regions. DNA Res 3, 3 (1996), 109–36. [34] Kaneko, T., Tanaka, A., Sato, S., Kotani, H., Sazuka, T., Miyajima, N., Sugiura, M., and Tabata, S. Sequence analysis of the genome of the unicellular cyanobacterium Synechocystis sp. strain PCC6803. i. se- 60 参考文献 quence features in the 1 Mb region from map positions 64 DNA Res 2, 4 (1995), 153–66, 191–8. [35] Karp, P. D., Riley, M., Saier, M., Paulsen, I. T., Paley, S. M., and Pellegrini-Toole, A. The EcoCyc and MetaCyc databases. Nucleic Acids Res 28, 1 (2000), 56–59. [36] Kasahara, T., and Kato, T. Nutritional biochemistry: A new redoxcofactor vitamin for mammals. Nature 422, 6934 (Apr 2003), 832. [37] Kawai, J., Shinagawa, A., Shibata, K., Yoshino, M., Itoh, M., Ishii, Y., Arakawa, T., Hara, A., Fukunishi, Y., Konno, H., Adachi, J., Fukuda, S., Aizawa, K., Izawa, M., Nishi, K., Kiyosawa, H., Kondo, S., Yamanaka, I., Saito, T., Okazaki, Y., Gojobori, T., Bono, H., Kasukawa, T., Saito, R., Kadota, K., Matsuda, H., Ashburner, M., Batalov, S., Casavant, T., Fleischmann, W., Gaasterland, T., Gissi, C., King, B., Kochiwa, H., Kuehl, P., Lewis, S., Matsuo, Y., Nikaido, I., Pesole, G., Quackenbush, J., Schriml, L. M., Staubli, F., Suzuki, R., Tomita, M., Wagner, L., Washio, T., Sakai, K., Okido, T., Furuno, M., Aono, H., Baldarelli, R., Barsh, G., Blake, J., Boffelli, D., Bojunga, N., Carninci, P., de Bonaldo., M. F., Brownstein, M. J., Bult, C., Fletcher, C., Fujita, M., Gariboldi, M., Gustincich, S., Hill, D., Hofmann, M., Hume, D. A., Kamiya, M., Lee, N. H., Lyons, P., Marchionni, L., Mashima, J., Mazzarelli, J., Mombaerts, P., Nordone, P., Ring, B., Ringwald, M., Rodriguez, I., Sakamoto, N., Sasaki, H., Sato, K., Schonbach, C., Seya, T., Shibata, Y., Storch, K. F., Suzuki, H., Toyo-oka, K., Wang, K. H., Weitz, C., Whittaker, C., Wilming, L., Wynshaw-Boris, A., Yoshida, K., Hasegawa, Y., Kawaji, H., Kohtsuki, S., and Hayashizaki, Y. Functional annotation of a fulllength mouse cDNA collection. Nature 409, 6821 (Feb 2001), 685–690. 参考文献 61 [38] Kent, W. J. BLAT–the BLAST-like alignment tool. Genome Res 12, 4 (Apr 2002), 656–664. [39] Koonin, E. V., Mushegian, A. R., and Bork, P. Non-orthologous gene displacement. Trends Genet 12, 9 (1996), 334–6. [40] Kunst, F., Ogasawara, N., Moszer, I., Albertini, A. M., Alloni, G., Azevedo, V., Bertero, M. G., Bessieres, P., Bolotin, A., Borchert, S., Borriss, R., Boursier, L., Brans, A., Braun, M., Brignell, S. C., Bron, S., Brouillet, S., Bruschi, C. V., Caldwell, B., Capuano, V., Carter, N. M., Choi, S. K., Codani, J. J., Connerton, I. F., Danchin, A., and et al. The complete genome sequence of the gram-positive bacterium Bacillus subtilis. Nature 390, 6657 (1997), 249–56. [41] Mavrides, C., and Comerton, M. Aminotransferases for aromatic amino acids and aspartate in Bacillus subtilis. Biochim Biophys Acta 524, 1 (1978), 60–7. [42] Mehta, P. K., Hale, T. I., and Christen, P. Evolutionary re- lationships among aminotransferases. tyrosine aminotransferase, histidinolphosphate aminotransferase, and aspartate aminotransferase are homologous proteins. Eur J Biochem 186 (1989), 249–53. [43] Mehta, P. K., Hale, T. I., and Christen, P. Aminotransferases: demonstration of homology and division into evolutionary subgroups. Eur J Biochem 214, 2 (1993), 549–61. [44] Miki, R., Kadota, K., Bono, H., Mizuno, Y., Tomaru, Y., Carninci, P., Itoh, M., Shibata, K., Kawai, J., Konno, H., Watanabe, S., Sato, K., Tokusumi, Y., Kikuchi, N., Ishii, Y., Hamaguchi, Y., Nishizuka, I., Goto, H., Nitanda, H., Satomi, S., Yoshiki, A., Kusakabe, M., DeRisi, J. L., Eisen, M. B., Iyer, V. R., Brown, 62 参考文献 P. O., Muramatsu, M., Shimada, H., Okazaki, Y., and Hayashizaki, Y. Delineating developmental and metabolic pathways in vivo by expression profiling using the RIKEN set of 18,816 full-length enriched mouse cDNA arrays. Proc Natl Acad Sci U S A 98, 5 (Feb 2001), 2199–2204. [45] Mushegian, A. R., and Koonin, E. V. A minimal gene set for cellular life derived by comparison of complete bacterial genomes. Proc Natl Acad Sci U S A 93, 19 (1996), 10268–73. [46] Ning, Z., Cox, A. J., and Mullikin, J. C. SSAHA: a fast search method for large DNA databases. Genome Res 11, 10 (Oct 2001), 1725–1729. [47] Nishida, H., Nishiyama, M., Kobashi, N., Kosuge, T., Hoshino, T., and Yamane, H. A prokaryotic gene cluster involved in synthesis of lysine through the amino adipate pathway: a key to the evolution of amino acid biosynthesis. Genome Res 9, 12 (1999), 1175–83. [48] Ogata, H., Goto, S., Sato, K., Fujibuchi, W., Bono, H., and Kanehisa, M. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res 27, 1 (1999), 29–34. [49] Okazaki, Y., Furuno, M., Kasukawa, T., Adachi, J., Bono, H., Kondo, S., Nikaido, I., Osato, N., Saito, R., Suzuki, H., Yamanaka, I., Kiyosawa, H., Yagi, K., Tomaru, Y., Hasegawa, Y., Nogami, A., Schonbach, C., Gojobori, T., Baldarelli, R., Hill, D. P., Bult, C., Hume, D. A., Quackenbush, J., Schriml, L. M., Kanapin, A., Matsuda, H., Batalov, S., Beisel, K. W., Blake, J. A., Bradt, D., Brusic, V., Chothia, C., Corbani, L. E., Cousins, S., Dalla, E., Dragani, T. A., Fletcher, C. F., Forrest, A., Frazer, K. S., Gaasterland, T., Gariboldi, M., Gissi, C., Godzik, A., Gough, J., Grimmond, S., Gustincich, S., Hirokawa, N., Jackson, I. J., Jarvis, E. D., Kanai, A., Kawaji, H., Kawasawa, Y., 参考文献 63 Kedzierski, R. M., King, B. L., Konagaya, A., Kurochkin, I. V., Lee, Y., Lenhard, B., Lyons, P. A., Maglott, D. R., Maltais, L., Marchionni, L., McKenzie, L., Miki, H., Nagashima, T., Numata, K., Okido, T., Pavan, W. J., Pertea, G., Pesole, G., Petrovsky, N., Pillai, R., Pontius, J. U., Qi, D., Ramachandran, S., Ravasi, T., Reed, J. C., Reed, D. J., Reid, J., Ring, B. Z., Ringwald, M., Sandelin, A., Schneider, C., Semple, C. A. M., Setou, M., Shimada, K., Sultana, R., Takenaka, Y., Taylor, M. S., Teasdale, R. D., Tomita, M., Verardo, R., Wagner, L., Wahlestedt, C., Wang, Y., Watanabe, Y., Wells, C., Wilming, L. G., WynshawBoris, A., Yanagisawa, M., Yang, I., Yang, L., Yuan, Z., Zavolan, M., Zhu, Y., Zimmer, A., Carninci, P., Hayatsu, N., HirozaneKishikawa, T., Konno, H., Nakamura, M., Sakazume, N., Sato, K., Shiraki, T., Waki, K., Kawai, J., Aizawa, K., Arakawa, T., Fukuda, S., Hara, A., Hashizume, W., Imotani, K., Ishii, Y., Itoh, M., Kagawa, I., Miyazaki, A., Sakai, K., Sasaki, D., Shibata, K., Shinagawa, A., Yasunishi, A., Yoshino, M., Waterston, R., Lander, E. S., Rogers, J., Birney, E., and Hayashizaki, Y. Analysis of the mouse transcriptome based on functional annotation of 60,770 full-length cDNAs. Nature 420, 6915 (Dec 2002), 563–573. [50] Overbeek, R., Fonstein, M., D’Souza, M., Pusch, G. D., and Maltsev, N. The use of gene clusters to infer functional coupling. Proc Natl Acad Sci U S A 96, 6 (1999), 2896–901. [51] Overbeek, R., Larsen, N., Pusch, G. D., D’Souza, M., Jr, E. S., Kyrpides, N., Fonstein, M., Maltsev, N., and Selkov, E. WIT: integrated system for high-throughput genome sequence analysis and metabolic reconstruction. Nucleic Acids Res 28, 1 (2000), 123–125. 64 参考文献 [52] Pabarcus, M. K., and Casida, J. E. Kynurenine formamidase: determination of primary structure and modeling-based prediction of tertiary structure and catalytic triad. Biochim Biophys Acta 1596, 2 (Apr 2002), 201–211. [53] Pearson, W. R., and Lipman, D. J. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A 85, 8 (1988), 2444–8. [54] Quackenbush, J. Viva la revolution! A report from the FANTOM meeting. Nat Genet 26, 3 (Nov 2000), 255–256. Congresses. [55] Ramakrishnan, R., Srivastava, D., Sudarshan, S., and Seshadri, P. The CORAL Deductive System. The VLDB Journal, Special Issue on Prototypes of Deductive Database Systems (1994). [56] Takiguchi, M., Matsubasa, T., Amaya, Y., and Mori, M. Evolutionary aspects of urea cycle enzyme genes. Bioessays 10, 5 (1989), 163–6. [57] Tanabe, A., Egashira, Y., Fukuoka, S.-I., Shibata, K., and Sanada, H. Purification and molecular cloning of rat 2-amino-3- carboxymuconate-6-semialdehyde decarboxylase. Biochem J 361, Pt 3 (Feb 2002), 567–575. [58] Tatusov, R. L., Galperin, M. Y., Natale, D. A., and Koonin, E. V. The COG database: a tool for genome-scale analysis of protein functions and evolution. Nucleic Acids Res 28, 1 (2000), 33–36. [59] Tomb, J. F., White, O., Kerlavage, A. R., Clayton, R. A., Sutton, G. G., Fleischmann, R. D., Ketchum, K. A., Klenk, H. P., Gill, S., Dougherty, B. A., Nelson, K., Quackenbush, J., Zhou, L., Kirkness, E. F., Peterson, S., Loftus, B., Richardson, D., Dodson, R., Khalak, H. G., Glodek, A., McKenney, K., Fitzegerald, L. M., Lee, N., Adams, M. D., Venter, J. C., and et al. The complete 参考文献 65 genome sequence of the gastric pathogen Helicobacter pylori. Nature 388, 6642 (1997), 539–47. [60] Wall, L., Schwartz, R. L., and Christiansen, T. Programming Perl, 2nd ed. A Nutshell handbook. O’Reilly & Associates, Sebastopol, CA, 1996. [61] Watanabe, H., Mori, H., Itoh, T., and Gojobori, T. Genome plasticity as a paradigm of eubacteria evolution. J Mol Evol 44, S1 (1997), S57–64. [62] Weng, S., Dong, Q., Balakrishnan, R., Christie, K., Costanzo, M., Dolinski, K., Dwight, S. S., Engel, S., Fisk, D. G., Hong, E., Issel-Tarver, L., Sethuraman, A., Theesfeld, C., Andrada, R., Binkley, G., Lane, C., Schroeder, M., Botstein, D., and Michael Cherry., J. Saccharomyces Genome Database (SGD) provides biochemical and structural information for budding yeast proteins. Nucleic Acids Res 31, 1 (Jan 2003), 216–218. [63] 金久實. ゲノム情報への招待. 共立出版, 1996. [64] 高木利久. ゲノムデータベース. 情報処理 33, 10 (1992), 1126–33. [65] 中尾光輝, 五斗進, and 金久實. KEGG(Kyoto Encyclopedia of Genes and Genomes). 現代医療 32, 1 (2000), 97–102. [66] 藤渕航. ゲノム間比較に基づく遺伝子クラスターの解析. 博士論文, 京都大学 大学院, 1998. [67] 日本生化学会, Ed. 代謝マップ. 東京化学同人, 東京, 1980. [68] 日本生化学会, Ed. 細胞の代謝・物質の動態, vol. 1 of 細胞機能と代謝マップ. 東京化学同人, 東京, 1997. [69] 坊農秀雅. バイオインフォマティクス入門. 羊土社, 2002. [70] 矢田哲士. 隠れマルコフモデルが明かす生物配列の情報. 生物物理 40, 1 (2000), 25–30. 67 謝辞 本研究を進めるにあたり、御指導いただいた金久實教授に深く感謝いたします。五 斗進助教授には日常の研究のディスカッションをはじめとし、本研究の様々な局 面でお世話になりました。緒方博之博士 (現フランス CNRS) には酵素番号の機能 予測法の開発に際し、有用な数々の助言をいただきました。藤渕航博士 (現米国 NCBI,NLM,NIH) にはコンピュータで生物学を研究する心得と数々の実践的な技 法を教わりました。東京大学医科学研究所ヒトゲノム解析センターの中井謙太助 教授には研究を進めるにあたり、数々の関連する有益な論文を紹介していただきま した。また、His-Asp 系の機能予測の研究に際しては、京都大学化学研究所生体分 子情報研究部門 II の岡穆宏教授、青山卓史助教授、酒井啓江さんにお世話になり ました。筆者が 5 年間在籍した京都大学化学研究所生体分子情報研究部門 III(金 久研究室)の学生、秘書の方々には数々の御協力に対し、深い感謝の念を抱いてお ります。とくに、本研究で数々出てくる代謝パスウェイのデータベースは KEGG プロジェクトの皆さんが築きあげてきた、有用な分子生物学リソースです。KEGG プロジェクトに関わってこられたすべての皆さんに感謝したいと思います。 理化学研究所在職中にお世話になりました、理化学研究所ゲノム科学総合研究 センター遺伝子構造・機能研究グループ林崎良英プロジェクトディレクター、なら びに現在の上司でもある岡崎康司チームリーダー(現埼玉医科大学ゲノム医学研 究センターゲノム科学部門教授)に深く感謝致します。両氏には理研マウスエン サイクロペディアプロジェクトで活躍する機会を与えていただき、新参者の私に 貴重なデータの解析を依頼していただき、破格の待遇をしていただきました。在 職中の同僚で毎日のように議論に乗ってくれた八木研博士(現埼玉医科大学ゲノ ム医学研究センターゲノム科学部門)、古野正朗博士、粕川雄也氏(NTTSOFT 株 式会社)ならびに二階堂いとし氏(横浜市立大学大学院)に感謝致します。貴重 68 参考文献 な配列データを提供していただいた同研究グループ Phase1 および Phase2 チーム の皆さま、ならびに cDNA マイクロアレイのデータを産生していただいたチップ チームの皆さま、特にお世話になりました富永直子氏と辻村由紀氏に感謝致しま す。またこの論文を仕上げるにあたり、学会でディスカッションをしてくださった り、論文の草稿を読んでさまざまな意見を寄せてくれた研究者の仲間にも感謝し たいと思います。 最後に、この研究を遂行するにあたり、Perl を始めとする数々のフリーウェア の助けを借りました。分子生物学に特化したソフトウェアもその多くがフリーウェ アとして「自由に」開発が進められ、研究の進展に大いに貢献してくれました。す べてのフリーウェアの開発者、開発コミュニティーに感謝の言葉を贈りたいと思 います。ありがとうございました。 本研究のコンピューター計算時間は、京都大学化学研究所スーパーコンピュー ターラボラトリーと東京大学医科学研究所ヒトゲノム解析センター、理化学研究 所在職中は同研究所ゲノム科学研究センター情報基盤室によって提供されました。 本研究は日本学術振興会特別研究員制度の助成を受けて行われました。
© Copyright 2024 Paperzz