ORIGINS OF GENE, GENETIC CODE, PROTEIN AND LIFE (Comprehensive view of life systems from the GNC-SNS primitive genetic code hypothesis) Kenji Ikehara Department of Chemistry, Nara Women’s University, Kita-Uoya-Nishi-machi, 630-8506, Nara, Japan Fax: 0742-20-3402; E.Mail:[email protected] (Received 14 May 2001 ,Accepted 31 May 2001) Summary We have investigated on the origins of gene, genetic code, protein and life by using 6 indexes (hydropathy, α-helix, β-sheet and β-turn formabilities, acidic amino acid content and basic amino acid content) necessary for appropriate three dimensional structure formation of globular proteins. From analysis of 7 microbial genome data, it was found that the six indexes are almost independent on the change of GC content of a gene followed by the concomitant change of about half number of amino acid compositions of proteins. By using these properties, we firstly obtained a conclusion that newly-born genes might be produced from the nonstop frames on antisense strands of microbial GC-rich genes (GC-NSF(a)) on the present earth and from SNS repeating sequences ((SNS)n) similar to the GC-NSF(a) on the primitive earth (S and N mean G or C and either of four bases, respectively). We have further proposed that the universal genetic code used by most organisms on the present earth could be derived from the SNS primitive genetic code. Next, by using four basic conditions for globular protein formation (hydropathy, α-helix, β-sheet and β-turn formations), we searched for a much simpler code than the SNS code but can still encode water-soluble globular proteins at a high probability. From the results, we obtained another conclusion on the primitive genetic code, stating that the universal genetic code was originated through the SNS code from the GNC code encoding four amino acids (Gly [G], Ala [A], Asp [D] and Val [V]) as the most primitive genetic code. Furthermore, we have proposed the [GADV]-protein world hypothesis on the origin of life, based on the GNC-primeval genetic code hypothesis, which is quite different from the RNA world hypothesis accepted by many researchers world-wide. We have also provided another hypothesis on protein production, suggesting that proteins have originally produced by random peptide formation of amino acids restricted in specific amino acid compositions termed as GNC-, SNS- and GC-NSF(a)-0th order structures of proteins. Thus, we have postulated the four hypotheses, which may reasonably explain the origins of gene, genetic code, protein and life in the fundamental system of life, mainly based on the comprehensive GNC-SNS primitive genetic code hypothesis. It is also expected that basic properties of extant genes and proteins could be made clear, based on the above four hypotheses. (Key Words: Origin of Gene, Origin of Genetic Code, Origin of Protein, Origin of Life, GNC-SNS Primitive Genetic Code Hypothesis) Viva Origino 29 (2001) 66 - 85 © 2001 by SSOEL Japan 66 Viva Origino 29 (2001) 66 - 85 「遺伝子、遺伝暗号、蛋白質および生命の起原」 (GNC-SNS 原始遺伝暗号仮説から見た生命の基本システム ) 池原 健二 奈良女子大学理学部化学科 〒630-8506 奈良市北魚屋西町Email [email protected] はじめに 近年、各種の細菌や酵母などの微生物、シロイヌナ ズナのような植物、線虫やショウジョウバエ、人など の動物に至るまで、生物が生きていく上で必要な遺伝 子群全体の塩基配列、即ち、生物ゲノムの解析が急速 に進んでいる[1]。それと共に、遺伝子によってコ -ド されている蛋白質の一次構造情報、即ち、アミノ酸配 列デ-タも飛躍的に蓄積されている。その一方で、 X線 結晶構造解析技術が進歩した結果、蛋白質の 3 次構造 についてはもちろんのことリボソ -ムのような複合粒子 の 3 次構造に関する知識までもが急速にデ -タベ-ス内 に蓄積されている[2]。 これらのことは、私が学生で あった30 数年程も前は、DNA の塩基配列を特異的に 加水分解する制限酵素が未発見であったこともあり、 DNA の塩基配列の決定は不可能とさえ思われていた こと、また、リゾチ-ム(129 アミノ酸)のような小さな 蛋白質の3 次構造がやっと決定されたにしか過ぎなか ったことを考えると想像を絶するばかりである。それ にもかかわらず、遺伝子や蛋白質がどのようにして形 成されたのか、また、コドン内の塩基組成や蛋白質内 の平均的アミノ酸組成がなぜ現在のような姿になって いるのかなど生命の基本システムの理解については今 なおほとんど分かっていない。 それに対して、我々は、遺伝子がどのようにして生 まれてきたのか、また、もしも、遺伝子が現在でも生 まれているとしたらどのような場からなのかという遺 伝子の起原についての考察から研究をスタ -トした [3, 4]。その後、遺伝暗号の起原についての解析を進め、 遺伝暗号はGNC からSNS を経て、現存する多くの生 物が使用しているいわゆる普遍遺伝暗号に至るという おおまかな遺伝暗号進化の道筋を独自のGNC-SNS 原 始遺伝暗号仮説として提案してきた [5-8]。また、そ れと同時に、遺伝子によってコ -ドされる蛋白質の形成 がどのように行われ現在のような姿になっているのか についても考察した[池原ら、未公表デ-タ]。さらに、 これらの考えを基に、我々は生命の起原についても合 理的に説明できる仮説を提唱している[8, 9]。 この総説では、まず、遺伝子発現の流れに沿って、 遺伝子の起原の問題、遺伝暗号の起原の問題、蛋白質 の起原の問題へと話を進める。その後、それら全体を 包含する生命の起原の問題に触れることとする。その 際、遺伝子や遺伝暗号、蛋白質や生命という 4 つの生 命の基本システムに関する起原問題をGNC-SNS 原始 遺伝暗号仮説によって統一的に理解することを目指し ている我々の考えと、どちらかと言えばそれらを個々 の問題として独立に扱かわれてきた他の研究者の考え とを比較しながら話を進めることとする。そうするこ とによって、我々の考えと他の研究者達の考えとで、 どこがどのように違うのかが分かり、我々の考えを理 解することも容易となると考えたからである。そして 最後に、我々の提案する考えの正しいことを示すいく つかの根拠についても触れることとする。 A. 遺伝子の起原 我々の考える遺伝子の起原 (1)現在の地球上での遺伝子形成に関するGC-NSF(a) 仮説 微生物遺伝子のGC 含量は、約20%から約 75% までと極めて幅が広い(図 1)。一般には、微生物毎に異 なるこれらの幅広い染色体DNA の GC 含量変化は、 GC 含量を高める方向に変化させるGC 変異圧や GC 含量を低下させる方向に働くAT 変異圧が長い年月に 渡って作用することによって生み出されたと考えられ ている [10]。 当然のことながら、遺伝子のGC 含量 が変化するとそれに応じて蛋白質内の約半数のアミノ 酸組成が大きく変化する(図 2)。しかし、アミノ酸の組 成が変化しても蛋白質(酵素)の構造形成因子、即ち蛋 白質の二次・三次構造の形成傾向に大きな差が生じ 67 Viva Origino 29 (2001) 66 - 85 の細菌や古細菌のゲノムデ -タを用いて解析したところ、 いずれの場合についても幅広いGC 含量の変化に対し て、確かにほぼ一定であることがわかった (図 3)。この ことは、逆に、機能を発揮できるような水溶性で球状 の蛋白質が形成されるためには蛋白質の基本的なこれ らの6 つの構造因子が満足されること (一定範囲に入る こと)が必要条件となっていることを示している (表 1)。 Fig.1. Dependence of alanine (A) and lysine (B) contents on GC content of a gene. The amino acid contents were analyzed by using 7 microbial (5 eubacteria and 2 archaea) genome data (Mycobacterium tuberculosis (65.6), Aeropyrum pernix (56.3), Escherichia coli (50.8), Bacillus subtilis (43.5), Haemophilus influenzae (38.1), Methanococcus genitarium (31.3) and Borrelia burgdorferi (28.2); numbers in the parentheses indicate average GC contents of the microbial genomes). Dependence of other 18 amino acid contents on GC content of a gene were obtained by the similar procedures described in this figure (data not shown). 0.25 0.20 0.15 GC code Others AU code Slope 0.10 0.05 0 -0.05 -0.10 -0.15 -0.20 -0.25 AG R P VT W H SC DL QE M FY N I K Amino Acid Fig. 2. Slope of the approximated linear line obtained from the plot of amino acid content against GC content of a gene as seen in Fig. 1. Large characters described on the abscissa mean amino acids represented by one-letter symbols. Open bars, shaded bars and closed bars indicate amino acids encoded by GC codes, mixed codes and AU codes, respectively. ては困るはずであり、そのためには全体としての蛋白 質が共通にもつ基本的な性質 (疎水性/親水性度、α- ヘ リックス、β- シート、β- ターン形成能、酸性およ び塩基性アミノ酸含量)は不変のはずである。蛋白質全 体の三次構造を形成するための上記6 つの因子を7 種 68 Viva Origino 29 (2001) 66 - 85 Fig. 3. Dependence of hydropathy indexes (A), α-Helix (B), β-Sheet (C) and β-Turn (D) formability indexes upon GC content of a gene. Lower thick band and upper faint bands seen in Fig. 3(A) represents hydropathy indexes of globular proteins and of membrane proteins, respectively. Fig. 3(B), 3(C) and 3(D) show the data of globular proteins only. Similar results were obtained by analyses of acidic and basic amino acid contents (data not shown). 我々は、このことを利用し、現在の地球上で新規な遺 伝子が生み出されているとすれば何処なのかを調べた。 そのため、幅広いGC 含量を持つ様々な細菌や原生動 物の実在遺伝子をデ-タベ-スから取り出し、そのアン チセンス鎖がコ-ドする仮想的な蛋白質の6 つの構造因 子について調べた。その結果、 GC 含量の高い(50%以 上)アンチセンス鎖がコ-ドする仮想蛋白質は高い確率 で実在蛋白質と同様の構造を取り得る可能性の大きい ことが分かった(図 4)。また、GC 含量が60%を超える ような領域ではコドン使用のパタ -ンに大きな偏りが見 られることもあって、三つの停止暗号 (TAA, TAG およ び TGA)のどれもがフレ-ム内に現れないノンストップ フレ-ム(NSF)となる確率(pNSF)が急激に大きくなる(図 5)。さらに、GC-NSF(a) がコ-ドする仮想蛋白質にはグ リシンの含量が大きくなること(主鎖の柔軟性が高ま る)、全体の疎水性度が小さくなる傾向が見られること (疎水性コアの構造がゆるくなる)など、新たに出会う 基質に対して柔軟に対応できるという性質も同時に存 在 す る こ と が 分 か っ た [4] 。 以 上 の よ う Fig. 4. Dependence of secondary structure formability indexes (α-Helix (A), β-Sheet (B) and β-Turn(C)) upon GC content of a gene. Total indexes, which were calculated from structure index of each amino acid and amino acid composition of a hypothetical protein encoded by an antisense sequence of a gene from 7 microbial genome data, are plotted against GC content of a gene. Two horizontal lines in the figure show the position of the average values (A.V) plus and minus the standard deviations (S.D.) of actual proteins. The average values and the standard deviations are given in Table 1. It can be seen that over about 50% GC content, index values enter the regions of A.V. plus and minus of S.D. of globular proteins. な特性やGC-NSF(a) が現存のGC 含量の高い細菌遺伝 子で幅広く見られることから、 GC-NSF(a) が現在の地 69 Viva Origino 29 (2001) 66 - 85 球上で新規遺伝子を生み出す場として使用されている 可能性が高いと我々は考えている[4]。 Fig. 6. Average base compositions at three base positions in the codon of Pseudomonas aeruginosa genes with GC contents higher than 70% (open bars), and of the corresponding hypothetical genes (nonstop frames) on antisense strands of the GC-rich genes (GC-NSF(a)) (closed bars). 次に本当に(SNS)n がコ-ドする仮想蛋白質が現存の 蛋白質と同等の構造を取り得るのかを確かめるため、 乱数を用いてSNSの組成をランダムに発生させた。こ うして得られたSNSの組成を持つ仮想的な遺伝子がコ -ドする仮想蛋白質の内、現存の蛋白質が持つ 6 つの構 造因子を満足するものを取り出した。その結果、コド ンの塩基位置1番目ではGの含量がほぼ55%、 Cが45% で最適であり、 2 番目ではGC,A,T のいずれもがほぼ1/4 ずつ含まれている際に現存の蛋白質と最も Fig. 5. Dependence of probabilities of stop codon appearance (pSC) (A), and of nonstop frame appearance (pNSF) on sense strands (open circles) and antisense strands (closed circles) upon GC content of a gene. The pNSF values, which are composed of 100 codons, were obtained by calculation with the pSC values on the strands, which were estimated from base compositions at three codon positions. (2)原始地球上での遺伝子形成に関する (SNS)n 原始 遺伝子仮説 上述のように、現在の地球上で新たに遺伝子を生 み出す際には、GC-NSF(a) が新規遺伝子を形成する場 として利用されている可能性が高い[3, 4]。この GCNSF(a) 仮想遺伝子のコドン内の塩基組成を見ると SNS に近い組成となっている(図 6)。したがって、こ れを単純化した形はSNS、すなわち[(G/C)N(C/G)]とな る。このことは、少なくともSNSに近い繰り返し配列 が実際にGC 含量の高い遺伝子として使用されている こと、従って、SNS の繰り返し配列((SNS)n)それ自体 が遺伝子として機能できる可能性の高いことを示して いる。 Fig. 7. Dot representation of computer-generated base compositions at three base positions in the codon, which were selected by judging whether imaginary proteins translated under the SNS coding system (S and N mean G or C and either of four bases, respectively) satisfy the six structural conditions (hydropathy, α-helix, β-sheet and β-turn formabitities, acidic and basic amino acid contents) for appropriate three-dimensional structure formation. Base compositions at the three codon positions were plotted against GC content of the selected genes out of the computergenerated hypothetical genes. 70 Viva Origino 29 (2001) 66 - 85 近い構造を取り得ることが分かった (図 7)。コドン位置 3 番目では、遺伝暗号の縮重のため選択範囲を限定で きなかったが、このことは少なくともコドン 3 番目の C や G の含量がそれぞれ55%と 45%となる遺伝子で も蛋白質の6 つの構造因子を満足できることを意味し ている。したがって、GC 含量の極めて高い(SNS)n 遺 伝子なら両鎖とも遺伝子として機能できる可能性を与 えているのである。このことは、コドンの 1 番目では G が 55%、C が 45%で、コドンの2 番目では4 種の 塩基が 4 分の 1 ずつ、コドンの3 番目ではC が 55% で G が 45%というように組成さえ適当なものとして 与えられれば、SNS がコ-ドするわずか10 種のアミノ 酸で構成された蛋白質でも現存の球状蛋白質と基本的 に同等な構造を取り得ることを示している[5, 6]。ま た、(SNS)n からなる仮想遺伝子をコンピュ-タ-上で発 生させ、その二次構造や疎水性プロフィ -ルを調べたと ころ、確かに実在の蛋白質と同じようにそれぞれが適 度に入り交じったプロフィ-ルが得られた(図 8)。これ らのことも、(SNS)n からなる配列が遺伝子として十分 に機能できる可能性の高いことを示している。以上の ような事実から、我々は (SNS)n 配列を原始地球上で 使われていた遺伝子の起原と考えているのである。 他の研究者によるこれまでの遺伝子の起原に関する 考え方 (1)遺伝子重複説 遺伝子が重複したと考えた場合、重複した一方の 遺伝子機能を使って、それまでの生命活動を維持する ことができる。そのため、もう一方の遺伝子上に禁制 突然変異を許容することが可能となる。このような考 えに基づき、重複遺伝子の一方に変異を集積させるこ とにより新たな機能をもった新規遺伝子を生成するこ とができるというのが遺伝子重複仮説である (図9)[11]。 確かに、アミノ酸配列が異なりながら、同じ触媒機能 を持つものや、異なる触媒機能を持ちながらアミノ酸 配列の似た蛋白質が数多く知られている。そのような 蛋白質間のアミノ酸配列を見くらべると、明らかに有 意な程度アミノ酸配列が一致することが多い。即ち、 確かに遺伝子重複仮説が予測するように、同じ祖先遺 伝子から派生したと考えることのできる複数の遺伝子 が多数存在することが知られている。このことから、 現在では、遺伝子重複仮説は間違いの無い考えとなっ ている。 Fig. 9. The gene duplication theory for the origin of genes. In this model, it is supposed that a newly-born gene is produced from one of duplicated genes after accumulation of base substitutions, while the other gene retains the original genetic function necessary to live on. Fig. 8. Secondary structure profile of a hypothetical protein encoded by a SNS repeating sequence ((SNS)n) deduced from structural indexes with the Kondo-Ikehara method (unpublished data). Open circles, shaded circles and closed circles in the lower graph indicate β-turn, α-helix and β-sheet regions of the hypothetical protein, respectively. Thin lines in the upper graph represent the predicted β-turn or coil regions of the hypothetical protein. (2)エキソン・シャッフリング説 上で述べた遺伝子重複仮説とは別の遺伝子の形成 過程を説明する考えとして、真核生物で見られるイン トロンの存在を重視するエキソン・シャッフリング説 が提案されている[12]。 これは、最初に現れた遺伝 子は、僅か 15〜20 アミノ酸からなる小さなポリペプ チド鎖をコ-ドするエキソンで、イントロンを通じてこ れらを混ぜ合わせることにより、多様な蛋白質をコー ドする遺伝子が形成されるというものである (図 10)。 この考えが正しいのかどうかについては現在も議論さ れているところである。 以上で述べてきたように、我々は遺伝子の起原とし て、GC-NSF(a) や (SNS)n を考えているが、比較のた めこれまでに考えられてきた他の研究者によって提唱 されている遺伝子の起原に関する考え方とその問題点 を簡単に述べることとする。 71 Viva Origino 29 (2001) 66 - 85 しなかったはずである。このことを一つの根拠に、我々 は遺伝暗号の起原としてSNS原始遺伝暗号仮説を提案 している(図 11)[5-7]。 (2)GNC 原初遺伝暗号仮説 しかし、このSNS 原始遺伝暗号にしても16 種の コドンが 10 種のアミノ酸をコ-ドするというかなり複 雑なものである(図 11)。地球上に初めて遺伝暗号が成 立した時点で、16 種のコドンが作り上げられ、 10 種 のアミノ酸が用意されねばならなかったと考えること は困難であろう。この問題を解決するために、我々は SNS遺伝暗号よりもさらに単純な遺伝暗号の模索を行 った。その際、現存の蛋白質が持つ6 つの構造因子の 内、酸性アミノ酸含量および塩基性アミノ酸含量の2 つを除外した4 つの構造因子(疎水性/親水性度、 α-Helix、 β-Sheet、β-Turn 形成能)を水溶性で球状の原始蛋白質を 形成するための条件とした。その理由は、 10 種を大き く下回る数のアミノ酸しかコ -ドしない遺伝暗号が存在 したと想定すると、酸性、塩基性、両方のアミノ酸が 同時に含まれることは困難になるからである。また、 酸性アミノ酸のみからなる蛋白質の場合には金属イオ ンのような陽イオンが、また、塩基性アミノ酸のみか らなる蛋白質の場合にはハロゲンなどの陰イオンが不 足する電荷を補うことができるというのも二つのアミ ノ酸含量を条件から除外した理由である。その結果、 G で始まる4 つのコドンGNC とその変形であるGNG がコ-ドする4 種のアミノ酸からなる蛋白質なら、 4つ の条件を満足できることが分かった (図 12、13)[8]。即 ち、GNC がコ-ドする 4 種のアミノ酸なら、現存の水 溶性で球状の蛋白質が持つ二次・三次構造形成能と基 本的には同等のそして最低限必要な能力を持ち得るこ とを示している。一方C や A そして U で始まるコド ン (CNG, CNC, ANG, ANC, UNG, UNC ) によってコドされたアミノ酸4 種や普遍遺伝暗号表の中で縦に取 り出した4種のアミノ酸をコ-ドするコドン(NUC, NUG, NCC, NCG, NAC, NAG, NGC, NGG)では蛋白質が構造 を形成するための4 つの条件を満足できないことも分 かった(図 13)。また、GNC でコ-ドされる 4 種のアミ ノ酸の内、3 つのアミノ酸は二次構造を形成するのに 必要なそれぞれの高い能力を持っている (Ala [A]:αヘリックス、Val [V]:β-シ-ト、Gly [G]:β-タ-ン)。 その上、もう一つのAsp [D] は効果的な触媒作用を発 揮するための官能基(カルボキシル基)を持っている。 しかも、蛋白質が球状構造をとるのに必要な疎水性の 高いアミノ酸([V])と親水性の高いアミノ酸([D])も含ま れている(表 2)。さらに、我々は[GADV]-アミノ酸が 蛋白質の構造形成条件を満足できるアミノ酸の中で構 造の最も簡単な4 つのアミノ酸の組み合わせであるこ とも確認している ( 図 14)[8] 。 こ の こ と は 、 Fig. 10. The exon(-shuffling) theory for the origin of genes. In this model, it is considered that a newly-born gene is produced by shuffling exons on plural number of genes after duplication of the genes required to shuffle them. 問題点:しかし、上の2 つの考えは既存の遺伝子 を基に新しい遺伝子の形成を論じたものであり、最初 の遺伝子がどのようにして形成されたのかについては 全く説明していない。そのため、これらの説には本来 の遺伝子の起原説とは言えないという致命的な欠陥が ある。 B. 遺伝暗号の起原 我々の考える遺伝暗号の起原 (1)SNS 原始遺伝暗号仮説 上記のように、我々は生命誕生の頃に生み出され た遺伝子の起原として(SNS)n 配列を提案している。こ のように、ある時期の遺伝子が限定された数 (10 種類) のアミノ酸しかコ-ドしていなかったとすれば、遺伝子 と遺伝暗号の密接な関連性から考えると、その時期の 遺 伝 暗 号 は限 定 さ れ た ア ミ ノ 酸し か コ - ド Fig. 11. The GNC-SNS primitive genetic code hypothesis. This shows an evolutionary pathway from GNC code (4 codon system) to the universal genetic code (64 codon system), through SNS code composed of 16 codons and 10 amino acids. 72 Viva Origino 29 (2001) 66 - 85 GNC でコードされる4 種のアミノ酸が球状蛋白質を 形成するための能力を持ったアミノ酸の組み合わせの 中で、原始地球上で最も初期に現れたはずの 4 つのア ミノ酸であることを意味している。事実、それらの4 種の [GADV]-アミノ酸はミラ-の放電実験によっても 容易に生成できることが確認されているアミノ酸でも ある [13]。我々は、さらに3 種のアミノ酸で4 つの構 造条件を満足できるものがあるかどうかについても調 べた。しかし、4 つの条件を満足できた3 アミノ酸の 組み合わせ([Asp, Leu および Tyr], [Asp, Tyr および Met] [Glu, Phe および Ile])は、いずれの場合も3 種の アミノ酸の普遍遺伝暗号表内の位置がバラバラである 上に、少なくとも一つは構造がかなり複雑であった。 したがって、これらの事実は、 SNS原始遺伝暗号の前 に使用されていた遺伝暗号はGNC がコ-ドする4 種の コドンであり、それ以上簡単な遺伝暗号は存在しなか ったことを強く示唆している。 Fig. 12. Dot representation of computer-generated base compositions at the second base position in the codon, which were selected by judging whether imaginary proteins translated under the GNC coding system satisfy the four structural conditions (hydropathy, α-helix, β-sheet and β-turn formabilities) for appropriate three-dimensional structure formation. Base compositions at the second codon position were plotted against GC contents of the selected genes out of the computer-generated hypothetical genes. Fig. 14. Structure formability of hypothetical proteins composed of 4 amino acids. The numbers represent the degree of structure formability of the hypothetical proteins, when one of four [GADV]-amino acids is replaced with another amino acid. Minus symbols mean that the 4 amino acids did not satisfy the 4 structural conditions. At the left column, amino acids are placed in order number of atoms on a side chain of an amino acid, or in order structure simplicity of the amino acid. Fig. 13. Structure formability of hypothetical proteins composed of 4 amino acids, which are represented by oneletter symbols in brackets. They were picked up from columns and rows of the universal genetic code table. Symbols of O and X outside of brackets represent whether hypothetical proteins composed of the 4 amino acids can 以上のように、我々はSNS や GNC を現在の普遍遺 伝暗号やミトコンドリアで使用されている遺伝暗号の 起原と考えているが、ここでも比較のため、これまで に他の研究者によって考えられてきた遺伝暗号の起原 に関する説とその問題点を簡単に説明することとする。 satisfy the 4 conditions (hydropathy, α-helix, β-sheet and β-turn formabitities) necessary for formation of globular structures or not, respectively. 73 Viva Origino 29 (2001) 66 - 85 そのため、現在多くの生物で使用されている普遍遺伝 暗号の起原をミトコンドリア型の遺伝暗号に求めるの は困難であると我々は考えている。 Table 2. Properties of [GADV]-amino acids encoded by GNC codons necessary for globular structure formation and the presence of a functional group Amino Acid GNC Code Sec. Structure Hydropathy Functional Group Val GUC β-Sheet Hydrophobic Ala GCC α-Helix Asp GAC (β-Turn) Gly GGC β-Turn Hydrophilic - (2)WWW 仮説 これは、生命の起源に関するRNA ワ-ルド仮説 [後 で詳述] とヌクレオチドの代謝経路を重視することに よって提案されている遺伝暗号の起原説である。即ち、 ヌクレオチド構造の単純さやヌクレオチド代謝の経路 から考えれば、最初に合成されたヌクレオチドは Gや C ではなく、A と U であるとの推測から、最初に出現 した遺伝暗号はA と U だけから構成された三連塩基 コドン(WWW:(W は A またはU を示す))であったと 考えるものである(図 16)[15, 16]。 Carboxyl Group - 他の研究者によるこれまでの遺伝暗号の起原 (1)ミトコンドリア型遺伝暗号起原説 ミトコンドリア型遺伝暗号(20 種のアミノ酸、64 通りの遺伝暗号)が普遍遺伝暗号よりも構成が単純であ り、必要最小限のtRNA で翻訳している遺伝暗号であ ることを主たる根拠として、ミトコンドリア型の遺伝 暗号が原始遺伝暗号であると考える説である [14]。 Fig. 16. The WWW primitive genetic code hypothesis deduced from the nucleotide metabolism and the RNA world hypothesis on the origin of life. In the hypothesis, it is considered that adenine and uracil nucleotides would be used for the primitive genetic code at first, before appearance of guanine and cytosine nucleotides on the earth. 問題点:この考えにしたがえば、最初に使われたア ミノ酸はPhe、Leu、Tyr、Ile、Asn、Lysの 6 種、また はこれにMetを付け加えた7種ということになる(図16)。 しかし、これらのアミノ酸は[GADV]-アミノ酸と比べ かなり複雑な構造をしたものである。しかも、 7 種の アミノ酸を含みながら酸性アミノ酸をコ -ドできない。 また、疎水性アミノ酸が過剰に含まれている上に、タ ンやコイルを形成する傾向の強いアミノ酸が少なすぎ るため、我々が考えているような蛋白質の構造形成に 必要な最低限の条件である4 つの構造因子を満足でき ない。そのため、このようなWWW 暗号によってコドされたアミノ酸だけで構成された蛋白質では水溶性 で球状の蛋白質を形成することはできない可能性が大 きいという問題が存在する。 Fig. 15. The genetic code table used in mitochondria of most animal cells. In the table, UGA and AUA are used as tryptophan and methionine codons in addition to usual UGG tryptophan and AUG methionine codons, respectively. Usually, a minimal set of tRNAs is used to translate all codons in the mitochondria. 問題点:しかし、このようなミトコンドリア型の遺 伝暗号が最も初期に現れた原始遺伝暗号だとすれば、 最も初期の遺伝暗号が成立する時点で、約60 通りの コドン(遺伝暗号)と 20 種のアミノ酸が必要であり、最 初から使われる遺伝暗号としては複雑すぎる (図 15)。 C. 蛋白質の起原 次に、蛋白質はどのようにして形成されてきたの かを考えることとしよう。蛋白質は、遺伝暗号によっ て規定されているトリプレット (3 連塩基)を単位とする 74 Viva Origino 29 (2001) 66 - 85 遺伝情報に基づいてアミノ酸配列が形成され、 3 次構 造が形成されることは良く知られた事実である。した がって、これまでに説明してきた遺伝子や遺伝暗号の 起原はそのまま蛋白質の起原と対応しているはずであ る。これらの事実から、我々独自の遺伝子や遺伝暗号 の起原に基づいて、蛋白質の起原や形成機構を合理的 に推定することができると我々は考えている。ここで は、理解を容易とするために他の研究者によって考え られてきた蛋白質の起原とその問題点から話を進める こととする。 様度を持つ配列空間の中で、全ての場合を試行しなが ら、現在使用している一つの特定のアミノ酸配列を選 択したとは到底考えることができないという大問題が この考えにはある。 そこで、このような問題を避けるために、一般的に は次のような説明がなされている。 (2)蛋白質構造仮説(Structure 仮説) これは活性な蛋白質を形成するためにはアミノ酸 配列そのものよりも蛋白質の構造を重視する考えで、 特定の蛋白質と同様の3 次構造をとることさえできれ ば、アミノ酸配列が違っていても同じ活性を持ち得る はずであるとする考えである。この考えによれば、極 性アミノ酸と非極性アミノ酸の存在位置によって決定 される相互作用の数や割合が重要で、この相互作用の 数や割合が適当であれば、今、着目している特定のア ミノ酸配列を持つ蛋白質と同等の球状で水溶性の蛋白 質を作り上げることができるということになる。リボ ヌクレアーゼを例として、格子モデルに基づいて計算 された結果によると、活性な酵素(蛋白質)と同じ機能 や構造を持ち得る配列は10120オーダーにも達すると言 われている(図 18)[17]。したがって、活性な酵素はそ の内の一つをたまたま利用しているにすぎないと考え るのである。確かに、異なるアミノ酸配列でありなが ら、同じ触媒活性とほぼ同様の三次構造を持つ相同な 蛋白質が多数見出されることから、これは正しい考え であるように見える。 他の研究者によるこれまでの蛋白質の形成に関する 考え方 (1)アミノ酸配列仮説(Sequence 仮説) これは、特定の蛋白質が形成されるためには、そ れに対応するアミノ酸の配列が形成されねばならない こと、言いかえれば、適当なアミノ酸配列を形成する ことが活性な蛋白質を形成する上で必須であるという ごく当然に思える考え方である。この考えにしたがえ ば、あるアミノ酸配列を持った活性な蛋白質ができる ためには、ランダムに並べた時に生じ得るすべてのア ミノ酸配列の中から、目的の機能を持った一つの配列 を選択したということになる (図 17)[17]。 Fig. 17. Amino acid sequence hypothesis on the origin of proteins. For a protein composed of 100 amino acid residues, there are 20100 = ca. 10130 different sequences. In the hypothesis, it is assumed that extant proteins (dots) have been produced through selection from the enormously large number of sequences. But, it is generally considered that it would be impossible to select one unique sequence from the sequence space (open ellipsoid). Fig. 18. Protein structure hypothesis. To avoid the difficulty of the sequence hypothesis described in Fig. 17, another hypothesis is presented to explain the origin of proteins. The probability of drawing any sequence, which will fold to a specified structure is fairly large. For an example of ribonuclease, it is estimated to be about 120 orders of magnitude (shaded ellipsoid) by lattice simulations. Therefore, a particular protein uses one sequence out of the enormously large number of sequences in the shaded region by chance. 問題点:しかし、蛋白質は20 種類のアミノ酸が小 さいものでも約100 個のペプチド結合で結合した高分 子である。従って、100 個のアミノ酸からなる小さな 蛋白質であっても、その配列多様度は計算上、 20100 = 約 10130 ものとてつもない大きさとなる[17]。ちなみ に、宇宙の全原子数は9x1078 と言われている[16] が、 これよりもはるかに大きな数字である。このような多 問題点:しかし、 実際の蛋白質に含まれる一次構造 (ア ミノ酸配列)から三次構造を形成するには極性、非極性 アミノ酸の割合以外にα-へリックスやβ-シート構造 75 Viva Origino 29 (2001) 66 - 85 などの二次構造形成能力も重要である。しかも、この ような二次構造の形成には主鎖の結合の回転を束縛し ているペプチド結合の存在が重要である。にもかかわ らず、(1)この格子モデルはペプチド結合の存在を無視 したような単純化しすぎたモデルであること。 (2)その 上、このモデルにしたがえば、同じ活性を示す蛋白質 のアミノ酸配列は必ずしも似ている必要がないという ことになる。しかし、同じ活性と同じような構造を持 ついわゆる相同蛋白質では、通常、保存されたアミノ 酸領域が少なくとも30〜40%存在するという事実と矛 盾する。なぜなら、相同な蛋白質は共通の祖先蛋白質 から生み出されたものであり、蛋白質構造仮説の予測 するように独立に選択され、生み出されたのではない ことを保存領域の存在が明白に示しているからである。 以上のような観点から、この説にも大きな問題がある と我々は考えている。 蛋白質を高い確率で作ることができるのだということ になる。このような考えを端的に言い表すため、 1 次 構造であるアミノ酸配列の前段階という意味で蛋白質 の0 次構造という言葉を使うこととしたのである。 我々 は基本的な0 次構造として、GNC がコードする4 種 のアミノ酸からなるアミノ酸組成やSNSがコードする 10 種のアミノ酸からなるアミノ酸組成を考えている。 そして、これらの考え方に対してGNC-0 次構造仮説 およびSNS-0 次構造仮説と呼ぶこととしたのである。 言いかえれば、蛋白質を効果的に形成するために、 我々の考える蛋白質の起原 それでは、蛋白質が生み出される場や経路をどの ように考えたら良いのであろうか。当然のことながら、 蛋白質の生成過程や起原は遺伝子の起原や遺伝暗号の 起原と密接に関連している。したがって、我々は、蛋 白質がアミノ酸配列仮説や蛋白質構造仮説が予測する ように形成されてきた訳ではなく、原始遺伝暗号であ る GNC や SNS によって決められる少数種のアミノ酸 組成からなる極めて小さな多様度、即ち、 100 個のア ミノ酸からなる蛋白質の場合で計算すると、 GNC の 100 60 場合には4 =約 10 の多様度の、SNS の場合は 10100 オ-ダ-の多様度の、極めて高い確率で生み出される球 状蛋白質の中から、生命が望む活性を示すものを選択 することによって生み出されてきたのだと考えている (図 19(A))。そこで、GNC 原始遺伝暗号時代の蛋白質 の形成に対してはGNC-0 次構造仮説、SNS 原始遺伝 暗号時代の蛋白質の形成に対してはSNS-0 次構造仮説 という名称を与えたい。このような0 次構造という用 語は聞きなれない言葉であり、その内容をすぐには理 解し難いかもしれない。そこで、図19(B)を使っても う少し具体的に説明することとする。 これまでは1 次元的な情報を提供するだけの遺伝子 が蛋白質の合成を指令していることもあって、蛋白質 の形成は遺伝子によって決められる1 次構造と呼ばれ るアミノ酸配列が蛋白質の構造形成の出発点であると 考えられてきた。しかし、我々は遺伝子や遺伝暗号の 起原を考察する過程で、蛋白質の構造形成にとって、 1 次構造であるアミノ酸配列よりさらに基本的で重要 な要素として、ある特異なアミノ酸組成があるのだと 考えている。我々の考えによれば、実は、特定のアミ ノ酸組成によって規定されたアミノ酸だからこそ、そ れをランダムに結合することによって水溶性で球状の Fig. 19. GNC-, SNS-, and GC-NSF(a)-0th-order structure hypotheses on the origin of proteins. (A) According to the 0th-order hypothesis, extant proteins should be originated from a smaller number of random sequences (closed circles) specified by particular amino acid compositions, which are determined by the GNC- and SNS primitive genetic codes. At present, newly-born proteins could be derived from proteins encoded by ancestral GC-NSF(a) genes (shaded ellipsoid), the modified form of SNS repeating sequences, (SNS)n. (B) It is generally considered that a tertiary structure or a higher-order structure of a protein is determined by a primary structure, or an amino acid sequence, which is determined by one-dimensional genetic information on DNA. Contrary to that, we provided another hypothesis on formation of globular proteins, in which primary structure is restricted by specific amino acid compositions, such as GNC- , SNS-0th-order structures and its modified form of GC-NSF(a)-0th-order structure (Fig. 19(A)). First genes determining amino acid sequences (the primary structure) of proteins realize the 0th-order structure of newly-born proteins through processes creating newly-born genes. 76 Viva Origino 29 (2001) 66 - 85 遺伝暗号の形成過程と対応して、まず最初はGNC-0 次構造が利用されていたのであり、その後になって、 SNS-0 次構造が利用されたのである。また、今日では 新たに蛋白質を生み出す必要が生じた時には SNS-0 次 構造と類似の GC-NSF(a)が規定するアミノ酸組成(GCNSF(a)-0 次構造または近似 SNS-0 次構造)を利用する ことによって蛋白質が生み出されているのだと我々は 考えている(図 19)。 えられる。このことから考えて、 [GADV]-蛋白質は 高い確率でよく似た [GADV]-蛋白質を形成できるこ とを示している(もちろん、4 種のアミノ酸が100 個結 合してできた蛋白質の多様度は、 1060 である。この値 は、20 種のアミノ酸の多様度、10130に比べれば、はる かに小さいがそれでも極めて大きな数である。しかし、 [GADV]-アミノ酸をランダムに結合させた時には、4 種のアミノ酸しか存在しないため、 44=256 個のアミ ノ酸配列の中に1 度は同じ配列が出てくる計算になる。 したがって、256 アミノ酸からなる中型の[GADV]-蛋 白質を想定するとそれらは互いに良く似ていることが 容易に推定できる)。このことは、[GADV]-蛋白質なら 遺伝子とは無関係に蛋白質の擬似複製が可能であるこ とを意味している。この点に着目し到達した考えが 我々の主張する[GADV]-蛋白質ワ-ルド仮説である(図 21)[9]。これまで、RNA や DNA などの核酸類に比べ て、はるかに蛋白質の方が無生物的に形成され易いに もかかわらず、蛋白質は自己複製できないという欠陥 のため、蛋白質を生命の起原物質として扱うことは出 来ないと考えられてきた。それに対して、我々のこの [GADV]-蛋白質ワ-ルド仮説は、蛋白質が持つと思われ ていた生命の起原を考える上での致命的な欠陥を克服 できる考えとなっている。逆に、多くの人にこれまで 支持されてきた「RNA ワールド仮説」には、致命的 とも思える極めて大きな欠陥のあることが我々には分 かった。以下にその根拠を示すこととする。 これまで述べてきた遺伝子や遺伝暗号、蛋白質は、 当然の事ながら生命の活動にとって最も基本的で重要 なものである。しかも、GNC 原初遺伝暗号仮説は生 命が生まれたはずの頃の遺伝暗号であり (図 11)、その GNC がコードする4 種のアミノ酸([GADV])は球状蛋 白質を形成できる極めて単純なアミノ酸の組み合わせ となっている。これらのことを考慮し、我々は以下の ような独自の生命の起原に関する仮説にも到達した [8, 9]。 D. 生命の起原 我々の考える生命の起原 (1)[GADV]蛋白質ワールド仮説 我々の GNC 原初遺伝暗号仮説に基づけば、最も 初期の蛋白質はGNC によりコードされる4 種のアミ ノ酸 [GADV]からなる単純な蛋白質であったというこ とになる。このような単純な組成の [GADV]-蛋白質で あっても、以下に示すような機能を持つ蛋白質として 重要で基本的な性質を持っている。 (i)現存の蛋白質と基本的には同等の疎水性度 /親水 性度を持つことからも、水溶性で球状の構造を取り得 る可能性が大きいこと(図 12)。 (ii)[GADV]-アミノ酸は、二次構造を形成するため のアミノ酸(Ala:α-へリックス、Val:β-シート、Gly:β -ターン)を含んでいるほか、触媒として機能するため に必要な官能基(Asp:カルボキシル基)も含んでいるこ と(表 2)。 (iii)現存の遺伝子がコードするコドンの塩基位置 1 番目には、G が最も多い(図 20(B1))。このことから考 えても、GNC がコードする[GADV]-アミノ酸が20 種 のアミノ酸の中では最も基本的で重要性の高いアミノ 酸であると思われること。 従って、このような単純な組成の [GADV]-蛋白質 であっても、アミノ酸を重合するためのペプチド結合 の形成を触媒できた可能性が大きいと考えられる。も しもその推定が正しいとすれば、アミノ酸の種類が4 種と少ないこと、それらが重合されてできた蛋白質の 内側には疎水性側鎖をもつ[V] が主に位置し、表面に は親水性アミノ酸である[D] が主として位置すると考 77 Viva Origino 29 (2001) 66 - 85 Fig. 21. [GADV]-protein world hypothesis on the origin of life. The hypothesis anticipates that life could be originated from [GADV]-protein world, where [GADV]proteins were amplified by themselves through pseudoreplication. It is supposed that the simple amino acid composition of [GADV]-proteins composed of only four amino acids (Gly [G], Ala [A], Asp [D] and Val [V]) made it possible to pseudo-replicate [GADV]-proteins in the absence of genetic function. 他の研究者によるこれまでの生命の起原に関する考 え方 (1)RNA ワールド仮説 生命にとって最も重要かつ基本的なことは、 DNA が担っている遺伝情報機能と蛋白質が担っている触媒 機能を発揮することによって自己複製を行うことであ ると一般に考えられている。しかし、 DNA には触媒 機能が無く、蛋白質には遺伝情報機能が無い。したが って、遺伝子であるDNA は蛋白質無しでは複製でき ず、蛋白質は遺伝子無しでは生成できない。このよう な、生命の起原を考える上での難問はDNA と同様の 塩基配列を持ちながらRNA にも触媒機能があるとい う発見 [18, 19] によって状況は一変した。即ち、 RNA が遺伝情報機能を持ち得るだけでなく、触媒機能をも 合わせ持つことができるという事実を根拠に、RNA が自己複製することによってRNA が増殖し、その多 様度を増していたRNA を中心とした世界がまず存在 したという「RNA ワールド仮説」が提案されている のである(図 22)[20, 21]。 Fig. 20. (A) Dependence of guanine composition at the first codon position (G1) upon GC content of a gene. The rectangular surrounding dots of G1 shows the border line of the possible G1 composition, when all sequences in the sequence space could be used as functional gene. (B) Correlation of base compositions in the codon with GC content of a gene. The straight lines indicate average changes of guanine, adenine, cytosine and thymine compositions at the first (B1), second (B2) and third (B3) base positions in the codon, respectively. 78 Viva Origino 29 (2001) 66 - 85 [21]。このことは、上で述べた情報機能と触媒機能と の間に存在する自己矛盾と深い関係があると思われる。 (4)仮に、自己複製できたRNA が存在したとしても、 自己複製能力と蛋白質の情報機能との間には何の関連 性もないと考えざるを得ない。したがって、自己複製 できた RNA がたとえ存在したとしてもそれが同時に 蛋白質の情報を持つことができたとは到底思えない。 これらのことから、我々は、 「RNA-ワールド仮説」は 成立し得ないと考えているのである[8, 9]。 Fig. 22. RNA world hypothesis on the origin of life. The RNA world hypothesis is based on self-replication of RNA, which has been proposed to explain the development of life on the earth. The unanticipated discovery of RNA catalysts or ribozymes initiated extensive discussion of the role of RNA in the origin of life. But, we think that there are many problems in the RNA world hypothesis to be impossible to solve, as followings. (1) Nucleotides, substrates of RNA synthesis, are too structurally complex to synthesize from simple organic compounds without effective catalysts, such as enzymes. (2) Self-replication of RNA would be principally impossible, because it requires RNA templates without tertiary structure, whereas catalytic action requires RNA catalysts with a stable tertiary structure. (3) Probability that self-replicated RNA encodes the amino acid sequence, which can be folded into appropriate threedimensional structure, must be quite small, since there is not any relationship between the self-replicated RNA and the informational RNA encoding a globular protein. これまで説明してきたように多くの研究者によっ ても、遺伝子の起原や遺伝暗号の起原、蛋白質の起原、 そして生命の起原が論じられている。しかし、他の研 究者達によるそれらの考えは、それら4 つの生命に関 する基本問題をどちらかといえば個別に議論してきた。 しかも、上で述べてきたように、他の研究者の考えに はそれぞれに大きな問題点があることも分かった。そ れに対して、我々の議論は相互に関連し合っている4 つの起原を、GNC-SNS 原始遺伝暗号仮説を基礎とし て統一的に説明できる可能性が大きい考えなのである (図 23)。以上のような点も考慮し、我々は遺伝子や遺 伝暗号そして蛋白質や生命の起原についての我々の考 えの方が他の研究者によるこれまでの考えに比べて、 はるかに合理的であると確信している。 それでは我々の遺伝子や遺伝暗号それに蛋白質や 生命の起原に関する考え方は本当に正しいのだろうか。 このことをさらに確かめるため、いくつかの現存の遺 伝子や蛋白質が持つ性質を我々の考えにしたがって説 明できるのかについても検討した。以下では順を追っ て、これらのことについて説明することとする。 問題点:しかし、(1)RNA の構成単位であるヌクレ オチドは、アミノ酸と比較してもかなり複雑な有機化 合物であり、その無生物的合成が困難なこと。それに 対し、[GADV] からなる4 種のアミノ酸は、それを構 成する原子数の少なさや、異性体の少なさから判断し ても、ヌクレオチドよりもはるかに無生物的に合成さ れやすいこと。(2)それでも、ヌクレオチドが無生物的 に合成されたと仮定しよう。しかし、ヌクレオチドを 無生物的に結合させ、RNA を形成することは困難で ある。(3)さらに、それでもRNA を合成できたと仮定 しよう。しかし、情報伝達機能発揮し、複製の鋳型と なるためには3 次元的な構造を持たないRNA が必要 であり、触媒活性を持つためには安定な3 次元的構造 を持たねばならないという自己矛盾が存在する。この ことから考えて、普通の意味で自己複製するRNA が 存在できたとは到底考えられない。実際、これまで多 くの研究がなされているにもかかわらず、本来の意味 で RNA 分子が自己複製した例は見つかっていない (1)遺伝子の生まれる場とその進化方向 我々の遺伝子の起原仮説 (GC-NSF(a) 仮説や (SNS)n 仮説)が正しいとすれば、遺伝子はGC 含量の 高い遺伝子として生まれ、必要に応じて徐々に GC 含 量を低下させながら相同な遺伝子を生み出したと考え られる(図 24)。そのため、我々の考えにしたがえば、 蛋白質はGC 含量の高い遺伝子を祖先遺伝子として生 まれ、AT 変異圧を受けながらGC 含量の低い(逆に言 えば、AT 含量の高い)遺伝子がコードする蛋白質へと 進化(変化)したはずである。もしもそのことが事実な ら、相同な蛋白質を互いに並置し、保存されているア ミノ酸(保存領域に含まれるアミノ酸)と保存されてい ないアミノ酸(非保存領域に含まれるアミノ酸)の組成 を調べると、保存領域内には祖先遺伝子によってコー ドされた祖先蛋白質の性格が色濃く残されたいるはず である。したがって、このような性質を利用すれば遺 伝子または蛋白質の進化方向を推定できることとなる。 (図 25)。そのことを確かめるため、 GC 含量の高い遺 79 Viva Origino 29 (2001) 66 - 85 Comparison of our hypotheses on fundamental life systems with other worker’s hypotheses Our hypothesis Origin of Other worker’s hypothesis [GADV]-Protein World Life RNA World GC-NSF(a) Gene Gene Duplication (SNS)n GNC Primitive Code Exon Shaffling Genetic code SNS Pimeval Code GC-NSF(a) 0th-order Structure RNY Code WWW Code Mitochondrial-type Code Protein SNS 0th-order Structure Sequence theory Structure theory Fig. 23. Comparison of our hypotheses on the origins of gene, genetic code, protein and life, which are involved in fundamental systems of life, with those postulated by other workers. Our hypotheses are interrelated each other, mainly based on the GNCSNS genetic code hypothesis. Contrary to that, those postulated by other workers were rather independently discussed without any correlation among four fundamental systems of life. Fig. 24. Model of gene evolution presented in this review. According to the model, genes must be originated from SNSrepeating sequences, (SNS)n, in the ancient days and GC-NSF(a) in the present days, as GC-rich genes. Thus, generally, genes must be unidirectionally evolved from GC-rich ancestral genes to AT-rich genes under AT-mutation pressure. 80 Viva Origino 29 (2001) 66 - 85 Fig. 25. Deduced change of SNS-encodeing amino acid (SNS-AA) contents in conserved and non-conserved regions of homologous proteins occurring in a process of gene evolution. (A) Change of SNS-AA contents (shaded boxes) is deduced according to our evolution models of genes (Fig. 24) and proteins (Fig. 19), in which genes have been evolved uni-directionally from GC-rich to AT-rich genes. In this case, SNS-AA contents in regions conserved among homologous proteins keep them high during the gene evolution, while SNS-AA contents in nonconserved regions of proteins encoded by AT-rich genes gradually decrease as the GC content of a gene decreases. (B) Change of SNS-AA contents is deduced according to a model, in which genes have been evolved uni-directionally but inversely from AT-rich to GC-rich genes. In this case, SNS-AA contents (shaded boxes) in regions conserved among homologous proteins remains low during the gene evolution, while SNS-AA contents in nonconserved regions of proteins encoded by GC-rich genes gradually increase as the GC content of a gene increases. 伝子によってコードされているP. aeruginosa のジャイ レース A (GyrA) をより GC 含量の低い他の細菌の GyrA と比較した。その結果、確かに我々が予測する ように、保存領域では常にGC 含量の高い遺伝子によ って主としてコードされるSNS-アミノ酸含量が、GC 含量の高い遺伝子によってコードされている P. aeruginosa の GyrA の非保存領域に含まれるSNS-アミ ノ酸含量と同程度に高いことが分かった (図 26(A))。ま た、より低いGC 含量を持つ遺伝子がコードするGyrA 蛋白質の非保存領域内のSNS-アミノ酸含量は、これ も予測されたように、遺伝子のGC 含量が低くなるに つれて徐々により低い値となることも分かった(図 26(A))。 さらに、同様のことを緊縮応答に関連したSpoT/RelA 蛋白質(図 26(B))やグルタミン合成酵素(GlnA)、RNA ポリメラーゼの α−サブユニット(RpoA)など他の相同 な蛋白質 10 数種についても調べたが、いずれの場合 にもGyrA の場合とほぼ同様の結果が得られた。以上 のことは、GyrA や SpoT/RelA などを初めとする水溶 性で球状の蛋白質は、我々が推定するように、 GC 含 量の高い遺伝子を祖先遺伝子として生まれ、 GC 含量 の低い遺伝子がコードする蛋白質へと進化したことを 示している。 81 Viva Origino 29 (2001) 66 - 85 で隣り合うアミノ酸の出現頻度は、細菌ゲノムがコー ドする蛋白質のアミノ酸組成から計算によって求めら れる隣り合うアミノ酸の出現頻度と一致するはずであ る。H. influenzae のゲノムデータを利用して、そのこ とを確かめた図 27 の結果を見て分かるように、隣り 合うアミノ酸の組み合わせによって表される 400 組す べての点が傾き 1 の直線の回りに分布している。H. pyroli や E. coli, M. genitarium、B. subtilis などのゲノム データを用いて解析した場合にも、これと同様のこと を確かめることができた。以上のことは、我々が予測 したように、蛋白質は基本的にはSNS 0 次構造やGCNSF(a) 0次構造が規定するアミノ酸組成の範囲内で、 アミノ酸をランダムに結合することにより形成されて いることを示している。 Fig. 27. Comparison of frequencies of two neighboring amino acid residues observed on protein sequences from bacterial genomes with those estimated by calculation with amino acid compositions of proteins encoded by genomes (H. influenzae (lower plots) and H. pylori (upper plots)). Points of 400 combinations of two neighboring amino acids should distribute around the linear line with a slope of 1, if proteins were produced through random peptide formation of amino acids restricted in protein-0th-order structures, such as (SNS)n and GC-NSF(a)-0th-order structures (Fig. 19). Upper plots of H. pylori proteins were shifted by addition of 0.008 to the raw data to make two sets of data to compare easily. Fig. 26. SNS-AA contents in conserved and nonconserved regions among homologous proteins. SNS-AA contents in both conserved (open circles) and non-conserved (closed circles and open squares) regions were obtained after alignments of GC-rich Pseudomonas aeruginosa GyrA (A); and GC-rich Streptomyces coelicolor RelA/SpoT (B); with the corresponding homologous proteins from 13 other microbial taxa. These results clearly indicate that both GyrA genes and RelA/SpoT genes changed unidirectionally from GC-rich ancestral genes to AT-rich genes under ATmutation pressure, as was expected from our hypothesis on gene evolution (Fig. 25). (3)コンピューターによる遺伝子の起原と進化に関す るシミュレーション これまで説明してきたように、遺伝子や遺伝暗号 それに蛋白質の起原に関する我々の考え方は、基本的 には間違いが無いように思われる。もしも、そのこと が本当なら、我々が想定するように遺伝子は GC 含量 の高い遺伝子として生まれ、遺伝子上に変異をゆっく りと蓄積しながらGC 含量を低下させたはずである。 また、祖先遺伝子が変異を蓄積することによって生み 出されたすべての遺伝子がコードするどの蛋白質も蛋 白質の3 次構造形成にとって重要な6 つの条件(疎水性 (2)蛋白質の形成過程 もしも、蛋白質の起原についての我々の考えが正 しいとすれば、蛋白質は元来、 蛋白質を生み出す場(SNS の繰り返し配列、またはGC 含量の高い遺伝子のアン チセンス鎖(GC-NSF(a))によって決められるアミノ酸組 成(SNS 0 次構造やGC-NSF(a) 0 次構造)を守った範囲内 で各アミノ酸をランダムに連結させることによって生 み出されているはずである (図 19)。また、我々の考え るように各アミノ酸をランダムに連結させることによ って蛋白質が形成されているのだとすれば、蛋白質内 82 Viva Origino 29 (2001) 66 - 85 度/親水性度、α-Helix、β-Sheet および β-Turn 形成能、 酸性アミノ酸含量や塩基性アミノ酸含量 )を満足してい るはずである。そうだとすれば、遺伝子や蛋白質が生 まれる場や進化の過程で遺伝子や蛋白質が変化する様 子を我々の考えにしたがってシミュレートできるはず である。そこで、実際に、コンピューターを用いて遺 伝子進化の様子をシミュレートできるかどうかを確か めることとした。 そのため、GC 含量の高いM. tuberculosis のある 一つの1,500塩基(500 コドン)からなる遺伝子のアンチ センス鎖を仮想的な祖先遺伝子として選び出した。そ の際、同時に、その仮想的祖先遺伝子がコードする仮 想蛋白質が、蛋白質の構造形成に必要な6 つの条件を 満足していることを確かめておいた。次に、その仮想 的な祖先遺伝子に対して、1 回の操作で突然変異を 1,500塩基の各サイトそれぞれに1%の確率(1,500塩基 の内、平均15 塩基で塩基置換が起こる確率 )で導入し た。その結果、6 つの条件のいずれか1 つでも満足で 場合には、活性を持たない変異蛋白質として除外し、 変異を導入する操作を1 段階戻してやり直すこととし た。このような操作を繰り返しながら、球状蛋白質を 形成できる6 つの条件を満足する仮想遺伝子や仮想蛋 白質が 1,000 回現れるまで試行を繰り返した。これら の操作を9 段階の異なる変異圧の下でシミュレートし た結果が図28 に示されている。この図28 ではシミュ レートした結果を実在遺伝子のコドン内の塩基組成変 化と比較するため、その塩基組成変化を最小 2 乗法で 近似した直線として表しておいた。その際、コドン内 には3 つの塩基位置があり、それぞれに4 種の塩基が 含まれるため、コドンの各塩基位置毎の塩基組成変化 を示す図は合計12 種描かれることになる。その内、 11 種については、実際の遺伝子に見られる塩基組成変化 をほぼ再現することができたが、コドンの第 1 塩基位 置の G 含量だけは直線からかなりのずれを示した (図 28)。このコドンの第1 塩基位置のG 含量が実在の遺 伝子で見られる変化とずれた原因を探るため、祖先遺 伝子を共通に持つ相同蛋白質では一般に約 30〜40%の アミノ酸が保存されていることを考慮に入れて、蛋白 質の保存領域を40%に設定し、再び同様のシミュレー ションを行った。その結果、予想されたようにコドン Fig. 28. Computer simulation of the evolution of genes originated from a GC-rich ancestral gene. The simulation was carried out by using a GC-NSF(a) of a M. tuberculosis GC-rich gene composed of 1,500 bases as an ancestor gene. Mutations were introduced at a probability of 1% on every base position at every step. When a protein encoded by the mutated sequence satisfied 6 conditions required to form polypeptide sequence into appropriate three-dimensional structure, the gene was selected as an active gene. If it does not, introduction step of mutation was repeated from one step before. The simulation of gene evolution was carried out under 9 different mutation pressures. Only guanine composition at the first codon position (G1) was largely deviated from the approximated linear line drawn by using seven microbial genome data out of twelve base compositions. Therefore, G1 composition is only given as an example of results of the gene simulation in this Figure. Fig. 29. As seen in the results of Fig. 28, where the simulation was carried out under the condition without any conserved region among evolved proteins, guanine composition at the first codon position was largely deviated from the line drawn by using seven microbial genome data. On the other hand, it is well known that homologous proteins have usually about 40% of conserved regions. Thus, in this Figure, the simulation was carried out by using a M. tuberculosis gene (sense sequence) as an ancestor gene under the condition with 40% conserved regions. From the results, it was confirmed that G1 composition was coincident with the line better, as the ratio of conserved regions increase from 0 to 40%. の第1 塩基位置のG 含量についても、実際の遺伝子内 で見られる変化をほぼ再現することができた (図 29)。 きなくなるか翻訳のフレーム内に停止コドンが現れた 83 Viva Origino 29 (2001) 66 - 85 そればかりか、シミュレートして得られた仮想的な遺 伝子がコードする仮想的な蛋白質のアミノ酸組成を、 実際の細菌ゲノムがコードする蛋白質のアミノ酸組成 と比較したところ、アルギニンやリジンなどいくつか のアミノ酸を除いて極めて良い一致を示すことが分か った(図 30)。もちろん、これらのアミノ酸組成の分布 Fig. 31. Amino acid compositions of hypothetical proteins, which were generated as proteins with amino acid compositions specified by 20 random numbers and simply selected only by using 6 conditions for formation of globular proteins. This shows that every one of 20 amino acids in proteins have similar abilities for tertiary structure formation of globular proteins. Therefore, it is evident that specific distributions of amino acid compositions in M. tuberculosis and E. coli proteins as seen in Figs. 30(A) and 30(B), have been determined during evolutionary processes of proteins from ancestor proteins encoded by GC-rich genes. このことは、実在の蛋白質にはロイシンやアラニン、 グリシン、バリン、セリン、イソロイシンなどのアミ ノ酸が一般に多く見られ、ヒスチジンやメチオニン、 トリプトファン、システインなどのアミノ酸があまり 見られないのは、それらのアミノ酸が持つ特性による のではなく、遺伝子がGC 含量の高いものとして生ま れ、GC 含量の低い方向に向かって基本的には進化し ていること、それと同時に、進化の過程で生み出され た遺伝子が遺伝暗号にしたがって翻訳されることによ って蛋白質が作り上げられていることを意味している。 即ち、これらの事実も、我々の遺伝子や遺伝暗号それ に蛋白質の起原およびそれらの進化過程に関する考え が正しいことを示している。 Fig. 30. Comparison of average amino acid compositions of proteins obtained from M. tuberculosis genome data (average GC content = 65.6%) (A), and E. coli genome data (average GC content = 50.8%) (B), with those of hypothetical proteins encoded by simulated genes (average GC contents = 65.6% (A); and 50.5% (B)) derived from the GC-rich ancestral gene, as given in Fig. 29. おわりに 以上で述べてきたように、我々は蛋白質の構造形 成に必要な6 つの条件を主として用いることによって、 遺伝子の起原、遺伝暗号の起原、蛋白質の起原および 生命の起原に関する4 つの新たな仮説を提案した。 我々 の考えは、これまでともすればその本質的な理解が困 難であったこれら 4 つの起原を、我々が主張する GNC-SNS 原始遺伝暗号仮説に基づいて統一的に説明 できる可能性の大きなものであると考えている。逆に 言えば、多くの研究にもかかわらず、これまで生命の 基本システムに関するこれら4 つの問題を正しく理解 が単に 20 種のアミノ酸の特性によって決められてい るのではないことを確認するため、祖先遺伝子や遺伝 子の進化経路とは無関係に20 種の乱数によって設定 されたアミノ酸組成を持つ仮想的な蛋白質の内、これ までと同様に6 つの条件を満足するものだけを選択し た。得られた仮想蛋白質の平均アミノ酸組成を棒グラ フで示したところ、どのアミノ酸についても、ほぼ同 じ割合で含まれることが分かった (図 31)。 84 Viva Origino 29 (2001) 66 - 85 することができなかったのは、それらの問題を多くの 研究者が個々の独立した問題として考える傾向が強す ぎたことが主な理由であると思われる。したがって、 現在、生命の起原をRNA ワールド仮説に基づいて説 明する考えが主流となっているが、このような生命の 起原についても、我々は我々の主張する [GADV]-蛋 白質ワールド仮説の方がより合理的であると確信して いる。それだけではなく、遺伝子や遺伝暗号、蛋白質 などの生命の基本的システムを、 GNC-SNS 原始遺伝 暗号仮説を中心とする立場から考え直すことによって、 現在の遺伝子や蛋白質が持つ様々な性質や現在の代謝 経路が何を基礎として形成されてきたのかに至るまで、 より深くそして正確に理解できるようになると思われ る。したがって、我々は今後これらの問題の解決にも 取り組みたいと考えている。 Heiderberg (1970) 12. Gilbert, W., de Souza, S. J. and Long, M. Origins of genes, Proc. Natl. Acad. Sci. USA., 94, 7698-7703 (1997) 13. Miller, S. L. and Orgel, L. E. “The orgin of life on the earth.” Prentice-Hall, Inc. (1974) 14. Osawa, S. "Evolution of the genetic code" Oxford University Press (1995) 15. Jimenez-Sanches A. On the origin and evolution of the genetic code. J. Mol. Evol., 41, 712-716 (1995) 16. Voet, D., Voet, J. G. and Pratt, C. W. “Fundamentals of Biochemistry” Jhon Wiley & Sons, Inc. (1999) 17. Dill, K. A. Dominant forces in protein folding, Biochemistry, 29, 7133-7155 (1990) 18. Kruger, K., Grabowski, P. J., Zaug, A. J., Sands, J., Gottschling, D. E. and Cech, T. R. Cell, 31, 147-157 (1982) 引用文献 1. 例えば、GenomeNet and Bioinformatics in Japan (http://www.genome.ad.jp)など 2. 例 え ば 、 The RSCB Protein Data Bank (http://pdb.protein.osaka-u.ac.jp.jp/pdb/index.html) な ど 3. Ikehara, K. and Okazawa. E. Unusually biased nucleotide sequences on sense strands of Flavobacterium sp. Genes produce nonstop frames on the corresponding antisense strands, Nucl. Acids Res., 21, 2193-2199 (1993) 19. Guerrier-Takada, C., Gardiner, K., Marsh, T., Pace, N. and Altman, S. The RNA moiety of ribonuclease P is catalytic subunit of the enzyme, Cell, 35, 849-857 (1983) 20. Gilbert, W. The RNA world, Nature, 319, 618 (1986) 21. Gesteland, R. F., Cech, T. R. and Atkins, J. F. “The RNA world”, Cold Spring Harbor Laboratory Press (1999) 4. Ikehara, K., Amada, F., Yoshida, S., Mikata, Y. and Tanaka, A. A possible origin of newly-born bacterial genes: significance of GC-rich nonstop frame on antisense strand, Nucl. Acids Res., 24, 4249-4255 (1996) 5. 池原健二,遺伝暗号の起源と進化 (新説 SNS 仮説 に基づいて)、生物科学、50, 44-54 (1998) 6. Ikehara, K. and Yoshida, S. SNS hypothesis on the origin of the genetic code, Viva Origino, 26, 301-310 (1998) 7. Ikehara, K. A possible evolutionary pathway of the genetic code deduced from the SNS hypothesis, Viva Origino, 26, 311-320 (1998) 8. 池原健二、生命の起源についてのRNA ワ-ルド仮 説は正しいか?(生命は蛋白質ワ-ルドから生まれ た!)、生物科学、51, 43-53 (1999) 9. 池原健二、生命は蛋白質から生まれた!? [GADV]-タンパク質ワ-ルド仮説-、化学、55, 14-19 (2000) 10. Sueoka, N. Directional mutation pressure and neutral molecular evolution. Proc. Natl. Acad. Sci., USA. 85, 2653-2657 (1988) 11. Ohno, S. “Evolution by Gene Duplication.” Springer, 85
© Copyright 2026 Paperzz