1 H26 バイオインフォマティックス概論授業予定 (授業の進み具合によって変更の可能性があります) 黒字は、講義による解説。青字はウェブを使った実習を示します。 第1回 10 月 7 日 授業概要説明 Bioinformatics とは? ゲノム-遺伝子-mRNA-タンパク質の関係の復習(DVD) さまざまなデータベース・ゲノムデータベースに触れてみる 第2回 10 月 14 日 ヒト全ゲノム解読プロジェクトについての解説(1/3) ヒトゲノムプロジェクトの歴史・戦術 連鎖地図、物理地図の作製 配列データベースについての解説 データベースからの塩基配列とアミノ酸配列の取り出し方 宿題(1):配布 第3回 10 月 21 日 ヒト全ゲノム解読プロジェクトについての解説(2/3) BAC ライブラリーの作製、整列化 BAC ライブラリーのショットガンシーケンス ヒト全ゲノム解読プロジェクトについての解説(3/3) 配列のアセンブリー、コード配列の予測 cDNA 塩基配列から蛋白質アミノ酸配列への変換操作 第4回 10 月 28 日 ホモロジー検索(BLAST 検索)についての解説(1/2) BLAST 検索の実習(BLASTP) 結果の見方 Whole genome shotgun sequence によるゲノム解読 宿題(2):配布 第5回 11 月 4 日 Whole genome shotgun sequence によるゲノム解読(残り: scaffold の作製、FISH による染色体へのマッピング作業) ゲノム解読で分かったヒトゲノムの特徴、医療への利用 ホモロジー検索(BLAST 検索)についての解説(2/2) BLAST 検索の実習(BLASTN, BLASTX, TBLASTX) “宿題(1):提出” 2 第6回 11 月 11 日 論文の構成、総説の内容 研究計画立案、レポート・論文作成に必要な情報収集 文献検索(PubMed, 大学図書館 On line journals) 第7回 11 月 18 日 NCBI ゲノムデータベースの利用 MapViewer の利用(1):遺伝子の染色体上の位置を調べる MapViewer の利用(2):ゲノムデータベースでの BLAST 検索 MapViewer の利用(3):遺伝子ファミリーのメンバーの同定 MapViewer の利用(4) :次世代シーケンスで得られた 100bp 断 片配列の参照ゲノムへのマッピング 配列アライメントについての解説 宿題(3)配布 第8回 11 月 25 日 分子生物学会出席のため鈴木、不在 酒井義文先生(本学工学研究科情報科学出身)による解説 Blast 検索、ClustalW、分子系統樹のアルゴリズムと原理 第9回 12 月 2 日 ペアワイズアライメント、多重配列アライメントの作成と見方 分子系統樹の作成 宿題(2)提出 第 10 回 12 月 9 日 分子系統樹から分かること ゲノム構造の変化と生物進化 ゲノムの重複と遺伝子レパートリーの増加 オルソログとパラログの発生 遺伝子の並行進化 代謝経路データベース(KEGG)の利用 KEGG を使った演習 データベースを使って、dopamine の合成経路、合成部位、 作用機序、薬剤等について情報収集する。 宿題(4)配布 3 第 11 回 12 月 16 日 バイオデータベースの利用(遺伝子の機能、発現、遺伝子疾患) OMIM (Online Menderian Inheritance in Man) MGI (Mouse Genome Informatics) ZFIN (The Zebrafish Model Organism Database) タンパク質の構造(シグナルペプチド、疎水・親水性プロット、 ドメイン構造)についての解説 ウェブサイトを使ったタンパク質の構造解析 分子量と等電点の予測 シグナルペプチドの予測 ドメイン構造の予測 “宿題(3)提出” 第 12 回 1月6日 ゲノムブラウザ Ensembl Genome Browser の利用 必要なゲノム塩基配列をゲノムデータベースから取り出す 遺伝子の転写調節とコンセンサス配列についての解説 Ensembl を使った転写調節配列の収集 プログラムを使ったコンセンサス配列の検索 宿題(5)配布 第 13 回 1 月 13 日 次世代シーケンス解析-原理 シーケンス原理 次世代シーケンス解析-利用方法 ゲノム解析(参照ゲノムのある場合.de novo 解析) トランスクリプトーム解析 次世代シーケンス解析-応用 発現量の比較:トランスクリプトーム解析の利用 RAD 解析:ゲノム全体にわたる SNP マーカーの収集 原因遺伝子の同定:SNP マーカーによる形質のマッピング “宿題(4)提出” 4 第 14 回 最終回 1 月 20 日 次世代シーケンス解析-情報処理 配列アセンブリー トランスクリプトーム解析の情報処理(BLAST2GO による遺 伝子の同定、KEGG map へのマッピング) ポストゲノム研究 比較ゲノム(Comparative Genomics) ヒトとフグの比較ゲノムで明らかになった脊椎動物の進 化に伴う染色体構造の変化(繰り返し配列の発生、シン テニー領域) 機能ゲノム(Functional Genomics) 生 物 間で 保存 さ れ た 非 コ ード 領域 ( conserved non-coding sequence):進化的に離れた生物間でゲノム配列を比較し、遺 伝子の発現調節に重要な領域をみつける=長距離アライメン トプログラム(Lagan) 宿題(5)配布提出 授業評価 推薦図書とおもだったウェブサイトはこのファイルの最後に掲示してあります。 5 10 月 7 日(第 1 回) 講義 1)授業の予定と進め方 2)「バイオインフォマティックス」とは? 3)遺伝子の構造についての復習:パワーポイントのファイルを参照 4)遺伝子、転写、翻訳の復習(DVD を使って) 5)どのようなデータベースを使うか 6)ゲノムデータベース(動物、植物、菌類、バクテリア)をのぞいてみる 使用する DVD:講談社ブルーバックス B1582「見てわかる DNA のしくみ」 今日は第一回目の授業ですので、最初に今年の授業予定を紹介します。この授業で は、基本的に各授業の前半で講義、後半にコンピューターを使った実習を行います。 実習では、ウェブ上で公開されているデータベースやプログラムを使います。今日は、 生物学、分子生物学、農学研究に利用できるデータベースにどのようなものがあるか を紹介します。また現在では、多数の生物のゲノム配列が解読されて、配列は一般に 利用できるように整備されています。どのような生物でゲノム解読が行われているの か、ウェブサイト(NCBI, Ensembl)を使って少しのぞいてみましょう。 なおこのテキストでは、その日の授業で行う講義内容とコンピューターを使った実 習について、操作方法を含めて簡単に説明してあります。必要に応じて、プリントア ウトして下さい。講義で使うパワーポイントの図はプリントしたものを資料として配 布します。毎回、翌週のプリントを配ります。このテキストと配布資料を使って、予 習・復習して下さい。 ———————————————————————————————— 実習 2 つのウェブサイトを開いて、どのような生物でゲノム情報が利用できるか調べてみ よう 1. NCBI (National Center for Biotechnology): http://www.ncbi.nlm.nih.gov/ 2. Ensembl Genome Browser: http://asia.ensembl.org/index.html 6 10 月 14 日(第 2 回) 今日の授業内容 1. 講義:ゲノム解読プロジェクト(1/3) 2. 実習:データベースからのアミノ酸配列、塩基配列の取り出し方 3. 実習:配列エントリーに示されている情報について 講義 ゲノム解読には、階層的ショットガン法と全ゲノムショットガン法の 2 通りの方法 があり、現在では全ゲノムショットガン法が主流となっています(長所と短所は配付 資料を参照)。またこの数年の間に、次世代シーケンサー(NGS)が実用化され、現在で はゲノム解読は NGS を使うことが主流となっています。NGS によるシーケンスの超高 速化により、様々な生物でゲノム解読が行われることは間違いない状況です。 ゲノム解読の歴史的な背景と、ゲノム解読の方法論を理解してもらうために、授業 では階層的ショットガン法で解読されたヒトゲノムプロジェクトを例にしてゲノム解 読の道筋を解説します.予定では 3 回に分けて解説します。 ヒト全ゲノム塩基配列解読の行程(1/3) 1)連鎖地図 2)BAC ライブラリー作製 3)BAC ライブラリー整列化(物理地図) 4)ショットガンシークエンス 5)アセンブル 6)アノテーション ゲノム解読プロジェクト 国際研究プロジェクトによるヒトゲノム計画 (Human Genome Project) は 1990 年に着手さ れ、13 年後の 2003 年に解読完了が宣言されました。ヒトゲノム計画は、階層的ショットガン法 と呼ばれる手法で行われました。すなわち連鎖地図の作成から BAC クローンの整列化の過 程を経たのち、染色体上にマップされた BAC クローンをショットガン法で解読し、染色体レベ ルにまで塩基配列を繋ぐという過程を経て、ゲノム塩基配列の完全解読にまで到達しました。 このプロジェクトの間に塩基配列の解析能力(DNA シークエンサー)は大幅にアップし、同時 に塩基配列をつなぎ合わせるコンピューターの処理能力も著しく進歩したことにより、連鎖地 図作製を省略して、全ゲノムをいきなりショットガン法で読むことが可能となりました。民間企 業のシエラ社は、数年のあいだに全ゲノムショットガン法によりヒトゲノムを解読することに成 功しました。最終的には、国際研究プロジェクトとシエラ社の間で協議の結果、解読成果が 同時に公表されました。 7 ヒトゲノム計画の終了と前後して、多くの生物で全ゲノム解読プロジェクトが始められ、既 に 100 種類に近い動物で全ゲノム配列の解読が終了し、現在も新しい生物のゲノム解読プ ロジェクトが次々に着手されています。ゲノム情報は、遺伝子の機能解析の有力なツールに なることは言うまでもありませんが、生物間でゲノム構造を比較することにより、無脊椎動物か ら脊椎動物の進化の過程で起こったゲノム構造の変化等を知ることも可能となりました。哺乳 類の中でも単孔類(カモノハシ)、有袋類(オポッサム)から有胎盤類に至る進化の過程や、 またチンパンジーとヒトでの知能の差をゲノム構造の進化の観点から議論されています。全 ゲノム塩基配列が利用できるという条件のもとで、進められる遺伝子やゲノム研究がポストゲ ノム研究です。既に家畜や野菜や穀物植物のゲノムもほとんどの種で解読されています。農 学でも新しい研究分野を開拓するためには、ゲノム情報を有効に利用できるがどうかが、極 めて重要な素養となります。 ************************************************************************* ゲノム解読プロジェクトで解析されたゲノム DNA 配列情報は、NCBI と Ensembl で一般に 利用できるよう整備されています。遺伝子の染色体上の位置や類似遺伝子の検索には NCBI が便利です。ゲノムの塩基配列をデータベースから取り出す場合には、NCBI ある いは Ensembl を使います。NCBI と Ensembl の使い方は、授業で実習します。ゲノム情報 がいかに強力なツールになるかを体験し、実感してもらおうと考えています。 ———————————————————————————————— 実習 塩基配列・アミノ酸配列の検索 配列データベースから必要なタンパク質のアミノ酸配列、遺伝子の塩基配列の取り出 し方を実習します. アミノ酸の取り出し方! 使用するウェブサイト:NCBI. 先頭ページ右側にある Popular Resources の中の 「Protein」を使用する.あるいは左上(All databases)から選ぶことも可能. キーワードによる検索 例:cow, prion でキーワード検索してみよう 上のタンパク質名(青字)をクリックすると配列エントリーが表示さ れる(見方は最下段と配付資料を参照のこと) FASTA をクリックすると配列が FASTA format で表示される 配列は、別のファイルにコピーできる. Graphics では、タンパクの構造が表示される Related Sequences では、関連するタンパク質が表示される 8 Identical Proteins では、別の名前が付けられている同一タンパク質 が表示される FASTA format 塩基配列とアミノ酸配列のファイルフォーム。 「>」で始まる1行がコメント (遺伝子名や任意の番号やコメント)を記述するために用意されており、続 く2行目から塩基配列あるいはアミノ酸配列を記述する。最後に改行して 「//」を記載し、1つの配列の記述が完了する(記号「//」はなくてもよい)。 ホモロジー検索、多重アライメント、分子系統樹作成等で使うフォーム。 塩基配列の取り出し方! 使用するウェブサイト:NCBI. Popular Resources の中の「Nucleotide」を使用す る 1. キーワードによる検索 例:cow, prion でキーワード検索してみよ cow, prion の配列だけでなく、関連遺伝子も多数検索されてくるため、 必要な配列を見つける必要がある.Bos taurus prion (PRNP), mRNA が 今回、欲しい配列である. 上の遺伝子質名あるいは GenBank をクリックすると配列エントリーが 表示される(データの見方は配付資料を参照のこと) FASTA をクリックすると配列が FASTA format で表示される 配列は、別のファイルにコピーできる. Graphic では、遺伝子の構造が表示される 2.アクセッション番号による検索 accession number=DDBJ/EMBL/GenBank 国際塩基配列データベースにおいて 各登録単位(エントリー;各遺伝子)に発行されるエントリー識別子(entry identification, ID)を指す。 例:NM_181015(entry identification, ID)で検索してみよう 配列エントリーに示されているデータ 遺伝子名、生物名、学名、遺伝子座、遺伝子クローニングを行った論文リスト、 翻訳開始・終了点、ドメイン構造、塩基配列、アミノ酸配列(配付資料では、 zebrafish, prion (NM_205586)を使って説明してあります) なお表示結果の詳細な説明は、次のサイトで閲覧できます。 http://hinv.ddbj.nig.ac.jp/manual_cdna-j.html 9 10 月 21 日(第 3 回) 今日の授業内容 1.講義:ゲノム解読プロジェクト(2/3, 3/3) 2. 実習:cDNA 塩基配列のアミノ酸配列への変換 3. 読み取りフレームと実際のタンパク質配列との関係について説明 講義 ヒト全ゲノム塩基配列解読の行程(2/3) 1) 連鎖地図・物理地図(Radiation hybrid panel) 2) BAC ライブラリー作製 3) BAC ライブラリーの整列化 4) ショットガンシークエンス 5) アセンブル 6) アノテーション 7) ヒト全ゲノム塩基配列解読の行程(2/3) 1) 連鎖地図・物理地図(Radiation hybrid panel) 2) BAC ライブラリー作製 3) BAC ライブラリーの整列化 4) ショットガンシークエンス 5) アセンブル 6)アノテーション cDNA 配列解読プロジェクト、EST(expressed sequence tags)解析プロジェクトについ ての解説 ———————————————————————————————— 実習 今日は、まず基本操作として、NCBI のプログラム ORF finder を使って、塩基配列 をアミノ酸配列に変換してみます。コンピューター操作に慣れるようにして下さい。 今回は、魚類の cDNA ライブラリーからクローニングされた cDNA クローンの全長配列 (5’UTR, CDS, 3’UTR を含んでいる)を使って実習します。 5’UTR(5’非翻訳領域), CDS(コード配列), 3’UTR(3’非翻訳領域) >test_DNA_sequence-1(zebrafish_charon) >test_DNA_sequence-2(eel_cathepsin-S) 10 塩基配列(>test_DNA_sequence-1)をアミノ酸配列に変換してみよう 1)利用するウェブサイト:NCBI (National Center for Biotechnology Center) http://www.ncbi.nlm.nih.gov/ 2)使用するアイコン:Open Reading Frame Finder (ORF finder ) open reading frame = 蛋白質をコードする塩基配列の読み取り枠 検索手順 1. NCBI のウェブサイトを開き、左上 Resource List (A-Z)をクリック 2. Open reading frame finder(ORF finder)を開ける 3.アミノ酸配列に変換する 配列(FASTA format)を枠内に配列をコピーする OrfFind ボタンを押す 青で示された部分が、予想されるアミノ酸配列 (センス、アンチセンス鎖の3フレームでの翻訳結果が示される) 通常、一番長いフレームがタンパク質のコード配列である 青のバーをクリックする=塩基配列とアミノ酸配列が表示される 4.推定されたアミノ酸配列を取り出すには Accept ボタンを押す View ボタンを押す:アミノ酸配列データと諸情報が示されている アミノ酸配列をテキストファイル等にコピーする >test_DNA_sequence-1(zebrafish_charon) AACGAAACCTTGAACCGCAAGATTTTTCAACAAATAATCGACTATATGTATTTTTAGAGAGAAATAAATTCCCTCTCTTTTCTTTTTTGTAAAATTCTATAATTTAGCTA AAATGACTTTTCAGGTCGGCTTTTTTGTGCTGTTGTCAGTCACAACAATTGGCGCTTTCCCGCGCAATGCATTTCAGCGGGAATTTCACCGACACGTGGCGAAAGACTTT GAATCCTCCGGGAATGGACCAGACGAACCTGTTCGGGGATCTGTCCGAATTGTCAAACTAAACCCTCATTTTCTGCGCCGGGCCGCCGTTAGTCATGTGCCGTTCAGAAA TTCACCAAGTCGAGGCGCGTTTCCCGCGTTCTTGGCCCTCGGACGTCCGGGCCCCGCAATCCTGACCCATAGCAAACCTGCGCCTCAGGTGAGCAGCAGTGCAGACAGGA GGAAACAAGGGCTCGAGATGTGGAAGAAAGTGGTGCACAAAAGCGAGCGAAAAAAAGAGGCAGTGGCTCTGCGCATCAATCCCAAAGACATGAACAAACAGAGCTGTGCC GCAGTTCCCTTTACACAGCGCATAACGGAGGAGGGCTGTGAGACGGTGACCGTTCACAATAATCTCTGCTACGGTCAGTGCAGCTCCATGTTCGTGCCCTCCAGCGGAGG CTCTCACGGACAACAGAAAGCGCAGTGCATGCGCTGCGGCCCCTCTAGAGCGCGCTCCGTGCTCCTGCACCTGCGCCGCGGGTCTGAGGTGCGGGAGAGGCGCGTACTGA TCGTTGAGGAGTGCAAGTGTGAAACCAGCAGCGAAGAGGCCAAAGTTCAGAACACAGATATGTTTAATTTATAACAGTCATTTTAAAGTTTATAAAAATCGTAA // 次の配列でも練習してみよう >test_DNA_sequence-2(eel_cathepsin-S) ATCACTGCGTCTTGTGTCCTATCGGTCTAGCCTAGCCACTGTCTANAAGCTATAGGAAGGTTTCAGTATTGGGAGCCATGTTTGGGAGCCTGCTGTTCACTGTGCTGTGT GAGGCAGCAGTGGCCCTCATCAACCCAAATCTAAGCCTCCATTGGGAGATGTGGAAGGAGGGACATGACAAGACCTACCTGTTTAAGGCTGAAGAGTTTGCACGCCGCCA 11 GATCTGGGAGAAGAACCTGAAGCTGATAACTCTGCATAATTTGGAGGCGTCCATGGGAATGCACACCTATGATCTGGGCATGAACCACCTAGGAGACTTGACTACCGAGG AGATTCTTGACGTGCTAGCTGTAACTCGTGTGCCTCCAAACTTCAGCAGGGGTCCTTCTCCCTTTGTGGGGGTATCCAGGGCCCCTGTGCCTCACAATGTTGATTGGCGA AGAAAGGGCTATGTCACAGAAGTCAAGAGTCAGGGGCGTTGTGGCTCCTGCTGGGCCTTCAGTGCTGCAGGTGCCCTGGAGGGCCAGCTGATGAAGACTCAGGGAACACT TGTATCCCTCAGCCCTCAGAACCTGGTTGACTGCTCCTACAAATATGGCAACGAGGGCTGTCATGGAGGGTTCATGACTCAAGCCTTCCAGTATGTCATTGAGAACGGGG GCATTGAGTCTGACTTTTCATACCCTTACACTGGCATGGAAGAACAATGCAGATATGATTCAGAACTCCGTGTTGCCAACTGTTCCAGCTACAGGTTTCTTCCTGAAGGT GATGAGGTTGCATTAAAATGGGCTCTGGCCACTGTTGGACCAATCTCTGTGGCTATTGATGCTGCTCGACCTAATTTCCACTTCTACCGGAGTGGTGTGTACCATGACCC TACCTGTACCCAAGAAGTAAACCATGGTGTTCTAGCAGTTGGCTATGGTACGCTCAATGGTGAGGACTACTGGCTTGTGAAGAACAGCTGGGGACAGCCTTTTGGGGAAC AGGGCTACATTCGCATGGCACGAAACAAGAACAACCAGTGTGGCGTTGCCTTGTATGCCTGCTACCCCATTATGTGACGACCTGAAGCAAAGGATTGATTTCTAACTTGA AACATTTTAAAATTTTTATTTTGATTTGCACCTGTGCATGTTACTGATTTGTAAAGAATACTGTTAAAATGATTTGTATTAAAAAAATATATATTTTTAGATGTGGAATT TTAGTTGAACCTAAATAAATAAATGTAAAAAAAAA // 12 10 月 28 日(第 4 回) 今日の授業内容 1. Whole genome shotgun sequence についての解説 2. 実習:配列検索(BLAST)(1/2) 講義 Whole genome shotgun sequence の原理について、配付資料を使って説明します. ———————————————————————————————— 実習 ホモロジー検索(BLAST 検索)1/2 遺伝子やゲノムを扱う研究で使用する機会が最も多いプログラムが、塩基配列やア ミノ酸配列のホモロジー(相同性)検索プログラムです。新しい遺伝子を発見した時、 最初に行う操作が相同性検索だからです。相同性検索により、クローニングした遺伝 子が、データベースに登録されているどの遺伝子に類似しているかを調べることがで きます。最近では、次世代シーケンサー解析で得られた配列をゲノムにマップする際 にも BLAST 検索が用いられます。ゲノム解読されている生物であれば、100bp の短い 配列(次世代シーケンサーの解析では、1 リードは 100bp)でもゲノムのどの位置に あるかを調べることもできます。 授業では、BLAST (Basic Local Alignment Search Tool)プログラムを用います。 今日は、塩基配列・アミノ酸配列のデータベース、問い合わせ配列とデータベース の組合せ、各組合せで使う BLAST プログラムについて説明します。そのあとテスト 配列を使って、実際に BLAST 検索を行います。 ホモロジー(homology)検索 問い合わせ配列(query sequence)に対し、類似した配列をデータベースから探 し出す操作。最も高頻度に利用されるバイオインフォマティックスの手法のひ とつ。 検索内容: 例)実験でクローニングした遺伝子の種類を特定する。それがコードするアミ ノ酸配列がデータベースに登録されている遺伝子、蛋白質のどれと、またどの 程度類似するか? 13 遺伝子配列データベース:GenBank, DDBJ, EMBL 最も広く利用されており、検索が高速なプログラムが BLAST(昔、FAST と言う プログラムも使われていたが、現在はあまり見かけない) --------------------------------------------------------------------検索の組合せ 問い合わせ配列 対 データベース --------------------------------------------------------------------BLASTN 塩基配列 対 塩基配列データベース BLASTP アミノ酸配列 対 アミノ酸配列データベース BLASTX 塩基配列(アミノ酸配列に置換) 対 アミノ酸配列データベース TBLASTN TBLASTX アミノ酸配列 対 塩基配列データベース(アミノ酸配列に置換) 塩基配列(アミノ酸配列に置換) 対 塩基配列データベース塩基配列(アミノ酸配列に置換) 配列の種間変異の激しい遺伝子の場合(サイトカイン等)、塩基配列を BLASTN 検 索してもヒットしないことがある。その場合には、BLASTX or TBLASTX を使うとよ い。いずれにしても、塩基配列から相同遺伝子を検索する場合、BLASTN よりも BLASTX の方が効率的である。 ************************************************************************** BLAST 検索の原理 1.ホモロジーが観察される配列間の局所アライメントには、多くの場合、ギャップ を含まない保存領域が存在する。BLAST では、そのような局所保存領域(ワード) をまず高速に検索する。 2.一致したワードからアライメントを配列に沿ってそれぞれの方向に拡張していき、 スコアが増加するまで続ける。拡張処理は、スコアの増加が止まり、伸ばす前の ベストスコアより減少し始めた時に終了する。この時点で、HSP (high-scoring segment pair)と呼ばれる、大きな配列領域が見つかる。この時点でギャップがあ るとそこから先には伸長していない。 3.一般に、アミノ酸配列と塩基配列にはギャップが生じているため、HSP のみでは 類似領域の検索として不十分である。そこで、BLAST では、HSP において対応する 位置に存在する 1 組の記号のペアを適切に選び、類似度の高い領域はこのペアを 含むものと仮定して、動的計画法と呼ばれる方法を用いて類似領域を探索する。 HSP から選んだペアを起点として探索範囲を狭く取ることによって、類似度の最 適性は保証されないものの、従来の動的計画法と比較して高速な類似領域の探索 を実現している。 (詳細は、11 月 25 日に酒井先生が解説します。) スコア 14 アミノ酸配列の場合:BLOSUM62 スコア(アミノ酸の組合せによって値が決められてい る) 塩基配列の場合:値は同じ塩基、異なる塩基の組合せでのみ決められている ———————————————————————————————— BLASTP 実習 先週使ったものと同じ、>test_DNA_sequence-1(私の研究グループで単離した遺伝 子で、既にデータベースに登録済みである:由来生物 zebrafish.遺伝子名 charon、 機能=内臓・脳の非対称性制御)の塩基配列とアミノ酸配列を下に示しました。試 しにこのアミノ酸配列で BLASTP 検索してみよう. BLASTP の操作手順 1.NCBI 先頭ページ右上 Popular Resources から BLAST を選択する。Basic BLAST に上記 5 種類の BLAST プログラムのアイコンがある。 2.protein blast をクリックする。アミノ酸配列(FASTA format)を枠内 に コ ピ ー す る 。 Database (non-redundant ), Algorithm (blastp; protein-protein BLAST)は、デフォルトのままでよい。 3.BLAST のボタンを押して、検索を開始する。 >test_DNA_sequence-1(zebrafish_charon)_peptide MTFQVGFFVLLSVTTIGAFPRNAFQREFHRHVAKDFESSGNGPDEPVRGSVRIVKLNPHFLRRAAVSHVPFRNSPSRGAFPAFLALGRPGPAILTHSKPAPQVSSSADRR KQGLEMWKKVVHKSERKKEAVALRINPKDMNKQSCAAVPFTQRITEEGCETVTVHNNLCYGQCSSMFVPSSGGSHGQQKAQCMRCGPSRARSVLLHLRRGSEVRERRVLI VEECKCETSSEEAKVQNTDMFNL データベースに登録されている PSI-BLASTP, PHI-BLAST: 比較的最近開発されたプログラムで、系統的に離れた生物あるいは関連遺伝子を検索す る場合に利用する.種間の保存性が低い遺伝子の場合に利用価値が高い. 検索結果の見方: グラフィックの次に示されているリスト E-value:検索結果は、Query 配列と相同性を示す配列のアライメント結果 が表示される。e-value は、検索に使ったデータベースのなかで、Query の局所配列と検索配列の組合わせが、偶然にみつかる個数を示す。相同 性が高いほど、値は 0 に近づく(最も重要なデータ:蛋白質の場合、e-5 あたりが関連遺伝子か、そうでないかを判断する基準となる)。 Total score (bits): 検索されてきた局所配列の長さをビット形式で示し たもの。値が大きいほど、相同性を示す領域が長い。 Query cover: 問合せ配列の全長のうち、検索配列と配列が一致している領 域の% 15 Identities:アミノ酸配列で、相同領域のなかで一致しているアミノ酸の比 率 アライメントの添えられている数字(上のリストにないデータ) Positives: アミノ酸配列の場合に、一致しているアミノ酸+化学的に類似 するアミノ酸の比率 Gaps:アライメントされた配列で、片一方で欠損している塩基あるいはアミ ノ酸の総計 16 11 月 4 日(第 5 回) 今日の授業内容 1. ヒトゲノムの特徴、医療への利用 2. 実習:配列検索(BLAST)2/2) 講義 ゲノム解読で明らかになったヒトゲノムの特徴、医療への利用について簡単に紹介します 実習 ホモロジー検索(BLAST 検索)1/2 BLASTN 実習 blastn を使って、>test_DNA_sequence-1 の相同遺伝子を検索してみよう BLASTN の検索手順 1.NCBI、Popular Resources の中から BLAST を選択する。Basic BLAST に 上記 5 種類の BLAST プログラムのアイコンがある。 2.nucleotide blast をクリックする。 「Database」が、デフォルトでは nucleotide collection (nr/nt) で、このままでよい。 注意:Program selection で somewhat similar sequences (blastn) を選択する。 3.塩基配列(FASTA format)を枠内にコピーする。 4.BLAST のボタンを押して、検索を開始する。 >test_DNA_sequence-1(zebrafish_charon) AACGAAACCTTGAACCGCAAGATTTTTCAACAAATAATCGACTATATGTATTTTTAGAGAGAAATAAATTCCCTCTCTTTTCTTTTTTGTAAAATTCTAT AATTTAGCTAAAATGACTTTTCAGGTCGGCTTTTTTGTGCTGTTGTCAGTCACAACAATTGGCGCTTTCCCGCGCAATGCATTTCAGCGGGAATTTCACC GACACGTGGCGAAAGACTTTGAATCCTCCGGGAATGGACCAGACGAACCTGTTCGGGGATCTGTCCGAATTGTCAAACTAAACCCTCATTTTCTGCGCCG GGCCGCCGTTAGTCATGTGCCGTTCAGAAATTCACCAAGTCGAGGCGCGTTTCCCGCGTTCTTGGCCCTCGGACGTCCGGGCCCCGCAATCCTGACCCAT AGCAAACCTGCGCCTCAGGTGAGCAGCAGTGCAGACAGGAGGAAACAAGGGCTCGAGATGTGGAAGAAAGTGGTGCACAAAAGCGAGCGAAAAAAAGAGG CAGTGGCTCTGCGCATCAATCCCAAAGACATGAACAAACAGAGCTGTGCCGCAGTTCCCTTTACACAGCGCATAACGGAGGAGGGCTGTGAGACGGTGAC CGTTCACAATAATCTCTGCTACGGTCAGTGCAGCTCCATGTTCGTGCCCTCCAGCGGAGGCTCTCACGGACAACAGAAAGCGCAGTGCATGCGCTGCGGC 17 CCCTCTAGAGCGCGCTCCGTGCTCCTGCACCTGCGCCGCGGGTCTGAGGTGCGGGAGAGGCGCGTACTGATCGTTGAGGAGTGCAAGTGTGAAACCAGCA GCGAAGAGGCCAAAGTTCAGAACACAGATATGTTTAATTTATAACAGTCATTTTAAAGTTTATAAAAATCGTAA Blastn の利用例: とりあえず調べたい遺伝子が、既知のどの遺伝子に類似するか?を調べ る時等に使う。ただし、生物間で変異の激しい遺伝子(実習で使う charon が一例)の場合には、Blastn では相同遺伝子が十分に検索されてこない ことがあるので、遺伝子を特定するためには、次の Blastx を使う方がよ い。 次世代シーケンス解析で得られた断片(100bp)をゲノムにマップする 時は Blastn を用いる。 同じ遺伝子の配列>test_DNA_sequence-1(zebrafish_charon)なのに、blastp と blastn で検索されてくる遺伝子・蛋白質の数が違うことに注意!(その理由を理 解して下さい) BLASTX 実習 blastX を使って、>test_DNA_sequence-1 の相同遺伝子を検索してみよう blastx の特性: このプログラムでは、遺伝子がコードするアミノ酸配列と相同性の高い蛋 白質を探す。問い合わせ塩基配列は、一度 6 フレームで翻訳され、翻訳さ れた配列がアミノ酸配列データベースに対して検索にかけられている。 アミノ酸置換の激しい遺伝子の相同性検索に非常に有効。 進化的に離れた生物から相同遺伝子を探す場合にも有効。 次世代シーケンサーを使った de novo トランスクリプトーム解析で得ら れた配列を同定する場合、BLASTX を使用する。 TBLASTN の検索手順 tblastx を使って、>test_DNA_sequence-1 の相同性検索を試してみよう tblastx の特性: 問い合わせの塩基配列、データベースの塩基配列とも3フレームで翻訳さ れ、検索にかけられている。 Tblastx の利用例: 単離した遺伝子がコードするアミノ酸配列と相同性の高いアミノ酸配列 をコードする塩基配列を探す。配列の変異が激しい遺伝子種の場合に有効。 18 練習 PCNA は DNA 複製で働くタンパク質で、バクテリアからヒトまで配列の保存性 が非常に高い。この配列で BLASTN 検索して、>test_DNA_sequence-1 の検索 結果との違いを考えてみよう。 対象生物をイネに限定して、イネゲノムに相同遺伝子が存在するか調べてみ よう。また、バクテリアのゲノムで試してみよう。 >zebrafish_PCNA_cDNA ACTTTAGTTCCTCCTACTCCAAACTAAGAAAGCAGCACAATGTTTGAGGCACGTCTGGTTCAGGGATCTATCCTTAAGAAGGTCCTGGAGGCTCTGAAAGACCTGATCAC CGAGGCTTGCTGGGATGTGAGCTCGTCGGGCATTTCTCTGCAGAGTATGGACTCCTCTCATGTGTCTCTGGTGCAGCTGACGCTCCGGAGTGACGGGTTCGACTCCTACC GCTGCGACAGAAACCTAGCCATGGGGGTCAATCTGAGCAGCATGTCGAAGATTCTGAAGTGTGCTGGAAATGAAGACATCCAGACACTTAGAGCTGAAGACAATGCTGAC ACGCTGGCACTGGTCTTTGAAGCTCAAAATCAGGAGAAAGTGTCCGACTATGAGATGAAACTGATGGATCTGGATGTGGAGCAGCTTGGCATTCCAGAGCAGGAATACAG TTGTGTGGTGAAGATGCCGTCGGGTGAGTTTGCCCGCATCTGCAGGGATCTGTCACAGATTGGTGATGCTGTCATGATCTCGTGTGCCAAGGATGGCGTGAAGTTCTCTG CTAGCGGAGAGCTGGGCACAGGCAACATCAAGCTCTCACAGACCAGCAATGTCGACAAGGAGGATGAAGCGGTAACAATTGAGATGAATGAGCCAGTGCAGCTCATTTTT GCATTGAACTACCTGAACTTCTTCACCAAGCCAACTCCTCTGTCCAGAACGGTCACACTTAGAATGTCCGCACATATTCCACTAGTGGTTGAGGACAAAATTGCAGACCT TGAACACGTAAAATATTACCTGGCGCCCCAGATCGAGGATGAAGAGTCCTCCTAATCCAAGCAGAAGAGCGAAGCCTGTCATCTGTGGGATTTTCATTCTGCAACTCAGA AGTTATTGCATAGATGTTTTGGGAAAATGCATTTTATTACTCAGTGTCTGCTGTGGTTTCCAGTTCAATGGATTCCCGATTGTGACCCTCTAAAGCCATTACATATCATT GGCAGAATTGCGGGCGCACTTATTAAATGATGGTAGTTTGGGCCTTAGCTTTACCAGGCGCTCCGTGGGCTGAATCTAGAGTGCTCTCATGTACATACTCCACATTCAGT CTTGTTTTTCTCCCTTTTTGCCGTTGTCCTCTTGTGTCCATTTCAGGTTTTGTCCAACTGCTCATTCCAATGTGTAGATAATTGTCTGTAAATATGCTAATTGGACACCG TTCATCCAGTCAACCCGTAATAAAACTGTTGTATCGG >zebrafish_PCNA_Protein MFEARLVQGSILKKVLEALKDLITEACWDVSSSGISLQSMDSSHVSLVQLTLRSDGFDSYRCDRNLAMGVNLSSMSKILKCAGNEDIITLRAEDNADALALVFETLNQEK VSDYEMKLMDLDVEQLGIPEQEYSCVVKMPSGEFARICRDLSQIGDAVMISCAKDGVKFSASGELGTGNIKLSQTSNVDKEDEAVTIEMNEPVQLIFALNYLNFFTKATP LSKTVTLSMSADIPLVVEYKIADMGHVKYYLAPKIDEESS 19 11 月 11 日(第 6 回) 配列情報と文献の検索 研究計画を立てる場合、その研究に関連した論文をリストアップして、既に報告さ れている成果を調べておくことが不可欠です。この操作により、これから進める研究 テーマについて、研究がどこまで進んでいるのか、何が分かっていないのかを調べる 訳です。そして未知の生物現象を解明するのに、最も有効な計画を立案します。もち ろん研究で遺伝子を扱う場合、その遺伝子の配列、これまでに分かっている性質を調 べておくことも重要です。この検索操作をちゃんとしておかないと、「せっかく得ら れた実験成果が既に報告されていた」と言うような悲惨なことも起きかねません。 また卒業論文や投稿用論文の作成時には、緒言に研究の歴史と背景、研究内容の意 義を述べ、考察では実験結果と既知の成果を比較検討し、研究で得られた新しい知見 を議論します。論文を仕上げる時にも、関連論文を収集して精査する必要があります。 さらにクローニングした遺伝子と関連遺伝子とのアライメントを行うことが必要にな ること、分子系統樹を作成するのに関連遺伝子をデータベースから引き出してくるこ とが必要となることがあります。 例えば、自分の研究でウシやブタなどの家畜、あるいは作物で遺伝子をクローニン グしたとします。遺伝子機能に関する研究が進んだ現在では、モデル生物(マウス、 ニワトリ、ゼブラフィシュ、ショウジョウバエ、線虫、酵母、シロイズナズナ等)の どれかで相同遺伝子の機能が解析され、論文の形で出版されていることがほとんどで す。その論文を読めば、クローニングした遺伝子の持つ機能の概要を知ることができ ます。データベースを利用すれば、この様な情報も簡単に収集できます。遺伝子を BLAST 検索し、モデル生物の相同性の高い遺伝子配列を探し、そこから文献情報を探 すことが可能です。 今日は、研究計画を立てる時や論文を書く際、クローニングされた遺伝子の関連情 報検索に必要な、データベースからの遺伝子の塩基配列・コード配列(既に実習済み)、 論文の検索、機能情報の収集操作について実習します。 文献の検索には、 (1)NCBI の PuBMed、 (2)大学の図書館のオンラインジャーナル、 (3) Scopus(Elsevier 社の有料検索システム)が利用できます。PuBMed の使い勝手が最近 非常によくなったので、ほとんどのことは PuBMed ですみます。従って、PuBMed の使 い方を中心に演習し、大学の図書館のオンラインジャーナルについて少し解説を加え ます。 文献検索を使う目的には、下記のように幾つかのシチュエーションに分かれます。い 20 ずれも PuBMed で可能です。 1.特定の論文をダウンロードしたい。 2.ある研究者がどのような論文を出版しているか知りたい 3.ある生物現象に関する論文をもれなく調べたい。 4.論文の考察に関連する論文を探したい 5.扱う遺伝子に関連する論文を調べたい。 文献の検索 使用するウェブサイト:NCBI 使用するアイテム: PubMed 上の枠の下にある Advanced ボタンを使う。 左の All Fields ボタンをクリックすると、著者名、出版年度、タイトル中の ワード、Abstract 中のワード、Journal(雑誌)名で検索できるシステムにな っている。これらをうまく使うと上の検索が可能である。それぞれについて試 してみよう。東北大学が購読契約している雑誌、あるは Plos One のような on-line journal であれば、検索結果のページから pdf ファイルを見て、プリ ント、ダウンロードできる。 1.特定の論文をダウンロードしたい。 例えば、山中先生がノーベル賞をもらうことになった iPS 細胞の論文を探し てみよう。 Author: Yamanaka Shinya Journal: Cell 2.ある研究者がどのような論文を出版しているか知りたい 例えば、私と研究室の助教の横井さんの共著論文を探してみよう。 Author: Suzuki T Author: Yokoi H 3.ある生物現象に関する論文をもれなく調べたい。論文の考察に関連する論文を探 したい。 例えば、魚類の iPS 細胞に関する論文が出版されているか? Title/Abstract: Fish Title/Abstract: iPS cell 成長ホルモンの日周リズムに関する論文を知りたい Title/Abstract: growth hormone 21 Title/Abstract: circadian rhythm 4.扱う遺伝子に関連する論文を調べたい。 例えば、癌遺伝子 Brca2 に関する論文を調べたい。 Title/Abstract: Brca2 Title/Abstract: human or mouse or zebrafish BLAST 検索結果から、検索した遺伝子に関する文献情報を収集することもできます。 リストアップされてきた遺伝子の名称がアクティブで、それをクリックすると配列情 報に加えて、PUBMED の番号を添えた形で関連の論文もリストアップされています。 PUBMED 番号をクリックすると文献情報に入ることができます。 test_sequence-1 で試してみよう。 >test_sequence-1(zebrafish_charon)_peptide MTFQVGFFVLLSVTTIGAFPRNAFQREFHRHVAKDFESSGNGPDEPVRGSVRIVKLNPHFLRRAAVSHVPFRNSPSRGAFPAFLALGRPGPAILTHSKPAPQVSSSADRR KQGLEMWKKVVHKSERKKEAVALRINPKDMNKQSCAAVPFTQRITEEGCETVTVHNNLCYGQCSSMFVPSSGGSHGQQKAQCMRCGPSRARSVLLHLRRGSEVRERRVLI 「電子ジャーナル」へのアクセスの方法 東北大学ホームページ→東北大学付属図書館→電子ジャーナルリスト(学内者限 定)→雑誌名のキーワード検索 OR アルファベット順で検索→volume, page 入 力・検索 「Scopus」を使った検索 「使用方法」 東北大学付属図書館→情報検索→データベース・ツールインデックス→Scopus 「Scorpus の特徴」 PubMed:医学に関係した論文を中心にデータベース化しており、生態学や資源学の雑 誌は、データに登録されていないことが多い。医学系ではほぼ事足りる。ただし、生態学 や資源学の雑誌はデータに含められていないものが多い。 Scorpus:ほぼ全ての分野の論文が、データとして収められている。生態学や資源学の論 文も検索できる。 キーワードで文献を網羅的に収集できる Search field で Abstract を選択→Add search field で検索項目を 3 個程度に増やす → 調 べ た い 内 容 で 代 表 的 な キ ー ワ ー ド を 入 力 → 検 索 ( 例 : zebrafish, nodal, development で試してみよう) 22 11 月 18 日(第 7 回) 実習 —NCBI Map Viewer の利用— NCBI の Map Viewer ではゲノム解読が行われた生物種ごとに、遺伝子の染色体上の位置を 調べること、BLAST 検索を行うことができます。授業では、Map Viewer を使って、4 つの使用 法を実習します。 NCBI Map Viewer の利用(1/4) —遺伝子の染色体上の位置を調べるー 1.NCBI 先頭ページ All resources の Map Viewer を開ける 2.ゲノム塩基配列が公開されている生物種一覧が表示される 3.調べたい生物の Tools から虫眼鏡マークをクリック 4.Search for の枠に遺伝子名を記入し、リターンキー(or Find)を押す 5.遺伝子の位置が染色体上に赤く示される。下の Map element を選択すれば、より 詳細なゲノム情報が表示される。 ヒト染色体における遺伝子の位置(遺伝子座)を検索してみよう 練習:sonic hedghog (shh)を検索してみよう 1.NCBI で Map Viewer を開ける 2.Homo sapiens (human)の Tools から虫眼鏡マークを選択 3.Search for に shh を記入して、Return 4.Map element のなかから SHH を選んでクリック 5.shh の染色体上の位置、周辺の遺伝子が表示される 6.Zoom out、Zoom in してみよう 7.SHH をクリックすると、SHH 遺伝子のイントロン・エクソン構造、変異によ る病状等についての情報が得られる 8.OMIM (OMIM は KEGG にもリンク), HGNC (HUGO nomenclature committee; HUG0=human genome organization) を開けると、変異による異 常や分子構造の特性に関する情報が得られる ウシ、ニワトリ、ゼブラフィッシュでも shh でキーワード検索してみよう NCBI Map Viewer の利用(2/4) —さまざまな生物のゲノムデータベースの利用— NCBI, Map Viewer では、バクテリアから植物、哺乳類に至るまで多様な生物のゲノム情報 が利用できます。ヒトが持っている遺伝子の相同遺伝子を進化的にたどって、どの生物にま で存在しているかと言う疑問についても、BLAST 検索によってたどることができます。 23 練習:ヒトの増殖細胞核抗原(PCNA: proliferating nuclear antigen)の相同遺伝子をイネゲノ ム(Oryza sativa (japonica cultivar-group))、バクテリアから探してみよう。 マウスビタミンD受容体の相同遺伝子が、ショウジョウバエ、原生動物(アメーバー)、イネに 存在するかどうかも試してみよう。 バクテリアのゲノム検索では、small genome に入り、種を指定し、検索する。 >human_pcna MFEGRLVQGSILKKVLEALKDLINEACWDISSSGVNLQSMDSSHVSLVQLTLRSEGFDTYRCDRNLAMGVNLTSMSKILKCAGNEDIITLRA EDNADTLALVFEAPNQEKVSDYEMKLMDLDVEQLGIPEQEYSCVVKMPSGEFARICRDLSHIGDAVVISCAKDGVKFSASGELGNGNIKLS QTSNVDKEEEAVTIEMNEPVQLTFALRYLNFFTKATPLSSTVTLSMSADVPLVVEYKIADMGHLKYNLAPKIEDEEGS >mouse_vitamin_D_receptor MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDC RITKDNRRHCQACRLKRCVDIGMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAI LLDAHHKTYDPTYADFRDFRPPIRADVSTGSYSPRPTLSFSGDSSSNSDLYTPSLDMMEPASFSTMDL NEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFAKMIPGFRDLTSDDQIVLLKSSAIEVIMLRSNQ SFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNLHEEEHVLLMAICIVSPDRPG VQDAKLVEAIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLSFQPENSM KLTPLVLEVFGNEIS NCBI Map Viewer の利用(3/4) —特定の生物のゲノムに存在するフ遺伝子ァミリーのメンバーの検索— 多くの遺伝子には、生物進化の過程で共通の遺伝子から派生した兄弟遺伝子が存在しま す。またそのメンバーは進化に伴って増える傾向にあります。マウスならマウスのゲノムに対 して、あるメンバーでゲノムを検索することにより、進化的に関連して部分的にでも共通の配 列を持つメンバーを全て検索することができます。今回は、マウスゲノムに存在する核レセプ ターファミリーのメンバー、及び G タンパク共役受容体のメンバーを探す操作を実習します。 練習:マウスゲノムに核受容体ファミリーのメンバーが幾つ存在するか? 1.NCBI の Map Viewer(ページ下、POPULAR)を開ける 2.Mus musculus の Tools から B(BLAST)を選択 3 . mouse_vitamin_D_receptor の 配 列 を 枠 に コ ピ ー し 、 Program か ら BLASTP を選択し、Begin Search をクリック 4.マウスゲノムに存在する核レセプターファミリーの全てのメンバーが検 索されてくる。60 種類あまり存在することが分かる 5.上の方にある Genome View をクリックしてみよう:検索されてきた遺伝子 24 の染色体上の位置が表示される >mouse_vitamin_D_receptor MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQA CRLKRCVDIGMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPP IRADVSTGSYSPRPTLSFSGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQ KVIGFAKMIPGFRDLTSDDQIVLLKSSAIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQ VGLKKLNLHEEEHVLLMAICIVSPDRPGVQDAKLVEAIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNE EHSKQYRSLSFQPENSMKLTPLVLEVFGNEIS G-protein coupled receptor のメンバーで試してみよう。 >human_MC4R MVNSTHRGMHTSLHLWNRSSYRLHSNASESLGKGYSDGGCYEQLFVSPEVFVTLGVISLLENILVIVAIAKNKNLHSP MYFFICSLAVADMLVSVSNGSETIVITLLNSTDTDAQSFTVNIDNVIDSVICSSLLASICSLLSIAVDRYFTIFYALQ YHNIMTVKRVGIIISCIWAACTVSGILFIIYSDSSAVIICLITMFFTMLALMASLYVHMFLMARLHIKRIAVLPGTGA IRQGANMKGAITLTILIGVFVVCWAPFFLHLIFYISCPQNPYCVCFMSHFNLYLILIMCNSIIDPLIYALRSQELRKT FKEIICCYPLGGLCDLSSRY 練習:ショウジョウバエのゲノムには、核受容体ファミリーのメンバーが幾つ存 在するでしょうか? ホヤ(Ciona intestinalis)でも検索してみよう NCBI Map Viewer の利用(4/4) —次世代シーケンス解析で得られた配列の染色体へのマッピング— 最も汎用されている次世代シーケンサーである Illumina2000 では、一度の解析で 100b の断片配列が約 4000 万個得られます。ゲノム解析が行われている生物では、このような 短い断片でも染色体にマッピングできます。さらに参照ゲノムと塩基配列の違いがあるか どうか、遺伝子疾患の原因が解析された個人のゲノムに存在しているかどうかも判定可能 です。 練習: BLAST 検索で human を選択して、次の配列をゲノムにマッピングしてみよう。 >human_100bp_fragment CCAAATTTAATTGATAATGGAAGCTGGCCAGCCACCACCATACAGAATTCTGTAGCTTTGA AGAATGCAGGTTTAATATCCACTTTGAAAAAGAAAACAA 25 講義 塩基配列あるいはアミノ酸配列を比較する場合、アライメントプログラムを使いま す。タンパク質の場合、アミノ酸配列をアライメントすることにより、保存性の高い 領域を知ることができます。系統的に隔たった生物間(例えば、マウスとゼブラフィ ッシュ、あるいはマウスと酵母の関係等)で保存性が高い領域は、タンパク質の機能 で重要な役割を持った領域であると考えられます。またシステイン残基は、タンパク 質の高次構造に深く関わるジスルフィド(S-S)結合を作る場合が多いため、タンパク 質間での保存性を調べることは重要です。 ClustalW プログラムを使うと、多重(マルチプル)アライメントの結果から分子系 統樹を作成できます。分子系統樹では、遺伝子の種間あるいは同種間における進化的 関係を予測することができます。種間の進化的関係では、異なる生物間における相同 遺伝子(オーソログ)を同定することが可能です。同種間で関連遺伝子の系統樹を作 成すると、遺伝子ファミリーのメンバーの進化的関係が分かります。またモデル生物 (マウス、ゼブラフィッシュ)の配列を分子系統樹に加えることで、研究対象の遺伝 子に対するモデル生物のオーソログを検索し、モデル生物の情報からから、研究対象 の遺伝子の機能についておおよその情報を得ることができます。 授業では、ペアワイズアライメント(2つの配列を比較)、マルチプルアライメント(3つ以 上の配列を比較)および分子系統樹の作成(来週)を実習します。 配列アラインメント 配列アラインメントとは、配列中で同じ並び方をしている文字列を探すことである。同一も しくは似た文字は同じ列に置き、同一でない文字は同じ列に不一致として置くか、ギャッ プを入れる。 ペアワイズアラインメント (pairwise alignment):2つの配列の比較 大域的アラインメント (global pairwise alignment) 局所的アラインメント (local pairwise alignment) 多重配列アラインメント (multiple alignment):3つ以上の配列の比較 ************************************************************************ 実習 Alignment Pairwise alignment 1)使用するウェブサイト:http://www.ebi.ac.uk/Information/(Internet explorer を使って EBI で検索) 26 2)Services の中から Proteins を選択。→リストの中から EMBOSS Tools(Pairwise Sequence Alignment)を選択 Local alignment → Matcher (protein) 2 つの枠内に配列をペーストして Submit 練習: 下の gnrh(gonadotropin-releasing hormone; 生腺腺刺激ホルモン)からヒトと ゼブラフィシュを選んでアラインメントを実行してみよう。 次に、ヒトとホヤ(Ciona)で実行してみよう Global alignment → Needle (protein) Needle, Protein を選択し 2 つの枠内に配列をペーストして Submit 練習:上と同じ入力を行い、結果の違いを理解しよう >human_GNRH1 MKPIQKLLAGLILLTSCVEGCSSQHWSYGLRPGGKRDAENLIDSFQEIVKEVGQLAETQRFECTTHQPRSPLRDLKGALESLIE EETGQKKI >mouse_Gnrh MILKLMAGILLLTVCLEGCSSQHWSYGLRPGGKRNTEHLVESFQEMGKEVDQMAEPQHFECTVHWPRSPLRDLRGALESLIEEE ARQKKM >chicken_Gnrh1 MEKSRKILVGVLLFTASVAICLAQHWSYGLQPGGKRNAENLVESFQEIANEMESLGEGQKAECPGSYQHPRLSDLKETMASLIE GEARRKEI >xenopus_GnRH1 MKAFPTFALLFLVLLFSAHVSDAQHWSYGLRPGGKRDTESLQDMYHETPNEVALFPELERLECSVPQSRLNVLRGALMNWLEGE NRKKI >zebrafish_gnrh2 MVLVCRLLLVVGLMLCLSAQLSSAQHWSHGWYPGGKREIDLYDTSEVSEEVKLCEAGKCSYLRPQGRNILKTILLDALIRDFQK RK >ciona_gnrh1 MLDIEKDELAALLQRENSAFRDLLYHKNAGNFEKSDSGKFGSLKPQNNFPHLDLGLGVDLDAVDQWNRYKQANAQRMQDLGVPV NARQHWSYEFMPGGRRAAWENANVGVPVSRQHWSYEYMPGGRRSAGRHAMTKRQHWSKGYSPGGKRSVDLSEFDDQGRRITKHE GMPEEPFKVEQPRPRNGIHGPAGLDQNEPDWKNWMNEQPAVSSDDKGSDVE GNRH: 生腺刺激ホルモン放出ホルモン.視床下部で合成され、下垂体門脈経路を介して下垂体前葉に運ばれ、生腺 刺激ホルモンである黄体形成ホルモン(LH)と濾法刺激ホルモン(FSH)の産生と放出を促進する神経性ペプ チドホルモン. ホルモン前駆体として合成されたあと酵素により切断され、ヒトでは HWSYGLRPG ペプチドがホルモンとして 機能する。 27 Ciona: カタユレイボヤ(ホヤの仲間で日本の研究グループによってゲノムシークエンスが解読された) 28 11 月 25 日(第 8 回) 鈴木不在(分子生物学会に出席)のため酒井先生が代わりに下記の内容で授業を行いま す。 配列のアラインメント手法とBLAST検索の原理 ・配列のアラインメントとは ・全域アラインメントと局所アラインメント ・アミノ酸置換行列 ・動的計画法に基づく局所アラインメントの求め方 ・BLASTはどのように検索を行っているのか (動的計画法との違いと、それにともなう利点、問題点) 進化系統樹とCLASTAL Wで用いられている近隣結合法の原理 ・種の進化モデル ・分子時計仮説 ・ウルトラメトリック木と加法木 ・UPGMA法 ・近隣結合法 以上について概説する。 同内容の詳細については3年前期「生物生産情報処理概論」にて講義する。 29 12 月 2 日(第 9 回) 分子系統樹:Phylogenetic tree, Evolutionary tree 分子系統樹(進化系統樹)(molecular phylogenetic tree, evolutionary tree) 塩基配列やアミノ酸配列を基に分岐位置と分岐時間を推定し、構築された系統樹 近接接合法 (neighbor-joining method): 距離行列法で作成する分子系統樹の作 成方法で、生物分野で最も一般的に利用される。 キーワード 節、枝、クラスター (cluster)あるいはクレード(clade) Outgroup、Bootstrap value(ブーツストラップ値)、Evolutionary distance 分子系統樹の利用 (1) 遺伝子の同種間、異種間での系統関係の解析 (2) 遺伝子ファミリーに属するメンバーの系統関係の解析 (3) 重複遺伝子の重複時期と進化的関係の解析 (4) 種や系統の進化的関係の推定 分子系統樹から、様々な情報を読み取ることができます。異なる生物達の関連(ホ モログ)遺伝子で分子系統樹を作製すると、遺伝子の進化的関係を予測することがで きます。またミトコンドリア DNA の配列を使うと、人種の類縁関係や進化的関係を 解析することが可能です。授業では、分子系統樹の作製方法とデータの見方を講義し ます。 分子系統樹の作製 ClustalW を使った Multiple alignmen と分子系統の作成 1)使用するウェブサイト ClustalW http://clustalw.genome.jp/ 2)Fasta format で並べた配列を枠内にペーストし、execute multiple alignment を押す (各種ボタンはデフォルトでよい) 練習:下の gnrh (gonadotropin-releasing hormone)のうち、>ciona_gnrh1(ホ ヤ)を除く配列でアラインメントを実行してみよう。次に、>ciona_gnrh1 を入れ てアラインメントを実行し、結果を比べてみよう。 上に Multiple sequence alignments の結果が表示される。 その下にある select tree menu で表示形式を選択して、Exec をクリックする 表示形式、N-J tree branch length と Unrooted dendrogram の結果を比較 してみよう 30 >human_GNRH1 MKPIQKLLAGLILLTSCVEGCSSQHWSYGLRPGGKRDAENLIDSFQEIVKEVGQLAETQRFECTTHQPRSPLRDLKGALESLIE EETGQKKI >mouse_Gnrh MILKLMAGILLLTVCLEGCSSQHWSYGLRPGGKRNTEHLVESFQEMGKEVDQMAEPQHFECTVHWPRSPLRDLRGALESLIEEE ARQKKM >chicken_Gnrh1 MEKSRKILVGVLLFTASVAICLAQHWSYGLQPGGKRNAENLVESFQEIANEMESLGEGQKAECPGSYQHPRLSDLKETMASLIE GEARRKEI >xenopus_GnRH1 MKAFPTFALLFLVLLFSAHVSDAQHWSYGLRPGGKRDTESLQDMYHETPNEVALFPELERLECSVPQSRLNVLRGALMNWLEGE NRKKI >zebrafish_gnrh2 MVLVCRLLLVVGLMLCLSAQLSSAQHWSHGWYPGGKREIDLYDTSEVSEEVKLCEAGKCSYLRPQGRNILKTILLDALIRDFQK RK >ciona_gnrh1 MLDIEKDELAALLQRENSAFRDLLYHKNAGNFEKSDSGKFGSLKPQNNFPHLDLGLGVDLDAVDQWNRYKQANAQRMQDLGVPV NARQHWSYEFMPGGRRAAWENANVGVPVSRQHWSYEYMPGGRRSAGRHAMTKRQHWSKGYSPGGKRSVDLSEFDDQGRRITKHE GMPEEPFKVEQPRPRNGIHGPAGLDQNEPDWKNWMNEQPAVSSDDKGSDVE このサイトでの検索結果では、Bootstrap value, evolutionary distance の値は表示されな い。DDBJ の ClustalW を使えば、これらの値が求められる。ただし、また結果の図形を表 示するために、Tree View と言う無料ソフトをダウンロードする必要がある。教室のコンピュ ーターでは、ソフトウェアのダウンロードはためらわれるので、各自のパソコンで DDBJ を 試して下さい。 実習 分子系統樹作成 ショウジョウバエ(Drosophila)の hedgehog タンパク質に対する、マウス(Mus musculus)とツメガエル(Xenopus tropicalis)の類似遺伝子を検索して分子系統 樹を作成する。 配列はメモ帳(Text ファイル)にコピーする。 手順は以下のように行う 1.ショウジョウバエ(Drosophila)の hedgehog タンパク質のアミノ酸配列を、 protein データベースからキーワード検索する(Accession number: AAF56102)。 FASTA ボタンを押すと、FASTA フォームの配列が表示される。アミノ酸配列を Word にコピーする。>名前を付けて、Fasta format とする(スペースと数字は、検索 31 時に排除されて計算されるので、そのままにしてもかまわない)。 2.マウスの hedgehog ホモログを検索して、配列を取り出す NCBI 先頭ページ下側 Features にある Map viewer でマウス Mus musculus の B (blast)ボタンをクリック。マウスゲノムに対する BLAST が開くので、Bastp を選 択して検索する(マウスゲノムにコードされる全てのタンパク質アミノ酸情報に 対して検索)。 検索により表示された3種類の hedgehog の配列を取り出す。取り出し方は、 Accession 番号をクリックし、表示された配列情報ページの上にある FASTA ボタ ンを押す。FASTA フォームの配列が表示されるで、コピーする。 3.Xenopus の hedgehog ホモログを検索して、配列を取り出す Map viewer で Xenopus tropicalis を選ぶ。以下、2の操作と同じ。 4.ClustalW(http://clustalw.genome.jp/)を使って、枠内に7つの遺伝子の全配列を コピーし、マルチプルアライメントを実施する。マウスと Xenopus の間で配列の保存性を 注意深くみて、保存性の特徴を理解する。 5.分子系統樹を作成する。N-J tree branch length と Unrooted dendrogram の結果を 比較 4の結果とあわせて、Outgroup, Paralog, Ortholog の関係を理解する。ヒト遺 伝子間のパラログよりも、ヒトと Xenopus のオルソログ間の方が保存性の高いこ とに注意。これは祖先遺伝子が重複して2つの遺伝子(パラログとなる)を形成 し、そのあとに種分化が起こったためである。 Hedgehog の配列(ショウジョウバエ、マウス、カエル) >drosophila_hh MDNHSSVPWASAASVTCLSLDAKCHSSSSSSSSKSAASSISAIPQEETQTMRHIAHTQRCLSRLTSLVALLLIVLPMVFSPAHSCGPGRGLGRHRARNLYPLVLKQTIPNLSEY TNSASGPLEGVIRRDSPKFKDLVPNYNRDILFRDEEGTGADRLMSKRCKEKLNVLAYSVMNEWPGIRLLVTESWDEDYHHGQESLHYEGRAVTIATSDRDQSKYGMLARLAVEA GFDWVSYVSRRHIYCSVKSDSSISSHVHGCFTPESTALLESGVRKPLGELSIGDRVLSMTANGQAVYSEVILFMDRNLEQMQNFVQLHTDGGAVLTVTPAHLVSVWQPESQKLT FVFADRIEEKNQVLVRDVETGELRPQRVVKVGSVRSKGVVAPLTREGTIVVNSVAASCYAVINSQSLAHWGLAPMRLLSTLEAWLPAKEQLHSSPKVVSSAQQQNGIHWYANAL YKVKDYVLPQSWRHD >mouse_dhh MALPASLLPLCCLALLALSAQSCGPGRGPVGRRRYVRKQLVPLLYKQFVPSMPERTLGASGPAEGRVTRGSERFRDLVPNYNPDIIFKDEENSGADRLMTERCKERVNALAIAV MNMWPGVRLRVTEGWDEDGHHAQDSLHYEGRALDITTSDRDRNKYGLLARLAVEAGFDWVYYESRNHIHVSVKADNSLAVRAGGCFPGNATVRLRSGERKGLRELHRGDWVLAA DAAGRVVPTPVLLFLDRDLQRRASFVAVETERPPRKLLLTPWHLVFAARGPAPAPGDFAPVFARRLRAGDSVLAPGGDALQPARVARVAREEAVGVFAPLTAHGTLLVNDVLAS CYAVLESHQWAHRAFAPLRLLHALGALLPGGAVQPTGMHWYSRLLYRLAEELMG >mouse_ishh 32 MSPAWLRPRLRFCLFLLLLLLVPAARGCGPGRVVGSRRRPPRKLVPLAYKQFSPNVPEKTLGASGRYEGKIARSSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDRLNSL AISVMNQWPGVKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRNKYGLLARLAVEAGFDWVYYESKAHVHCSVKSEHSAAAKTGGCFPAGAQVRLENGERVALSAVKPGDR VLAMGEDGTPTFSDVLIFLDREPNRLRAFQVIETQDPPRRLALTPAHLLFIADNHTEPAAHFRATFASHVQPGQYVLVSGVPGLQPARVAAVSTHVALGSYAPLTRHGTLVVED VVASCFAAVADHHLAQLAFWPLRLFPSLAWGSWTPSEGVHWYPQMLYRLGRLLLEESTFHPLGMSGAGS >mouse_shh MLLLLARCFLVILASSLLVCPGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGASGRYEGKITRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISV MNQWPGVKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKAHIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLRPGDRVLAA DDQGRLLYSDFLTFLDRDEGAKKVFYVIETLEPRERLLLTAAHLLFVAPHNDSGPTPGPSALFASRVRPGQRVYVVAERGGDRRLLPAAVHSVTLREEEAGAYAPLTAHGTILI NRVLASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTDGGGGGSIPAAQSATEARGAEPTAGIHWYSQLLYHIGTWLLDSETMHPLGMAVKSS >xenopus_shh MLVATQSLLLLSFICTLVTPPGLACGPGRGIGKRRHPKKLTPLAYKQFIPNVAEKTLGASGRYEGKITRNSDCFKELTPNYNPDIMFKDEESTGADRLMTQRCKDKLNALAISV MNQWPGVKLRVTEGWDEDGHHLEESLHYEGRAVDITTSDRDRSKYGMLGRLAVEAGFDWVYYESKAHIHCSVKAENSVAAKSGGCFPAGARVMVEFGGTKAVKDLRPGDRVLSS DPQGNLLYSDFLMFIDQERDVKKLFYVIETSQRKIRLTAAHLLFVAQTKVNGTRSFKSVFASNIQPGDLIYTADPKTMTLKAVKVEKVDLEEDTGAYAPLTAHGTVVIDQVLAS CYAVIEEHTWAHLAFAPLRFGMSLSSYIYPRDSSPPSGLQPHHQVDLQSHHQVDLQSHHQVDLQSHHQLEGIHWYSQLLYQIGTWLLDSNSLHPLGMATKSS >xenopus_dhh MPAVRIVILAICCGLLLVPVRCCGPGRGPVGRRRYMRKLVPLHYKQFVPNVPEKTLGASGKSEGKIHRGSERFIELVPNYNPDIIFKDEEKTGADRLMTERCKDRVNALAISVM NMWPGVKLRVTEGWDEDGHHAHDSLHYEGRALDITTSDRDRNKYGMLARLAVEAGFDWVYYESKAHIHVSVKADNSLGVRSGGCFPGTAMVMMGTGERKPLSELKIGDTVYTTD ETGQLITSVVLLFLHRNPYKTATFVLIEAEGHPSKLLVTPNHLLFIQSSSSAGFLPFAYRVQIGDLVQIYVNGTQVQSSKVVRVSLEEQTGVYAPMTEHGTLLVDGVLTSCYAT VESHTLAHVSLAPLRLFQGIASMLPDLDMSDGVHWYCHILYVLAKYVLWWDMP >xenopus_ihh MQLPKVVLLLCAAALLLSGAVRGCGPGRVVGRRRRPTKLSPLSYKQFSPNVPEKTLGASGRYEGKISRNSERFKELTPNYNPDIIFKDEEITGADRLMTQRCKDRLNSLAISVM NQWPGVKLRVTEGWDEDGHHFEESLHYEGRAVDITTSDRDRNKYGMLARLAVEAGFDWVYYESKAHIHCSVKSEHSAAAKTGGCFPGEALATLESGEKIPVSQLSPGLRVLAMD NSGRPTYSDFLSFLDHSPKEEHMFQVIKTQDPHRRLFLTPAHLIFVSDNYSTPASEFQAVFASSVRPGQYILVSNVVGLIPAKVRSVNTQTNYGAYAPLTQHGTLVVDDVVVSC FALVQKQRLAQIVYWPLRVLYNLGIIAGTQPSQQMGIHWYSKALYHLGRLILHGNEFHPLGIVQLES オルソログとパラログ、ホモログの関係について 無脊椎動物から脊椎動物への進化の過程では、比較的短期間のうちに全ゲノム(全 ての染色体)の重複(whole genome duplication: WGD)が 2 回起こっています。その ため原索動物(ナメクジウオ等が含まれ、無脊椎動物のなかで脊椎動物に最も近い) で 1 種類であった遺伝子は、一度 4 つに数が増えています(遺伝子によっては 4 つに 増えたあと、3 つが消失して 1 種類だけ残っているもの、4 つとも残っているもの、1 つ消失して 3 つが残っているもの、2 つ消失して 2 つが残っているものもあります)。 このようにゲノム重複により、一つの遺伝子から派生した重複産物はパラログ (Paralog)と呼ばれます。現存の脊椎動物(円口類を除く)は 2 回のゲノムの重複が 起こってから、多様な種が分岐しています。そのため、脊椎動物の生物種間で、共通 する重複遺伝子が存在しており、それらは(Ortholog)と呼ばれ、パラログと区別さ れます。オルソログとパラログとの関係は、分子系統樹を作製することにより理解で きます。ホモログ(関連遺伝子)は、共通祖先から発生した遺伝子の総称で、オルソ ログとパラログもホモログに含まれます。 33 オルソログとパラログの関係を理解するために、生物の進化の歴史、遺伝子重複の 歴史について解説します。また hedgehog 遺伝子をモデルとして、分子系統樹を作製し、 ホモログとパラログの関係を説明します。 無脊椎動物から脊椎動物に進化する過程で発生したゲノム重複について少し詳しく 説明します。hox 遺伝子、核内受容体遺伝子を例にして、ゲノムに刻まれた遺伝子重 複の歴史を解説します(ここでは、配付資料を参考にして説明します)。 34 12 月 9 日(第 10 回) 代謝経路データベースの利用 無料で公開されている代謝経路のデータベースとして最も充実しているのが、京都 大学化学研究所が統括している KEGG (Kyoto Encyclopedia of Genes and Genomics) である。代謝経路のマップを調べることができるだけでなく、遺伝子の機能、配列、 タンパク質の立体構造も検索できる。クローニングした遺伝子がどのような代謝経路 で機能しているか、あるいは代謝異常のメカニズムなども調べることができる。 またさまざまな化合物(抗生物質等)や市販の医薬品の構造、薬理作用、副作用を 検索することもできる。遺伝子や化合物の機能や相互作用を調べる場合、またレポー ト作成等にも役立つと思う。日本語表記のサイトも利用できる。授業では、KEGG の使 い方を実習します。 最近、KEGG MEDICUS と名付けられた、医薬品・疾患・パスウェーの統合データベー スが公開されている。疾患・医薬品・環境物質など社会的ニーズの高いデータを、ゲ ノム情報を基盤とした生体システム情報といて統合したリソースで、研究者だけでな く、医療従事者や一般の人にも情報を提供している。 KEGG ブラウザ:http://www.genome.jp/kegg/pathway.html KEGG Pathway を開けてみよう。パスウェーの項目は、以下ように分類されている。 1. Metabolism;代謝経路(ビタミン A, retinol metabolism, の代謝経路を調べてみよう。 代謝産物を示す◯がアクティブで構造等が表示される。また代謝を司る酵素名もア クティブで、配列情報等が表示される) 2. Genetic Information Processing;遺伝子から蛋白質合成経路・蛋白の修飾と分解・ ゲノムの修復等(homologous recombination と non-homologous end-joining の経路を 比較してみよう) 3. Environmental Information Processing;細胞内シグナル伝達経路・分泌性シグナル 因子を介した細胞間相互作用(TGF-beta の細胞内伝達系を調べてみよう。発現の 促進と抑制(アゴニスト)の関係が分かる) 4. Cellular Processes:細胞の活動、細胞分裂サイクル等(Oocyte meiosis(卵母細胞減 数分裂)を調べてみよう) 5. Organismal system;免疫系・内分泌制御経路等(GnRH、生殖腺刺激ホルモン放出 ホルモン、の内分泌経路を調べてみよう) 6. Human Deseases:発ガン経路・代謝異常等(Melanoma, プリオン病, diabetes(1型糖 尿病、2 型糖尿病)の発症経路を調べてみよう) 7. Drug Development:抗生物質・薬剤の化学構造(penicillin, antidepressants を調べて みよう。合成経路、薬剤の分解酵素等も表示される) 35 遺伝子のキーワードでパスウェーを検索する時の操作は下記の通り(遺伝子名からパス ウェーに入る) 練習に shh; sonic hedgehog のシグナルパスウェーを見よう 1. 先頭ページで KEGG PATHWAT をクリック 2. 枠に shh を入力して GO 3. shh 遺伝子が関与するパスウェー(Entry)が複数表示される 4. 試しに map04340 を選択してみよう。 5. パスウェーが拡大される。各遺伝子がアクティブで、配列・機能情報にリンクして いる。 6. 上の HEDGEHOG SIGNALLING PATHWAY を選択すると、このシグナルの説 明を見ることができる。 練習に estradiol の合成経路を調べてみよう 1. 先頭ページで KEGG PATHWAT をクリック 2. 枠に estradiol を入力して GO 3. estradiol が関与するパスウェー(Entry)が複数表示される 4. Steroid hormone biosynthesis をあけると cholesterol からの合成経路を見られる 遺伝子の化合物の構造を検索する時の操作は下記の通り 練習に ampicillin の構造を調べてみよう 1. 先頭ページで KEGG DRUG をクリック 2. 枠に ampicillin を入力して GO 3. Entry を選択すると構造等が見られる KEGG の BLAST 検索を使って、調べたい遺伝子・タンパク質が乗っているパスウェーを 検索することもできる. 1. KEGG2 先頭ページの GENES をクリック。BLAST を開ける。 2. 例として、下の塩基配列(私達の研究グループがウナギからクローニングし た遺伝子でまだデータベースには登録していない)で BLASTX 検索してみ よう >test_DNA_sequence-2 ATCACTGCGTCTTGTGTCCTATCGGTCTAGCCTAGCCACTGTCTANAAGCTATAGGAAGGTTTCAGTATTGGGAGCCATGTTTGGG AGCCTGCTGTTCACTGTGCTGTGTGAGGCAGCAGTGGCCCTCATCAACCCAAATCTAAGCCTCCATTGGGAGATGTGGAAGGAGGG ACATGACAAGACCTACCTGTTTAAGGCTGAAGAGTTTGCACGCCGCCAGATCTGGGAGAAGAACCTGAAGCTGATAACTCTGCATA ATTTGGAGGCGTCCATGGGAATGCACACCTATGATCTGGGCATGAACCACCTAGGAGACTTGACTACCGAGGAGATTCTTGACGTG CTAGCTGTAACTCGTGTGCCTCCAAACTTCAGCAGGGGTCCTTCTCCCTTTGTGGGGGTATCCAGGGCCCCTGTGCCTCACAATGT 36 TGATTGGCGAAGAAAGGGCTATGTCACAGAAGTCAAGAGTCAGGGGCGTTGTGGCTCCTGCTGGGCCTTCAGTGCTGCAGGTGCCC TGGAGGGCCAGCTGATGAAGACTCAGGGAACACTTGTATCCCTCAGCCCTCAGAACCTGGTTGACTGCTCCTACAAATATGGCAAC GAGGGCTGTCATGGAGGGTTCATGACTCAAGCCTTCCAGTATGTCATTGAGAACGGGGGCATTGAGTCTGACTTTTCATACCCTTA CACTGGCATGGAAGAACAATGCAGATATGATTCAGAACTCCGTGTTGCCAACTGTTCCAGCTACAGGTTTCTTCCTGAAGGTGATG AGGTTGCATTAAAATGGGCTCTGGCCACTGTTGGACCAATCTCTGTGGCTATTGATGCTGCTCGACCTAATTTCCACTTCTACCGG AGTGGTGTGTACCATGACCCTACCTGTACCCAAGAAGTAAACCATGGTGTTCTAGCAGTTGGCTATGGTACGCTCAATGGTGAGGA CTACTGGCTTGTGAAGAACAGCTGGGGACAGCCTTTTGGGGAACAGGGCTACATTCGCATGGCACGAAACAAGAACAACCAGTGTG GCGTTGCCTTGTATGCCTGCTACCCCATTATGTGACGACCTGAAGCAAAGGATTGATTTCTAACTTGAAACATTTTAAAATTTTTA TTTTGATTTGCACCTGTGCATGTTACTGATTTGTAAAGAATACTGTTAAAATGATTTGTATTAAAAAAATATATATTTTTAGATGT GGAATTTTAGTTGAACCTAAATAAATAAATGTAAAAAAAAA 1. ゼブラフィッシュ Dre のエントリーを開けてみよう 2. Pathway を開けてみよう。検索した遺伝子のパスウェー上の位置が分かる KEGG MEDICUS 利用できるサービス ・ KEGG MEDICUS 医薬品情報 ・ KEGG MEDICUS 疾患情報 ・ KEGG MEDICUS 医薬品相互作用 ・ KEGG BRITE 医薬品分類 ・ KEGG お薬情報 KEGG MEDICUS を開けて、Imatinib と言う医薬品でキーワード検索してみよう 37 12 月 16(第 11) バイオデータベースの利用 遺伝子の機能を知りたい場合には、ポストゲノムのモデル生物(マウス、ゼブラフ ィッシュ、シロイズナズナ等)の検索サイトが重宝します。これらは、バイオデータ ベースと呼ばれます。モデル生物のなかでも、特にマウスとゼブラフィッシュのデー タベースが充実しており、遺伝子の機能だけでなく発現パターン(遺伝子が何時、ど の組織で、どれだけの量が発現するか)、遺伝子ノックアウトやノックダウンの表現型 もデータベース化されており、遺伝子名のキーワード検索でデータを入手することが 可能です。 ヒトの遺伝子機能と遺伝子疾患のデータベースとして NCBI に OMIM(Online Menderian Inheritance in Man)が公開されています。遺伝子名でキーワード検索す ると、遺伝子の機能、遺伝子疾患が存在する場合には、配列変異と疾患の表現型を知 ることが可能です。 マウスのデータベース(MGI: mouse genome informatics)の特徴として、遺伝子 ごとにノックアウトマウスの表現型がデータベース化されており、表現型から遺伝子 の機能を調べることができます。マウスのデータベースでは、遺伝子の正確なマップ ポジション(連鎖地図、ゲノム配列上)等も示されています。 ゼブラフィッシュのデータベース(ZFIN:zebrafish Organism Data Base)には、 in situ ハイブリダイゼーションによる発現解析のデータが写真で掲載されており、 遺伝子発現に関する組織レベルの情報を得ることができる特徴があります。脊椎動物 中であればオルソログ遺伝子(異なる生物の同一遺伝子)の発現パターンは類似して いることが多いので、マウス、ウシやニワトリを研究対象にする場合でも参考となり ます。 論文や単行書を読んで機能が分からない遺伝子(タンパク質)がでてきた時には、 それらの遺伝子の機能を調べる必要があります。このようなときには NCBI の OMIM (Online Mendelian Inheritance in Man) とマウス・ゼブラフィッシュのウェブサイトを使 うと情報を得ることができます。授業では、これらのサイトの使い方と特徴について説明 します。 OMIM の使い方 ヒトで分かっている遺伝子の機能を詳細に記述している。関連文献もリスとされている。 る 1. NCBI を開け、左上の All List (A-Z)から Online Menderian Inheritance in Man (OMIM)を選択する。 2. 枠内に遺伝子名を入力して検索 38 練習に growth hormone(成長ホルモン)を検索してみよう growth hormone 遺伝子および関連遺伝子の配列変異によって起こる症候群のリスト が表記される。遺伝子の機能、変異に伴う疾患、タンパク質の構造、関連論文を調べ ることができる。 MGI, ZFIN の使い方 ポストゲノム研究のモデル生物のウェブサイトを利用してみよう。これまでの研究によって明ら かにされている遺伝子の機能が検索できる。 1.マウス(MGI) mouse genome informatics: http://www.informatics.jax.org/ 1. 先頭ページの QuickSearch の枠内に遺伝子名を入力する 2. 入力した遺伝子の情報、遺伝子改変マウスがリストされる 試しに Pax6(眼の発生の上流にある転写因子)を入力してみよう Pax6 と言うワードを含む遺伝子リストが表示される。Pax6 を選択する 得られる情報 Symbol/Name/ID:遺伝子の正式名称、略記 Synonyms:同義語(別名) Genetic map:遺伝子の連鎖地図上の位置 Sequence Map:遺伝子の物理地図上の位置 Mammalian Homology:哺乳類の相同・類似遺伝子 Sequences:ゲノム塩基配列・cDNA 塩基配列・アミノ酸配列情報 Phenotypes; ノックアウトマウスの表現型。遺伝子の生物機能が分かる Polymorphism: 系統間で見られる配列多型。SNPs(1塩基多型)等 Gene Ontology (GO):遺伝子の機能、構造 Expression:発現する組織のリスト Protein Domains:転写産物が持つドメイン構造のリスト References:関連文献 2.ゼブラフィッシュ(ZFIN) The Zebrafish Model Organism Database:http://zfin.org/ 1. Genes/Makers/Clones を開ける 2. Name/Symbol に遺伝子名を入力して検索 試しに pax6 と入力して検索してみよう。 魚類で単独に起こったゲノム重複のため pax6a と pax6b がある Symbol-name では遺伝子の各種情報が表記される 39 Expression では、遺伝子発現のデータが表記される Phenotype では、ノックダウンとノックアウトの表現型が表記される Location では、染色体上の位置が表記される タンパク質の構造についての解説 各種プログラムを使うことにより、タンパク質の構造的特徴を予測することができま す。今日の授業では、シグナルペプチド、ドメイン構造について解説したあと、テス ト配列を使って実際にこれら構造の検索(分子量、等電点、シグナルペプチド、疎水性・ 親水性領域、ドメイン構造)を行います。 代表的なドメイン構造(モチーフ)検索サイトには、イギリスのサンガー研究所が 公開している Pfam があります。 シグナルペプチド 分泌性の蛋白質の N 末端に存在する、15-30 残基の疎水性アミノ酸から構成されたシグナ ル配列。分泌前に、シグナルペプチダーゼによって切断される。 タンパク質のドメイン(モチーフ)構造 ドメイン構造(=モチーフ):タンパク質のアミノ酸配列のなかで、特有な性質を持った領域。分 子の構造上あるいは機能上一つのまとまりを持つ領域。 ドメイン構造の例 細胞膜レセプター:リガンド結合ドメイン、細胞膜貫通ドメイン、チロシンキナーゼド メイン、リン酸化ドメイン 核レセプター:リガンド結合ドメイン、DNA 結合ドメイン 実習 タンパク質の構造解析では、ヨーロッパの研究機関のウェブサイトが充実している。特に Swiss Institute of Bioinformatics、Sanger 研究所(イギリス)のサイトは、利用価値が高い。前 者は、ExPASy (Bioinformatics Resource Portal)、後者は Pfam(ドメイン解析)を公開している。 また European Bioinformatics Institute (EBI)でも、タンパク質の構造解析プログラムを公開し ている。 基本構造の解析 タンパク質の分子量・等電点の予測: 40 1) ExPASy (http://ca.expasy.org/)を開ける。 2) Category のなかの Proteomics を開ける 3) Tools から Compute PI/Mw を選択 4) 下記の> zebrafish_Charon で検索してみよう。アミノ酸配列を枠内にコピーす る(配列のみ:このプログラムでは>で始まる行はコピーしない)。Click here to computepI/Mw ボタンをクリックする。 5) 検索結果:Theoretical pI/Mw: 10.00 (等電点)/ 27073.04(分子量) >zebrafish_Charon MTFQVGFFVLLSVTTIGAFPRNAFQREFHRHVAKDFESSGNGPDEPVRGSVRIVKLNPHFLRRAAVS HVPFRNSPSRGAFPAFLALGRPGPAILTHSKPAPQVSSSADRRKQGLEMWKKVVHKSERKKEAVALR INPKDMNKQSCAAVPFTQRITEEGCETVTVHNNLCYGQCSSMFVPSSGGSHGQQKAQCMRCGPSR ARSVLLHLRRGSEVRERRVLIVEECKCETSSEEAKVQNTDMFNL // (ゼブラフィッシュ Charon:分泌型のシグナルタンパク質) 疎水性・親水性領域の解析: 1)ExPASy Proteomics tools (http://ca.expasy.org/)を開ける 2)Category の Proteomics を開ける 3)Tools から Prot Scale を選択 4)アミノ酸配列を枠内にコピーする。Hphob. / Kyte &Doolittle(デフォルト状態: 疎水性/親水性解析で最も利用されているプログラム)を選択する。 5)>zebrafish_fgfr1 で試してみよう 6)Submit ボタンを押す 7)結果:グラフのプラスが疎水性、マイナスが親水性を示す. fgfr1 では、アミノ末端 側の疎水領域はシグナルペプチドの部分。中央の疎水領域は、細胞膜貫通ドメイ ンである。 >zebrafish_fgfr1 MIMKTTLLLISVLLTQALQSQGRPAIQDEAPAEPTSYTLDSGEKLELSCKAKEDTQKVTWTKDLVPLVDGEHTRLRNDQMEIEKVEP ADSGLYACFAQGLNSNHTEYFNISVTDEEDEVDSSSEEAKLSNDQNLPMAPVWAQPDKMEKKLHAVPASKTVKFRCQANGNPTPTLK WLKNGKEFKRDQRIGGFKVREHMWTIIMESVVPSDRGNYTCLVENRHGSINHTYQLDVVERSPHRPILQAGLPANRTAVVGSDVEFE CKVFSDPQPHIQWLKHIEVNGSRYGPDGLPYVRALKTAGVNTTDKEMEVLQIRNVSLEDAGEYTCLAGNSIGHSHHSAWLTVYKAVP PTQLPNQTYLEVLIYCVGFFLICVMVGTAVLAKMHSSAKKSDFNSQLAVHKLAKSIPLRRQVTVSVDSSSSMHSGGMLVRPSRLSSS GSPMLSGVSEYELPQDPRWEVQRDRLVLGKPLGEGCFGQVMMAEAMGMDKEKPNRITKVAVKMLKSDATEKDLSDLISEMEMMKIIG KHKNIINLLGACTQDGPLYVIVEFAAKGNLREYLRVRRPPGMEYCYNPDQVPVENMSIKDLVSCAYQVARGMEYLASKKCIHRDLAA RNVLVTEDNVMKIADFGLARDIHHIDYYKKTTNGRLPVKWMAPEALFDRIYTHQSDVWSFGVLLWEIFTLGGSPYPGVPVEELFKLL KEGHRMDRPSTCTHELYMMMRDCWHAVPSQRPTFKQLVEDLDRTLSMTSNQEYLDLSVSLDQFSPNFPDTRSSTCSSGEDSVFSHDA GADEPCLPKFPPHPNRGVAFKKR (FGF 受容体:細胞内にチロシンキ ナーゼドメイ ンを持っ た膜貫通型細胞膜受容体・ 41 FGF=fibroblast growth factor/繊維芽細胞増殖因子:創傷治癒、培養条件下で繊 維芽細胞の分裂を促進する。胚発生では中胚葉誘導に関与する) シグナルペプチドの検索 タンパク質のシグナルペプチドの予測: 1)SignalP 3.0 Server(http://www.cbs.dtu.dk/services/SignalP/)を開ける(デンマー クの Technical University が公開) 2)>zebrafish_Charon で検索してみよう。アミノ酸配列を枠内にコピーする。 Submit ボタンをクリックする。 練習:下のアミノ酸配列でも検索してみよう >mouse_vitamin_D_receptor MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACR LKRCVDIGMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRAD VSTGSYSPRPTLSFSGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFA KMIPGFRDLTSDDQIVLLKSSAIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNL HEEEHVLLMAICIVSPDRPGVQDAKLVEAIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLS FQPENSMKLTPLVLEVFGNEIS (ビタミンD受容体は、核に移行する蛋白質なのでシグナルペプチドは ない) ドメインの検索 タンパク質のドメイン構造の予測-1:Pfam を使う(ドメイン検索で最も利用されている:機能ド メインを探すのに便利) 今日は、下のマウスのビタミンD受容体で検索します。 1) Pfam(http://pfam.sanger.ac.uk/)(イギリスのサンガー研究所)を開ける 2) SEQUENCE SEARCH ボタンを押す 3) 枠内にアミノ酸配列(試しに>mouse_vitamin_D_receptor)をコピーし、 submit を押す 4) みつかったドメイン構造がグラフィックで上に図示される。 5) 下には各ドメインの説明が表示される。 6) 一番右の Show/hide alignment を押すと、データベースに納められているドメイン配 列と問い合わせ配列のアライメントが表示される 7) ドメインネーム(上のグラフィックも同様)がアクティブで、それを押すと、ドメインの説 明、立体構図が表示される 42 8) 右上のグラフィックツールのうち、crystallographic structures を押すと、みつかった タンパク質の高次構造がグラフィックで示され、詳細な構造の説明も表示される。 PBD ID を押すと、タンパク質の高次構造(アルファへリックス構造等)が表示され る。 >mouse_vitamin_D_receptor MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACRLKRCVDI GMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRADVSTGSYSPRPTLSF SGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFAKMIPGFRDLTSDDQIVLLKSS AIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNLHEEEHVLLMAICIVSPDRPGVQDAKLVE AIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLSFQPENSMKLTPLVLEVFGNEIS (ビタミンD受容体;核タンパク質受容体ファミリーのメンバーで、骨形成等に関与する) 終わった人は、次のタンパク質で検索してみよう: ゼブラフィッシュ・FGF レセプター 3D 構造の予測と検索 3D 構造の予測 下記のサイト(Swiss Institute of Bioinformatics)のツールを使って、得られたタンパク質 のアミノ酸配列をもとに 3D 構造を予測することが可能です。プログラムの原理は、構造 の解明されているタンパク質構造データベースから配列の近いものを抽出し、配列のア ライメントをもとに 3D 構造を予測します。検索の 4 つのプロセスとも、データがメールで送 り返されてくる仕組みになっています。そのため、授業中に検索することは無理です。興 味のある学生は各自で、試みて下さい。 http://swissmodel.expasy.org/ 3D 構造データベースの閲覧 NCBI の利用 NCBI の Resource List の中にある Structure (Molecular Modelling Database)を使うと、タンパ ク質構造データベースに納められている 3D 構造を閲覧することができます。 ↓NCBI homepage ↓Resource List から Structure (Molecular Modelling Database)を選択 ↓左カラムの Search を選択 ↓Search の枠にタンパク質明を入力して検索(試しに prion, VDR で検索してみよう) 43 PDB (Protein Data Bank) の利用 www.pdb.org 上のアイコンから macromolecule を指定してキーワード検索(試しに prion, VDR で検 索してみよう) 3D 構造だけでなく、遺伝子の機能の解説も添えられている NCBI blastp による検索 Blastp でデータベースを Protein Data Bank を選択して検索する(上の Protein Data Bank に登録されている高次構造の分かっているタンパク質に対して blastp 検索 が行われる) 配列類似遺伝子で高次構造の解析されているタンパク質が表示される。右の Accession ボタンを押すと、データが表示される。右に 3D 構造が図示される。 44 1 月 6 日(第 12 回) 実習 —ゲノム塩基配列をデータベースから取り出す— Ensembl Genome Brower Ensembl Genome Brower(ゲノムデータの統括サイト)は、Sanger 研究所・EBI が管理するゲノ ムデータベースです。最大の特徴は、必要な遺伝子のゲノム塩基配列を取り出すことができ ることにあります。ノックアウトマウスの相同組換えに用いる配列、GFP を使ったレポーター遺 伝子作製用のプロモーター配列等が必要な場合に、Ensembl を使ってゲノム配列を取り出し ます。実習では、Ensembl の説明と実際の配列の取り出し方を教えます。また、ゲノム配列、 全遺伝子のコード配列、全蛋白質のアミノ酸配列もダウンロードすることが可能で、それらを 使って自前でバイオインフォマティックス解析を行うことができます。 「使用法-1」 Ensembl を使って、試しにマウスの sonic hedgehog(shh)のゲノム配列を取り出してみます。 1.下記のウェブサイトを開ける http://www.ensembl.org/index.html (ensembl でキーワード検索) 2.生物種を指定する マウスを選択 3.検索項目から gene を選び、遺伝子名(shh)をボックスに入れて検索 4.リストアップされてきた複数の遺伝子から、shh をクリック(ESMSUSG000000002633)する 染色体上の地図が表示される 5.左側のツールボックスの中から Sequence を選択してクリック 6.配列が表示される(エクソンは赤字で肌色の背景、エクソン間の黒字の部分はイントロン、 第一エクソンより上流はプロモーター領域の一部である) 7.戻って、Location からもゲノム構造を検索することができる 8.左側にある Export data で、範囲を選択して配列を取り出すことができる(範囲を指定して、 より長いプロモーター配列を取りですことができる) 「使用法-2」 ゲノム配列、全遺伝子のコード配列、全蛋白質のアミノ酸配列をダウンロードする Gene annotation --- Download genes, cDNAs, ncRNA, proteins (FASTA)からダウンロード可 能 45 転写調節領域のコンセンサス結合配列の予測講義 遺伝子の発現調節機構 遺伝子は、特定の細胞また時期に必要量だけ発現するように調節されています。例 えば、ペプシノーゲンの発現は胃に限定されており、筋肉や脳では決して発現しない ように制御されています。発生に関係する遺伝子のなかには、魚類の孵化酵素のよう に一生のうち孵化時に一度だけ発現する遺伝子もあります。このような発現調節に関 する情報は、ゲノムのコード領域ではなく、その近辺に存在する転写調節領域(エン ハンサー領域)にコードされています(5’上流にある場合が多いが、3’下流にある ものやイントロンにある遺伝子も存在する)。具体的には、転写因子が結合するコンセ ンサス結合配列がその情報と言うことになります。転写因子は、ゲノムの決まった配 列を認識して結合します。その配列がコンセンサス結合配列です。コンセンサス結合 配列は、6-20 塩基ほどの短い配列です。転写調節領域には、複数個のコンセンサス配 列が存在し、複数の転写因子が結合・解離することにより、遺伝子の転写を精密に調 節しています。講義では転写調節のメカニズムについて解説し、実習で転写調節領域 のコンセンサス配列を検索します。 実習 マウスの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列をゲノムデベースか ら取り出し、コンセンサス結合配列を予測してみます。 コンセンサス結合配列の検索には幾つかのプログラムがありますが、実習では TFSearch を用います。 http://www.cbrc.jp/research/db/TFSEARCHJ.html 問題:マウスの sonic hedghog(shh)遺伝子の転写調節領域の配列をゲノムデータベースか ら取り出し、コンセンサス結合配列を予測する。 (1)最初にゼブラフィッシュの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列を ゲノムデベースから取り出します。 1) Emsembl (http://www.ensembl.org/index.html)を開けます 2) 対象性物から mouse を選択 3) 検索項目から gene を選び、shh で検索 4) 検索結果のページにある shh のアクセッションをクリック 5) 左側ボタンの Sequence をクリックすると、ゲノム配列が表示される 6) 第1エクソン(赤字)から上流の配列(転写調節領域)をメモ帳にコピーす る(-40 b あたりに TATA box (TATA(A/T)A(A/T))が存在することが分かる。その 約 40b 上流には CAAT Box (GCCAATCT)が配置する) 46 (2)次に、MOTIF Search を開ける (http://www.cbrc.jp/research/db/TFSEARCHJ.html) 7) 上の枠に任意の名前を入力する 8) 下の枠に塩基配列をコピー、分類を脊椎動物とし、Exec をクリック 注意:コンセンサス配列は、ほとんどの場合 6-10b 程の短い配列であり、加えてある程度の 配列のバリエーションを許容します。そのため予想された配列には、実際には転写因子と相 互作用しない配列が高い比率で含まれます。検索結果は、目安程度に考えて下さい。実際 のコンセンサス配列を同定するためには、分子生物学の技術(ゲルシフトアッセイ、ルシフェ ラーゼをレポーターにしたプロモーター解析等)を使って実験的に検証する必要がありま す。 47 1 月 13 日(13 回) 次世代シーケンス解析について 次世代シーケンス解析は、この数年で実用化された DNA シークエンス解析技術で、 その原理は従来のサンガー法を基礎とした蛍光シークエンサー(電気泳動で1塩基の 差で分離された DNA バンドにレーザー光を照射して蛍光検出する)とは全く異なり、 ガラス基盤に固着した DNA を1塩基の伸長反応ごとに結合した塩基を検出します。ナ ノ技術により、1mm 四方で万単位のシークエンス解析が可能です。最も汎用されてい る Illumina 社の HiSeq2000 では、1 リードのリード長は 100bp と短いですが、シーケ ンサーを一度動かすと(1ラン)で 20 億リードが読まれます。つまり 1 ランで、 100-200Gbp(ギガ=10 億)の配列が得られることになります(1 ランで 8 サンプル解析 されるので、1 サンプルあたりの解読数は、100bp x 2.5 億リード=25Gb です。)。従来 の蛍光シーケンサーでは、1 ランで 700bp のリードが 96、総計約 67kb の塩基配列が得 られるのに比べると、オーダーが千万単位違います。つまり次世代シーケンサーが 1 台で、蛍光シーケンサーの千万台分の解析能力があるわけです。HiSeq2000 では、ペ アエンドのシークエンス解析(約 300bp の断片を両側から 100bp 読む)が可能で、シ ングルエンドのシーケンス解析に比べ、配列をコンティグに繋ぐ時に非常に有用であ る。従って、de novo genome sequencing, de novo transcriptome 解析にはペアエン ドのシークエンス解析が必須である。 ヒトゲノムは約 30 億 bp なので、1 ランでほぼ解読可能なレベルで、現在では、 個人のゲノム解読も可能なわけです。次世代シーケンサーは 1 台が 1 億円以上す るため、研究室で購入することは非現実的ですが、依頼解析が随分廉価となり、1 サンプルの解析が 30 万円程度まで下がっているため、今後は農学研究でも利用さ れていくことは間違いありません。農学が対象とする生物も近いうちに、全ての 種のゲノム解読が終了するように思います。今後は系統間の塩基配列の違いを調 べ、形質と配列との関係を解析することが重要になると思われます。 ここで注意しなければならないことは、1 サンプルあたり 100bp の配列断片が 2.5 億個得られると言うことで、その解析はとうてい人の手に負えるはずはなく、 コンピューター解析の技術が必須です。ゲノムにしても cDNA の配列を読むにして も、まず最初に 100bp の配列断片から重なり合う部分を探して、配列をコンティ グにつなげる必要があります。配列解析のバイオインフォマティックスは現在非 常に重要になっており、まだ人材不足の状況です。 授業では、(1)次世代シーケンサーの塩基配列解読原理、(2)次世代シーケ ンス解析の利用方法について講義します。 48 以下工事中 ----------------------------------------------------------------------------------------------- 49 1 月 21 日(第 15 回:最終回) ポストゲノム研究(1) —ゲノムに存在する全ての遺伝子の機能を調べる 全ゲノム塩基配列の解読のあとにくる最も重要な研究課題として、ゲノムに存在する全 ての遺伝子の機能解明があげられます。遺伝子の機能を解析するストラテジーは、大きく 分けるとフォワードジェティクス(Forward Genetics: 順遺伝学)とリバースジェネティクス (Reverse Genetics: 逆遺伝学)に分けることができます。マウス、ゼブラフィッシュ、ショウ ジョウバエ、線虫はこれらポストゲノム研究のモデル生物として用いられています。 リバースジェネティクスは、遺伝子の生体内での機能を解明するための最も直接的な方 法で、遺伝子の機能を破壊し、発生や器官形成、代謝、行動に表れる表現型を解析し、 表現型から遺伝子の機能を解明します。遺伝子の機能破壊の方法には、遺伝子ノックダ ウンあるいは遺伝子ノックアウトの2つがあります。上のモデル生物ではいずれも、遺伝子 破壊による全遺伝子の機能解明プロジェクトが進められています。線虫と魚類は、アンチ センス技術を個体レベルで適応できる点で、遺伝子機能解析に圧倒的に有利です。特 に線虫は、RNAi 法で簡単に遺伝子機能を破壊できることから、ゴール(全遺伝子の機能 解明)に最も近いと言えます。線虫では機能破壊により寿命が延びると言うような興味深 い遺伝子も見つかっています。 遺伝子機能を解明するうえで、ノックアウトマウスは重要な役割を果たしていますが、ES 細胞で相同組み換えにより遺伝子破壊を行い、その ES 細胞を胚移植してノックアウト個 体を作製するには、1 年あまり必要です。最近、TALEN 法、CRISPR/Cas9 法とよばれる新 しいノックアウトとノックイン技術が開発されています。卵生の魚類やカエルでは、受精卵 にコンストラクとの RNA を顕微注入するだけで遺伝子のノックアウトが可能です。また TALEN 法は原理的には、遺伝子疾患の原因である変異遺伝子の配列を正常に治癒さ せることも可能です。iPS 技術と組み合わせると遺伝子治療への発展が期待できます。授 業では簡単に TALEN 法と CRISPR/Cas9 法の原理を解説します。 ポストゲノム研究(2) 比較ゲノム学:進化に伴うゲノム構造の変化 進化的に隔たった多様な生物でゲノム解読が行われたことにより、生物間で遺伝子種 を比較したり、遺伝子ファミリーのメンバーの個数を比較することが可能になりました。また 染色体上の遺伝子の配列を系統的に離れた生物間で比較することにより、それらの共通 50 祖先生物の染色体構造を推定することが可能となっています。比較ゲノムは、このように 生物間でゲノムを比較して、進化を論じる研究分野です。授業では、幾つかの事例を紹 介します。 フグとヒトは、進化的観点から見ると脊椎動物系統樹の両端に位置します。脊椎動物は、 大部分の魚類を含む条鰭類、それとシーラカンス・肺魚および四肢動物を含む総鰭類の 2つのグループに大別されます。条鰭類と総鰭類は4億5千年前に分岐しました。フグとヒ トのゲノム構造を比較することにより、4億 5 千年前に生きていた総鰭類と条鰭類の共通 祖先のゲノム構造が明らかとなり、その後のゲノム構造の変化が解明されました。解析の 結果、脊椎動物のゲノムの進化について、次のような予想もされていなかった結果が得ら れました。 (1) (2) (3) 4億 5 千年前に生きていた総鰭類と条鰭類の共通祖先は12組の染色体を持って いた。 総鰭類では条鰭類と分かれた直後に、ゲノムに大量のレトロウィルスが挿入され、 ゲノムサイズが大きくなった。その後染色体間の転移と融合(ミキシング)が頻繁に 起こった。 条鰭類では総鰭類と分かれた直後に、ゲノムの倍化(脊椎動物の誕生から数える と3度目)が起こった。重複した遺伝子の大部分は片方がゲノムから脱落したが、 約 20%の遺伝子は倍加したまま現在でも機能遺伝子として働いている。そのため、 ゲノム上の遺伝子数は条鰭類の方が総鰭類よりも 20%程多い。このような遺伝子 数の増加が、魚類に形態や環境適応の多様性をもたらしたのではないかと考えら れている。また条鰭類では染色体へのレトロウィルスの挿入はわずかであり、染色 体のミキシングもわずかである。 また、無脊椎動物でも進化的に重要な位置にあるホヤやナメクジウオのゲノム解読が行 われ、哺乳類でも多数の生物のゲノムが解読されています。生物間でゲノムを比較するこ とにより、臭覚受容遺伝子が無脊椎動物から脊椎動物の進化の過程で遺伝子数を増加 してきたことが、明らかになっています。また胎盤の進化では、レトロトランスポゾン由来の 遺伝子が重要な役割を果たしているという、意外な事実も示唆されています。またヒトとチ ンパンジーでは、塩基の置換率はたった 1.23%ですが、反復配列の挿入がヒトの方がか なり多いことが分かりました。このように挿入配列は、以前考えられていたようなたんなるガ ラクタではないことが分かってきました。 —シンテニー— 異なる脊椎動物(例えば、ヒト-マウス、ヒト-フグ)を過去に遡ると、共通祖先が 存在していたことになります。共通祖先から分岐したあと、それぞれの系で転座と融 合が起こっているが、小さなブロック単位で見ると遺伝子の並びが一致する領域があ 51 ります。染色体上で遺伝子の並びが一致している状態は、シンテニーと呼ばれます。 全ゲノムが解読されるとゲノム全体を生物間で比較することが可能となり、シンテニ ーの様子が明らかとなります。 ヒトとマウスを比べると、哺乳類同士のため、明瞭にシンテニーの保存状態が見て 取れます。 一方、魚類では四肢動物と分かれてから直後に全ゲノムの重複が起こっているため、 魚類の染色体はヒトやマウスの染色体に対して2重のシンテニーを示す特徴がありま す。 ポストゲノム研究(3) —機能ゲノム学— - ゲノムを比較して遺伝子の発現調節機構を探る ポストゲノム研究の重要なテーマとして、全ての遺伝子の機能を調べることに加えて、遺伝 子の転写調節に重要な配列領域を見つけることがあります。転写調節領域は遺伝子が何時、 何処で、どれだけ発現されるかと言う情報をコードしていることから、生物の形態や環境適応 の多様性の背景にあるゲノム情報は、タンパク質コード領域よりもむしろ転写調節領域に存 在する場合が多いものと予想できます。 特に胚発生など生物の基本的な生命現象に関係する遺伝子(例えば sonic hedghog や Pax 遺伝子)の転写調節領域は、生物間で強く保存される傾向にあります。ゲノム情報を利用す ることにより、遺伝子発現に必須の領域を検索したり、生物間で変異が起こっている領域を 見つけだし、それらの機能や生物学的意味を解析する研究分野は、機能ゲノム学と呼ばれ ます。授業では、ヒトとフグの非コード領域の比較から、遺伝子の転写調節に重要な領域 (CNE; conserved non-coding elements)を見つけだした研究事例を紹介します。 52 以下、今年使用しなかった過去の資料 講義 脊椎動物の中ではゼブラフィッシュが、モルフォリノオリゴを使ったアンチセン ス技術で遺伝子機能を破壊できる点で、遺伝子機能の解析が容易だと言えます。具 体的には、顕微注入によりアンチセンスモルフォリノオリゴを受精卵に注入し、発 生で現れる表現型(体に表れる異常)を調べることで、遺伝子機能を解析すること が可能です。ただしこの方法で解析できるのは、受精後 2 日以内に働く遺伝子に限 られ、成人病に関連するような遺伝子等の機能は解析不能です。ゼブラフィッシュ のウェブサイト(ZFIN)では、誰にでも機能破壊実験を行うことができるように、 各遺伝子の機能破壊に必要なモルフォリノオリゴの塩基配列が掲載されています。 一方、フォワードジェティクスでは、点変異を誘導する化学変異源(ENU. Ethyl nitrosourea)により突然変異体のライブラリーをまず作製します。様々な表現型 の突然変異体が得られますが、この時点では突然変異体でどの遺伝子に変異が起こ っているのか(原因遺伝子、責任遺伝子)は明らかでありません。フォワードジェ ティクスでは、遺伝マーカー(主にマイクロサテライト)との連鎖解析により、原 因遺伝子を連鎖地図にマップし、組換え率が 0.1%程度のマーカーが見つかるまで 連鎖解析を進めます。見つかった近隣マーカー近くの変異体ゲ ノムを解読し、突然変異により塩基置換が起こっている場所を探し出します。この 方法は、ポジショナルクローニングと呼ばれます。 データベースを使った遺伝子機能の検索 ENTREZ NCBI の全データベース(配列、文献、遺伝子発現、SNP 等々)に納められている情報 から、キーワード検索により関連情報を網羅的に検索できるサイト ENTREZ の利用 NCBI (http://www.ncbi.nlm.nih.gov/)には、キーワードで全てのデータベースを一挙に検索 するツール ENTREZ があります。ENTREZ でキーワード検索すると、配列情報、文献情報、 OMIM、OMIA、立体構造等々のデータがもれなく検索されてきます。ENTREZ を利用すれ ば、タンパク質の構造や遺伝病等に関する情報を一挙に入手することができ、非常に便利な 検索システムといえます。 ENTREZ の使い方 ・ 開け方:NCBI の先頭ページ All databeses で、枠内空欄のまま Search をクリック 53 ・ 枠内に遺伝子名(略字等)を入力して検索 ・ 調べた遺伝子について NCBI のデータベースにある情報が全て表示される(数字はデー タベースに納められている情報の数を示す) 実習 発現データベースを使ったシミュレーション実験(1) - digital differential display ゲノム解読プロジェクトの進められている生物では、EST (expressed sequence tags) の塩基 配列解読プロジェクトも並行して進められています。EST プロジェクトでは、組織あるいは細 胞種ごとに、cDNA ライブラリーから無作為にクローンを選んで配列(5’, 3’末端のワンパスシ ークエンス)を解析しています。EST データベースでは、同定された遺伝子種とその数値(何 個検出されたか)が組織あるいは細胞種ごとに整理されています。従ってデータには、各組 織に発現している遺伝子種と遺伝子ごとの相対的な発現強度が反映されていることになりま す。これらのデータは、トランスクリプトーム (Transcriptome) と呼ばれます。このデータを利 用することにより、調べたい組織に発現している遺伝子の種類と発現強度、組織間で発現強 度の異なる遺伝子を調べることができます。コンピューターで遺伝子発現を調べる操作は、 digital differential display と呼ばれます。授業では次の例題を使って、digital differential display の操作を実習します。 例題1.生物の各器官で発現する遺伝子の種類と発現強度を調べる ウシの乳腺で発現する遺伝子種とその強度は? 例題2.2つの細胞種で発現量が異なる遺伝子を調べる マウスの ES 細胞 (Embryonic stem cells) と胚細胞 (Blastocytes) で発現量の異なる遺 伝子は? 例題3.ある生物の2つの器官で発現量が異なる遺伝子を調べる マウスの小脳 (Cerebellum) と大脳皮質 (Cortex) で発現量の異なる遺伝子は? Digital differential display (DDD)のページの開け方 NCBI の Transcriptome 情報を使う - Digital differential display 1. NCBI の先頭ページにある All Resources から、Digital differential display (DDD) を 選択 例題1.生物の各器官で発現する遺伝子の種類と発現強度を調べる ウシの乳腺(mammary gland)で発現する遺伝子種とその強度は? 手順 54 1. Species を Bos taurus に選択、continue をクリック 2. 組織名(Mammary gland)の ID 番号をクリック。発現強度の強い遺伝子から順に表記 される。TMP は、100 万個の mRNA 当たりに出現する個数を示す。 例題2.ある生物の2つの器官・細胞で発現量が異なる遺伝子を調べる マウスの ES 細胞 (Embryonic stem cells) と胚細胞 (Blastocytes) で発現量の異なる遺 伝子は? 1. Species を Mus musculus に選択、continue をクリック 2. まず A(ここでは Embryonic stem cells)の ID 番号(15703, 15704, 15705)を選択、上の 枠内に名前(ES cells)と記入し、continue を押す 3. B の組織(ここでは Blastocytes)の ID(850, 875, 1021, 10026)をチェックし、枠内に名 前(Blastocytes)と記入し、continue を押す 4. A と B で発現強度が有意に異なる遺伝子が、表示される 55 講義 遺伝子の機能解析の手法 リバースジェネティクス(逆遺伝学:Reverse genetics) 手法 遺伝子ノックアウト:マウスでのみ可能 遺伝子ノックダウン:RNAi(個体レベルでは線虫でのみ可能) モルフォリノオリゴ(ゼブラフィッシュに適応可能) フォワードジェネティクス(順遺伝学:Forward genetics) ENU (エチルニトロソ尿素) を使った突然変異体ライブラリーの作製と、変異 体のポジショナルクローニング ポストゲノム研究のモデル生物たち マウス:http://www.informatics.jax.org/ ゼブラフィッシュ:http://zfin.org/ ショウジョウバエ: http://www.ncbi.nlm.nih.gov/BLAST/Genome/Insects.html 線虫:http://omicspace.riken.jp/Ce/rnai/jsp/index.jsp http://genome.med.yale.edu/lab/index.htm 酵母:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4932 http://www.fhcrc.org/science/labs/kruglyak/Data/ —ポストゲノム研究(4)— ポジショナルクローニングと QTL 解析におけるゲノム情報の利用 —講義— 遺伝子の機能解析における、アプローチにはフォワードジェネティクスとリバースジェネティク スの2通りがあることは既に講義しました。フォワードジェネティクスでは、表現型(phenotype: 形態の異常等)からスタートし、表現型を与えているゲノム配列の変異領域を連鎖解析によ って絞り込み、最終的に点変異やトランスポゾンの挿入等により機能を喪失している原因遺 伝子を特定します。この操作はポジショナルクローニングと呼ばれます。 一方、農業における育種で重要な高成長、耐病性等の性質には、複数の遺伝子が関与し ていることが普通です。関与する遺伝子を探し出 すのは、QTL (量的形質遺伝視座: quantitative-trait locus)解析と呼ばれ、やはり連鎖解析によって進められます。 全ゲノムが解読されていれば、連鎖解析に必要な多型性に富むマイクロサテライトもデータ ベースから探し出すことが可能です。また原因遺伝子が存在する領域が連鎖解析により(数 百 kb)狭められれば、ゲノムデータベースを使ってその領域に存在する遺伝子を検索するこ 56 とが可能で、表現型に関係しそうな機能を持った遺伝子に的を絞って、配列の変化を調べる ことができます。このようにゲノム解読が行われると、ポジショナルクローニングや QTL 解析が 高速化されます。 授業では、ゼブラフィッシュの突然変異体の作製手順を説明し、変異体バンクのデータベ ースを使ってみます。そのあと、ポジショナルクローニングについて説明します。 ゼブラフィッシュのデータベース(ZFIN) http://zfin.org/cgi-bin/webdriver?MIval=aa-ZDB_home.apg —講義— —ゲノムデータベースの利用— 組織特異的に発光するトランスジェニック動物の作製 緑色蛍光タンパク質(GFP)は、オワンクラゲ由来の発光タンパク質で、480nm の励起光で照 らすと、520nm の強い蛍光を発します。GFP 遺伝子とトランスジェニック技術を組合わすこと により、特定の細胞だけを蛍光発光させ、蛍光顕微鏡で生きた固体の中で細胞の挙動を観 察することが可能です。授業では、GFP をレポーターに用いたトランスジェニックフィッシュの 作製手順を説明します。組織特異的に働くプロモーター領域のゲノムデータベースからの取 り出し方を実習します。そして、遺伝子工学を使ったその領域のクローニングと GFP 遺伝子と の接続の仕方を講義します。また実際に GFP で発光するゼブラフィシュのムービーをウェブ サイトで見てみます。 GFP で発光するゼブラフィッシュのムービー http://www.fishforscience.com/ 練習 oct4 のプロモーターの制御下で GPF が発光するトランスジェニックフィッシュを作製すれば、 細胞が万能性を持っている時に細胞が発光することが期待でき、iPS 細胞の作製に有効に 利用できると考えられます。トランスジェニックフィッシュ作製のためのプロモーター配列を設 計してみましょう。 1. トラフグのゲノムデータベースから、ゼブラフィシュの oct4 配列を使って相同遺伝子を検 索します。 2. oct4 のプロモーターの配列をゲノムデータベースから取り出します。 3. コンセンサス配列を検索し、TATA box, oct 結合配列を検索します。 4. ゲノムからプロモーターを増幅するための PCR プライマーを設計します。 57 トラフグのゲノムデータベース http://genome.jgi-psf.org/cgi-bin/runAlignment?db=Takru4&advanced=1 >zebrafish_oct4 MTERAQSPTAADCRPYEVNRAMYPQAAGLDGLGGASLQFAHGMLQDPSLIFNKAHFNGITPATAQTFFPFSGDFKTNDLQGGDFTQPK HWYPFAAPEFTGQVAGATAATQPANISPPIGETREQIKMPSEVKTEKDVEEYGNEENKPPSQYHLTAGTSSVPTGVNYYTPWNPNFWPGL SQITAQANISQAPPTPSASSPSLSPSPPGNGFGSPGFFSGGTAQNIPSAQAQSAPRSSGSSSGGCSDSEEEETLTTEDLEQFAKELKHKRITLG FTQADVGLALGNLYGKMFSQTTICRFEALQLSFKNMCKLKPLLQRWLNEAENSENPQDMYKIERVFVDTRKRKRRTSLEGTVRSALESYF VKCPKPNTLEITHISDDLGLERDVVRVWFCNRRQKGKRLALPFDDECVEAQYYEQSPPPPPHMGGTVLPGQGYPGPAHPGGAPALYMPS LHRPDVFKNGLHPGLVGHLTS NCBI Map Viewer の利用(2/4) —ゲノムデータベースを使った BLAST 検索— ゲノム解読が行われている各生物のゲノムデータベースに対して BLAST 検索を行うことがで きます。Database で Genome (all assemblies)を選択すると全ゲノム塩基配列に対して類似配 列を検索できます。Database で RefSeq protein を選択すると、アノテーションで予測されたタ ンパク質のアミノ酸配列に対して配列の類似検索を行うことができます。 練習:ショウジョウバエの eyeless 遺伝子のヒト相同遺伝子を探してみよう 1. Map Viewer の human のBボタンを選択 2. eyeless のアミノ酸配列を枠内にコピーする 3. 4. 5. 6. 7. Database は、Genome (all assemblies)を選択 Program は TBLASTN を選択 Begin search をクリック、ページが変わったら View report をクリック アミノ酸の保存性を見てみよう Genome View をクリックすると相同遺伝子の染色体上の位置が表示される Database に RefSeq protein を選択して、検索してみよう。 >Drosophila_eyeless MRNLPCLGTAGGSGLGGIAGKPSPTMEAVEASTASHPHSTSSYFATTYYHLTDDECHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDI SRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQENVCTNDNIPSVSSINRVLRNLAAQKEQ QSTGSGSSSTSAGNSISAKVSVSIGGNVSNVASGSRGTLSSSTDLMQTATPLNSSESGGASNSGEGSEQEAIYEKLRLLNTQHAAGPGPLEPAR AAPLVGQSPNHLGTRSSHPQLVHGNHQALQQHQQQSWPPRHYSGSWYPTSLSEIPISSAPNIASVTAYASGPSLAHSLSPPNDIESLASIGHQR NCPVATEDIHLKKELDGHQSDETGSGEGENSNGGASNIGNTEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLP EARIQVWFSNRRAKWRREEKLRNQRRTPNSTGASATSSSTSATASLTDSPNSLSACSSLLSGSAGGPSVSTINGLSSPSTLSTNVNAPTLGAGI DSSESPTPIPHIRPSCTSDNDNGRQSEDCRRVCSPCPLGVGGHQNTHHIQSNGHAQGHALVPAISPRLNFNSGSFGAMYSNMHHTALSMSDSYG AVTPIPSFNHSAVGPLAPPSPIPQQGDLTPSSLYPCHMTLRPPPMAPAHHHIVPGDGGRPAGVGLGSGQSANLGASCSGSGYEVLSAYALPPPP MASSSAADSSFSAASSASANVTPHHTIAQESCPSPCSSASHFGVAHSSGFSSDPISPAVSSYAHMSYNYASSANTMTPSSASGTSAHVAPGKQQ FFASCFYSPWV 58 次に、Drosophila ゲノムに存在する eyeless のパラログ遺伝子を探してみよう Rice (Oryza sativa)に関連遺伝子が存在するか調べてみよう 59 推薦図書 ゲノム関連 「ゲノム」岡崎康司/坊農秀雅監訳・メディカル・サイエンス・インターナショナル社(9,500 円) 「ゲノム研究実験ハンドブック」辻本豪三、田中利男・羊土社(6,500 円) 「大規模ゲノム解析とポストシークエンス時代の遺伝子機能解析」林崎良英監修・中山書店(3,600 円) 「比較ゲノムから読み解く生命システム」藤山秋佐夫監修・秀潤社(4,000 円) バイオインフォマティックス関連 「バイオインフォマティックス基礎講義-一歩進んだ発想をみがくために」岡崎康司/坊農秀雅 監訳・メディ カル・サイエンス・インターナショナル社(3,900 円) 「バイオインフォマティックスがわかる」菅原秀明・羊土社(4,200 円) 「ゲノム情報はこう活かせ」岡崎康司/坊農秀雅・羊土社(4,410 円) 「即活用のためのバイオインフォマティックス入門」広川貴次/美宅成樹著・中山書店(3,500 円) 「バイオデータベースとウェブツールの手とり足とり活用法」中村保一ら編集・羊土社(3,800 円) 「できるバイオインフォマティックス」広川貴次/美宅成樹著・中山書店(3,500 円) 「バイオインフォマティックス」メディカル・サイエンス・インターナショナル社(9,500 円) 「バイオリソース&データベース活用術」秀潤社(4,600 円) 「バイオインフォマティクス事典」日本バイオインフォマティクス学会編集・共立出版(14,000 円) ウェブサイト 研究室 home page http://www.agri.tohoku.ac.jp/bioinfor/index-j.html ========================================================================= 文献検索、塩基配列、ホモロジー検索、ORF finder、Map viewer 等 NCBI http://www.ncbi.nlm.nih.gov/ (National Center for Biotechnology Information) 塩基配列、ホモロジー検索、分子系統樹作成、シークエンス登録等 DDBJ http://www.ddbj.nig.ac.jp/Welcome-j.html (DNA Data Bank of Japan) 塩基配列、ホモロジー検索、タンパク質の構造(ドメイン・モチーフ検索等)解析 EBI http://www.ebi.ac.uk/Information/ (European Bioinformatics Institute) ゲノム配列のデータベース Ensembl http://www.ensembl.org/index.html ======================================================================= 60 分子系統樹作成 ClustalW http://clustalw.genome.jp/ ======================================================================= タンパク質・遺伝子の機能検索 オントロジー http://www.geneontology.org/ http://www.pir.uniprot.org/ ドメイン・モチーフ検索 http://www.ebi.ac.uk/Information/ シグナルペプチドの予測 http://www.cbs.dtu.dk/services/SignalP/ 3D 立体構造の予測、DNA の翻訳 http://ca.expasy.org/ ノックアウトマウスの表現型 http://www.informatics.jax.org/ ======================================================================= 転写調節領域のモチーフ検索 転写因子の結合部位予測 http://www.cbrc.jp/research/db/TFSEARCHJ.html ====================================================================== 代謝経路 KEGG http://www.genome.jp/kegg/pathway.html ======================================================================= ゲノム研究のモデル生物 マウス http://www.informatics.jax.org/ ツメガエル http://genome.jgi-psf.org/cgi-bin/runAlignment?db=frog4x1 ミドリフグフグゲノムデータベース トラフグフグゲノムデータベース http://www.genoscope.cns.fr/externe/tetranew/ http://fugu.biology.qmul.ac.uk/ トラフグフグゲノムデータベース http://genome.jgi-psf.org/cgi-bin/runAlignment?db=fugu6&advanced=1 ゼブラフィッシュ http://zfin.org/ http://www.ensembl.org/Danio_rerio/index.html メダカ http://shigen.lab.nig.ac.jp/medaka/ http://medakagb.lab.nig.ac.jp/Oryzias_latipes/index.html ショウジョウバエ http://www.ncbi.nlm.nih.gov/BLAST/Genome/Insects.html http://genome.med.yale.edu/lab/index.htm 線虫 http://omicspace.riken.jp/Ce/rnai/jsp/index.jsp 酵母 http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4932 http://www.fhcrc.org/science/labs/kruglyak/Data/ ======================================================================= cDNA, EST 情報 マウス cDNA アフリカツメガエル EST メダカ EST http://fantom3.gsc.riken.jp/index.html http://xenopus.nibb.ac.jp/ http://medaka.lab.nig.ac.jp/est_index.html 61 カタユウレイボヤ EST http://ghost.zool.kyoto-u.ac.jp/indexr1.html ========================================================================= microarray に関する情報 ヒト繊維芽細胞 ショウジョウバエ http://genome-www.stanford.edu/serum/data.html http://genome.med.yale.edu/Lifecycle/ ========================================================================= その他 http://genes.mit.edu/GENSCAN.html http://www.tigr.org/software/microarray.shtml http://motif.genome.jp/ http://www.rcsb.org/pdb/ ============================================================= 62
© Copyright 2024 Paperzz