EMBOSS を用いた配列解析への手引き 3 Preface from translators The original title of this document is ’Introduction to Sequence Analysis using EMBOSS’, which is distributed with EMBOSS package, and also accessible at http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.html It is written by Val Curwen, Lisa Mullen, David Martin, and others. This is a translated version of it into Japanese by JAMBO ( Japan EMBOSS Users Group, http://transgenic.cats.st/jambo/ ) that organized by M. Tagaya. It is edited and converted from Wiki into LATEXby H. Kawaji. The main translators are in the following table. We, the translators, thank to the original authors (thanks for your permission to translate), EMBOSS developers, EMBOSS community, and all people related with JAMBO. Chapter Translator What is EMBOSS? Mitsuhiro Tagaya Working with sequences Itoshi Nikaido Pairwise sequence alignment Protein analysis Hideya Kawaji Takeshi Nagashima Patterns, profiles and multiple sequence alignment Conclusion Takeru Nakazato Itoshi Nikaido 翻訳者による序 本ドキュメントのオリジナルは、’Introduction to Sequence Analysis using EMBOSS’ です。これ は、EMBOSS パッケージに同梱されており、 http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.html からも見ることができるものです。Val Curwen, Lisa Mullen, David Martin, 他の方々によって書 かれました。 4 本ドキュメントは、これを JAMBO ( Japan EMBOSS Users Group, http://transgenic.cats.st/jambo/ , 多賀谷主宰) が日本語へ翻訳したものです。翻訳文の編集や wiki から LATEX への変換は川路が行 ないました。各章を (主に) 担当した方は、上記の表のとおりです。 オリジナルのドキュメントの著者に感謝します (翻訳の許可をくださいまして、ありがとうござ いました)。また、EMBOSS の開発者の方々、EMBOSS コミュニティの方々、そして JAMBO に 少しでも関わって下さったすべての皆様へ感謝します。 5 第 1 章 EMBOSSって何? 1988 年以来、配列解析パッケージである EGCG は、市場をリードする商用配列解析パッケージ GCG に拡張機能を提供してきました。EGCG の開発は、EMBnet と他のグループとの共同作業 によるものでした。 EGCG は英国サンガー・センターにおける配列解析作業の中核を支えていました。150 以上のサ イトで先進的な機能を提供するばかりでなく、(内部で行なう) 新しい配列解析の基盤としても利用 されていました。また、EMBnet サービスのユーザ 10,000 人以上にも利用されていました。 しかし、そのプロジェクトは、GCG パッケージを利用する限界につきあたりました。とりわけ、 GCG ライブラリーを使用したアカデミックなソフトウェアのソース・コードを提供することは、 もはや不可能であり、バイナリ形式でソフトウェアを配布することさえも困難でした。 そこで、EGCG の元開発者たちが、アカデミックな次世代配列解析ソフトウェアを設計しまし た。これが、現在の EMBOSS プロジェクトになったのです。 1.1 それでは、EMBOSS とは何ですか? EMBOSS は、分子生物学のユーザ・コミュニティー (例:EMBnet) のために開発された、全く 新しいオープン・ソースな解析用ソフトウェア・パッケージです。このソフトウェアを使うことで、 様々なフォーマットで書かれたデータを自動的に処理したり、ウェブからの配列データ検索を透過 的に行うことができます。また、EMBOSS パッケージには拡張ライブラリが含まれているので、” オープンソース・スピリット”にのっとった開発を行なうプラットフォームともなります。さらに、 様々な配列解析用パッケージやツールがシームレスに統合されています。EMBOSS は、長く続い た商用パッケージソフトウェアへの流れを断ち切ったのです。 EMBOSS スイートは、 • 配列解析プログラム (150 以上) の包括的なセットを提供します。 • コアとなるソフトウェア・ライブラリ (AJAX、NUCLEUS) 一式を提供します。 • 公的に利用可能ないくつかのパッケージが統合されています。 • 配列解析の練習において、EMBOSS の利用を推奨します。 • EMBOSS 以外のパッケージでも、開発者による EMBOSS のライブラリーの利用を推奨し ます • Linux、Digital Unix、Irix、Solaris を含んだ、全ての Unix プラットフォームをサポートし ます (訳注: MacOS X や Windows でも利用できます)。 6 第1章 EMBOSSって何? EMBOSS には、150 以上のプログラム (アプリケーション) が含まれています。以下に紹介する ものは、カバーされている分野の一例です: • 配列アラインメント • 配列パターンによる、高速なデータベース検索 • ドメイン解析を含む、タンパク質のモチーフ同定 • EST 解析 • CpG アイランドの同定などの、核酸配列のパターン解析 • 単純で種特異的なリピートの同定 • 小さなゲノムにおけるコドン使用頻度解析 • 大規模な配列セットにおける、迅速な配列パターン同定 • 出版のためのプレゼンテーション・ツール • その他もろもろ 更に EMBOSS に関する情報を得たい場合は、下記の URL を訪れて下さい。 http://www.uk.embnet.org/Software/EMBOSS/ 1.2 1.2.1 EMBOSS を使ってみよう このチュートリアルの構成 このチュートリアルは、ファイルとディレクトリを操作するための基本的な Unix コマンドに精 通している方を想定してかかれています。EMBOSS には、紙面では伝えきれないほど非常に多数 のアプリケーションが含まれていますので、ここでは、それらのうちのいくつかのアプリケーショ ンについて紹介します。また、その他のアプリケーションについての情報を知る方法についても紹 介します。各セクションには、多くの練習問題を用意しました。すべてがうまくいった場合の結果 も記してあります。どうぞ、自由にプログラムを試してみてくださいね!それは、これらのプログ ラムで何ができるのかを知る上で、いちばんの近道なのですから。 次のテキストは、このドキュメント中で、良く見ることになるでしょう ... unix % 。これは、 Unix プロンプトを意味するのに使用します。ですから、これをタイプ入力しないでくださいね! タ イプしなければならないコマンドは太字 (bold) で示します。とくに入力が指定されない場合は、 入力の後に return を押してください。また、return を押すことは、グラフィックス・ウィンドウを 閉じることになるかもしれません。この記号 ((縦に3つ並んだ点)) は、スペースが足らないため にプログラムの出力を省略したことを意味するのに使用します。 1.3. wossname: 最初の EMBOSS のアプリケーション 1.3 7 wossname: 最初の EMBOSS のアプリケーション 全ての EMBOSS プログラムは、Unix のコマンドラインで動きます。ここでは、特別な例を用 いて基本を紹介しましょう。EMBOSS のユーティリティwossname は、EMBOSS に含まれる様々 なアプリケーションのリストを生成します。 1.3.1 練習:wossname unix % プロンプトの後に、wossname とタイプしてください。 unix % wossname EMBOSS プログラムは、起動されるとまずそのプログラムに関する情報を一行表示し、それか らユーザからの入力を受け付けるためのプロンプトを表示します。今回の場合は、次のように表示 されます。 Finds programs by keywords in their one-line documentation Keyword to search for: protein SEARCH FOR ’PROTEIN’ 8 第1章 EMBOSSって何? antigenic backtranseq Finds antigenic sites in proteins Back translate a protein sequence checktrans emowse Reports STOP codons and ORF statistics of a protein sequence Protein identification by mass spectrometry digest eprotdist Protein proteolytic enzyme or reagent cleavage digest Protein distance algorithm eprotpars fuzzpro Protein parsimony algorithm Protein pattern search fuzztran Protein pattern search after translation garnier iep GARNIER predicts protein secondary structure. Calculates the isoelectric point of a protein octanol oddcomp Displays protein hydropathy Finds protein sequence regions with a biased composition patmatdb patmatmotifs Search a protein sequence database with a motif Search a motif database with a protein sequence pepnet pepstats Displays proteins as a helical net Protein statistics pepwheel pepwindow Shows protein sequences as helices Displays protein hydropathy pepwindowall preg Displays protein hydropathy of a set of sequences Regular expression search of a protein sequence pscan sigcleave Scans proteins using PRINTS Reports protein signal cleavage sites topo Draws an image of a transmembrane protein EMBOSS プログラムの多くは、様々な機能を提供するためのオプション・パラメータを追加で きます。原則として、プログラムの名前に続いて-opt フラグを追加することにより、そのプログ ラムのオプションに関する情報を表示させることができます。 unix % wossname -opt さぁ、さまざまなオプションを追加してみましょう。それぞれのオプションのデフォルト値は角 括弧で示されており、リターンキーを押すとデフォルト値が選択されます。必要に応じて、値を入 力してください。 Keyword to search for: protein Output program details to a file [stdout]: myfile 1.3. wossname: 最初の EMBOSS のアプリケーション 9 Format the output for HTML [N]: Y String to form the first half of an HTML link: String to form the second half on an HTML link: Output only the group names [N]: Output an alphabetic list of programs [N]: Use the expanded group names [N]: このコマンドにより、wossname は myfile という名前のファイルにプログラムのリストを、 Web ブラウザで閲覧可能な html フォーマットで書き出します。 現在の EMBOSS パッケージに含まれるプログラムのリストを作成するには、wossname を起動 した後、キーワードを指定せずに return を押してください。プログラムのリストが、機能により グループ分けされてスクリーン上にずらずらとでてくるでしょう。全部を見るためには、上下にス クロールしてみてください。さてどうしたらこのデータをファイルに取り込めるでしょう?(ヒン ト:-opt を使う) EMBOSS プログラムの名前の後ろに-help フラグを付ければ、そのプログラムで利用可能な全 てのコマンド・フラグのリストを見ることができます。例えば: unix % wossname -help いくつかのフラグについては、後の章で出て来るでしょう。では、次に配列解析の話へ移りま しょう . . . 11 第 2 章 配列の取扱い このチュートリアルでは、G タンパク質共役型レセプターのロドプシンファミリーのメンバーを調 べていきます。ここで使用した原則は、もちろん、あなたが解析したいどんな配列にも応用できま す。ここでは EMBL や SwissProt から取り出した配列を扱っていきますが、テキストファイルの 配列も EMBOSS で使うことができます。 2 つの EMBL の配列、XL23808, XLRHODOP から始めます。これらは、Xenopus laevis のロ ドプシンのゲノム配列とそれに対応した cDNA 配列です。 まず、解析したい配列 (群) を読みこむ場所を EMBOSS へ指定する必要があります。EMBOSS は、配列をテキストファイルからも読むことができますし、配列データベースから直接読み込むこ ともできます。理解しやすいように、例を挙げてみましょう。 2.1 データベースからの配列の取り出し EMBOSS は database:entry という形式で、さまざまな配列データベースから配列を読み込む ことができます。この形式は、USA (Uniform Sequence Address) として知られており、USA の 詳細は EMBOSS のウェブサイトで見ることができます。用意されているデータベースを見るため には、showdb を使います: 2.1.1 練習: showdb 例として、HGMP の EMBOSS で最初に利用できるいくつかのデータベースを示します。あな たのローカルサイトでは、管理者によりますが、おそらく違ったデータベースが設定されているこ とでしょう。 unix % showdb Displays information on the currently availavle databases 12 第2章 #Name #==== Type ==== ID == Qry === All === Comment ======= nbrf pir P P OK OK OK OK OK OK PIR/NBRF PIR/NBRF remtrembl sptrembl P P OK OK OK OK OK OK REMTREMBL sequences SPTREMBL sequences sw swissprot P P OK OK OK OK OK OK SWISSPROT sequences SWISSPROT sequences trarc P OK OK OK TREMBL ARC sequences trembl tremblnew P P OK OK OK OK OK OK TREMBL sequences New TREMBL sequences 配列の取扱い showdb は、データベース名、内容、アクセス方法を簡単な表で出力します。 ID 一つの固有の名前が付けられた配列 (例えば、embl:x13776) を、そのデータベースから 取りだすことが可能であることを示しています。 Query エントリ名のワイルドカードにマッチする配列群 (例えば、swissprot:pax* human) を、取り出すことが可能であることを示しています。 All そのデータベースのすべてのエントリ (例えば、embl:*) を続けて解析可能であること を示しています。 EMBL へのアクセスは、xlrhodp のような識別子か、L07770 のようなアクセッション番号のど ちらでも可能です。では早速、試してみましょう。 2.1.2 seqret seqret は配列を読み込んで、そしてその配列を出力します。要するに EMBOSS は readseq と同 等の効力を持っています(訳注: readseq はよく使われる配列の形式を変換するプログラム)。こ のプログラムはおそらく、EMBOSS の中でもっとも広く使われるプログラムでしょう。 2.1.3 練習: seqret unix % seqret Reads and writes (returns) a sequence Input sequence: embl:xlrhodop Output sequence [xlrhodop.fasta]: 2.1. データベースからの配列の取り出し 13 unix % more xlrhodop.fasta >XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds. ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac .. . では、アクセッション番号を使って、配列を取り出してみましょう。 unix % seqret Reads and writes (returns) a sequence Input sequence: embl:L07770 Output sequence [xlrhodop.fasta]: xlrhodop2.fasta unix % more xlrhodop2.fasta >XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds. ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac .. . この例を完全にコマンドラインから実行することもできます: unix % seqret embl:xlrhodop -outseq xlrhodop.fasta デフォルトでは、seqret は FASTA 形式で出力します。また、違う出力形式を指定することもで きます: unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg USA を用いて出力形式を指定する別の方法として、-osformat フラグを利用することができま す。次のコマンドは前に示したコマンドとまったく同じ動作をします: 14 第2章 配列の取扱い unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg unix % more xlrhodop.gcg !!NA_SEQUENCE 1.0 Xenopus laevis rhodopsin mRNA, complete cds. XLRHODOP Length: 1684 Type: N Check: 9453 .. 1 ggtagaacag cttcagttgg gatcacaggc ttctagggat cctttgggca 51 aaaaagaaac acagaaggca ttctttctat acaagaaagg actttataga .. . EMBOSS が理解できるさまざまな形式のリストは、 http://www.uk.embnet.org/Software/EMBOSS/Usa/formats.html にあります。 2.2 ファイルからの配列の読み込み EMBOSS はファイルから配列を読むこともできます。例えば、もし私たちが、ダウンロードし た FASTA 形式の配列を gcg 形式へ変換したい場合、このようにします: unix % seqret xlrhodop.fasta -outseq gcg::myseq.gcg あるいは、 unix % seqret xlrhodop.fasta -outseq myseq.gcg -osformat gcg 2.3. 配列についての情報の取得 2.3 2.3.1 15 配列についての情報の取得 infoseq infoseq は、配列の USA、名前、アクセッション番号、種類 (核酸かタンパク質か)、長さ、G+C のパーセンテージ (核酸用)、および/または、概要 (description) を一覧表示する小さなユーティリ ティです。先程の配列に対しては、次のような情報が閲覧できます。 unix % infoseq embl:xlrhodop Displays some simple information about sequences # USA Name Accession Type Length embl-id:XLRHODOP XLRHODOP L07770 N 1684 2.3.2 GC 45.72 Description X.laevis rhodopsin 配列の注釈 配列データベースは単に配列だけを含んでいるわけではなく、エントリについての非常に重要な 関連情報 (注釈, annotation) も含んでいます。しかし、seqret ではこれらすべての情報を得ること はできません。 配列を取り出したいデータベースの元の形式で、完全なエントリを得るためには entret を使い ます。 unix % entret embl:xl23808 Reads and writes (returns) flatfile entries Output file [xl23808.entret]: unix % more xl23808.entret ID XL23808 standard; DNA; VRT; 4734 BP. XX AC U23808; XX SV U23808.1 XX DT 23-APR-1995 (Rel. DT 04-MAR-2000 (Rel. XX 43, Created) 63, Last updated, Version 7) DE Xenopus laevis rhodopsin gene, complete cds. XX 16 第2章 配列の取扱い KW . XX OS Xenopus laevis (African clawed frog) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Amphibia; OC Batrachia; Anura; Mesobatrachia; Pipoidea; Pipidae; Xenopodinae; Xenopus. XX .. . これによって、たくさんの情報が表示されます。最後のほう (配列の直前) には関係のある feature のリストが表示されます。feature は配列上のある領域を指し、これに関する説明も記述されてい ます。showfeat を使えば、feature の概要をシンプルかつグラフィカルに見ることができます: unix % showfeat embl:xl23808 Show features of a sequence. Output file [xl23808.showfeat]: unix % more xl23808.showfeat XL23808 Xenopus laevis rhodopsin gene, complete cds. |==========================================================| 4734 |----------------------------------------------------------> source |-----> mRNA |---> CDS CDS |-> |-> mRNA CDS |-> |-> mRNA CDS |--> |--> |> mRNA CDS |-------> mRNA 配列と共に、これの持つすべての feature を取りだすためには、seqret に -feature フラグを 付けて実行します。 unix % seqret embl:xl23808 -feature 2.3. 配列についての情報の取得 17 Reads and writes (returns) one or more sequences Output sequence [xl23808.fasta]: このとき、xl23808.fasta の他に xl23808.gff が作られます。このファイルを見てみましょう。 unix % more unknown.gff ##gff-version 2.0 ##date 2003-02-21 ##Type DNA XL23808 XL23808 EMBL source 1 4734 0.000 + . Sequence ‘‘XL23808.1’’ ; db_xref \ ‘‘taxon:8355’’ ; organism ‘‘Xenopus laevis’’ XL23808 EMBL mRNA 1181 1650 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\ ‘‘0x100’’ ; product ‘‘rhodopsin’’ XL23808 EMBL mRNA ‘‘0x104’’ 1899 2067 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\ XL23808 EMBL mRNA ‘‘0x104’’ 2669 2834 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\ .. . これは、GFF (General Feature Format) での、データベースエントリの feature のリストです。 EMBOSS のウェブサイトでは、このフォーマットについてもっと知ることができます。フォーマッ トとファイル名を変更するためには、seqret を実行するときに、適切なフラグを使って指定するこ とが必要です。feature を EMBL 形式で rhodop.features というファイルに保存してみましょう: unix % seqret embl:xl23808 -feature -offormat embl -ofname rhodop.features Reads and writes (returns) one or more sequences Output sequence [xl23808.fasta]: これで、期待どおりの出力が得られることでしょう。また、-offormat や -ofname フラグで個 別に指定するかわりに、Uniform Feature Object (UFO) を使って指定することもできます。 unix % seqret embl:xl23808 -feature -oufo embl::rhodop.features 18 2.4 第2章 配列の取扱い 複数配列を取り扱う EMBOSS のプログラムは、複数の配列を処理することができます。SRS(訳注:EMBL の Thure Etzold らが開発した配列データベース検索システム http://srs.embl-heidelberg.de:8000/srs5/ )を 使えば、今まで見て来た EMBL の配列に対応する SwissProt の配列が、OPSD XENLA であるこ とがすぐにわかるでしょう。SwissProt にある他の OPSD 配列すべてを取りだすためには、ワイル ドカード文字を使うことができます。 unix % infoseq Displays some simple information about sequences Input sequence(s): sw:opsd * # USA Name sw-id:OPSD ABYKO OPSD ABYKO Accession O42294 Type P Length 289 Description RHODOPSIN (FRAGMENT). sw-id:OPSD ALLMI sw-id:OPSD AMBTI OPSD ALLMI OPSD AMBTI P52202 Q90245 P P 352 354 RHODOPSIN. RHODOPSIN. sw-id:OPSD ANGAN sw-id:OPSD ANOCA OPSD ANGAN OPSD ANOCA Q90214 P41591 P P 352 352 RHODOPSIN, DEEP-SEA RHODOPSIN. sw-id:OPSD APIME OPSD APIME Q17053 P 377 RHODOPSIN. sw-id:OPSD ASTFA sw-id:OPSD BATMU OPSD ASTFA OPSD BATMU P41590 O42300 P P 352 289 RHODOPSIN. RHODOPSIN (FRAGMENT). sw-id:OPSD BATNI sw-id:OPSD BOVIN OPSD BATNI OPSD BOVIN O42301 P02699 P P 289 348 RHODOPSIN (FRAGMENT). RHODOPSIN. また、コマンドラインからもワイルドカード文字を利用することができます。しかし、指定する 識別子をクォーテーションマークで囲まなければなりません: unix % infoseq “sw:opsd *” seqret を使って、複数配列をファイルに取り出すことができます。例えば: unix % seqret “sw:opsd a*” -outseq opsd a.seqs この操作により、識別子が opsd a で始まるすべての配列を、opsd a.seqs というファイルに取り 2.5. リストファイル 19 出します。それぞれの配列を別々のファイルに取り出したい場合はこのようにします。 unix % seqret “sw:opsd a*” -ossingle ファイル名は、配列の識別子を元に付けられます。 2.5 リストファイル EMBOSS はリストファイルを使うこともできます。リストファイルとは、配列そのものが書か れているのではなく、配列へのリファレンスが書かれたファイルです。例えば、データベースエン トリ、配列が書かれたファイルの名前、他のリストファイルの名前、などが書かれています。リス トファイルを使うためには、適切なリストファイルを作るために、pico のようなテキストエディタ が必要になるでしょう (訳注: pico がインストールされている UNIX/Linux はそれほど多くあり ません。というか、見たことない。vi, vim, emacs, jed などを使いましょう。) 以下は、正しいリストファイルの例 (seq.list) です。 opsd_abyko.fasta sw:opsd_xenla sw:opsd_c* @another_list 作ったファイルを、次のようにして見てみましょう: unix % more seq.list ちょっと奇妙に見えるかもしれませんが、実はとても単純なのです。各行は、次のような意味を 表しています。 • opsd abyko.fasta - 配列ファイル名です。このファイルはカレントディレクトリから読み込 まれます。 • sw:opsd xenla - SwissProt データベースの特定の配列へのリファレンスです。 • sw:opsd c* - opsd c で始まる SwissProt のすべての配列を示しています。 • @another list - 別のリストファイル名です。 最後の行の前についている @ に注意してください。これは、このファイルが、通常の配列ファ イルではなく、リストファイルであることを EMBOSS に知らせています。@を使わない方法とし 20 第2章 配列の取扱い ては、「list:ファイル名」が利用できます。では、このリストファイルを seqret の入力として使 い、新しいファイルに配列を取得してみましょう。恐らく、多重アラインメント (5.3 節参照) など で利用されるでしょう。 まず、opsd abyko.fasta ファイルを seqret を使って作ります: unix % seqret sw:opsd abyko -outseq opsd abyko.fasta 今度は、another list を作りましょう。ファイルの構造が seq.list にとても似ていますが、デー タベースのリファレンスだけが含まれていることに注意してください: sw:opsd_anoca sw:opsd_apime sw:opsd_astfa 作ったファイルは、次のようにして見てみましょう。 unix % more another list では最後に、seq.list ファイルを使って seqret を実行し、結果を見てみましょう ( @ を忘れない でくださいね ): unix % seqret @seq.list -outseq outfile unix % more outfile >OPSD_ABYKO O42294 RHODOPSIN (FRAGMENT). YLVNPAAYAALGAYMFLLILIGFPINFLTLYVTLEHKKLRTPLNYILLNLAVANLFMVLG GFTTTMYTSMHGYFVLGRLGCNLEAFFATLGGEIALWSLVVLAIERWIVVCKPISNFRFT EDHAIMGLAFTWVMALACAVPPLVGWSRYIPEGMQCSCGVDYYTRAEGFNNESFVIYMFI VHFLIPLSVIFFCYGRLLCAVKEAPAAQQESETTQRAEKEVSRMVVIMVIGFLVCWLPYA SVAWWIFCNQGSDFGPIFMTLPSFFAKSAAIYNPMIYICMNKQFRHCMI >OPSD_XENLA P29403 RHODOPSIN. MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGPTGCYIEGFFATLG GEVALWSLVVLAVERYIVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP 2.5. リストファイル 21 EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES LTTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA >OPSD_CAMAB Q17292 RHODOPSIN. MMSIASGPSHAAYTWASQGGGFGNQTVVDKVPPEMLHMVDAHWYQFPPMNPLWHALLGFV IGVLGVISVIGNGMVIYIFTTTKSLRTPSNLLVVNLAISDFLMMLCMSPAMVINCYYETW VLGPLFCELYGLAGSLFGCASIWTMTMIAFDRYNVIVKGLSAKPMTINGALIRILTIWFF TLAWTIAPMFGWNRYVPEGNMTACGTDYLTKDLFSRSYILIYSIFVYFTPLFLIIYSYFF IIQAVAAHEKNMREQAKKMNVASLRSAENQSTSAECKLAKVALMTISLWFMAWTPYLVIN YSGIFETTKISPLFTIWGSLFAKANAVYNPIVYGISHPKYRAALFQKFPSLACTTEPTGA DTMSTTTTVTEGNEKPAA >OPSD_CAMHU O18312 RHODOPSIN (FRAGMENT). LHMIHLHWYQYPPMNPMMYPLLLIFMLFTGILCLAGNFVTIWVFMNTKSLRTPANLLVVN LAMSDFLMMFTMFPPMMVTCYYHTWTLGPTFCQVYAFLGNLCGCASIWTMVFITFDRYNV IVKGVAGEPLSTKKASLWILSVWVLSTAWCIAPFFGWNHYVPEGNLTGCGTDYLSEDILS RSYLYIYSTWVYFLPLAITIYCYVFIIKAVAAHEKGMRDQAKKMGIKSLRNEEAQKTSAE CRLAKNAMTTVALWFIAWTPCLLINWVGMFARSYLSPVYTIWGYVFAKANAVYNPIVYAI S .. . 期待した通り、出力ファイルには seq.list で指定したすべての配列が含まれていることを確認し てください。 23 第 3 章 ペアワイズアラインメント この章では、配列類似性を扱います。まずはじめに、配列の類似度を表す基準は複数あり、その計 算方法も複数あることを覚えておいて下さい。それぞれに長所と短所があり (あるいは前提とする 条件が異なり)、どのような類似度と計算方法を用いればよいかは状況に応じて使い分ける必要が あります。二つの配列どうしを、類似している部分と違いのある部分がわかるように文字を揃える ことをペアワイズアラインメントといいます。最適なアラインメントを行なうことで、最も有意な 類似を示す領域と、互いに類似しない領域がわかるのです。一般的に、配列を比較する方法は次の 三つに分類することができます。 • セグメント法は、片方の配列の全てのウィンドウ (10 アミノ酸、といったように予め決まっ た長さの全ての部分配列) をもう片方の配列の全てのウィンドウと比較します。これは、ドッ トプロットで使用されている方法です • 大域アラインメント法では、二つの配列の全長にわたってアラインメントを行なったときの 最も良いスコアが計算されます。ここではセグメント法とは異なり、ギャップを考慮に入れ て比較を行ないます。 • 局所アラインメント法では、各配列の部分配列同士のアラインメントを行なったときの最も 良いスコアが計算されます。ここでも、ギャップを考慮に入れた比較を行ないます。 3.1 ドットプロット 二つの配列を比較するときの表現方法として、最も直感に訴えるものがドットプロットです。各 配列は、x 軸あるいは y 軸に対応しており、有意に類似している領域は、マトリクスの対角線とし て表示されます。 3.1.1 練習:ドットプロットを作ろう unix % dottup DNA sequence dot plot Input sequence: embl:xl23808 Second sequence: embl:xlrhodop Word size [4]: 10 Graph type [x11]: 24 第 3 章 ペアワイズアラインメント 次のようなウィンドウが画面に表示されるでしょう。 対角線は、二つの配列が互いに類似している領域を表します。5 つの対角線がありますね。今、 アラインメントで使用している配列は、片方はゲノム、もう片方は cDNA だったのを覚えています か? これらの五つの対角線は五つのエキソンに対応しているのです! SRS を使って、元の EMBL のゲノム配列を見て下さい。そうすれば、この遺伝子は五つのエキソンを持っているという註釈を 見つけられるでしょう。自分の解析と註釈が一致する瞬間です。 ここで使ったパラメータの設定は、最もいい結果がでてくるようなものを選びました。dottup は配列の間で、局所的にギャップ無しで一致している部分を探します。さっきのように、エキソン の領域はゲノムの局所配列と正確に一致しているだろう、と予想できる場合には、もっと長いワー ド長 (訳注: ウィンドウの幅) を使ってもいいでしょう。そうすればきっと、もっときれいなドット プロットが得られます。でも、さっきの cDNA 配列を、進化的な関係はあるけれど異なる配列 (例 えば、マウスのロドプシン embl:m55171) と比較する場合には、長い一致は期待できませんね? こ の場合には、より短いワード長を使うべきでしょう。 3.1.2 練習:ドットプロットのパラメータを考えよう カエルのロドプシン cDNA 配列と、マウスのゲノム配列を使って、さっきのようにドットプロッ トを描いてみましょう。 unix % dottup embl:m55171 embl:xlrhodop DNA sequence dot plot Word size [4]: 10 Graph type [x11]: 同じことを、ワード長を変えてやってみましょう。なにか気付きましたか? どのワード長が、一 番きれいなドットプロットを出力しましたか? なぜ、最初と最後のエキソンは、きれいじゃないの でしょう? (ヒント:showfeat の結果をみてみましょう) ドットプロットでは、配列の詳細は何もわかりません。そこで、他のプログラムを使う必要が出 てきます。今から使うアルゴリズムは、データベース検索の際に用いられるものよりも厳密なもの 3.2. 大域アラインメント 25 です。ですから、BLAST か何かでデータベースから類似配列をみつけたとしても、その後で更に、 ペアワイズアラインメントを注意深く行なう価値は十分にあります。 配列アラインメントプログラムの基本的な考え方は、最も高いスコアをとるように二つの配列を 揃えることです。文字同士が一致したときのスコア、また不一致のときのスコアはスコアマトリク スによって決められます。核酸同士のスコアマトリクスは比較的単純に、一致/不一致に対するス コアだけを与えるようなものが使われることが多いですが、アミノ酸同士のスコアマトリクスは もっと複雑になります。アミノ酸同士の類似性を反映するようにスコアが与えられるのです。 進化の過程では、配列には様々な変異が起きます。スコアマトリクスは、文字の置換に対するス コアのみを与えるので、挿入/削除に対応するためには別のパラメータ (ギャップペナルティ) が必 要になります。これには、ギャップの開始に対するペナルティと、ギャップの伸張に対するペナル ティがあります。アラインメントプログラムで採用されているデフォルトのパラメータは経験的に 正しいと思われているものが設定されていますが、あなたが実際にプログラムを使用する際には、 自分で異なるパラメータも試してみるべきでしょう。 3.2 大域アラインメント 大域アラインメントは配列の全長を比較します。従って、互いに全長にわたって類似している と予想される配列同士の比較に向いています。予め与えられたスコアマトリクスとギャップのパラ メータを使って、互いに類似している領域を可能な限り大きく、そして、ギャップをできるだけ小 さくするように計算します。EMBOSS に含まれる needle は、Needleman-Wunsch [3] によって提 案されたアルゴリズムの実装です。これは、スコアが最大になるようなアラインメントを正確に計 算しますが、配列が長い場合にはとても時間がかかってしまいます。 3.2.1 練習: needle unix % needle Needleman-Wunsch global alignment. Input sequence: embl:xlrhodop Second sequence: embl:xl23808 Gap opening penalty [10.0]: Gap extension penalty [0.5]: Output file [xlrhodop.needle]: unix % more xlrhodop.needle Global: XLRHODOP vs XL23808 Score: 7471.00 XLRHODOP 26 XL23808 第 3 章 ペアワイズアラインメント 1 cgtaactaggaccccaggtcgacacgacaccttccctttcccagt 45 46 tatttcccctgtagacgttagaaggggaaggggtgtacttatgtc 90 91 acgacgaactacgtccttgactacttagggccagagagacgaggt 135 XLRHODOP XL23808 XLRHODOP XL23808 .. . ここでは、cDNA 配列とゲノム配列の大域アラインメントであることに注意してください。この ため、cDNA 配列と対応する領域だけでなく、対応しない領域も含めたゲノム配列全体が、結果と して出力されます。2 つの配列が並んでいる領域まで、出力結果をスクロールしてみてください。 XLRHODOP 1 ggtagaacagcttcagttgggatcacaggcttcta 35 |||||||||||||||||||||||||||||||||| XL23808 1171 tgggtcatactgtagaacagcttcagttgggatcacaggcttcta 1215 XLRHODOP 36 gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 80 ||||||||||||||||||||||||||||||||||||||||||||| XL23808 1216 gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 1260 XLRHODOP 81 acaagaaaggactttatagagctgctaccatgaacggaacagaag 125 XL23808 1261 ||||||||||||||||||||||||||||||||||||||||||||| acaagaaaggactttatagagctgctaccatgaacggaacagaag 1305 XLRHODOP 126 gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 170 XL23808 1306 ||||||||||||||||||||||||||||||||||||||||||||| gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 1350 .. . 出力結果はとても長いので、その一部だけを表示してます。自分でやってみて、結果の全体を見 てみてください。そうすれば、ドットプロットでも予測された五つのエキソンに対応する、五つの 領域が揃っていることがわかるでしょう。 アラインメントがとられているところと、そうでないところの境界をよく見てください。私達 は、生物学者なので、エキソンとイントロンの境界は保存されている (スプライスサイトは、gt .. ag で区切られている) ことを知っています。しかし needle は、こういった遺伝子の構造を理解し ていないので、境界を正しくアラインメントするのが苦手です。これは、スプライシングサイトに 特化したスコア付けを行なってないためです。イントロン/エキソン境界を、より正しくアライン メントするようにスコア計算を行なうプログラムとして、est2genome があります。 3.3. 局所アラインメント 3.3 27 局所アラインメント 上記で述べたように、大域アラインメントは配列の全長のアラインメントを行ないます。実際に 解析を行なう際には、どの種類のアラインメントが適切かというのを、しっかり考えてください。 先の例では、各エキソンの領域が同じ順番で並んでいたので、うまくアラインメントできました。 でも例えば、複数のドメインを含むタンパク質同士が一つのドメインしか共有しない場合や、ある ドメインが片方の配列でのみくり返されているような場合は、どうすればうまくアラインメントで きるでしょう? 二つめのアラインメント法である局所アラインメントでは、全長をアラインメントするのでなく、 局所的に類似している領域を捜し、アラインメントします。従って、配列データベース検索など、配 列同士が局所的に類似しているのか全体的に類似しているのか、予めわからない場合にはとても有効 です。EMBOSS のプログラム water は、局所アラインメントを厳密に計算する Smith-Waterman アルゴリズム [4]. の実装です。 3.3.1 練習: water unix % water Smith-Waterman local alignment. Input sequence: embl:xlrhodop Second sequence: embl:xl23808 Gap opening penalty [10.0]: Gap extension penalty [0.5]: Output file [xlrhodop.water]: unix % more xlrhodop.water Local: XLRHODOP vs XL23808 Score: 7448.00 XLRHODOP 2 gtagaacagcttcagttgggatcacaggcttctagggatcctttg 46 XL23808 1182 ||||||||||||||||||||||||||||||||||||||||||||| gtagaacagcttcagttgggatcacaggcttctagggatcctttg 1226 XLRHODOP 47 ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 91 XL23808 1227 ||||||||||||||||||||||||||||||||||||||||||||| ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 1271 XLRHODOP 92 ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 136 ||||||||||||||||||||||||||||||||||||||||||||| XL23808 1272 ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 1316 28 XLRHODOP 第 3 章 ペアワイズアラインメント 137 tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 181 XL23808 1317 ||||||||||||||||||||||||||||||||||||||||||||| tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 1361 XLRHODOP 182 gattaccctcagtattacttagcagagccatggcaatattcagca 226 XL23808 1362 ||||||||||||||||||||||||||||||||||||||||||||| gattaccctcagtattacttagcagagccatggcaatattcagca 1406 XLRHODOP 227 ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 271 XL23808 1407 ||||||||||||||||||||||||||||||||||||||||||||| ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 1451 XLRHODOP 272 aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 316 ||||||||||||||||||||||||||||||||||||||||||||| XL23808 1452 aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 1496 XLRHODOP 317 acacccctaaactacatcctgctgaacctggtatttgccaatcac 361 ||||||||||||||||||||||||||||||||||||||||||||| XL23808 1497 acacccctaaactacatcctgctgaacctggtatttgccaatcac 1541 .. . 出力結果の下のほうまで見て、五つのエキソンがみつかっていることを確認して下さい。この例 では、ギャップのパラメータをデフォルトのものから変更していません。しかし、あなたの実際の 解析では、パラメータを変える必要があるかもしれないことを認識しておいてください。 EMBOSS には、他にも大域アラインメント/局所アラインメントを行なうプログラムとして stretcher/matcher が含まれています。これらは needle や water と比べると、計算には厳密さ を欠きますが、より短時間で計算が行なえます。ですから、データベースの検索等に向いていると いえるしょう。また、supermatcher も、計算の厳密さを多少欠きますが、とても長い配列を局所 アラインメントできるプログラムです。これらのプログラムに関するドキュメントは、ウェブサイ ト (http://www.uk.embnet.org/Software/EMBOSS/Apps/index.html ) をご覧下さい。 29 第 4 章 タンパク質解析 この章ではタンパク質配列解析の際に利用することができるいくつかのプログラムを紹介します。 もちろん、前の章で説明したペアワイズアラインメントは、タンパク質配列の解析にも利用でき ます。 4.1 ORF の同定 本節では、cDNA 配列をタンパク質配列へと翻訳するための EMBOSS アプリケーションについ て見ていくことにします。なお、遺伝子の構造予測は、とても難しい問題だということは理解して おいて下さい。ゲノム配列から エキソン - イントロンの境界を認識することは、簡単ではないの です。ここではこれらの問題を扱うことを避け、cDNA 配列を用います。まず、オープンリーディ ングフレーム (Open Reading Frame。以下、ORF と記します) を同定しましょう。plotorf を使 うことで、配列中の 6 つの読み枠全てに関する ORF の概要を、グラフィカルに表示することがで きます。 4.1.1 練習: plotorf unix % plotorf Plot potential open reading frames Input sequence: embl:xlrhodop Graph type [x11]: 6 つの読み枠に存在する、全ての ORF 侯補がグラフィカルに表示されるでしょう。 30 第4章 タンパク質解析 最も長い ORF は読み枠 2 の 100 から 1200 塩基目あたりに存在します。getorf を使うことで、 この ORF の正確な開始位置と終了位置を同定することが出来ます。 4.1.2 練習: getorf unix % getorf -opt Finds and extracts open reading frames (ORFs) Input sequence: embl:xlrhodop Output sequence [xlrhodop.orf]: Genetic codes 0 : 1 : Standard Standard (with alternative initiation codons) 2 : 3 : Vertebrate Mitochondrial Yeast Mitochondrial 4 : 5 : Mold, Protozoan, Coelenterate Mitochondrial and Mycoplasma/Spiroplasma Invertebrate Mitochondrial 6 : 9 : Ciliate Macronuclear and Dasycladacean Echinoderm Mitochondrial 10 : 11 : Euplotid Nuclear Bacterial 4.2. 配列の翻訳 31 12 : Alternative Yeast Nuclear 13 : 14 : Ascidian Mitochondrial Flatworm Mitochondrial 15 : Blepharisma Macronuclear Code to use [0]: Minimum nucleotide size of ORF to report [30]: Type of sequence to output 0 : 1 : Translation of regions between STOP codons Translation of regions between START and STOP codons 2 : 3 : Nucleic sequences between STOP codons Nucleic sequences between START and STOP codons 4 : Nucleotides flanking START codons 5 : 6 : Nucleotides flanking initial STOP codons Nucleotides flanking ending STOP codons Type of output [0]: 3 適切な遺伝暗号を使用するために生物名を指定すること、また、このプログラムに出力して欲し い情報を選択する必要があること、に気をつけて下さい。ここでは単純に、この配列の開始コドン と終止コドンの位置に注目しています。 plotorf は getorf の出力するテキスト形式の情報をグラフィカルに表示するプログラムです。 先程の getorf の例では、最小サイズ (デフォルトでは 30 塩基) を上回る大きさの全 ORF を出力 するように指定したため、数多くの ORF 侯補が出力されました。plotorf により、我々の対象 である ORF は 100 から 1200 塩基目あたりにあることがわかっているので、これを見つけるまで getorf の出力ファイル xlrhodop.orf をスクロールダウンしてみましょう。正確な開始と終了の位 置はどこですか? unix % more xlrhodop.orf >XLRHODOP_7 [110 - 1171] Xenopus laevis rhodopsin mRNA, complete cds. atgaacggaacagaaggtccaaatttttatgtccccatgtccaacaaaactggggtggta cgaagcccattcgattaccctcagtattacttagcagagccatggcaatattcagcactg .. . 4.2 配列の翻訳 先ほどの練習から、cDNA 配列中で翻訳されるであろう位置が 110 から 1171 塩基目であること が分かりました。transeq を使えばこの領域をタンパク質に翻訳することができ、その翻訳結果 を用いて更に解析を行うことができます。 32 第4章 4.2.1 タンパク質解析 練習: transeq コマンドラインフラグを使う練習をもう一回やってみましょう。ここで登場する新しいフラグは -sbegin と-send です。これらのフラグは配列中の部分領域を指定するために使われます。ここで は、先程コーディング領域として同定した embl:xlrhodop の一部分だけを翻訳をするために使用し ます。 refchap:seqret 章に出てきた-outseq フラグも忘れず指定しましょう。 unix % transeq embl:xlrhodop -sbegin 110 -send 1171 -outseq xlrhodop.pep Translate nucleic acid sequences unix % more xlrhodop.pep >XLRHODOP+1 Xenopus laevis rhodopsin mRNA, complete cds. MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGQTGCYIEGFFATLG GEVALWSLVVLAVERYMVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES ATTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA 2 章で見たように、この cDNA に対応するタンパク質配列は、SwissProt の opsd xenla という 識別子を持つことがわかっています。では、ここまでの理解度を確かめるために needle を使って あなたの翻訳した配列とそのデータベース配列を比較してみてください。あなたの発見 (翻訳した タンパク質配列) と、SRS で調べた SwissProt エントリを比較してみましょう。 4.3 部分配列に対する USA 配列中での開始と終了の位置や、相補鎖か否かを指定するためには、-sbegin や-send フラグだけ でなく、USA 形式 (訳注:2 章参照) を使用することもできます。つまり、db:sequence[start:end] (相補鎖を指定する場合は db:sequence[start:end:r]) として指定できるのです。ただし、開始位 置は終了位置より小さい値でなければなりません。もし入力した配列の実際の開始位置と終了位置 を使いたければ位置 (何塩基目か) を指定する代わりに 0 を使うことができます。また、配列の先 頭からではなく終わりから数えたければ負の値を使うことも出来ます。 4.3.1 例 SwissProt opsd xenla の 10 から 20 残基目まで opsd xenla の最後の 10 残基 sw:opsd xenla[10:20] sw:opsd xenla[-10:0] opsd xenla の最後の 20 残基から後ろ 5 残基を除いたもの embl:xlrhodop の 134 から 458 塩基目までの相補鎖 sw:opsd xenla[-20:-6] embl:xlrhodop[134:458:r] 4.4. 二次構造予測 4.4 33 二次構造予測 DNA 配列がどのようにして特定のタンパク質立体構造を決定するかという疑問は、その問題が 提起されてから常に我々を魅了し、様々な思索の源となってきました。それは”フォールディング 問題”と呼ばれる分子生物学における未解決の非常に困難な問題であり続けています。これまでに タンパク質の一次配列から三次構造 (立体構造) を予測しようとする多くの試みがなされてきまし た。これらは二つのアプローチに分類することができます。 • タンパク質鎖の現実的な力学モデルを立て、フォールディング過程をシミュレートするアプ ローチ • 既知の三次構造から推測するという経験的なアプローチ 力学モデルに基づいたアプローチは、理論的にはタンパク質の三次構造に関する何の事前知識も 必要としない、という魅力を持っています。もしこのアプローチが成功すれば、全ての配列に等し く適用できることでしょう。対照的に、既知の構造からの推論に基づく全ての方法は、本質的に限 られた範囲にしか適用できません。つまり、推論する際に用いられたものと類似した構造を持つも のにしか適用できないのです。幸運にも、生物物理学的あるいは生化学的な特徴から、既知の構造 と類似しているかどうかを決定できる場合が、しばしばあります。そのため、これらの特徴を統合 した構造予測手法も提案されています。 現時点での、妥当な二次構造予測に到達するための最善の方法は、様々な予測アルゴリズムを 実行し、それらが与える結果間でのコンセンサスを決定することです。このような解析を行ってく れるいくつかの web サーバがあります。例えば、HGMP にある PIX や Dundee 大学にある Jpred がそうです。 http://www.hgmp.mrc.ac.uk/Registered/Webapp/pix/ http://www.compbio.dundee.ac.uk/ www-jpred 今までのところ、EMBOSS に含まれるプログラムによって可能な二次構造予測の範囲は限られ ています。上で述べたようなコンセンサスを決定するような手法を可能にするために、これから多 くのアルゴリズムが追加されることでしょう。以下では現在の EMBOSS を使って行うことが出来 る予測のいくつかを見ていくことにします。 4.5 pepinfo pepinfo はアミノ酸の特性 (大きさ、極性、芳香族性、電荷等) に関する情報を生成します。また、 疎水性プロファイルも計算します。これは、ターン、抗原性ペプチドの侯補や膜貫通へリックス位 置の侯補を推定するのに有用です。この計算には、様々なアルゴリズムが用いられています。例え ば、Kyte-Doolittle の疎水性指標は、ある残基を中心とする幅 9 残基のウィンドウ中で疎水性指標 の平均をとったものです。この値が上側にあれば疎水性であることを、下側にあれば親水性である ことを示します。 34 4.5.1 第4章 タンパク質解析 練習: pepinfo unix % pepinfo xlrhodop.pep Plots simple amino acid properties in parallel Graph type [x11]: Output file [pepinfo.out]: 以下に示すような二つの図がスクリーン上に表示されます (最初の図から次の図へ表示を切り替 えるにはリターンキーを押してください)。 4.5. pepinfo 4.5.2 35 膜貫通領域の予測 pepinfo の疎水性指標のプロットは、xlrhodop.pep 中に非常に疎水性の強い領域が 7 個ある ことを示しています。これらは膜貫通ドメインなのでしょうか? これを調べるには tmap を使うこ とができます。 4.5.3 練習: tmap unix % tmap Displays membrane spanning regions Sequences file to be read in: xlrhodop.pep Graph type [x11]: 以下のようなウィンドウが表示されるでしょう。 36 第4章 タンパク質解析 ウィンドウ上部にあるバーは予測された膜貫通領域を表しています。pepinfo と tmap の結果を 合わせて考慮すると、このタンパク質には 7 つの膜貫通領域があるであろうことがわかります。こ のことは、この配列の SwissProt エントリ opsd xenla や、次章で見ることになるパターンやプ ロファイルを利用して得られる情報とよく合致しています。 EMBOSS の中にはペプチド配列を解析する際に利用できる他の様々なプログラムがあります。 どのようなプログラムがあるかを調べるには 1 章で行ったように wossname を実行してください。 37 第 5 章 パターン、プロファイル、多重配列ア ラインメント BLAST や FASTA によるデータベース検索は、世界中の数多くのウェブサイトで提供されていま すが、現在は EMBOSS に含まれていないため、このチュートリアルでは説明しません。しかしな がらデータベース検索は、バイオインフォマティクスに携わる人間にとって、とても重要な武器の 一つです。既知の配列を集めたデータベースに対し、新しい配列を検索する場合は、次のような疑 問に対する答えを得ようとしているはずです。 • 解析対象のタンパク質配列と、同じファミリーに属すると示唆されるくらい十分に類似して いる、構造が既知のタンパク質はあるか? • もしないようであれば、そのタンパク質配列と最も類似している配列はどれか? もし、構造が既知であるタンパク質との関係が同定できれば、解析対象のタンパク質も同様な構 造を持つと予測でき、共通の折り畳み構造をあてはめることができるでしょう。しかしながら、相 同性のあるタンパク質の構造が未知である場合はどうすればいいでしょう? もし、その機能が同定 されていれば、その解析対象のタンパク質も類似した機能を持つと期待できるかもしれません。し かしながら、これには例外が存在します。古典的な例は、ライソザイム(lysozyme:リゾチーム) です。ライソザイムは、α-ラクトアルブミン (α-lactalbumin) の配列と、50%のアミノ酸が一致し、 70%のアミノ酸で類似を示します。また、これら 2 つのタンパク質の折り畳み構造は互いに類似し ていますが、それらの機能はまったく違います。ライソザイムの 2 つの重要な酵素活性部位の残基 は、α-ラクトアルブミンでは保存されていません。逆に、ほとんどのライソザイムは、α-ラクトア ルブミンの機能に重要なカルシウム結合モチーフを持っていません。このようなことからも、コン ピュータによる予測を実験によって確かめることは必要不可欠といえるでしょう。 もし、近縁のタンパク質であるかどうかを同定するのに、配列の類似性だけでは十分でないとし たら、どのようにすればいいでしょう? この章では、未知のタンパク質配列の機能を予測するのに 有用な EMBOSS のプログラムをいくつか紹介します。 5.1 パターンマッチング 多くの場合、タンパク質の活性部位は特異的な「フィンガープリント」あるいは「テンプレー ト」として認識することができます。これは、あるタンパク質ファミリーに特有な、ごく短いアミ ノ酸の並びです。例えば、ある GTP 結合部位を表す並びとしては GXGXXG(G=グリシン、X= 任意のアミノ酸) があります。配列中で、前もって (むしろあいまいに) 定義された文字列を探すこ とは、パターンマッチングと呼ばれます。 38 第5章 パターン、プロファイル、多重配列アラインメント patmatmotifs は、PROSITE データベースで定義されたパターンに基づき、与えられたタンパク 質の配列からパターン探索アルゴリズムによって配列モチーフを探し出します。PROSITE は、Dr. Amos Bairoch (the University of Geneva) により編纂されている、タンパク質のファミリーやド メインのデータベースです。厖大な数が存在するタンパク質の大部分は、配列類似性によって限ら れた個数のファミリーに分類できる、という知見に基づいて編纂が行なわれています。ある特定の ファミリーに属するタンパク質やタンパク質ドメインは、共通の祖先に由来し、一般には同じ機能 を有します。 5.1.1 練習: patmatmotifs unix % patmatmotifs Search a motif database with a protein sequence Input sequence: xlrhodop.pep Output file [xlrhodop 1.patmatmotifs]: xlrhodop.patmatmotifs unix % more xlrhodop.patmatmotifs Number of matches found in this Sequence = 1 Length of the sequence = 354 basepairs Start of match = position 123 of sequence End of match = position 139 of sequence Length of motif = 17 patmatmotifs of G_PROTEIN_RECEPTOR with XLRHODOP+1 from 123 to 139\\ TLGGEVALWSLVVLAVERYMVVCKPMA | | 123 139 Number of matches found in this Sequence = 1 Length of the sequence = 354 basepairs Start of match = position 290 of sequence End of match = position 306 of sequence Length of motif = 17 patmatmotifs of OPSIN with XLRHODOP+1 from 290 to 306 PVFMTVPAFFAKSSAIYNPVIYIVLNK | 290 | 306 5.1. パターンマッチング 39 今回は、検索に用いた配列がロドプシン (rhodopsin) であることが既にわかっていました。しか し、検索に用いるのが未知の配列だった場合、モチーフの同定は実験を計画する上で有用な情報を 与えてくれることがわかっていただけると思います。 5.1.2 レポートフォーマット (出力結果の形式) 多くの EMBOSS プログラムは、出力としてレポートを作成します。これには様々な形式があり、 ユーザが選択することができます。例えば、先程の例のようにモチーフを少しグラフィカルに表示 するのではなく、リストファイル(訳注:2 章参照)で出力して、後の目的のために各々の配列の マッチを得ることもあるかもしれません。このような場合は、-rformat というフラグを使用するこ とができます。例を示しましょう。 unix % patmatmotifs xlrhodop.pep -rformat listfile Search a PROSITE motif database with a protein sequence Output report [xlrhodop 1.patmatmotifs]: unix % more xlrhodop 1.patmatmotifs ######################################## # Program: patmatmotifs # Rundate: Fri Feb 21 13:37:58 2003 # Report_format: listfile # Report_file: xlrhodop_1.patmatmotifs ######################################## #======================================= # # Sequence: sw-id:OPSD_XENLA from: 1 to: 354 # HitCount: 2 # # Full: No # Prune: Yes # Data_file: /site/share/EMBOSS/data/PROSITE/prosite.lines # #======================================= sw-id:OPSD_XENLA[123:139] sw-id:OPSD_XENLA[290:306] #--------------------------------------#--------------------------------------- 40 第5章 パターン、プロファイル、多重配列アラインメント xlrhodop 1.patmatmotifs をリストファイルとして例えば seqret に与えることで、これら の配列を得ることができます。 他にも結果の形式があります(その中には feature table 形式もあります)。EMBOSS のウェブ ページには、使用可能な形式に関する最新のドキュメントがあります。 5.2 タンパク質のフィンガープリント PRINTS は、短く、特によく保存された多くの部分配列により、各ドメインとして同定された機 能の面でのタンパク質ファミリーのデータベースです。これらの「フィンガープリント」に完全に マッチする、ということはつまり、すべての関連のある短い部分配列が正しい順番でマッチする、 ということです。もし、なんらかの部分配列がマッチしなかったり、異なる順番でマッチしていた 場合には、部分的なマッチとして処理されます。PRINTS データベースは、pscan というプログラ ムを用いて検索できます。 5.2.1 練習: pscan unix % pscan Scans proteins using PRINTS Input sequence: xlrhodop.pep Minimum number of elements per fingerprint [2]: Maximum number of elements per fingerprint [20]: Output file [xlrhodop 1.pscan]: xlrhodop.pscan Scanning XLRHODOP+1... unix % more xlrhodop.pscan CLASS 1 Fingerprints with all elements in order Fingerprint GPCRRHODOPSN Elements 7 Accession number PR00237 Rhodopsin-like GPCR superfamily signature Element 1 Threshold 54% Score 61% Start position 39 Length 25 Element 2 Threshold 49% Score 49% Start position 72 Length 22 Element 3 Threshold 48% Score 55% Start position 117 Length 23 Element 4 Threshold 50% Score 69% 5.3. 多重配列解析 41 Start position 152 Length 22 Element 5 Threshold 51% Score 82% Start position 204 Length 24 Element 6 Threshold 42% Score 72% Start position 250 Length 25 Element 7 Threshold 46% Score 68% Start position 288 Length 27 CLASS 2 All elements match but not all in the correct order Fingerprint RHODOPSIN Elements 6 Accession number PR00579 Rhodopsin signature Element 1 Threshold 80% Score 100% Start position 3 Length 19 Element 2 Threshold 76% Score 94% Start position 22 Length 17 Element 3 Threshold 53% Score 90% Start position 85 Length 17 Element 4 Threshold 71% Score 100% Start position 191 Length 17 Element 5 Threshold 56% Score 97% Start position 271 Length 19 Element 6 Threshold 81% Score 95% Start position 319 Length 14 CLASS 3 Not all elements match but those that do are in order CLASS 4 Remaining partial matches 5.3 多重配列解析 複数 (3 つ以上) の核酸あるいはアミノ酸配列のアラインメントを同時に行なうことは、現在、分 子生物学の分野では必要不可欠な作業です。多重アラインメントは、タンパク質ファミリーに特徴 的なパターンを見つける際に用いられます。また、新しい配列と既知のファミリーに属する配列と 42 第5章 パターン、プロファイル、多重配列アラインメント の間での相同性の検出や検証にも用いられます。更に、新しい配列の 2 次構造、3 次構造予測の補 助や、PCR のためのオリゴヌクレオチドプライマーを作成する部位を見つけ出す作業、分子進化 解析のためのとても重要な準備としても用いられています。 多重アラインメントを行う最も有名なプログラムの 1 つに clustalw [1] があります。EMBOSS には、累進ペアワイズアラインメントを用いて、類似した配列群から多重アラインメントを作る、 emma clustal (つまり emma) と呼ばれる clustal のインターフェイス があります。emma は、最終 的なアラインメントと一緒に、ペアワイズアラインメントの順序と配列のクラスタを示す樹状図 (デンドログラム) も出力します。枝の長さは配列同士の相対的な距離と関連しますが、決して進 化系統樹ではありませんので、気をつけてください。 clustal は、次のような手順で大域アラインメントを計算します。まず、もっとも類似している 2 つの配列をまとめて一つのクラスタとし、配列同士でペアワイズアラインメントを行ないます。 次に、このアラインメントされたクラスタと残りの配列の中から最も類似しているものを探し、一 つのクラスタにまとめます。この操作を、全ての配列が一つのクラスタにまとまるまで繰り返しま す。既にアラインメントされているクラスタを、他の配列あるいはクラスタとまとめる際には、互 いのアラインメントが行なわれます。これは、ペアワイズアラインメントを単純に拡張した方式、 つまり既にアラインメントされているクラスタにギャップを挿入する必要がある場合には、すべて の配列の対応する場所にギャップを挿入するような方法で、アラインメントが行なわれます。ペア ワイズアラインメントのアルゴリズムとしては Needleman-Wunsch 法が採用されており、これを 基に、既にアラインメントされたクラスタを扱うことができるような拡張が行なわれています。 pscan によって、先程の配列がロドプシンファミリーに属することがわかりました。これはとて も大きなファミリーです。例えば、Pfam エントリを、次の URL からキーワードサーチしてみれ ば、そのその大きさがわかるでしょう : http://www.sanger.ac.uk/Software/Pfam 今度は、SwissProt からこのファミリーに属するタンパク質配列をいくつか取りだし、多重アラ インメントを行なってみましょう。そうすれば、この配列グループのプロファイルを生成すること ができます。このプロファイルを使えば、SwissProt のロドプシンファミリーに属する配列と、こ れまで解析してきた配列をアラインメントすることができます。 まず最初に、seqret を用いて配列を取り出しましょう。 5.3.1 練習:いくつかの配列の取り出し unix % seqret Reads and writes (returns) a set of sequences all at once Input sequence: sw:ops2 * Output sequence [ops2 drome.fasta]: ops2.fasta 識別子が ops2 から始まるすべての SwissProt の配列を取り出すために、ワイルドカード文字 * を用いていることに注意してください。 5.3. 多重配列解析 5.3.2 43 練習:emma unix % emma Multiple alignment program - interface to ClustalW program Input sequence: ops2.fasta Output sequence [ops2 drome.aln]: ops2.aln Output file [ops2 drome.dnd]: ops2.dnd ..clustalw -infile=21665A -outfile=21665B -align -type=protein -output=gcg -pwmatrix=blosum -pwgapopen=10.000 -pwgapext=0.100 -newtree=21665C -matrix=blosum -gapopen=10.000 -gapext=5.000 -gapdist=8 -hgapresidues=GPSNDQEKR -maxdiv=30.. CLUSTAL W (1.74) Multiple Sequence Alignments Sequence type explicitly set to Protein Sequence format is Pearson Sequence 1: OPS2 DROME 381 aa Sequence 2: Sequence 3: OPS2 DROPS 381 aa OPS2 HEMSA 377 aa Sequence 4: Sequence 5: OPS2 LIMPO 376 aa OPS2 PATYE 399 aa Sequence 6: OPS2 SCHGR 380 aa Start of Pairwise alignments Aligning... Sequences (1:2) Aligned. Sequences (1:3) Aligned. Score: Score: 91 37 Sequences (1:4) Aligned. Sequences (1:5) Aligned. Score: Score: 48 20 Sequences (1:6) Aligned. Sequences (2:3) Aligned. Score: Score: 32 37 Sequences (2:4) Aligned. Sequences (2:5) Aligned. Score: Score: 48 22 Sequences (2:6) Aligned. Sequences (3:4) Aligned. Score: Score: 31 40 Sequences (3:5) Aligned. Sequences (3:6) Aligned. Score: Score: 23 32 Sequences (4:5) Aligned. Sequences (4:6) Aligned. Score: Score: 20 34 Sequences (5:6) Aligned. Score: 18 Guide tree file created: [21665C] 44 第5章 パターン、プロファイル、多重配列アラインメント Start of Multiple Alignment There are 5 groups Aligning... Group 1: Group 2: Sequences: Sequences: 2 Score:6084 3 Score:3046 Group 3: Group 4: Sequences: Sequences: 4 Score:2772 5 Score:2489 Group 5: Delayed Sequence:5 Score:2819 Alignment Score 11778 GCG-Alignment file created [21665B] 私たちは 2 種のショウジョウバエ、2 種のカニ、イナゴ、ホタテガイから得た ops2 の配列をア ラインメントしました。それでは emma が何を生成したか見てみましょう。 unix % more ops2.aln >OPS2_DROME MERSHLPETPFDLAHSGPRFQAQSSGNGSVLD-NVLPDMAHLVNPYWSRFAPMDPMMSKI LGLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY Y-ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIL FIWMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLIC YSYWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDK-SAEGKLAKVALTTISLWFMAWT PYLVICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVF GNTDEPKPDAPASDTETTSEADSKA------------------------------------------------------------>OPS2_DROPS MERSLLPEPPLAMALLGPRFEAQTGGNRSVLD-NVLPDMAPLVNPHWSRFAPMDPTMSKI LGLFTLVILIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY Y-ETWVLGPLWCDIYAACGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIA FIWMMAVFWTIMPLIGWSSYVPEGNLTACSIDYMTRQWNPRSYLITYSLFVYYTPLFMIC YSYWFIIATVAAHEKAMRDQAKKMNVKSLRSSEDCDK-SAENKLAKVALTTISLWFMAWT PYLIICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPNDRLVLKEKCPMCVC GTTDEPKPDAPPSDTETTSEAESKD------------------------------------------------------------>OPS2_LIMPO ----------MANQLSYSSLGWPYQPNASVVD-TMPKEMLYMIHEHWYAFPPMNPLWYSI LGVAMIILGIICVLGNGMVIYLMMTTKSLRTPTNLLVVNLAFSDFCMMAFMMPTMASNCF A-ETWILGPFMCEVYGMAGSLFGCASIWSMVMITLDRYNVIVRGMAAAPLTHKKATLLLL FVWIWSGGWTILPFFGWSRYVPEGNLTSCTVDYLTKDWSSASYVIIYGLAVYFLPLITMI YCYFFIVHAVAEHEKQLREQAKKMNVASLRANADQQKQSAECRLAKVAMMTVGLWFMAWT PYLIIAWAGVFSSGTRLTPLATIWGSVFAKANSCYNPIVYGISHPRYKAALYQRFPSLAC 5.3. 多重配列解析 45 GSGESGSDVKSEASATMTMEEKPKSPEA--------------------------------------------------------->OPS2_HEMSA ---MTNATGPQMAYYGAASMDFGYPEGVSIVD-FVRPEIKPYVHQHWYNYPPVNPMWHYL LGVIYLFLGTVSIFGNGLVIYLFNKSAALRTPANILVVNLALSDLIMLTTNVPFFTYNCF SGGVWMFSPQYCEIYACLGAITGVCSIWLLCMISFDRYNIICNGFNGPKLTTGKAVVFAL ISWVIAIGCALPPFFGWGNYILEGILDSCSYDYLTQDFNTFSYNIFIFVFDYFLPAAIIV FSYVFIVKAIFAHEAAMRAQAKKMNVSTLRSNEADAQ-RAEIRIAKTALVNVSLWFICWT PYALISLKGVMGDTSGITPLVSTLPALLAKSCSCYNPFVYAISHPKYRLAITQHLPWFCV HETETKSNDDSQSNSTVAQDKA--------------------------------------------------------------->OPS2_SCHGR ------MVNTTDFYPVPAAMAYESSVGLPLLGWNVPTEHLDLVHPHWRSFQVPNKYWHFG LAFVYFMLMCMSSLGNGIVLWIYATTKSIRTPSNMFIVNLALFDVLMLLEMPMLVVSSLF Y-QRPVGWELGCDIYAALGSVAGIGSAINNAAIAFDRYRTISCPIDGRLTQGQVLALIAG TWVWTLPFTLMPLLRIWSRFTAEGFLTTCSFDYLTDDEDTKVFVGCIFAWSYAFPLCLIC CFYYRLIGAVREHEKMLRDQAKKMNVKSLQSNADTEAQSAEIRIAKVALTIFFLFLCSWT PYAVVAMIGAFGNRAALTPLSTMIPAVTAKIVSCIDPWVYAINHPRFRAEVQKRMKWLHL GEDARSSKSDTSSTATDRTVGNVSASA---------------------------------------------------------->OPS2_PATYE ---------------------------------------MPFPLNRTDTALVISPSEFRI IGIFISICCIIGVLGNLLIIIVFAKRRSVRRPINFFVLNLAVSDLIVALLGYPMTAASAF S-NRWIFDNIGCKIYAFLCFNSGVISIMTHAALSFCRYIIICQYGYRKKITQTTVLRTLF SIWSFAMFWTLSPLFGWSSYVIEVVPVSCSVNWYGHGLGDVSYTISVIVAVYVFPLSIIV FSYGMIL-----QEKVCKDSRKNGIRAQQRYTPRFIQ-DIEQRVTFISFLMMAAFMVAWT PYAIMSALAIGSFNV--ENSFAALPTLFAKASCAYNPFIYAFTNANFRDTVVEIMAPWTT RRVGVSTLPWPQVTYYPRRRTSAVNTTDIEFPDDNIFIVNSSVNGPTVKREKIVQRNPIN VRLGIKIEPRDSRAATENTFTADFSVI これらの配列は、互いにとても似ていますが、いくつか違いもあることに注意してください。ま ず、ギャップが挿入されています。そして、大域アラインメントを行なっています。だから、すべ ての配列の長さが同じになるようにギャップが挿入されているのです。 この形式では、アラインメントにおける配列間の違いが、とても見にくいものとなっています。 prettyplot というプログラムを用いると、それぞれの配列の頭をそろえることにより結果を見や すくすることができます。 5.3.3 練習:prettyplot unix % prettyplot Displays aligned sequences, with colouring and boxing 46 第5章 Input sequence set: パターン、プロファイル、多重配列アラインメント ops2.aln Graph type [x11]: アラインメントの詳細が、グラフィカルに表示されるでしょう。同じ残基は赤字で、似た残基は 緑字で表されます。こういった表示を見ることで、保存されている領域に関するイメージがわくで しょう。 EMBOSS に含まれる、他のグラフィカルな表示をするプログラムと同様に、出力を画面にでな くファイルに保存することもできます。これは、-graph フラグや、これと関連するフラグを用い ることで指定できます (すべてのフラグのリストを得るには prettyplot -help -verbose と打っ てください)。 先程の prettyplot の出力をカラーの PostScript 形式で rhodopsin.ps というファイルに保存す るためには、-graph cps と -goutfile rhodopsin を指定します。 unix % prettyplot ops2.aln -goutfile rhodopsin -graph cps Displays aligned sequences, with colouring and boxing Created rhodopsin.ps この結果、rhodopsin.ps ファイルが作られます。このファイルは PostScript プリンタで印刷 したり、ps2pdf(これは EMBOSS のプログラムではありませんが、多くの UNIX あるいは Linux システムで使うことができます) を用いて PDF ドキュメントに変換することができます。PDF ド キュメントは、Acrobat Reader のような PDF ビューワーで見ることが可能です。 prettyplot の出力を調節するために(例えば、一行あたりに表示される残基数を増やすなど) 多くのオプションが用意されています。ヘルプファイルを読んで、いろいろ試してみてください。 コンセンサス配列と共に表示したり、一行あたりの残基数を変更するなど、いろいろできます (ヒ ント:prettyplot -help)。 5.4 プロファイル タンパク質の構造や機能を配列に基づいて予測する際に、プロファイル解析 [2] はとても有用で す。これは、配列類似性は低いけれども関連のある配列を探索しアラインメントする際に用いられ る、配列比較の方法です。プロファイル解析を行なうことで、新しい配列と、これと類似したファ ミリーとの間の最適なアラインメントを行なうことができます。この計算には、スコアマトリクス と、複数の似た配列からつくられた最適な多重アラインメントが必要です。このグループあるいは 「ファミリー」のアラインメントから多重アラインメントをつくるための最初のアラインメントが とられます。その多重アラインメントの情報から、位置特異的な文字の出現頻度とギャップペナル ティの表が作成されます。この表が、プロファイルと呼ばれるものです。得られたプロファイルと 配列は、Smith/Waterman のアルゴリズムを基とした手法で比較することができ、これによって、 その配列がファミリーと類似を示すかどうかを評価することができます。 5.4. プロファイル 5.4.1 47 練習:prophecy prophecy は多重アラインメントからプロファイルをつくる EMBOSS のプログラムです。prophecy の例を示すために osp2 のアラインメントを使います。 unix % prophecy Creates matrices/profiles from multiple alignments ops2.aln Input sequence: Profile type F : Frequency G : Gribskov H : Henikoff Select type [F]: g Enter a name for the profile [My matrix]: ops2 sequences Scoring matrix [Epprofile]: Gap opening penalty [3.0]: Gap extension penalty [0.3]: Output file [outfile.prophecy]: ops2.prophecy 5.4.2 練習:prophet それでは、今作ったプロファイルを使って、xlrhodop.pep と opsin2 の配列をアラインメントし てみましょう。 unix % prophet Gapped alignment for profiles Input sequence(s): xlrhodop.pep Profile or matrix file: ops2.prophecy Gap opening coefficient [1.0]: Gap extension coefficient [0.1]: Output file [ops2.prophet]: unix % more ops2.prophet Local: Consensus vs OPSD_XENLA Score: 2189.00 Consensus 1 M.ERS.HLPEG.PFAAALSGARFAAQSSGN.ASVL..DWNVLP.E 38 OPSD_XENLA 1 MNG.GTE..EGPN.NFYVP.PMS...SN.NKTGVVRSP.P..PFD 33 Consensus 39 MAPLVHPHWSRF.APMNPMWHKILGLFTLILGII.SCLG.NGLVI 80 | : : : || : ::::: : |: | ::|: : | : 48 第5章 ::: ::: パターン、プロファイル、多重配列アラインメント : : :|: :::|: ::::|::: |: | ::: OPSD_XENLA 34 YPQ.Q.QYYL.LAE..EPWQYSALAAYMFLLILLGL.LPINFMTL 72 Consensus 81 YI.FA.GTKSLRTPANLLVLNLAFSD..FCMMASMSPV.MAINCF 120 :: :: :: |||| |:::|||:|:: : |:: :::| | :::: OPSD_XENLA 73 FVTIQHKKL.LRTPLNYILLNLVFANHFM.MVLCGFTVTMYTSMH 115 Consensus 121 YGETWVLGPLGC..D.IYAAL.GSLFGCVSIWSMCMIAFDRYNVI 161 : :::|| || : ::|:| | | |::||::::|::|| |: OPSD_XENLA 116 G.GYFIFGPTGCYIEGFFATLGG...GEVALWSLVVLAVERYIVV 156 Consensus 162 VKGINGTPLTIKTAILKALFIWMM.AVFW.TIMPLFGWSRYVPEG 204 OPSD_XENLA 157 :|:::: ::::: ||: ::|:|:| : :: : :||||||||:||| CKPMANFRFGENHAIMGVAFTWIMAL.LSCAAPPLFGWSRYIPEG 200 Consensus 205 NLTSCSIDYLT.R.DWNPRSYL.ITYFLFV.YFFPLFIICYSY.W 244 OPSD_XENLA 201 : :||::||:| : : |: |:: |:::| : :||::|:::| : MQCSCGVDYYTLKPEVNNESFVIY.YMFIVHFTIPLIVIFFCYGR 244 Consensus 245 FIIAAVAAHEKAMRDQAKKMNVKSLRSNEDCDKQSAEI.R.LAKV 287 OPSD_XENLA 245 ::::: :|:|:::|:: : :::::::: : |: | :: | LLCTVK..KEAAAQQQESLT..TTQKAEKE..E...EVTRMVV.V 279 Consensus 288 ALTTISLWFMAWTPYAIIAY.FGLFGIDGA.LTP.LTT.IWGALF 328 OPSD_XENLA 280 :::: :::::|:|||::|: : :|: :|: ::| ::| :|:| IMVVF.FFLICWVPYAYVAFYI.IFTHQGSNFGPVFMTVP.PAFF 321 Consensus 329 AKASSCYNPIVYAISHPKYRA.ALKEKCPMCVCGETD.EPSPDAP 371 ||:|::|||::| : ::::| :: :: ::||::: ::::::: OPSD_XENLA 322 AKSSAIYNPVIYIVLNKQFRNCLI...ITTLCCGKNPFGDEDGSS 363 Consensus 372 QSDATTTSEAAS..KAPAAI.EFPD |:||:::||:| ::: :: : |: 393 OPSD_XENLA 364 .SAATSKTEASSVSSSQ.QVSP.PA 385 縦棒 (|) は、ops2 のコンセンサスと rhodopsin が一致した残基を示し、コロン (:) は同義置換を 示します。ファミリーのメンバーをアラインメントすれば、構造や機能にとって重要な保存領域を 発見できることが、わかっていただけると思います。 49 第 6 章 結論 これまで、EMBOSS で提供されているプログラムのいくつかについて、またこれらをコマンドラ インから実行する方法を紹介してきました。ただし、これらのプログラムの全てのオプションを 説明したわけではありませんし、現在 EMBOSS で可能な解析を全て網羅できたわけでもありませ ん。あなたがここまで EMBOSS について楽しく学習でき、EMBOSS で解析できる新しいタイプ の問題を思いついているようであれば、私達の期待どおりといえるでしょう。 是非、EMBOSS のウェブサイト http://www.uk.embnet.org/Software/EMBOSS/ を訪れてく ださい。そこには、EMBOSS で可能な解析に関するものなど、様々な情報があります。 さらに、EMBOSS のマニュアルを表示するプログラム tfm もあります。 6.1 練習: tfm EMBOSS のそれぞれのプログラムのマニュアルを閲覧するために、このプログラムを使うこと ができます。では、wossname プログラムのマニュアルを見てみましょう。 unix % tfm wossname Displays a program’s help documentation manual EMBOSS: wossname _________________________________________________________________ Program wossname Function Finds programs by keywords in their one-line documentation Description This allows a user to search for keywords or parts of words in the brief documentation (as displayed by a program when it first starts). The program name and the brief description is output. If no words to search for are specified, then details of all the EMBOSS programs are 50 第6章 結論 output. The program has been written on the assumption that most people will use it to quickly find the name of a program based on that program’s description, so the output goes to the screen by default. This program may find some use in automatically generating lists of EMBOSS programs and their groups for Web pages. Usage Here are some sample sessions with wossname. Search for programs with ’restrict’ in their description % wossname restrict Display a listing of programs in their groups --More--(8%) マニュアルの内容はページごとに表示されており、スペースバー (訳注:スペースキー) を使うこ とで次のページに移動できます。この動作は、-nomore フラグを使うことで、無効にすることが できます。 51 関連図書 [1] D.G. Higgins J.D. Thompson and T.J. Gibson. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specific gap penalties and weight matrix choice. . Nucleic Acids Research., 22:4673–4680, 1994. [2] A.D. McClachlan M. Gribskov and D. Eisenberg. Profile analysis - detection of distantly related proteins. . Proc. Natl. Acad. Sci. USA, 84:4355–4358, 1987. [3] S.B. Needlman and C.D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. . J. Mol. Biol., 48:443–453, 1970. [4] T.F. Smith and M.S. Waterman. Identification of common molecular subsequences. J. Mol. Biol., 147:195–197, 1981.
© Copyright 2024 Paperzz