EMBOSSを用いた配列解析への手引き

EMBOSS を用いた配列解析への手引き
3
Preface from translators
The original title of this document is ’Introduction to Sequence Analysis using EMBOSS’, which
is distributed with EMBOSS package, and also accessible at
http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.html
It is written by Val Curwen, Lisa Mullen, David Martin, and others.
This is a translated version of it into Japanese by JAMBO ( Japan EMBOSS Users Group,
http://transgenic.cats.st/jambo/ ) that organized by M. Tagaya. It is edited and converted from
Wiki into LATEXby H. Kawaji. The main translators are in the following table.
We, the translators, thank to the original authors (thanks for your permission to translate),
EMBOSS developers, EMBOSS community, and all people related with JAMBO.
Chapter
Translator
What is EMBOSS?
Mitsuhiro Tagaya
Working with sequences
Itoshi Nikaido
Pairwise sequence alignment
Protein analysis
Hideya Kawaji
Takeshi Nagashima
Patterns, profiles and multiple sequence alignment
Conclusion
Takeru Nakazato
Itoshi Nikaido
翻訳者による序
本ドキュメントのオリジナルは、’Introduction to Sequence Analysis using EMBOSS’ です。これ
は、EMBOSS パッケージに同梱されており、
http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.html
からも見ることができるものです。Val Curwen, Lisa Mullen, David Martin, 他の方々によって書
かれました。
4
本ドキュメントは、これを JAMBO ( Japan EMBOSS Users Group, http://transgenic.cats.st/jambo/
, 多賀谷主宰) が日本語へ翻訳したものです。翻訳文の編集や wiki から LATEX への変換は川路が行
ないました。各章を (主に) 担当した方は、上記の表のとおりです。
オリジナルのドキュメントの著者に感謝します (翻訳の許可をくださいまして、ありがとうござ
いました)。また、EMBOSS の開発者の方々、EMBOSS コミュニティの方々、そして JAMBO に
少しでも関わって下さったすべての皆様へ感謝します。
5
第 1 章 EMBOSSって何?
1988 年以来、配列解析パッケージである EGCG は、市場をリードする商用配列解析パッケージ
GCG に拡張機能を提供してきました。EGCG の開発は、EMBnet と他のグループとの共同作業
によるものでした。
EGCG は英国サンガー・センターにおける配列解析作業の中核を支えていました。150 以上のサ
イトで先進的な機能を提供するばかりでなく、(内部で行なう) 新しい配列解析の基盤としても利用
されていました。また、EMBnet サービスのユーザ 10,000 人以上にも利用されていました。
しかし、そのプロジェクトは、GCG パッケージを利用する限界につきあたりました。とりわけ、
GCG ライブラリーを使用したアカデミックなソフトウェアのソース・コードを提供することは、
もはや不可能であり、バイナリ形式でソフトウェアを配布することさえも困難でした。
そこで、EGCG の元開発者たちが、アカデミックな次世代配列解析ソフトウェアを設計しまし
た。これが、現在の EMBOSS プロジェクトになったのです。
1.1
それでは、EMBOSS とは何ですか?
EMBOSS は、分子生物学のユーザ・コミュニティー (例:EMBnet) のために開発された、全く
新しいオープン・ソースな解析用ソフトウェア・パッケージです。このソフトウェアを使うことで、
様々なフォーマットで書かれたデータを自動的に処理したり、ウェブからの配列データ検索を透過
的に行うことができます。また、EMBOSS パッケージには拡張ライブラリが含まれているので、”
オープンソース・スピリット”にのっとった開発を行なうプラットフォームともなります。さらに、
様々な配列解析用パッケージやツールがシームレスに統合されています。EMBOSS は、長く続い
た商用パッケージソフトウェアへの流れを断ち切ったのです。
EMBOSS スイートは、
• 配列解析プログラム (150 以上) の包括的なセットを提供します。
• コアとなるソフトウェア・ライブラリ (AJAX、NUCLEUS) 一式を提供します。
• 公的に利用可能ないくつかのパッケージが統合されています。
• 配列解析の練習において、EMBOSS の利用を推奨します。
• EMBOSS 以外のパッケージでも、開発者による EMBOSS のライブラリーの利用を推奨し
ます
• Linux、Digital Unix、Irix、Solaris を含んだ、全ての Unix プラットフォームをサポートし
ます (訳注: MacOS X や Windows でも利用できます)。
6
第1章
EMBOSSって何?
EMBOSS には、150 以上のプログラム (アプリケーション) が含まれています。以下に紹介する
ものは、カバーされている分野の一例です:
• 配列アラインメント
• 配列パターンによる、高速なデータベース検索
• ドメイン解析を含む、タンパク質のモチーフ同定
• EST 解析
• CpG アイランドの同定などの、核酸配列のパターン解析
• 単純で種特異的なリピートの同定
• 小さなゲノムにおけるコドン使用頻度解析
• 大規模な配列セットにおける、迅速な配列パターン同定
• 出版のためのプレゼンテーション・ツール
• その他もろもろ
更に EMBOSS に関する情報を得たい場合は、下記の URL を訪れて下さい。
http://www.uk.embnet.org/Software/EMBOSS/
1.2
1.2.1
EMBOSS を使ってみよう
このチュートリアルの構成
このチュートリアルは、ファイルとディレクトリを操作するための基本的な Unix コマンドに精
通している方を想定してかかれています。EMBOSS には、紙面では伝えきれないほど非常に多数
のアプリケーションが含まれていますので、ここでは、それらのうちのいくつかのアプリケーショ
ンについて紹介します。また、その他のアプリケーションについての情報を知る方法についても紹
介します。各セクションには、多くの練習問題を用意しました。すべてがうまくいった場合の結果
も記してあります。どうぞ、自由にプログラムを試してみてくださいね!それは、これらのプログ
ラムで何ができるのかを知る上で、いちばんの近道なのですから。
次のテキストは、このドキュメント中で、良く見ることになるでしょう ... unix % 。これは、
Unix プロンプトを意味するのに使用します。ですから、これをタイプ入力しないでくださいね! タ
イプしなければならないコマンドは太字 (bold) で示します。とくに入力が指定されない場合は、
入力の後に return を押してください。また、return を押すことは、グラフィックス・ウィンドウを
閉じることになるかもしれません。この記号 ((縦に3つ並んだ点)) は、スペースが足らないため
にプログラムの出力を省略したことを意味するのに使用します。
1.3. wossname: 最初の EMBOSS のアプリケーション
1.3
7
wossname: 最初の EMBOSS のアプリケーション
全ての EMBOSS プログラムは、Unix のコマンドラインで動きます。ここでは、特別な例を用
いて基本を紹介しましょう。EMBOSS のユーティリティwossname は、EMBOSS に含まれる様々
なアプリケーションのリストを生成します。
1.3.1
練習:wossname
unix % プロンプトの後に、wossname とタイプしてください。
unix % wossname
EMBOSS プログラムは、起動されるとまずそのプログラムに関する情報を一行表示し、それか
らユーザからの入力を受け付けるためのプロンプトを表示します。今回の場合は、次のように表示
されます。
Finds programs by keywords in their one-line documentation
Keyword to search for: protein
SEARCH FOR ’PROTEIN’
8
第1章
EMBOSSって何?
antigenic
backtranseq
Finds antigenic sites in proteins
Back translate a protein sequence
checktrans
emowse
Reports STOP codons and ORF statistics of a protein sequence
Protein identification by mass spectrometry
digest
eprotdist
Protein proteolytic enzyme or reagent cleavage digest
Protein distance algorithm
eprotpars
fuzzpro
Protein parsimony algorithm
Protein pattern search
fuzztran
Protein pattern search after translation
garnier
iep
GARNIER predicts protein secondary structure.
Calculates the isoelectric point of a protein
octanol
oddcomp
Displays protein hydropathy
Finds protein sequence regions with a biased composition
patmatdb
patmatmotifs
Search a protein sequence database with a motif
Search a motif database with a protein sequence
pepnet
pepstats
Displays proteins as a helical net
Protein statistics
pepwheel
pepwindow
Shows protein sequences as helices
Displays protein hydropathy
pepwindowall
preg
Displays protein hydropathy of a set of sequences
Regular expression search of a protein sequence
pscan
sigcleave
Scans proteins using PRINTS
Reports protein signal cleavage sites
topo
Draws an image of a transmembrane protein
EMBOSS プログラムの多くは、様々な機能を提供するためのオプション・パラメータを追加で
きます。原則として、プログラムの名前に続いて-opt フラグを追加することにより、そのプログ
ラムのオプションに関する情報を表示させることができます。
unix % wossname -opt
さぁ、さまざまなオプションを追加してみましょう。それぞれのオプションのデフォルト値は角
括弧で示されており、リターンキーを押すとデフォルト値が選択されます。必要に応じて、値を入
力してください。
Keyword to search for: protein
Output program details to a file [stdout]: myfile
1.3. wossname: 最初の EMBOSS のアプリケーション
9
Format the output for HTML [N]: Y
String to form the first half of an HTML link:
String to form the second half on an HTML link:
Output only the group names [N]:
Output an alphabetic list of programs [N]:
Use the expanded group names [N]:
このコマンドにより、wossname は myfile という名前のファイルにプログラムのリストを、
Web ブラウザで閲覧可能な html フォーマットで書き出します。
現在の EMBOSS パッケージに含まれるプログラムのリストを作成するには、wossname を起動
した後、キーワードを指定せずに return を押してください。プログラムのリストが、機能により
グループ分けされてスクリーン上にずらずらとでてくるでしょう。全部を見るためには、上下にス
クロールしてみてください。さてどうしたらこのデータをファイルに取り込めるでしょう?(ヒン
ト:-opt を使う)
EMBOSS プログラムの名前の後ろに-help フラグを付ければ、そのプログラムで利用可能な全
てのコマンド・フラグのリストを見ることができます。例えば:
unix % wossname -help
いくつかのフラグについては、後の章で出て来るでしょう。では、次に配列解析の話へ移りま
しょう . . .
11
第 2 章 配列の取扱い
このチュートリアルでは、G タンパク質共役型レセプターのロドプシンファミリーのメンバーを調
べていきます。ここで使用した原則は、もちろん、あなたが解析したいどんな配列にも応用できま
す。ここでは EMBL や SwissProt から取り出した配列を扱っていきますが、テキストファイルの
配列も EMBOSS で使うことができます。
2 つの EMBL の配列、XL23808, XLRHODOP から始めます。これらは、Xenopus laevis のロ
ドプシンのゲノム配列とそれに対応した cDNA 配列です。
まず、解析したい配列 (群) を読みこむ場所を EMBOSS へ指定する必要があります。EMBOSS
は、配列をテキストファイルからも読むことができますし、配列データベースから直接読み込むこ
ともできます。理解しやすいように、例を挙げてみましょう。
2.1
データベースからの配列の取り出し
EMBOSS は database:entry という形式で、さまざまな配列データベースから配列を読み込む
ことができます。この形式は、USA (Uniform Sequence Address) として知られており、USA の
詳細は EMBOSS のウェブサイトで見ることができます。用意されているデータベースを見るため
には、showdb を使います:
2.1.1
練習: showdb
例として、HGMP の EMBOSS で最初に利用できるいくつかのデータベースを示します。あな
たのローカルサイトでは、管理者によりますが、おそらく違ったデータベースが設定されているこ
とでしょう。
unix % showdb
Displays information on the currently availavle databases
12
第2章
#Name
#====
Type
====
ID
==
Qry
===
All
===
Comment
=======
nbrf
pir
P
P
OK
OK
OK
OK
OK
OK
PIR/NBRF
PIR/NBRF
remtrembl
sptrembl
P
P
OK
OK
OK
OK
OK
OK
REMTREMBL sequences
SPTREMBL sequences
sw
swissprot
P
P
OK
OK
OK
OK
OK
OK
SWISSPROT sequences
SWISSPROT sequences
trarc
P
OK
OK
OK
TREMBL ARC sequences
trembl
tremblnew
P
P
OK
OK
OK
OK
OK
OK
TREMBL sequences
New TREMBL sequences
配列の取扱い
showdb は、データベース名、内容、アクセス方法を簡単な表で出力します。
ID 一つの固有の名前が付けられた配列 (例えば、embl:x13776) を、そのデータベースから
取りだすことが可能であることを示しています。
Query エントリ名のワイルドカードにマッチする配列群 (例えば、swissprot:pax* human)
を、取り出すことが可能であることを示しています。
All そのデータベースのすべてのエントリ (例えば、embl:*) を続けて解析可能であること
を示しています。
EMBL へのアクセスは、xlrhodp のような識別子か、L07770 のようなアクセッション番号のど
ちらでも可能です。では早速、試してみましょう。
2.1.2
seqret
seqret は配列を読み込んで、そしてその配列を出力します。要するに EMBOSS は readseq と同
等の効力を持っています(訳注: readseq はよく使われる配列の形式を変換するプログラム)。こ
のプログラムはおそらく、EMBOSS の中でもっとも広く使われるプログラムでしょう。
2.1.3
練習: seqret
unix % seqret
Reads and writes (returns) a sequence
Input sequence: embl:xlrhodop
Output sequence [xlrhodop.fasta]:
2.1. データベースからの配列の取り出し
13
unix % more xlrhodop.fasta
>XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds.
ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac
acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac
..
.
では、アクセッション番号を使って、配列を取り出してみましょう。
unix % seqret
Reads and writes (returns) a sequence
Input sequence: embl:L07770
Output sequence [xlrhodop.fasta]: xlrhodop2.fasta
unix % more xlrhodop2.fasta
>XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds.
ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac
acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac
..
.
この例を完全にコマンドラインから実行することもできます:
unix % seqret embl:xlrhodop -outseq xlrhodop.fasta
デフォルトでは、seqret は FASTA 形式で出力します。また、違う出力形式を指定することもで
きます:
unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg
USA を用いて出力形式を指定する別の方法として、-osformat フラグを利用することができま
す。次のコマンドは前に示したコマンドとまったく同じ動作をします:
14
第2章
配列の取扱い
unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg
unix % more xlrhodop.gcg
!!NA_SEQUENCE 1.0
Xenopus laevis rhodopsin mRNA, complete cds.
XLRHODOP
Length: 1684
Type: N
Check: 9453 ..
1 ggtagaacag cttcagttgg gatcacaggc ttctagggat cctttgggca
51 aaaaagaaac acagaaggca ttctttctat acaagaaagg actttataga
..
.
EMBOSS が理解できるさまざまな形式のリストは、
http://www.uk.embnet.org/Software/EMBOSS/Usa/formats.html にあります。
2.2
ファイルからの配列の読み込み
EMBOSS はファイルから配列を読むこともできます。例えば、もし私たちが、ダウンロードし
た FASTA 形式の配列を gcg 形式へ変換したい場合、このようにします:
unix % seqret xlrhodop.fasta -outseq gcg::myseq.gcg
あるいは、
unix % seqret xlrhodop.fasta -outseq myseq.gcg -osformat gcg
2.3. 配列についての情報の取得
2.3
2.3.1
15
配列についての情報の取得
infoseq
infoseq は、配列の USA、名前、アクセッション番号、種類 (核酸かタンパク質か)、長さ、G+C
のパーセンテージ (核酸用)、および/または、概要 (description) を一覧表示する小さなユーティリ
ティです。先程の配列に対しては、次のような情報が閲覧できます。
unix % infoseq embl:xlrhodop
Displays some simple information about sequences
# USA
Name
Accession Type Length
embl-id:XLRHODOP XLRHODOP L07770
N
1684
2.3.2
GC
45.72
Description
X.laevis rhodopsin
配列の注釈
配列データベースは単に配列だけを含んでいるわけではなく、エントリについての非常に重要な
関連情報 (注釈, annotation) も含んでいます。しかし、seqret ではこれらすべての情報を得ること
はできません。
配列を取り出したいデータベースの元の形式で、完全なエントリを得るためには entret を使い
ます。
unix % entret embl:xl23808
Reads and writes (returns) flatfile entries
Output file [xl23808.entret]:
unix % more xl23808.entret
ID XL23808 standard; DNA; VRT; 4734 BP.
XX
AC U23808;
XX
SV U23808.1
XX
DT 23-APR-1995 (Rel.
DT 04-MAR-2000 (Rel.
XX
43, Created)
63, Last updated, Version 7)
DE Xenopus laevis rhodopsin gene, complete cds.
XX
16
第2章
配列の取扱い
KW .
XX
OS Xenopus laevis (African clawed frog)
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Amphibia;
OC Batrachia; Anura; Mesobatrachia; Pipoidea; Pipidae; Xenopodinae; Xenopus.
XX
..
.
これによって、たくさんの情報が表示されます。最後のほう (配列の直前) には関係のある feature
のリストが表示されます。feature は配列上のある領域を指し、これに関する説明も記述されてい
ます。showfeat を使えば、feature の概要をシンプルかつグラフィカルに見ることができます:
unix % showfeat embl:xl23808
Show features of a sequence.
Output file [xl23808.showfeat]:
unix % more xl23808.showfeat
XL23808
Xenopus laevis rhodopsin gene, complete cds.
|==========================================================| 4734
|----------------------------------------------------------> source
|----->
mRNA
|--->
CDS
CDS
|->
|->
mRNA
CDS
|->
|->
mRNA
CDS
|-->
|-->
|>
mRNA
CDS
|------->
mRNA
配列と共に、これの持つすべての feature を取りだすためには、seqret に -feature フラグを
付けて実行します。
unix % seqret embl:xl23808 -feature
2.3. 配列についての情報の取得
17
Reads and writes (returns) one or more sequences
Output sequence [xl23808.fasta]:
このとき、xl23808.fasta の他に xl23808.gff が作られます。このファイルを見てみましょう。
unix % more unknown.gff
##gff-version 2.0
##date 2003-02-21
##Type DNA XL23808
XL23808 EMBL source 1
4734 0.000 + . Sequence ‘‘XL23808.1’’ ; db_xref
\
‘‘taxon:8355’’ ; organism ‘‘Xenopus laevis’’
XL23808 EMBL mRNA 1181 1650 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\
‘‘0x100’’ ; product ‘‘rhodopsin’’
XL23808 EMBL mRNA
‘‘0x104’’
1899 2067 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\
XL23808 EMBL mRNA
‘‘0x104’’
2669 2834 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\
..
.
これは、GFF (General Feature Format) での、データベースエントリの feature のリストです。
EMBOSS のウェブサイトでは、このフォーマットについてもっと知ることができます。フォーマッ
トとファイル名を変更するためには、seqret を実行するときに、適切なフラグを使って指定するこ
とが必要です。feature を EMBL 形式で rhodop.features というファイルに保存してみましょう:
unix % seqret embl:xl23808 -feature -offormat embl -ofname rhodop.features
Reads and writes (returns) one or more sequences
Output sequence [xl23808.fasta]:
これで、期待どおりの出力が得られることでしょう。また、-offormat や -ofname フラグで個
別に指定するかわりに、Uniform Feature Object (UFO) を使って指定することもできます。
unix % seqret embl:xl23808 -feature -oufo embl::rhodop.features
18
2.4
第2章
配列の取扱い
複数配列を取り扱う
EMBOSS のプログラムは、複数の配列を処理することができます。SRS(訳注:EMBL の Thure
Etzold らが開発した配列データベース検索システム http://srs.embl-heidelberg.de:8000/srs5/ )を
使えば、今まで見て来た EMBL の配列に対応する SwissProt の配列が、OPSD XENLA であるこ
とがすぐにわかるでしょう。SwissProt にある他の OPSD 配列すべてを取りだすためには、ワイル
ドカード文字を使うことができます。
unix % infoseq
Displays some simple information about sequences
Input sequence(s): sw:opsd *
# USA
Name
sw-id:OPSD ABYKO OPSD ABYKO
Accession
O42294
Type
P
Length
289
Description
RHODOPSIN (FRAGMENT).
sw-id:OPSD ALLMI
sw-id:OPSD AMBTI
OPSD ALLMI
OPSD AMBTI
P52202
Q90245
P
P
352
354
RHODOPSIN.
RHODOPSIN.
sw-id:OPSD ANGAN
sw-id:OPSD ANOCA
OPSD ANGAN
OPSD ANOCA
Q90214
P41591
P
P
352
352
RHODOPSIN, DEEP-SEA
RHODOPSIN.
sw-id:OPSD APIME
OPSD APIME
Q17053
P
377
RHODOPSIN.
sw-id:OPSD ASTFA
sw-id:OPSD BATMU
OPSD ASTFA
OPSD BATMU
P41590
O42300
P
P
352
289
RHODOPSIN.
RHODOPSIN (FRAGMENT).
sw-id:OPSD BATNI
sw-id:OPSD BOVIN
OPSD BATNI
OPSD BOVIN
O42301
P02699
P
P
289
348
RHODOPSIN (FRAGMENT).
RHODOPSIN.
また、コマンドラインからもワイルドカード文字を利用することができます。しかし、指定する
識別子をクォーテーションマークで囲まなければなりません:
unix % infoseq “sw:opsd *”
seqret を使って、複数配列をファイルに取り出すことができます。例えば:
unix % seqret “sw:opsd a*” -outseq opsd a.seqs
この操作により、識別子が opsd a で始まるすべての配列を、opsd a.seqs というファイルに取り
2.5. リストファイル
19
出します。それぞれの配列を別々のファイルに取り出したい場合はこのようにします。
unix % seqret “sw:opsd a*” -ossingle
ファイル名は、配列の識別子を元に付けられます。
2.5
リストファイル
EMBOSS はリストファイルを使うこともできます。リストファイルとは、配列そのものが書か
れているのではなく、配列へのリファレンスが書かれたファイルです。例えば、データベースエン
トリ、配列が書かれたファイルの名前、他のリストファイルの名前、などが書かれています。リス
トファイルを使うためには、適切なリストファイルを作るために、pico のようなテキストエディタ
が必要になるでしょう (訳注: pico がインストールされている UNIX/Linux はそれほど多くあり
ません。というか、見たことない。vi, vim, emacs, jed などを使いましょう。)
以下は、正しいリストファイルの例 (seq.list) です。
opsd_abyko.fasta
sw:opsd_xenla
sw:opsd_c*
@another_list
作ったファイルを、次のようにして見てみましょう:
unix % more seq.list
ちょっと奇妙に見えるかもしれませんが、実はとても単純なのです。各行は、次のような意味を
表しています。
• opsd abyko.fasta - 配列ファイル名です。このファイルはカレントディレクトリから読み込
まれます。
• sw:opsd xenla - SwissProt データベースの特定の配列へのリファレンスです。
• sw:opsd c* - opsd c で始まる SwissProt のすべての配列を示しています。
• @another list - 別のリストファイル名です。
最後の行の前についている @ に注意してください。これは、このファイルが、通常の配列ファ
イルではなく、リストファイルであることを EMBOSS に知らせています。@を使わない方法とし
20
第2章
配列の取扱い
ては、「list:ファイル名」が利用できます。では、このリストファイルを seqret の入力として使
い、新しいファイルに配列を取得してみましょう。恐らく、多重アラインメント (5.3 節参照) など
で利用されるでしょう。
まず、opsd abyko.fasta ファイルを seqret を使って作ります:
unix % seqret sw:opsd abyko -outseq opsd abyko.fasta
今度は、another list を作りましょう。ファイルの構造が seq.list にとても似ていますが、デー
タベースのリファレンスだけが含まれていることに注意してください:
sw:opsd_anoca
sw:opsd_apime
sw:opsd_astfa
作ったファイルは、次のようにして見てみましょう。
unix % more another list
では最後に、seq.list ファイルを使って seqret を実行し、結果を見てみましょう ( @ を忘れない
でくださいね ):
unix % seqret @seq.list -outseq outfile
unix % more outfile
>OPSD_ABYKO O42294 RHODOPSIN (FRAGMENT).
YLVNPAAYAALGAYMFLLILIGFPINFLTLYVTLEHKKLRTPLNYILLNLAVANLFMVLG
GFTTTMYTSMHGYFVLGRLGCNLEAFFATLGGEIALWSLVVLAIERWIVVCKPISNFRFT
EDHAIMGLAFTWVMALACAVPPLVGWSRYIPEGMQCSCGVDYYTRAEGFNNESFVIYMFI
VHFLIPLSVIFFCYGRLLCAVKEAPAAQQESETTQRAEKEVSRMVVIMVIGFLVCWLPYA
SVAWWIFCNQGSDFGPIFMTLPSFFAKSAAIYNPMIYICMNKQFRHCMI
>OPSD_XENLA P29403 RHODOPSIN.
MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF
VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGPTGCYIEGFFATLG
GEVALWSLVVLAVERYIVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP
2.5. リストファイル
21
EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES
LTTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI
YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA
>OPSD_CAMAB Q17292 RHODOPSIN.
MMSIASGPSHAAYTWASQGGGFGNQTVVDKVPPEMLHMVDAHWYQFPPMNPLWHALLGFV
IGVLGVISVIGNGMVIYIFTTTKSLRTPSNLLVVNLAISDFLMMLCMSPAMVINCYYETW
VLGPLFCELYGLAGSLFGCASIWTMTMIAFDRYNVIVKGLSAKPMTINGALIRILTIWFF
TLAWTIAPMFGWNRYVPEGNMTACGTDYLTKDLFSRSYILIYSIFVYFTPLFLIIYSYFF
IIQAVAAHEKNMREQAKKMNVASLRSAENQSTSAECKLAKVALMTISLWFMAWTPYLVIN
YSGIFETTKISPLFTIWGSLFAKANAVYNPIVYGISHPKYRAALFQKFPSLACTTEPTGA
DTMSTTTTVTEGNEKPAA
>OPSD_CAMHU O18312 RHODOPSIN (FRAGMENT).
LHMIHLHWYQYPPMNPMMYPLLLIFMLFTGILCLAGNFVTIWVFMNTKSLRTPANLLVVN
LAMSDFLMMFTMFPPMMVTCYYHTWTLGPTFCQVYAFLGNLCGCASIWTMVFITFDRYNV
IVKGVAGEPLSTKKASLWILSVWVLSTAWCIAPFFGWNHYVPEGNLTGCGTDYLSEDILS
RSYLYIYSTWVYFLPLAITIYCYVFIIKAVAAHEKGMRDQAKKMGIKSLRNEEAQKTSAE
CRLAKNAMTTVALWFIAWTPCLLINWVGMFARSYLSPVYTIWGYVFAKANAVYNPIVYAI
S
..
.
期待した通り、出力ファイルには seq.list で指定したすべての配列が含まれていることを確認し
てください。
23
第 3 章 ペアワイズアラインメント
この章では、配列類似性を扱います。まずはじめに、配列の類似度を表す基準は複数あり、その計
算方法も複数あることを覚えておいて下さい。それぞれに長所と短所があり (あるいは前提とする
条件が異なり)、どのような類似度と計算方法を用いればよいかは状況に応じて使い分ける必要が
あります。二つの配列どうしを、類似している部分と違いのある部分がわかるように文字を揃える
ことをペアワイズアラインメントといいます。最適なアラインメントを行なうことで、最も有意な
類似を示す領域と、互いに類似しない領域がわかるのです。一般的に、配列を比較する方法は次の
三つに分類することができます。
• セグメント法は、片方の配列の全てのウィンドウ (10 アミノ酸、といったように予め決まっ
た長さの全ての部分配列) をもう片方の配列の全てのウィンドウと比較します。これは、ドッ
トプロットで使用されている方法です
• 大域アラインメント法では、二つの配列の全長にわたってアラインメントを行なったときの
最も良いスコアが計算されます。ここではセグメント法とは異なり、ギャップを考慮に入れ
て比較を行ないます。
• 局所アラインメント法では、各配列の部分配列同士のアラインメントを行なったときの最も
良いスコアが計算されます。ここでも、ギャップを考慮に入れた比較を行ないます。
3.1
ドットプロット
二つの配列を比較するときの表現方法として、最も直感に訴えるものがドットプロットです。各
配列は、x 軸あるいは y 軸に対応しており、有意に類似している領域は、マトリクスの対角線とし
て表示されます。
3.1.1
練習:ドットプロットを作ろう
unix % dottup
DNA sequence dot plot
Input sequence: embl:xl23808
Second sequence: embl:xlrhodop
Word size [4]: 10
Graph type [x11]:
24
第 3 章 ペアワイズアラインメント
次のようなウィンドウが画面に表示されるでしょう。
対角線は、二つの配列が互いに類似している領域を表します。5 つの対角線がありますね。今、
アラインメントで使用している配列は、片方はゲノム、もう片方は cDNA だったのを覚えています
か? これらの五つの対角線は五つのエキソンに対応しているのです! SRS を使って、元の EMBL
のゲノム配列を見て下さい。そうすれば、この遺伝子は五つのエキソンを持っているという註釈を
見つけられるでしょう。自分の解析と註釈が一致する瞬間です。
ここで使ったパラメータの設定は、最もいい結果がでてくるようなものを選びました。dottup
は配列の間で、局所的にギャップ無しで一致している部分を探します。さっきのように、エキソン
の領域はゲノムの局所配列と正確に一致しているだろう、と予想できる場合には、もっと長いワー
ド長 (訳注: ウィンドウの幅) を使ってもいいでしょう。そうすればきっと、もっときれいなドット
プロットが得られます。でも、さっきの cDNA 配列を、進化的な関係はあるけれど異なる配列 (例
えば、マウスのロドプシン embl:m55171) と比較する場合には、長い一致は期待できませんね? こ
の場合には、より短いワード長を使うべきでしょう。
3.1.2
練習:ドットプロットのパラメータを考えよう
カエルのロドプシン cDNA 配列と、マウスのゲノム配列を使って、さっきのようにドットプロッ
トを描いてみましょう。
unix % dottup embl:m55171 embl:xlrhodop
DNA sequence dot plot
Word size [4]: 10
Graph type [x11]:
同じことを、ワード長を変えてやってみましょう。なにか気付きましたか? どのワード長が、一
番きれいなドットプロットを出力しましたか? なぜ、最初と最後のエキソンは、きれいじゃないの
でしょう? (ヒント:showfeat の結果をみてみましょう)
ドットプロットでは、配列の詳細は何もわかりません。そこで、他のプログラムを使う必要が出
てきます。今から使うアルゴリズムは、データベース検索の際に用いられるものよりも厳密なもの
3.2. 大域アラインメント
25
です。ですから、BLAST か何かでデータベースから類似配列をみつけたとしても、その後で更に、
ペアワイズアラインメントを注意深く行なう価値は十分にあります。
配列アラインメントプログラムの基本的な考え方は、最も高いスコアをとるように二つの配列を
揃えることです。文字同士が一致したときのスコア、また不一致のときのスコアはスコアマトリク
スによって決められます。核酸同士のスコアマトリクスは比較的単純に、一致/不一致に対するス
コアだけを与えるようなものが使われることが多いですが、アミノ酸同士のスコアマトリクスは
もっと複雑になります。アミノ酸同士の類似性を反映するようにスコアが与えられるのです。
進化の過程では、配列には様々な変異が起きます。スコアマトリクスは、文字の置換に対するス
コアのみを与えるので、挿入/削除に対応するためには別のパラメータ (ギャップペナルティ) が必
要になります。これには、ギャップの開始に対するペナルティと、ギャップの伸張に対するペナル
ティがあります。アラインメントプログラムで採用されているデフォルトのパラメータは経験的に
正しいと思われているものが設定されていますが、あなたが実際にプログラムを使用する際には、
自分で異なるパラメータも試してみるべきでしょう。
3.2
大域アラインメント
大域アラインメントは配列の全長を比較します。従って、互いに全長にわたって類似している
と予想される配列同士の比較に向いています。予め与えられたスコアマトリクスとギャップのパラ
メータを使って、互いに類似している領域を可能な限り大きく、そして、ギャップをできるだけ小
さくするように計算します。EMBOSS に含まれる needle は、Needleman-Wunsch [3] によって提
案されたアルゴリズムの実装です。これは、スコアが最大になるようなアラインメントを正確に計
算しますが、配列が長い場合にはとても時間がかかってしまいます。
3.2.1
練習: needle
unix % needle
Needleman-Wunsch global alignment.
Input sequence: embl:xlrhodop
Second sequence: embl:xl23808
Gap opening penalty [10.0]:
Gap extension penalty [0.5]:
Output file [xlrhodop.needle]:
unix % more xlrhodop.needle
Global: XLRHODOP vs XL23808
Score: 7471.00
XLRHODOP
26
XL23808
第 3 章 ペアワイズアラインメント
1
cgtaactaggaccccaggtcgacacgacaccttccctttcccagt 45
46
tatttcccctgtagacgttagaaggggaaggggtgtacttatgtc 90
91
acgacgaactacgtccttgactacttagggccagagagacgaggt 135
XLRHODOP
XL23808
XLRHODOP
XL23808
..
.
ここでは、cDNA 配列とゲノム配列の大域アラインメントであることに注意してください。この
ため、cDNA 配列と対応する領域だけでなく、対応しない領域も含めたゲノム配列全体が、結果と
して出力されます。2 つの配列が並んでいる領域まで、出力結果をスクロールしてみてください。
XLRHODOP
1
ggtagaacagcttcagttgggatcacaggcttcta 35
||||||||||||||||||||||||||||||||||
XL23808
1171
tgggtcatactgtagaacagcttcagttgggatcacaggcttcta 1215
XLRHODOP
36
gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 80
|||||||||||||||||||||||||||||||||||||||||||||
XL23808
1216
gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 1260
XLRHODOP
81
acaagaaaggactttatagagctgctaccatgaacggaacagaag 125
XL23808
1261
|||||||||||||||||||||||||||||||||||||||||||||
acaagaaaggactttatagagctgctaccatgaacggaacagaag 1305
XLRHODOP
126
gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 170
XL23808
1306
|||||||||||||||||||||||||||||||||||||||||||||
gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 1350
..
.
出力結果はとても長いので、その一部だけを表示してます。自分でやってみて、結果の全体を見
てみてください。そうすれば、ドットプロットでも予測された五つのエキソンに対応する、五つの
領域が揃っていることがわかるでしょう。
アラインメントがとられているところと、そうでないところの境界をよく見てください。私達
は、生物学者なので、エキソンとイントロンの境界は保存されている (スプライスサイトは、gt ..
ag で区切られている) ことを知っています。しかし needle は、こういった遺伝子の構造を理解し
ていないので、境界を正しくアラインメントするのが苦手です。これは、スプライシングサイトに
特化したスコア付けを行なってないためです。イントロン/エキソン境界を、より正しくアライン
メントするようにスコア計算を行なうプログラムとして、est2genome があります。
3.3. 局所アラインメント
3.3
27
局所アラインメント
上記で述べたように、大域アラインメントは配列の全長のアラインメントを行ないます。実際に
解析を行なう際には、どの種類のアラインメントが適切かというのを、しっかり考えてください。
先の例では、各エキソンの領域が同じ順番で並んでいたので、うまくアラインメントできました。
でも例えば、複数のドメインを含むタンパク質同士が一つのドメインしか共有しない場合や、ある
ドメインが片方の配列でのみくり返されているような場合は、どうすればうまくアラインメントで
きるでしょう?
二つめのアラインメント法である局所アラインメントでは、全長をアラインメントするのでなく、
局所的に類似している領域を捜し、アラインメントします。従って、配列データベース検索など、配
列同士が局所的に類似しているのか全体的に類似しているのか、予めわからない場合にはとても有効
です。EMBOSS のプログラム water は、局所アラインメントを厳密に計算する Smith-Waterman
アルゴリズム [4]. の実装です。
3.3.1
練習: water
unix % water
Smith-Waterman local alignment.
Input sequence: embl:xlrhodop
Second sequence:
embl:xl23808
Gap opening penalty [10.0]:
Gap extension penalty [0.5]:
Output file [xlrhodop.water]:
unix % more xlrhodop.water
Local: XLRHODOP vs XL23808
Score: 7448.00
XLRHODOP
2
gtagaacagcttcagttgggatcacaggcttctagggatcctttg 46
XL23808
1182
|||||||||||||||||||||||||||||||||||||||||||||
gtagaacagcttcagttgggatcacaggcttctagggatcctttg 1226
XLRHODOP
47
ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 91
XL23808
1227
|||||||||||||||||||||||||||||||||||||||||||||
ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 1271
XLRHODOP
92
ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 136
|||||||||||||||||||||||||||||||||||||||||||||
XL23808
1272
ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 1316
28
XLRHODOP
第 3 章 ペアワイズアラインメント
137
tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 181
XL23808
1317
|||||||||||||||||||||||||||||||||||||||||||||
tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 1361
XLRHODOP
182
gattaccctcagtattacttagcagagccatggcaatattcagca 226
XL23808
1362
|||||||||||||||||||||||||||||||||||||||||||||
gattaccctcagtattacttagcagagccatggcaatattcagca 1406
XLRHODOP
227
ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 271
XL23808
1407
|||||||||||||||||||||||||||||||||||||||||||||
ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 1451
XLRHODOP
272
aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 316
|||||||||||||||||||||||||||||||||||||||||||||
XL23808
1452
aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 1496
XLRHODOP
317
acacccctaaactacatcctgctgaacctggtatttgccaatcac 361
|||||||||||||||||||||||||||||||||||||||||||||
XL23808
1497
acacccctaaactacatcctgctgaacctggtatttgccaatcac 1541
..
.
出力結果の下のほうまで見て、五つのエキソンがみつかっていることを確認して下さい。この例
では、ギャップのパラメータをデフォルトのものから変更していません。しかし、あなたの実際の
解析では、パラメータを変える必要があるかもしれないことを認識しておいてください。
EMBOSS には、他にも大域アラインメント/局所アラインメントを行なうプログラムとして
stretcher/matcher が含まれています。これらは needle や water と比べると、計算には厳密さ
を欠きますが、より短時間で計算が行なえます。ですから、データベースの検索等に向いていると
いえるしょう。また、supermatcher も、計算の厳密さを多少欠きますが、とても長い配列を局所
アラインメントできるプログラムです。これらのプログラムに関するドキュメントは、ウェブサイ
ト
(http://www.uk.embnet.org/Software/EMBOSS/Apps/index.html ) をご覧下さい。
29
第 4 章 タンパク質解析
この章ではタンパク質配列解析の際に利用することができるいくつかのプログラムを紹介します。
もちろん、前の章で説明したペアワイズアラインメントは、タンパク質配列の解析にも利用でき
ます。
4.1
ORF の同定
本節では、cDNA 配列をタンパク質配列へと翻訳するための EMBOSS アプリケーションについ
て見ていくことにします。なお、遺伝子の構造予測は、とても難しい問題だということは理解して
おいて下さい。ゲノム配列から エキソン - イントロンの境界を認識することは、簡単ではないの
です。ここではこれらの問題を扱うことを避け、cDNA 配列を用います。まず、オープンリーディ
ングフレーム (Open Reading Frame。以下、ORF と記します) を同定しましょう。plotorf を使
うことで、配列中の 6 つの読み枠全てに関する ORF の概要を、グラフィカルに表示することがで
きます。
4.1.1
練習: plotorf
unix % plotorf
Plot potential open reading frames
Input sequence: embl:xlrhodop
Graph type [x11]:
6 つの読み枠に存在する、全ての ORF 侯補がグラフィカルに表示されるでしょう。
30
第4章
タンパク質解析
最も長い ORF は読み枠 2 の 100 から 1200 塩基目あたりに存在します。getorf を使うことで、
この ORF の正確な開始位置と終了位置を同定することが出来ます。
4.1.2
練習: getorf
unix % getorf -opt
Finds and extracts open reading frames (ORFs)
Input sequence: embl:xlrhodop
Output sequence [xlrhodop.orf]:
Genetic codes
0 :
1 :
Standard
Standard (with alternative initiation codons)
2 :
3 :
Vertebrate Mitochondrial
Yeast Mitochondrial
4 :
5 :
Mold, Protozoan, Coelenterate Mitochondrial and Mycoplasma/Spiroplasma
Invertebrate Mitochondrial
6 :
9 :
Ciliate Macronuclear and Dasycladacean
Echinoderm Mitochondrial
10 :
11 :
Euplotid Nuclear
Bacterial
4.2. 配列の翻訳
31
12 :
Alternative Yeast Nuclear
13 :
14 :
Ascidian Mitochondrial
Flatworm Mitochondrial
15 : Blepharisma Macronuclear
Code to use [0]:
Minimum nucleotide size of ORF to report [30]:
Type of sequence to output
0 :
1 :
Translation of regions between STOP codons
Translation of regions between START and STOP codons
2 :
3 :
Nucleic sequences between STOP codons
Nucleic sequences between START and STOP codons
4 :
Nucleotides flanking START codons
5 :
6 :
Nucleotides flanking initial STOP codons
Nucleotides flanking ending STOP codons
Type of output [0]:
3
適切な遺伝暗号を使用するために生物名を指定すること、また、このプログラムに出力して欲し
い情報を選択する必要があること、に気をつけて下さい。ここでは単純に、この配列の開始コドン
と終止コドンの位置に注目しています。
plotorf は getorf の出力するテキスト形式の情報をグラフィカルに表示するプログラムです。
先程の getorf の例では、最小サイズ (デフォルトでは 30 塩基) を上回る大きさの全 ORF を出力
するように指定したため、数多くの ORF 侯補が出力されました。plotorf により、我々の対象
である ORF は 100 から 1200 塩基目あたりにあることがわかっているので、これを見つけるまで
getorf の出力ファイル xlrhodop.orf をスクロールダウンしてみましょう。正確な開始と終了の位
置はどこですか?
unix % more xlrhodop.orf
>XLRHODOP_7 [110 - 1171] Xenopus laevis rhodopsin mRNA, complete cds.
atgaacggaacagaaggtccaaatttttatgtccccatgtccaacaaaactggggtggta
cgaagcccattcgattaccctcagtattacttagcagagccatggcaatattcagcactg
..
.
4.2
配列の翻訳
先ほどの練習から、cDNA 配列中で翻訳されるであろう位置が 110 から 1171 塩基目であること
が分かりました。transeq を使えばこの領域をタンパク質に翻訳することができ、その翻訳結果
を用いて更に解析を行うことができます。
32
第4章
4.2.1
タンパク質解析
練習: transeq
コマンドラインフラグを使う練習をもう一回やってみましょう。ここで登場する新しいフラグは
-sbegin と-send です。これらのフラグは配列中の部分領域を指定するために使われます。ここで
は、先程コーディング領域として同定した embl:xlrhodop の一部分だけを翻訳をするために使用し
ます。 refchap:seqret 章に出てきた-outseq フラグも忘れず指定しましょう。
unix % transeq embl:xlrhodop -sbegin 110 -send 1171 -outseq xlrhodop.pep
Translate nucleic acid sequences
unix % more xlrhodop.pep
>XLRHODOP+1 Xenopus laevis rhodopsin mRNA, complete cds.
MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF
VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGQTGCYIEGFFATLG
GEVALWSLVVLAVERYMVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP
EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES
ATTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI
YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA
2 章で見たように、この cDNA に対応するタンパク質配列は、SwissProt の opsd xenla という
識別子を持つことがわかっています。では、ここまでの理解度を確かめるために needle を使って
あなたの翻訳した配列とそのデータベース配列を比較してみてください。あなたの発見 (翻訳した
タンパク質配列) と、SRS で調べた SwissProt エントリを比較してみましょう。
4.3
部分配列に対する USA
配列中での開始と終了の位置や、相補鎖か否かを指定するためには、-sbegin や-send フラグだけ
でなく、USA 形式 (訳注:2 章参照) を使用することもできます。つまり、db:sequence[start:end]
(相補鎖を指定する場合は db:sequence[start:end:r]) として指定できるのです。ただし、開始位
置は終了位置より小さい値でなければなりません。もし入力した配列の実際の開始位置と終了位置
を使いたければ位置 (何塩基目か) を指定する代わりに 0 を使うことができます。また、配列の先
頭からではなく終わりから数えたければ負の値を使うことも出来ます。
4.3.1
例
SwissProt opsd xenla の 10 から 20 残基目まで
opsd xenla の最後の 10 残基
sw:opsd xenla[10:20]
sw:opsd xenla[-10:0]
opsd xenla の最後の 20 残基から後ろ 5 残基を除いたもの
embl:xlrhodop の 134 から 458 塩基目までの相補鎖
sw:opsd xenla[-20:-6]
embl:xlrhodop[134:458:r]
4.4. 二次構造予測
4.4
33
二次構造予測
DNA 配列がどのようにして特定のタンパク質立体構造を決定するかという疑問は、その問題が
提起されてから常に我々を魅了し、様々な思索の源となってきました。それは”フォールディング
問題”と呼ばれる分子生物学における未解決の非常に困難な問題であり続けています。これまでに
タンパク質の一次配列から三次構造 (立体構造) を予測しようとする多くの試みがなされてきまし
た。これらは二つのアプローチに分類することができます。
• タンパク質鎖の現実的な力学モデルを立て、フォールディング過程をシミュレートするアプ
ローチ
• 既知の三次構造から推測するという経験的なアプローチ
力学モデルに基づいたアプローチは、理論的にはタンパク質の三次構造に関する何の事前知識も
必要としない、という魅力を持っています。もしこのアプローチが成功すれば、全ての配列に等し
く適用できることでしょう。対照的に、既知の構造からの推論に基づく全ての方法は、本質的に限
られた範囲にしか適用できません。つまり、推論する際に用いられたものと類似した構造を持つも
のにしか適用できないのです。幸運にも、生物物理学的あるいは生化学的な特徴から、既知の構造
と類似しているかどうかを決定できる場合が、しばしばあります。そのため、これらの特徴を統合
した構造予測手法も提案されています。
現時点での、妥当な二次構造予測に到達するための最善の方法は、様々な予測アルゴリズムを
実行し、それらが与える結果間でのコンセンサスを決定することです。このような解析を行ってく
れるいくつかの web サーバがあります。例えば、HGMP にある PIX や Dundee 大学にある Jpred
がそうです。
http://www.hgmp.mrc.ac.uk/Registered/Webapp/pix/
http://www.compbio.dundee.ac.uk/ www-jpred
今までのところ、EMBOSS に含まれるプログラムによって可能な二次構造予測の範囲は限られ
ています。上で述べたようなコンセンサスを決定するような手法を可能にするために、これから多
くのアルゴリズムが追加されることでしょう。以下では現在の EMBOSS を使って行うことが出来
る予測のいくつかを見ていくことにします。
4.5
pepinfo
pepinfo はアミノ酸の特性 (大きさ、極性、芳香族性、電荷等) に関する情報を生成します。また、
疎水性プロファイルも計算します。これは、ターン、抗原性ペプチドの侯補や膜貫通へリックス位
置の侯補を推定するのに有用です。この計算には、様々なアルゴリズムが用いられています。例え
ば、Kyte-Doolittle の疎水性指標は、ある残基を中心とする幅 9 残基のウィンドウ中で疎水性指標
の平均をとったものです。この値が上側にあれば疎水性であることを、下側にあれば親水性である
ことを示します。
34
4.5.1
第4章
タンパク質解析
練習: pepinfo
unix % pepinfo xlrhodop.pep
Plots simple amino acid properties in parallel
Graph type [x11]:
Output file [pepinfo.out]:
以下に示すような二つの図がスクリーン上に表示されます (最初の図から次の図へ表示を切り替
えるにはリターンキーを押してください)。
4.5. pepinfo
4.5.2
35
膜貫通領域の予測
pepinfo の疎水性指標のプロットは、xlrhodop.pep 中に非常に疎水性の強い領域が 7 個ある
ことを示しています。これらは膜貫通ドメインなのでしょうか? これを調べるには tmap を使うこ
とができます。
4.5.3
練習: tmap
unix % tmap
Displays membrane spanning regions
Sequences file to be read in: xlrhodop.pep
Graph type [x11]:
以下のようなウィンドウが表示されるでしょう。
36
第4章
タンパク質解析
ウィンドウ上部にあるバーは予測された膜貫通領域を表しています。pepinfo と tmap の結果を
合わせて考慮すると、このタンパク質には 7 つの膜貫通領域があるであろうことがわかります。こ
のことは、この配列の SwissProt エントリ opsd xenla や、次章で見ることになるパターンやプ
ロファイルを利用して得られる情報とよく合致しています。
EMBOSS の中にはペプチド配列を解析する際に利用できる他の様々なプログラムがあります。
どのようなプログラムがあるかを調べるには 1 章で行ったように wossname を実行してください。
37
第 5 章 パターン、プロファイル、多重配列ア
ラインメント
BLAST や FASTA によるデータベース検索は、世界中の数多くのウェブサイトで提供されていま
すが、現在は EMBOSS に含まれていないため、このチュートリアルでは説明しません。しかしな
がらデータベース検索は、バイオインフォマティクスに携わる人間にとって、とても重要な武器の
一つです。既知の配列を集めたデータベースに対し、新しい配列を検索する場合は、次のような疑
問に対する答えを得ようとしているはずです。
• 解析対象のタンパク質配列と、同じファミリーに属すると示唆されるくらい十分に類似して
いる、構造が既知のタンパク質はあるか?
• もしないようであれば、そのタンパク質配列と最も類似している配列はどれか?
もし、構造が既知であるタンパク質との関係が同定できれば、解析対象のタンパク質も同様な構
造を持つと予測でき、共通の折り畳み構造をあてはめることができるでしょう。しかしながら、相
同性のあるタンパク質の構造が未知である場合はどうすればいいでしょう? もし、その機能が同定
されていれば、その解析対象のタンパク質も類似した機能を持つと期待できるかもしれません。し
かしながら、これには例外が存在します。古典的な例は、ライソザイム(lysozyme:リゾチーム)
です。ライソザイムは、α-ラクトアルブミン (α-lactalbumin) の配列と、50%のアミノ酸が一致し、
70%のアミノ酸で類似を示します。また、これら 2 つのタンパク質の折り畳み構造は互いに類似し
ていますが、それらの機能はまったく違います。ライソザイムの 2 つの重要な酵素活性部位の残基
は、α-ラクトアルブミンでは保存されていません。逆に、ほとんどのライソザイムは、α-ラクトア
ルブミンの機能に重要なカルシウム結合モチーフを持っていません。このようなことからも、コン
ピュータによる予測を実験によって確かめることは必要不可欠といえるでしょう。
もし、近縁のタンパク質であるかどうかを同定するのに、配列の類似性だけでは十分でないとし
たら、どのようにすればいいでしょう? この章では、未知のタンパク質配列の機能を予測するのに
有用な EMBOSS のプログラムをいくつか紹介します。
5.1
パターンマッチング
多くの場合、タンパク質の活性部位は特異的な「フィンガープリント」あるいは「テンプレー
ト」として認識することができます。これは、あるタンパク質ファミリーに特有な、ごく短いアミ
ノ酸の並びです。例えば、ある GTP 結合部位を表す並びとしては GXGXXG(G=グリシン、X=
任意のアミノ酸) があります。配列中で、前もって (むしろあいまいに) 定義された文字列を探すこ
とは、パターンマッチングと呼ばれます。
38
第5章
パターン、プロファイル、多重配列アラインメント
patmatmotifs は、PROSITE データベースで定義されたパターンに基づき、与えられたタンパク
質の配列からパターン探索アルゴリズムによって配列モチーフを探し出します。PROSITE は、Dr.
Amos Bairoch (the University of Geneva) により編纂されている、タンパク質のファミリーやド
メインのデータベースです。厖大な数が存在するタンパク質の大部分は、配列類似性によって限ら
れた個数のファミリーに分類できる、という知見に基づいて編纂が行なわれています。ある特定の
ファミリーに属するタンパク質やタンパク質ドメインは、共通の祖先に由来し、一般には同じ機能
を有します。
5.1.1
練習: patmatmotifs
unix % patmatmotifs
Search a motif database with a protein sequence
Input sequence: xlrhodop.pep
Output file [xlrhodop 1.patmatmotifs]: xlrhodop.patmatmotifs
unix % more xlrhodop.patmatmotifs
Number of matches found in this Sequence = 1
Length of the sequence = 354 basepairs
Start of match = position 123 of sequence
End of match = position 139 of sequence
Length of motif = 17
patmatmotifs of G_PROTEIN_RECEPTOR with XLRHODOP+1 from 123 to 139\\
TLGGEVALWSLVVLAVERYMVVCKPMA
|
|
123
139
Number of matches found in this Sequence = 1
Length of the sequence = 354 basepairs
Start of match = position 290 of sequence
End of match = position 306 of sequence
Length of motif = 17
patmatmotifs of OPSIN with XLRHODOP+1 from 290 to 306
PVFMTVPAFFAKSSAIYNPVIYIVLNK
|
290
|
306
5.1. パターンマッチング
39
今回は、検索に用いた配列がロドプシン (rhodopsin) であることが既にわかっていました。しか
し、検索に用いるのが未知の配列だった場合、モチーフの同定は実験を計画する上で有用な情報を
与えてくれることがわかっていただけると思います。
5.1.2
レポートフォーマット (出力結果の形式)
多くの EMBOSS プログラムは、出力としてレポートを作成します。これには様々な形式があり、
ユーザが選択することができます。例えば、先程の例のようにモチーフを少しグラフィカルに表示
するのではなく、リストファイル(訳注:2 章参照)で出力して、後の目的のために各々の配列の
マッチを得ることもあるかもしれません。このような場合は、-rformat というフラグを使用するこ
とができます。例を示しましょう。
unix % patmatmotifs xlrhodop.pep -rformat listfile
Search a PROSITE motif database with a protein sequence
Output report [xlrhodop 1.patmatmotifs]:
unix % more xlrhodop 1.patmatmotifs
########################################
# Program: patmatmotifs
# Rundate: Fri Feb 21 13:37:58 2003
# Report_format: listfile
# Report_file: xlrhodop_1.patmatmotifs
########################################
#=======================================
#
# Sequence: sw-id:OPSD_XENLA
from: 1
to: 354
# HitCount: 2
#
# Full: No
# Prune: Yes
# Data_file: /site/share/EMBOSS/data/PROSITE/prosite.lines
#
#=======================================
sw-id:OPSD_XENLA[123:139]
sw-id:OPSD_XENLA[290:306]
#--------------------------------------#---------------------------------------
40
第5章
パターン、プロファイル、多重配列アラインメント
xlrhodop 1.patmatmotifs をリストファイルとして例えば seqret に与えることで、これら
の配列を得ることができます。
他にも結果の形式があります(その中には feature table 形式もあります)。EMBOSS のウェブ
ページには、使用可能な形式に関する最新のドキュメントがあります。
5.2
タンパク質のフィンガープリント
PRINTS は、短く、特によく保存された多くの部分配列により、各ドメインとして同定された機
能の面でのタンパク質ファミリーのデータベースです。これらの「フィンガープリント」に完全に
マッチする、ということはつまり、すべての関連のある短い部分配列が正しい順番でマッチする、
ということです。もし、なんらかの部分配列がマッチしなかったり、異なる順番でマッチしていた
場合には、部分的なマッチとして処理されます。PRINTS データベースは、pscan というプログラ
ムを用いて検索できます。
5.2.1
練習: pscan
unix % pscan
Scans proteins using PRINTS
Input sequence: xlrhodop.pep
Minimum number of elements per fingerprint [2]:
Maximum number of elements per fingerprint [20]:
Output file [xlrhodop 1.pscan]:
xlrhodop.pscan
Scanning XLRHODOP+1...
unix % more xlrhodop.pscan
CLASS 1
Fingerprints with all elements in order
Fingerprint GPCRRHODOPSN Elements 7
Accession number PR00237
Rhodopsin-like GPCR superfamily signature
Element 1 Threshold 54% Score 61%
Start position 39 Length 25
Element 2 Threshold 49% Score 49%
Start position 72 Length 22
Element 3 Threshold 48% Score 55%
Start position 117 Length 23
Element 4 Threshold 50% Score 69%
5.3. 多重配列解析
41
Start position 152 Length 22
Element 5 Threshold 51% Score 82%
Start position 204 Length 24
Element 6 Threshold 42% Score 72%
Start position 250 Length 25
Element 7 Threshold 46% Score 68%
Start position 288 Length 27
CLASS 2
All elements match but not all in the correct order
Fingerprint RHODOPSIN Elements 6
Accession number PR00579
Rhodopsin signature
Element 1 Threshold 80% Score 100%
Start position 3 Length 19
Element 2 Threshold 76% Score 94%
Start position 22 Length 17
Element 3 Threshold 53% Score 90%
Start position 85 Length 17
Element 4 Threshold 71% Score 100%
Start position 191 Length 17
Element 5 Threshold 56% Score 97%
Start position 271 Length 19
Element 6 Threshold 81% Score 95%
Start position 319 Length 14
CLASS 3
Not all elements match but those that do are in order
CLASS 4
Remaining partial matches
5.3
多重配列解析
複数 (3 つ以上) の核酸あるいはアミノ酸配列のアラインメントを同時に行なうことは、現在、分
子生物学の分野では必要不可欠な作業です。多重アラインメントは、タンパク質ファミリーに特徴
的なパターンを見つける際に用いられます。また、新しい配列と既知のファミリーに属する配列と
42
第5章
パターン、プロファイル、多重配列アラインメント
の間での相同性の検出や検証にも用いられます。更に、新しい配列の 2 次構造、3 次構造予測の補
助や、PCR のためのオリゴヌクレオチドプライマーを作成する部位を見つけ出す作業、分子進化
解析のためのとても重要な準備としても用いられています。
多重アラインメントを行う最も有名なプログラムの 1 つに clustalw [1] があります。EMBOSS
には、累進ペアワイズアラインメントを用いて、類似した配列群から多重アラインメントを作る、
emma clustal (つまり emma) と呼ばれる clustal のインターフェイス があります。emma は、最終
的なアラインメントと一緒に、ペアワイズアラインメントの順序と配列のクラスタを示す樹状図
(デンドログラム) も出力します。枝の長さは配列同士の相対的な距離と関連しますが、決して進
化系統樹ではありませんので、気をつけてください。
clustal は、次のような手順で大域アラインメントを計算します。まず、もっとも類似している
2 つの配列をまとめて一つのクラスタとし、配列同士でペアワイズアラインメントを行ないます。
次に、このアラインメントされたクラスタと残りの配列の中から最も類似しているものを探し、一
つのクラスタにまとめます。この操作を、全ての配列が一つのクラスタにまとまるまで繰り返しま
す。既にアラインメントされているクラスタを、他の配列あるいはクラスタとまとめる際には、互
いのアラインメントが行なわれます。これは、ペアワイズアラインメントを単純に拡張した方式、
つまり既にアラインメントされているクラスタにギャップを挿入する必要がある場合には、すべて
の配列の対応する場所にギャップを挿入するような方法で、アラインメントが行なわれます。ペア
ワイズアラインメントのアルゴリズムとしては Needleman-Wunsch 法が採用されており、これを
基に、既にアラインメントされたクラスタを扱うことができるような拡張が行なわれています。
pscan によって、先程の配列がロドプシンファミリーに属することがわかりました。これはとて
も大きなファミリーです。例えば、Pfam エントリを、次の URL からキーワードサーチしてみれ
ば、そのその大きさがわかるでしょう :
http://www.sanger.ac.uk/Software/Pfam
今度は、SwissProt からこのファミリーに属するタンパク質配列をいくつか取りだし、多重アラ
インメントを行なってみましょう。そうすれば、この配列グループのプロファイルを生成すること
ができます。このプロファイルを使えば、SwissProt のロドプシンファミリーに属する配列と、こ
れまで解析してきた配列をアラインメントすることができます。
まず最初に、seqret を用いて配列を取り出しましょう。
5.3.1
練習:いくつかの配列の取り出し
unix % seqret
Reads and writes (returns) a set of sequences all at once
Input sequence: sw:ops2 *
Output sequence [ops2 drome.fasta]: ops2.fasta
識別子が ops2 から始まるすべての SwissProt の配列を取り出すために、ワイルドカード文字 *
を用いていることに注意してください。
5.3. 多重配列解析
5.3.2
43
練習:emma
unix % emma
Multiple alignment program - interface to ClustalW program
Input sequence: ops2.fasta
Output sequence [ops2 drome.aln]: ops2.aln
Output file [ops2 drome.dnd]:
ops2.dnd
..clustalw -infile=21665A -outfile=21665B -align
-type=protein -output=gcg -pwmatrix=blosum -pwgapopen=10.000
-pwgapext=0.100 -newtree=21665C -matrix=blosum -gapopen=10.000
-gapext=5.000 -gapdist=8 -hgapresidues=GPSNDQEKR -maxdiv=30..
CLUSTAL W (1.74) Multiple Sequence Alignments
Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: OPS2 DROME 381 aa
Sequence 2:
Sequence 3:
OPS2 DROPS 381 aa
OPS2 HEMSA 377 aa
Sequence 4:
Sequence 5:
OPS2 LIMPO 376 aa
OPS2 PATYE 399 aa
Sequence 6:
OPS2 SCHGR 380 aa
Start of Pairwise alignments
Aligning...
Sequences (1:2) Aligned.
Sequences (1:3) Aligned.
Score:
Score:
91
37
Sequences (1:4) Aligned.
Sequences (1:5) Aligned.
Score:
Score:
48
20
Sequences (1:6) Aligned.
Sequences (2:3) Aligned.
Score:
Score:
32
37
Sequences (2:4) Aligned.
Sequences (2:5) Aligned.
Score:
Score:
48
22
Sequences (2:6) Aligned.
Sequences (3:4) Aligned.
Score:
Score:
31
40
Sequences (3:5) Aligned.
Sequences (3:6) Aligned.
Score:
Score:
23
32
Sequences (4:5) Aligned.
Sequences (4:6) Aligned.
Score:
Score:
20
34
Sequences (5:6) Aligned.
Score:
18
Guide tree file created:
[21665C]
44
第5章
パターン、プロファイル、多重配列アラインメント
Start of Multiple Alignment
There are 5 groups
Aligning...
Group 1:
Group 2:
Sequences:
Sequences:
2 Score:6084
3 Score:3046
Group 3:
Group 4:
Sequences:
Sequences:
4 Score:2772
5 Score:2489
Group 5: Delayed
Sequence:5 Score:2819
Alignment Score 11778
GCG-Alignment file created [21665B]
私たちは 2 種のショウジョウバエ、2 種のカニ、イナゴ、ホタテガイから得た ops2 の配列をア
ラインメントしました。それでは emma が何を生成したか見てみましょう。
unix % more ops2.aln
>OPS2_DROME
MERSHLPETPFDLAHSGPRFQAQSSGNGSVLD-NVLPDMAHLVNPYWSRFAPMDPMMSKI
LGLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY
Y-ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIL
FIWMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLIC
YSYWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDK-SAEGKLAKVALTTISLWFMAWT
PYLVICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVF
GNTDEPKPDAPASDTETTSEADSKA------------------------------------------------------------>OPS2_DROPS
MERSLLPEPPLAMALLGPRFEAQTGGNRSVLD-NVLPDMAPLVNPHWSRFAPMDPTMSKI
LGLFTLVILIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY
Y-ETWVLGPLWCDIYAACGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIA
FIWMMAVFWTIMPLIGWSSYVPEGNLTACSIDYMTRQWNPRSYLITYSLFVYYTPLFMIC
YSYWFIIATVAAHEKAMRDQAKKMNVKSLRSSEDCDK-SAENKLAKVALTTISLWFMAWT
PYLIICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPNDRLVLKEKCPMCVC
GTTDEPKPDAPPSDTETTSEAESKD------------------------------------------------------------>OPS2_LIMPO
----------MANQLSYSSLGWPYQPNASVVD-TMPKEMLYMIHEHWYAFPPMNPLWYSI
LGVAMIILGIICVLGNGMVIYLMMTTKSLRTPTNLLVVNLAFSDFCMMAFMMPTMASNCF
A-ETWILGPFMCEVYGMAGSLFGCASIWSMVMITLDRYNVIVRGMAAAPLTHKKATLLLL
FVWIWSGGWTILPFFGWSRYVPEGNLTSCTVDYLTKDWSSASYVIIYGLAVYFLPLITMI
YCYFFIVHAVAEHEKQLREQAKKMNVASLRANADQQKQSAECRLAKVAMMTVGLWFMAWT
PYLIIAWAGVFSSGTRLTPLATIWGSVFAKANSCYNPIVYGISHPRYKAALYQRFPSLAC
5.3. 多重配列解析
45
GSGESGSDVKSEASATMTMEEKPKSPEA--------------------------------------------------------->OPS2_HEMSA
---MTNATGPQMAYYGAASMDFGYPEGVSIVD-FVRPEIKPYVHQHWYNYPPVNPMWHYL
LGVIYLFLGTVSIFGNGLVIYLFNKSAALRTPANILVVNLALSDLIMLTTNVPFFTYNCF
SGGVWMFSPQYCEIYACLGAITGVCSIWLLCMISFDRYNIICNGFNGPKLTTGKAVVFAL
ISWVIAIGCALPPFFGWGNYILEGILDSCSYDYLTQDFNTFSYNIFIFVFDYFLPAAIIV
FSYVFIVKAIFAHEAAMRAQAKKMNVSTLRSNEADAQ-RAEIRIAKTALVNVSLWFICWT
PYALISLKGVMGDTSGITPLVSTLPALLAKSCSCYNPFVYAISHPKYRLAITQHLPWFCV
HETETKSNDDSQSNSTVAQDKA--------------------------------------------------------------->OPS2_SCHGR
------MVNTTDFYPVPAAMAYESSVGLPLLGWNVPTEHLDLVHPHWRSFQVPNKYWHFG
LAFVYFMLMCMSSLGNGIVLWIYATTKSIRTPSNMFIVNLALFDVLMLLEMPMLVVSSLF
Y-QRPVGWELGCDIYAALGSVAGIGSAINNAAIAFDRYRTISCPIDGRLTQGQVLALIAG
TWVWTLPFTLMPLLRIWSRFTAEGFLTTCSFDYLTDDEDTKVFVGCIFAWSYAFPLCLIC
CFYYRLIGAVREHEKMLRDQAKKMNVKSLQSNADTEAQSAEIRIAKVALTIFFLFLCSWT
PYAVVAMIGAFGNRAALTPLSTMIPAVTAKIVSCIDPWVYAINHPRFRAEVQKRMKWLHL
GEDARSSKSDTSSTATDRTVGNVSASA---------------------------------------------------------->OPS2_PATYE
---------------------------------------MPFPLNRTDTALVISPSEFRI
IGIFISICCIIGVLGNLLIIIVFAKRRSVRRPINFFVLNLAVSDLIVALLGYPMTAASAF
S-NRWIFDNIGCKIYAFLCFNSGVISIMTHAALSFCRYIIICQYGYRKKITQTTVLRTLF
SIWSFAMFWTLSPLFGWSSYVIEVVPVSCSVNWYGHGLGDVSYTISVIVAVYVFPLSIIV
FSYGMIL-----QEKVCKDSRKNGIRAQQRYTPRFIQ-DIEQRVTFISFLMMAAFMVAWT
PYAIMSALAIGSFNV--ENSFAALPTLFAKASCAYNPFIYAFTNANFRDTVVEIMAPWTT
RRVGVSTLPWPQVTYYPRRRTSAVNTTDIEFPDDNIFIVNSSVNGPTVKREKIVQRNPIN
VRLGIKIEPRDSRAATENTFTADFSVI
これらの配列は、互いにとても似ていますが、いくつか違いもあることに注意してください。ま
ず、ギャップが挿入されています。そして、大域アラインメントを行なっています。だから、すべ
ての配列の長さが同じになるようにギャップが挿入されているのです。
この形式では、アラインメントにおける配列間の違いが、とても見にくいものとなっています。
prettyplot というプログラムを用いると、それぞれの配列の頭をそろえることにより結果を見や
すくすることができます。
5.3.3
練習:prettyplot
unix % prettyplot
Displays aligned sequences, with colouring and boxing
46
第5章
Input sequence set:
パターン、プロファイル、多重配列アラインメント
ops2.aln
Graph type [x11]:
アラインメントの詳細が、グラフィカルに表示されるでしょう。同じ残基は赤字で、似た残基は
緑字で表されます。こういった表示を見ることで、保存されている領域に関するイメージがわくで
しょう。
EMBOSS に含まれる、他のグラフィカルな表示をするプログラムと同様に、出力を画面にでな
くファイルに保存することもできます。これは、-graph フラグや、これと関連するフラグを用い
ることで指定できます (すべてのフラグのリストを得るには prettyplot -help -verbose と打っ
てください)。
先程の prettyplot の出力をカラーの PostScript 形式で rhodopsin.ps というファイルに保存す
るためには、-graph cps と -goutfile rhodopsin を指定します。
unix % prettyplot ops2.aln -goutfile rhodopsin -graph cps
Displays aligned sequences, with colouring and boxing
Created rhodopsin.ps
この結果、rhodopsin.ps ファイルが作られます。このファイルは PostScript プリンタで印刷
したり、ps2pdf(これは EMBOSS のプログラムではありませんが、多くの UNIX あるいは Linux
システムで使うことができます) を用いて PDF ドキュメントに変換することができます。PDF ド
キュメントは、Acrobat Reader のような PDF ビューワーで見ることが可能です。
prettyplot の出力を調節するために(例えば、一行あたりに表示される残基数を増やすなど)
多くのオプションが用意されています。ヘルプファイルを読んで、いろいろ試してみてください。
コンセンサス配列と共に表示したり、一行あたりの残基数を変更するなど、いろいろできます (ヒ
ント:prettyplot -help)。
5.4
プロファイル
タンパク質の構造や機能を配列に基づいて予測する際に、プロファイル解析 [2] はとても有用で
す。これは、配列類似性は低いけれども関連のある配列を探索しアラインメントする際に用いられ
る、配列比較の方法です。プロファイル解析を行なうことで、新しい配列と、これと類似したファ
ミリーとの間の最適なアラインメントを行なうことができます。この計算には、スコアマトリクス
と、複数の似た配列からつくられた最適な多重アラインメントが必要です。このグループあるいは
「ファミリー」のアラインメントから多重アラインメントをつくるための最初のアラインメントが
とられます。その多重アラインメントの情報から、位置特異的な文字の出現頻度とギャップペナル
ティの表が作成されます。この表が、プロファイルと呼ばれるものです。得られたプロファイルと
配列は、Smith/Waterman のアルゴリズムを基とした手法で比較することができ、これによって、
その配列がファミリーと類似を示すかどうかを評価することができます。
5.4. プロファイル
5.4.1
47
練習:prophecy
prophecy は多重アラインメントからプロファイルをつくる EMBOSS のプログラムです。prophecy
の例を示すために osp2 のアラインメントを使います。
unix % prophecy
Creates matrices/profiles from multiple alignments
ops2.aln
Input sequence:
Profile type
F : Frequency
G : Gribskov
H : Henikoff
Select type [F]: g
Enter a name for the profile [My matrix]:
ops2 sequences
Scoring matrix [Epprofile]:
Gap opening penalty [3.0]:
Gap extension penalty [0.3]:
Output file [outfile.prophecy]: ops2.prophecy
5.4.2
練習:prophet
それでは、今作ったプロファイルを使って、xlrhodop.pep と opsin2 の配列をアラインメントし
てみましょう。
unix % prophet
Gapped alignment for profiles
Input sequence(s): xlrhodop.pep
Profile or matrix file: ops2.prophecy
Gap opening coefficient [1.0]:
Gap extension coefficient [0.1]:
Output file [ops2.prophet]:
unix % more ops2.prophet
Local: Consensus vs OPSD_XENLA
Score: 2189.00
Consensus
1
M.ERS.HLPEG.PFAAALSGARFAAQSSGN.ASVL..DWNVLP.E 38
OPSD_XENLA
1
MNG.GTE..EGPN.NFYVP.PMS...SN.NKTGVVRSP.P..PFD 33
Consensus
39
MAPLVHPHWSRF.APMNPMWHKILGLFTLILGII.SCLG.NGLVI 80
| : : :
|| : ::::: :
|: | ::|:
:
| :
48
第5章
:::
:::
パターン、プロファイル、多重配列アラインメント
: :
:|: :::|: ::::|:::
|: | :::
OPSD_XENLA
34
YPQ.Q.QYYL.LAE..EPWQYSALAAYMFLLILLGL.LPINFMTL 72
Consensus
81
YI.FA.GTKSLRTPANLLVLNLAFSD..FCMMASMSPV.MAINCF 120
:: :: :: |||| |:::|||:|:: : |:: :::| | ::::
OPSD_XENLA
73
FVTIQHKKL.LRTPLNYILLNLVFANHFM.MVLCGFTVTMYTSMH 115
Consensus
121
YGETWVLGPLGC..D.IYAAL.GSLFGCVSIWSMCMIAFDRYNVI 161
: :::|| || : ::|:| |
| |::||::::|::|| |:
OPSD_XENLA
116
G.GYFIFGPTGCYIEGFFATLGG...GEVALWSLVVLAVERYIVV 156
Consensus
162
VKGINGTPLTIKTAILKALFIWMM.AVFW.TIMPLFGWSRYVPEG 204
OPSD_XENLA
157
:|:::: ::::: ||: ::|:|:| : :: : :||||||||:|||
CKPMANFRFGENHAIMGVAFTWIMAL.LSCAAPPLFGWSRYIPEG 200
Consensus
205
NLTSCSIDYLT.R.DWNPRSYL.ITYFLFV.YFFPLFIICYSY.W 244
OPSD_XENLA
201
: :||::||:| : : |: |::
|:::| : :||::|:::| :
MQCSCGVDYYTLKPEVNNESFVIY.YMFIVHFTIPLIVIFFCYGR 244
Consensus
245
FIIAAVAAHEKAMRDQAKKMNVKSLRSNEDCDKQSAEI.R.LAKV 287
OPSD_XENLA
245
:::::
:|:|:::|:: : :::::::: :
|: | :: |
LLCTVK..KEAAAQQQESLT..TTQKAEKE..E...EVTRMVV.V 279
Consensus
288
ALTTISLWFMAWTPYAIIAY.FGLFGIDGA.LTP.LTT.IWGALF 328
OPSD_XENLA
280
:::: :::::|:|||::|: : :|: :|: ::| ::|
:|:|
IMVVF.FFLICWVPYAYVAFYI.IFTHQGSNFGPVFMTVP.PAFF 321
Consensus
329
AKASSCYNPIVYAISHPKYRA.ALKEKCPMCVCGETD.EPSPDAP 371
||:|::|||::| : ::::| ::
:: ::||::: :::::::
OPSD_XENLA
322
AKSSAIYNPVIYIVLNKQFRNCLI...ITTLCCGKNPFGDEDGSS 363
Consensus
372
QSDATTTSEAAS..KAPAAI.EFPD
|:||:::||:| ::: :: : |:
393
OPSD_XENLA
364
.SAATSKTEASSVSSSQ.QVSP.PA
385
縦棒 (|) は、ops2 のコンセンサスと rhodopsin が一致した残基を示し、コロン (:) は同義置換を
示します。ファミリーのメンバーをアラインメントすれば、構造や機能にとって重要な保存領域を
発見できることが、わかっていただけると思います。
49
第 6 章 結論
これまで、EMBOSS で提供されているプログラムのいくつかについて、またこれらをコマンドラ
インから実行する方法を紹介してきました。ただし、これらのプログラムの全てのオプションを
説明したわけではありませんし、現在 EMBOSS で可能な解析を全て網羅できたわけでもありませ
ん。あなたがここまで EMBOSS について楽しく学習でき、EMBOSS で解析できる新しいタイプ
の問題を思いついているようであれば、私達の期待どおりといえるでしょう。
是非、EMBOSS のウェブサイト http://www.uk.embnet.org/Software/EMBOSS/ を訪れてく
ださい。そこには、EMBOSS で可能な解析に関するものなど、様々な情報があります。
さらに、EMBOSS のマニュアルを表示するプログラム tfm もあります。
6.1
練習: tfm
EMBOSS のそれぞれのプログラムのマニュアルを閲覧するために、このプログラムを使うこと
ができます。では、wossname プログラムのマニュアルを見てみましょう。
unix % tfm wossname
Displays a program’s help documentation manual
EMBOSS: wossname
_________________________________________________________________
Program wossname
Function
Finds programs by keywords in their one-line documentation
Description
This allows a user to search for keywords or parts of words in the
brief documentation (as displayed by a program when it first starts).
The program name and the brief description is output. If no words to
search for are specified, then details of all the EMBOSS programs are
50
第6章
結論
output.
The program has been written on the assumption that most people will
use it to quickly find the name of a program based on that program’s
description, so the output goes to the screen by default.
This program may find some use in automatically generating lists of
EMBOSS programs and their groups for Web pages.
Usage
Here are some sample sessions with wossname.
Search for programs with ’restrict’ in their description
% wossname restrict
Display a listing of programs in their groups
--More--(8%)
マニュアルの内容はページごとに表示されており、スペースバー (訳注:スペースキー) を使うこ
とで次のページに移動できます。この動作は、-nomore フラグを使うことで、無効にすることが
できます。
51
関連図書
[1] D.G. Higgins J.D. Thompson and T.J. Gibson. CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment through sequence weighting, position specific gap
penalties and weight matrix choice. . Nucleic Acids Research., 22:4673–4680, 1994.
[2] A.D. McClachlan M. Gribskov and D. Eisenberg. Profile analysis - detection of distantly
related proteins. . Proc. Natl. Acad. Sci. USA, 84:4355–4358, 1987.
[3] S.B. Needlman and C.D. Wunsch. A general method applicable to the search for similarities
in the amino acid sequence of two proteins. . J. Mol. Biol., 48:443–453, 1970.
[4] T.F. Smith and M.S. Waterman. Identification of common molecular subsequences. J. Mol.
Biol., 147:195–197, 1981.