ヒトタンパク質の立体構造予測 データベース、SAHGの活用

平成23年度 第4回データベース講習会@お台場
「創薬研究における統合データベースの活用」
ヒトタンパク質の立体構造予測
データベース、SAHGの活用
産総研 生命情報工学研究センター 創薬分子設計チーム
本野 千恵
1
本日の講習・実習




タンパク質立体構造予測の現状とSAHGデータベースプ
ロジェクト
SAHG データベースの紹介
他のタンパク質立体構造予測モデルのデータベース
SAHG データベースの利用方法(実習)
2
本日の講習・実習




タンパク質立体構造予測の現状とSAHGデータベースプ
ロジェクト
SAHG データベースの紹介
他のタンパク質立体構造予測モデルのデータベース
SAHG データベースの利用方法(実習)
3
タンパク質立体構造解析

Structural genomics
Structural Genomics Consortium
Protein Structure Initiative (PSI)
PSI Structural Genomics Knowledgebase: A Nature Gateway
Northeast Structural Genomics Consortium
The Midwest Center for Structural Genomics
Berkeley Structural Genomics Center
Center for Eukaryotic Structural Genomics
Yeast Structural Genomics (Genomique Structurale de la levure)
RIKEN Structural Genomics/Proteomics Initiative
Structural Genomics of Pathogenic Protozoa
The Joint Center for Structural Genomics
Mycobacterium tuberculosis Structural Genomics Consortium
New York SGX Research Center for Structural Genomics (NYSGXRC)
NJCST Initiative in Structural Genomics and Bioinformatics
Structural Genomics at Brookhaven Natl. Labs
Structure to Function Pilot Project: CARB
The Southeast Collaboratory for Structural Genomics
Toronto Structural Proteomics Consortium
Protein Structure Factory
Oxford Protein Production Facility
Center for Structural Genomics of Infectious Diseases
Seattle Structural Genomics Center for Infectious Disease
Structural Proteomics in Europe SPINE
Forum for European Structural Proteomics (FESP)
Israel Structural Proteomics Center (ISPC) ….
4
タンパク質立体構造解析

配列と構造の登録数推移
The red line is the growth of protein sequences deposited in TrEMBL, a comprehensive protein
sequence database. The blue line illustrates the growth proteins in TrEMBL whose function is
know, or at least can be predicted with some reasonable accuracy. The green line is the growth
in the proteins whose 3D structure has been solved. Image courtesy of Predrag Radivojac.
Copyright@ 2012 Byte Size Biology
5
タンパク質立体構造予測
熱統計力学/物理化学
Anfinsen’s central dogma:
Sequence to structure
Lefinthal paradox:
Folding pathway
分子進化
祖先配列
構造類似性
→ 低
配列相同性と構造類似性
←
リモートホモログ
アナログ
高
ホモログ
高
←
配列相同性
→ 低
Gan et al., Biophysical Journal Volume 83 November 2002 2781–2791
ホモログ 同じ祖先型配列から進化した相同性の高いタンパク質
アナログ 進化的に祖先異なり配列相同性が低いが、構造類似性のあるタンパク質
配列相同性と構造類似性
R. B. Russel et al.,
J. Mol. Biol. (1997)
269, 423±439
ホモログ 同じ祖先型配列から進化した相同性の高いタンパク質
アナログ 進化的に祖先異なり配列相同性が低いが、構造類似性のあるタンパク質
立体構造予測手法
Easy
Hard
Comparative modeling Fold recognition
Easy (BLAST)
Homologous
Hard (PSI-BLAST)
Analogous
Homology Based Modeling
Template-based modeling
鋳型構造に依存度大
鋳型構造はライブラリ中に存在
探索空間小
大きいタンパク質に対応可能
New fold
de novo
ab initio
Non-homology Modeling
Template-Free
modeling
鋳型構造に依存度小
新規な構造に対応
探索空間膨大
小さいタンパク質のみ対応可能
鋳型構造の探索
Easy
Hard
ターゲット配列
vs 鋳型配列
BLAST, FASTA
ターゲットプロファイル
vs 鋳型配列
PSI-BLAST
ターゲットプロファイル
vs 鋳型プロファイル
FFAS03, FORTE, FUGUE, 3DPSSM,INBGU,Sam-T99,HMaP
threading
LIBRA, GenTHREADER,
Sippl-Poteintial
Fragment Assembly for new folds:free modeling with
Rosetta http://www.rosettadesigngroup.com/index.php
Target sequence
Fragments of 3/9 res
Target profile-fragment profile
Predeicted secondary structure-fragment secondary structure
Compact structures are assembled by
randomly combining the fragments, using a
Monte Carlo simulated annealing search.
タンパク質立体構造予測の最先端

CASPにみる最先端
http://predictioncenter.org/
アミノ酸配列
(問題)
X線結晶構造
NMR(答え)
予測構造
(解答)
12
Yang Zhang: I-TASSER Protocol
http://zhanglab.ccmb.med.umich.edu/I-TASSER/
I_TASSER server was ranked as the No 1 server for protein structure
prediction in recent CASP7, CASP8 and CASP9 experiments
タンパク質立体構造予測の課題

ドメイン単位での予測に特化している。
比較的短い配列が対象。
単一構造ドメイン、もしくは2-3の構造ドメインの配列
が対象。

立体構造を取ることが判っている配列を対象にしている。
14
Intrinsic disordered regions &
multi-domain proteins per organism
Most protein sequences from higher organisms are long
and should be multi-domain proteins, and contain a
significant portion of intrinsically disordered (ID) regions.
E.coli
yeast
rice
fly
structured
human
dirordered
(>40 aa)
multi-domain
1or2
domains
eukaryote
animal
15
本日の講習・実習




タンパク質立体構造予測の現状とSAHGデータベースプ
ロジェクト
SAHG データベースの紹介
他のタンパク質立体構造予測モデルのデータベース
SAHG データベースの利用方法(実習)
16
A Goal of protein bioinformatics
Protein
function
design
Protein
Structure
Protein
Sequences
prediction
Our goal:
to create base technology
Our project
Molecular
function DB
独立行政法人科学技術振興機構
バイオインフォマティクス推進センター事業
平成17年度採択研究開発課題「タンパク質の構造・機能予測
法の開発とヒトゲノム配列への適用」
平成20年度採択継続研究開発課題「タンパク質の構造・機
能・相互作用予測システムの開発と展開 」
Data control by XML tags
Function annotation
Annotation system for protein
structure and function
Structure
predictions
ATGGAGACC
Verification by
experiments
Visualization of
protein structure and
function
PDB
Human genome
Sequences (CDS)
Annotation database for
protein structure and
function in human genome
SAHG
18
I developed

A special protein-structure-prediction
pipeline for proteins from higher organisms

SAHG (Structure Atlas of Human Genome)
http://bird.cbrc.jp/sahg
database
19
SAHG用タンパク質立体構造予測及び機能予測手法

•
•
•

Tertiary structure prediction pipeline
multi-domain conformation
disordered regions
conformation change upon ligand binding.
Other structure and function predictors
20
Prediction schemes
21
Protein structure prediction methods for SAHG
Easy
Hard
Comparative modeling Fold recognition
New fold
Smith-Waterman Profile-profile
alignment
BLAST
Easy (BLAST)
Homologous
de novo
(SWPPA)
Hard (PSI-BLAST)
Analogous
ab initio
PSI-BLAST
FORTE
Homology Based Modeling
Template-based modeling
Non-homology Modeling
Template-Free
modeling
22
Prediction schemes
Template search and the assignment:
“step-wise-multi-methods” approach
Blast search with 10-5 E-value cut-off
At least 90 % of template sequence can be aligned with the target
23
Prediction schemes
Template search and the assignment:
“step-wise-multi-methods” approach
Psi-blast search with 10-5 E-value cut-off
At least 90 % of template sequence can be aligned with the target
24
Prediction schemes
Template search and the assignment:
“step-wise-multi-methods” approach
Smith-Waterman Profile-Profile Alignment with Z-score > 10 cut-off
At least 90 % of template sequence can be aligned with the target
25
Prediction schemes
Template search and the assignment:
“step-wise-multi-methods” approach
remove long disordered regions by POODLE-S
assign potential domain regions
26
Prediction schemes
Template search and the assignment:
“step-wise-multi-methods” approach
FORTE search with Z-score > 20 cut-off
27
Prediction schemes
28
SAHG 立体構造モデルの表示
予測構造PDBファイルのダウンロード
V
II
I
29
Structure prediction pipeline
Treatments of multi domain proteins

SAHG principally exhibits protein structure as an
array of domains.
The prediction pipeline implicitly prioritizes multidomain templates;
 Templates: SCOP domains and whole PDB.
 A set of templates was chosen to maximize the
length of modeled regions.
30
Structure prediction pipeline
Prediction of potential domains using
disorder region prediction

Purpose: to remove long ID regions from the
target sequences and assign potential domain
regions to assure better performance in template
searches.

Existing domain prediction methods: overcut
domain regions into segments.

ID regions act as linkers of structural domains
(Dyson & Wright, 2005).
31
Structure prediction pipeline
Prediction of potential domains using
disorder region prediction

Disordered regions predicted by POODLE-S.

A simple two-state Hidden Markov Model to detect
regions where structured residues were continuously
abundant.
The transition probability between STRUCTURED and
DISORDERED and all the emission probabilities were
empirically adjusted to eliminate over-prediction.
the STR regions were estimated from the input binary
linker
sequence by calculating a Viterbi path.


structured
disordered
structured
disordered
32
Structure prediction pipeline
Prediction of potential domains using
disorder region prediction

Results of chromosome 22.
Averaged
domain length
平均長
Processed
推奨パラメータで切った場合
Not processed
何もしない場合
0
100
200
300
400
500
Number of residues
90
80
70
60
50
何もしない場合
40
推奨パラメータで切った場合
30
20
10
0
0-49
50-99
100-199
200-299
300-399
400-499
500-599
600-699
700-999
1000以上
33
Structure prediction pipeline
Prediction of conformational change
upon ligand-binding
When templates in
both apo and holo
forms are available
When templa
in apo form i
available
34
Structure prediction pipeline
Prediction of conformational change
upon ligand-binding
When there was only the template for apo form
available;
 eF-seek finds potential ligand-binding sites in
the model of the apo form searching eF-site (the
database of representative ligand-binding sites)
by clique search algorithm.
 The structural changes upon the predicted
ligand-binding were deduced using a linear
response theory.
35
Other structure and function predictors

Prediction of protein complex structure
a non-redundant set composed of 12,730 template
complexes; more than 80 % sequence identity by the
BLAST search; the complex model MODELLER; 8,667
complex models were prepared for 3,650 target
sequences.
36
SAHG 立体構造モデルの表示
複合体予測構造の表示
V
II
I
37
Contents of SAHG database
Example view of a
予測複合体構造が複数
“Complex
ある場合information”
page
予測複合体構造PDBフ
ァイルのダウンロード
38
Other structure and function predictors

Prediction of protein complex structure
a non-redundant set composed of 12,730 template
complexes; more than 80 % sequence identity by the
BLAST search; the complex model MODELLER; 8,667
complex models were prepared for 3,650 target
sequences.

Ligand binding information
Retrieved from constructed models.
39
SAHG リガンド情報の表示
リガンド結合部位とリガンドの種類(PDB表記)の表示
V
II
IV
カーソルを矢印の場所に合わせると部位とリガンド種類を表示
40
クリックするとJmolウィンドウ上でハイライト表示
Other structure and function predictors

Prediction of protein complex structure
a non-redundant set composed of 12,730 template
complexes; more than 80 % sequence identity by the
BLAST search; the complex model MODELLER; 8,667
complex models were prepared for 3,650 target
sequences.

Ligand binding information
Retrieved from constructed models.

Prediction of catalytic residues
Using the EzCatDB database
41
SAHG 立体構造モデルの表示
酵素の予測触媒部位情報:ExCatDBへのリンク
V
II
I
42
Other structure and function predictors

Prediction of protein complex structure
a non-redundant set composed of 12,730 template
complexes; more than 80 % sequence identity by the
BLAST search; the complex model MODELLER; 8,667
complex models were prepared for 3,650 target
sequences.

Ligand binding information
Retrieved from constructed models.

Prediction of catalytic residues
Using the EzCatDB database

Prediction of ID and transmembrane regions
By POODLE-S and TMHMM softwares.
43
SAHG 立体構造モデルの表示
POODLEによる天然変性領域の予測結果の表示
V
II
I
44
Results of structure predictions
Domain linker(2%)
Not modeled(14%)
Intrinsically disordered
(14%)
modeled(70%)
FORTE (613)
SWPPA
(9,163)
42,581 models
Apo & holo
(4083)
Apo
(20,104)
Psi-blast
(14,577)
Targets:
All protein coded in
human genome
24,878 RefSeq seque
(14,012,591 residues)
holo
(18,394)
Multiple models were generated for 9,057
Blast
(18,228) RefSeq sequences.
One model was generated for 12,310
RefSeq sequences.
3,511 RefSeq sequences remain without
any predicted model.
4
SAHGデータベース まとめ

We developed a special protein-structure-prediction
pipeline for proteins from higher organisms.

The prediction pipeline considers
• multi-domain conformation,
• disordered regions,
• conformation change upon ligand binding.

We applied the pipeline to all proteins coded in human
genome and accumulated the products in the SAHG
(Structure Atlas of Human Genome) database at
http://bird.cbrc.jp/sahg.
46
本日の講習・実習




タンパク質立体構造予測の現状とSAHGデータベースプ
ロジェクト
SAHG データベースの紹介
他のタンパク質立体構造予測モデルのデータベース
SAHG データベースの利用方法(実習)
47
他の予測構造データベースの例:ModBase, a database of
annotated comparative protein structure models
他の予測構造データベースの例: The Protein Model Portal
http://www.proteinmodelportal.org
To directly compare the results of different
modelling methods for the same protein
Structure models provided by:
CSMP, JCSG, MCSG, NESG, NYSGXRC,
JCMM, ModBase, SWISS-MODEL.
based on UniProt release 2011_11
consists of 19 million comparative protein
models for 3.5 million distinct UniProt sequence
他の予測構造データベースの例: The Protein Model Portal
http://www.proteinmodelportal.org
To directly compare the results of
different modelling methods for the
same protein
立体構造予測の新境地?
Foldit http://fold.it/portal/info/science


Foldit is a revolutionary new computer game enabling you to
contribute to important scientific research. Join this free online game
and help us predict the folds of unsolved proteins as well as
designing new proteins to cure diseases.
humans' pattern-recognition and puzzle-solving abilities.
Foldit http://fold.it/portal/info/science



多数のヒトの知覚能力の利用
仕事よりゲームの方が好成績?
立体構造解析の実験との組み合わせで効果
Nature Structural & Molecular Biology
(2011)
ACKNOWLEDGEMENTS




Ryotaro Koike, Kana Shimizu, Matsuyuki Shirota,
Takayuki Amemiya, Kentaro Tomii, Nozomi Nagano,
Naofumi Sakaya, Kiyotaka Misoo, Miwa Sato, Akinori
Kidera, Hidekazu Hiroaki, Tsuyoshi Shirai, Kengo
Kinoshita, Tamotsu Noguchi and Motonori Ota
Takatsugu Hirokawa and CBRC,AIST for their support of
the project
Mari Saito for her contribution to website design
Funding by Japan Science and Technology Agency
(JST) - Institute for Bioinformatics Research and
Development (BIRD).
53
本日の講習・実習




タンパク質立体構造予測の現状とSAHGデータベースプ
ロジェクト
SAHG データベースの紹介
他のタンパク質立体構造予測モデルのデータベース
SAHG データベースの利用方法(実習)
54
SAHG データベースの利用方法(実習)


http://bird.cbrc.jp/sahg
SAHGトップ
55
SAHG データベースの利用方法(実習)


http://bird.cbrc.jp/sahg
SAHGトップ 11番染色体をクリック
56
SAHG データベースの利用方法(実習)
11番染色体
②7ページまで送る
57
SAHG データベースの利用方法(実習)
11番染色体7ページ
③NP_002834.3の画像をクリックすると詳細画面が開く
58
SAHG データベースの利用方法(実習)
NP_002834.3詳細画面
NP_002834.3の基本
II
的アノテーション
V
Jmolウィンドウ
選択中の予測構造
ドメインの情報
IV
NP_002834.3の予測情報一覧
59
SAHG データベースの利用方法(実習)
V
NP_002834.3詳細画面
II
⑥鋳型とのアラインメント表示
⑦予測構造PDBファイルのダウンロード
IV
⑤C末のドメインをクリックすると構
造がJmolウィンドウに表示される60
SAHG データベースの利用方法(実習)
⑧リガンド結合部位とリガンドの種類(PDB表記)の表示
V
II
IV
⑨カーソルを矢印の場所に合わせると部位とリガンド種類を表示
クリックするとJmolウィンドウ上でハイライト表示
61
SAHG データベースの利用方法(実習)
⑩酵素の予測触媒部位情報:ExCatDBへのリンク
V
II
⑪外部のデータベースへのリンク
SwissProt, IPI, HPRD, EC
I
62
SAHG データベースの利用方法(実習)


http://bird.cbrc.jp/sahg
予測した構造変化をまとめて表示させる
SAHGトップ サムネイルをクリック
63
SAHG データベースの利用方法(実習)
 http://bird.cbrc.jp/sahg
SAHGのより詳しい情報は論文で。
 SAHGトップ
クリックすると論文へリンクします。
64
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
http://www.uniprot.org/へアクセス
(ずるをして)NP_002834を検索
65
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
NP_002834検索結果:UniProt ID Q12913
の画面
66
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
NP_002834検索結果:UniProt ID Q12913の画面下方で3D情報
をチェック
→構造の無い領域がある
67
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
NP_002834検索結果:UniProt ID Q12913の画面でア
ミノ酸配列(fasta形式)を表示、コピーする。
68
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
Advanced Searchへ
69
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
Advanced Searchへ
70
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
71
SAHG データベースの利用方法(実習)

どんな時にSAHGへアクセスするか?
→ 立体構造がPDBに見つからない
Refseq IDをクリックするとNP_002834.3の詳細画面が開く
72
SAHG データベースの利用方法(実習)
御注意 お願い

以下は全て予測情報;立体構造、複合体構造、複合体相互作用
部位、リガンド結合情報、天然変性領域、膜貫通領域。

お問い合わせは
[email protected]
[email protected]

全予測立体構造のPDBファイルをまとめてダウンロードすることは
現在できません(共同研究でご利用頂いています。例:網羅的発
現データ等と組み合わせてタンパク質間相互作用の絞り込みな
ど)。構造の品質管理をしたうえで将来ウェブにアップデート予定。

ご清聴感謝いたします。お疲れ様でした。
73