福西先生 北海道大学 計算創薬化学(3)

計算創薬化学(3)
福西 快文
産業技術総合研究所・創薬分子プロファイリング研究センター (molprof)
薬の開発は、標的(タンパク質や遺伝子)を探し、100万種類~数百万種類
の薬剤を試し、構造活性相関を調べて、新規化合物をデザイン、合成し、
アッセイし、細胞で、動物で、と試していく。
最低、20-30人のチームで行う。
労力の50%は、周囲の人とのコミュニケーションに費やす。
たとえ間違っていても、その時点で正しそうな作業仮説を立てなければ、多く
の人を説得できず、研究は進められない。
チーム内でのトラブルでは、感情的に理屈を述べるのではなく、理性的に感
情を伝えること。そういった人間関係もプロジェクトの成否を左右する。
Structure-based drug screening
と
蛋白質ー化合物相互作用パネルの解析
-標的蛋白質構造が既知の場合ー
ランダムな実験(HTSなど)では、ヒットは1万化合物に1化合物しかない。
ドッキング計算だけで、ヒット化合物を見つけるのは、ドッキングソフトの精度が
悪いので難しい。
いろいろな工夫をして、精度をカバーする。
計算スクリーニングでは、ヒット率(計算で予測して購入した化合物に対する、
実際に実験してヒットする化合物の割合)は1%~10%になる。
page2
1
ヒット化合物数(%ないし個数)
データベースエンリッチメントカーブ:スクリーニングの評価方法
良い!
悪い
薬物スクリーニング
ヒット率
購入化合物数(%ないし個数)
薬物スクリーニングで順位づけした
化合物を上位から何%購入したら、
本来データベースに含まれていた
ヒット化合物を何%を見つけられたか
を示す。
ヒット率=ヒット数/購入化合物数x100(%)
grou
p
file_name
c001
c001
mts
mts_score
SUPPLIER
0006240-01
1
-2.0627
Ambinter
0020411-01
3
-2.0674
Ambinter
c001
0013395-01
4
-2.0611
Ambinter
c001
0020413-01
5
-2.0663
Ambinter
c001
0013566-01
6
-2.0617
Ambinter
c001
0002135-01
7
-2.0683
Ambinter
c001
0020501-01
8
-2.0617
Ambinter
c001
0022138-01
9
-2.091
Ambinter
c001
0022583-01
10
-2.0709
Ambinter
c001
0021187-01
11
-2.0647
Ambinter
c002
0103033-01
2
0.2702
Aronis
page3
ROC(ロック)カーブ:Reciever Operating Characteristic Curve
:スクリーニングの評価方法
少数のスコア上位化合物を購入する
場合、ヒットが多く、はずれは少ない
ので、図左はしにプロットされる。
True positive (真陽性)
良い!
悪い
Folase positive (擬陽性)
ROCカーブは、縦横軸の定義が
各種あり、様々なものが存在する。
一般に、データベース中のヒット
化合物数が
ヒット化合物数 << データベー
ス化合物
購入化合物は、計算において「陽性」
であれば、データベースエンリッ
(ヒット)と判定されたものである。
チメントカーブは、ほぼROCカー
購入化合物において、はずれ(擬陽
ブに一致する。
性)とヒット(true positive)をプロットし
ROCは数学的だが、データベースエンリッ
たものがROCカーブである。
チメントカーブは、横軸が経費そのものな
ので、後者が便利な場合が多い。 page4
2
In silico薬物スクリーニングの標的依存性:タンパク質によって成績はバラバラ
G.L.Warren, et al., J. Med. Chem. (2006) 49:5912-5931.
page5
In silico薬物スクリーニングのソフトウェア依存性:ソフトによって成績はバラバラ
G.L.Warren, et al., J. Med. Chem. (2006) 49:5912-5931.
page6
3
薬物ドッキングスクリーニング
ドッキング ≠ スクリーニング計算
計算機スクリーニングでは、通常、標的蛋白質に一番強く結合する化合物を選び出す。
しかし、実際には、「どの蛋白質にも強く結合する化合物」や、「どの蛋白質にも結合し
ない化合物」が存在し、蛋白質と活性化合物のペアを見出すことは難しい。
しかし、1つの化合物に着目すると、一番結合しやすい蛋白質は、比較的容易に見出
される。
そこで、多数の蛋白質と化合物をドッキングさせ、各化合物に対して、どの蛋白質が結
合しやすいかを調べ、標的蛋白質に選択的に結合する化合物をヒット化合物として選
ぶ。
このようにすると、従来よりはるかに高いヒット率で活性化合物を選出できる。
既知医薬品探索の例では、計算予測上位1%の化合物を選ぶと、その中に既知の医
薬品が、ランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を
得ることが出来た。
page7
標的蛋白質
Target
protein
副作用
Side effect
化合物:
compound
副作用
Side effect
副作用
Side effect
副作用
Side effect
4
In silico screening手法開発(Multiple target screening)
1つの化合物を、
標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし、
結合力を見積もる。
複数の蛋白質の中で、標的に一番強く結合する化合物を選ぶ
化合物ライブラリー
蛋白質ライブラリー
・・・・・・
1
2
3
4
5
6
7
8
9 10 11
1
1 12
8
3
1
6
4
2
4
4
6
2
9 11
9
2
2
1
5
3
3
1
5
3 10 10 10 12
3
5
6
5
2
5
4
4 11
9
5
1
6
4
2
1
1
3
3
5
4
8
7 11
5
3
7
6 11
2
2
6
3
1
6
4
4 12
1
4 10
6
1
7
8
2
2
5
9
2
8
7
9 ヒット化合物
7 12
8 12
5 11
6
8 11
9
8
8
8 11
9
2
7
3 10
7 10 10 12 12
9 10
10
7
3 12
7 12
9 11
9
7 10
9
11
6
4
4
8 10
8 12 10
6 11
8
標的蛋白質
page9
In silico screeningの開発(Multiple target screening)
複数の蛋白質の中で、標的に一番強く結合する化合物
を選ぶ。
標的に効いて、副作用の少ない化合
物を予測できる。
ヒット率(活性化合物が予測によって見つかる
確率)は、世界標準ソフトの約10倍を達成
page10
5
Multiple target screeningの流れ
生のdocking scoreを用いたとき
100
(1)化合物の標的蛋白質へのふるいわけ
Hit ration (%)
80
化合物ライブラリー
60
40
20
90
100
80
70
60
50
40
30
20
0
Number of compounds (%)
MTS法
100
ポケット1 ポケット2 ポケット3
60
40
20
90
10
0
80
70
60
50
40
30
20
10
0
0
(2)ふるいわけられた化合物集合に対す
る通常のin silicoスクリーニング
80
Hit ratio (%)
標的
10
0
sievgene
Number of Compounds (%)
Score=5.5
Score=3.2
Score=2.1
page11
既に得られた実験情報(どれがヒット化合物か)を利用して、
計算スクリーニングの精度を高める。
Docking score modification
-application to in-silico screeningー
① 相互作用行列の情報でスコアの精度を向上させる。
② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる。
この方法だと、ヒット率は、10~50%にまで高まる。
page12
6
スコアの修正 : Direct Score Modification (DSM)法
似たタンパク質は、似た化合物を結合するだろう。
たんぱく質aと化合物iのドッキングスコアは、蛋白質aに類似した蛋白質bと化
合物iのドッキングスコアに近い値をとる。ノイズを低減するには、類似蛋白質
と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで
可能になる。
s R

R
i
b
i
s new a
b
a
b
b
a
b
Sai: docking score of a-th protein and i-th compound
 (s
i
b
R 
b
a
i
 (s
i
b


s
i
b
i
Nc
s
i
b
i
Nc
i
)( s 
i
a
s
i
a
i
Nc
) 2   ( sai 
i
)
s
i
a
i
Nc
)2  
page13
スコアの修正 : Machine-learning Score Modification (MSM)法
既知活性化合物が存在する場合、ドッキングスコアを他のドッキングスコアの線形結合
で補正する。
機械学習法により、最適なデータベースエンリッチメントを与えるように、
ドッキングスコアの線形結合係数を調整する。
データベースエンリッチメントが最適化されるまで反復する
s
new i
a
 s M
i
b
1 2 3 4 5 6 7 8 9 10 11 12
1
2
○ ○
○
○
3
○
4○
○
5
○
6
○ ○
○
○
○ ○ ○
7
8
○
○
○
9
○
10
11
○
○
12
○
b
a
b
線形結合係数の調整
100
Number of hits (%)
80
ドッキングスコアの修正
60
original
DSM
ml-DSM
40
20
MTS法でスクリーニング
0
0
20
40
60
80
100
Number of compounds (%)
データベースエンリッチメントの計算
page14
7
100
100
80
80
Number of hits (%)
Number of hits (%)
DSM/MSM法の結果
60
original
DSM
ml-DSM
40
20
60
40
original
MDS
ml-MDS
20
0
0
0
0
20
40
60
80
100
20
40
60
80
100
Number of compounds (%)
Number of compounds (%)
180蛋白質使用
24蛋白質使用
DSMは100蛋白質以上使用すると有効。MSMは24蛋白質でも有効(MSM>DSM)
標的蛋白質近傍の類似蛋白質の数と
DSM法でのデータベースエンリッチメン
トの関係
類似の蛋白質が多数あれば、数に比例し
てエンリッチメントは向上する。
page15
MTSの結果とMSM-MTSの結果
MTSの結果
MSM-MTSの結果
COX-2 inhibitorの探索: ▲:5cox (apo),○:4cox (holo),□:6cox(holo)
MSM-MTSの結果は、ヒット率が高いだけでなく、標的蛋白質の種類の
違い・構造の違いに対してロバストな結果を与えるので使いやすい。
page16
8
スコアの補正:スコアの順位の代わりに、MASCスコア(スコアの偏差値)を導入する。
同一化合物(i)を複数の蛋
S’:補正後のスコア:偏差値に相当する(Z score)
白質にドッキングさせ、
S 'ij  (S ij   i ) /  i
化合物iが、蛋白質jに結合
するときのスコアが、標準値
からどれだけずれているか
1つの化合物に着目し
偏差値S’ijを求める。
たとき、標的蛋白質に
対して飛びぬけたスコ
アを示す化合物が、ヒ
ット化合物である。
μ
S’
スコア
σ
Vigers, GPA, and Rizzi, JP, Multiple active site
corrections for docking and virtual screening, J.
Med. Chem. 2004, 47, 80-89
page17
MTS法(緑)とMASCスコア(青)の比較
蛋白質ー化合物相互作用行列
100
MTS法
Number of hits(%)
80
MASCスコア法
60
40
和集合
20
Method
Database
enrichmen
t at 5%
compound
Database
enrichmen
t at 10%
compound
MTS
25.80%
34.80%
MASC
34.10%
50.80%
Raw
16.20%
26.80%
MTS+MASC
56.34%
65.49%
0
0
20
40
60
80
100
Number of compounds(%)
標的によって、MTS法が優れている
場合も、MASCスコアが優れている場
合もある。
実際には、MTS+MASCの和集合を
とってスクリーニングに用いている。
page18
9
リガンド複合体の構造予測
リード最適化の段階では、なんらかの蛋白質ー化合物複合体の3D構
造が決定されていることがしばしばある。
ドッキングソフトでの複合体モデリングは不正確だが、実験値を利用す
れば、分子のモデリングをしながら、複合体の予測がある程度可能にな
る。
page19
sievgene:複合体の構造が分かっているときの再現性
V4.0
平均ドッキング時間:2秒
平均ヒット率:27倍
RMSD < 2Å:56%
RMSD <3Å: 66%
V4.1
平均ドッキング時間:1.3秒
平均ヒット率:30倍
RMSD < 2Å:60%
RMSD <3Å: 69%
高速モード
平均ドッキング時間:0.3秒
平均ヒット率:20倍
RMSD < 2Å:55%
RMSD <3Å: 65%
1mrk:rmsd=0.77Å
この範囲が正解
RMSD<1A
1A<RMSD<2A
2A<RMSD<3A
RMSD>3A
世界の一般的な商
用ソフトと同レベル
の精度:速度は10-
100倍高速
1kjp:rmsd=2.93Å
1lic:rmsd=1.60Å
page20
10
Sievgene/myPresto:現実のドッキングソフトの精度
スコアが1番良い構造を選ぶ
1mrk:rmsd=0.77Å
In cross docking
test,
~25 % of
predicted
complexes show
RMSD < 2.0Å
Original dokcing score
RMSD<1A
RMSD<2A
RMSD<3A
RMSD>3A
実際の構造の予測精度は25%
1lic:rmsd=1.60Å
1kjp:rmsd=2.93Å
page21
複合体モデリングの精密化:ドッキング結果の選択
Maximum Volume Overlap法
予測
構造1
蛋白質A+リガンドB
もっともらしい構造
Cross docking
蛋白質A’+リガンドC
レファレンス座標
予測
構造2
より現実的なCross dockingテスト
Self docking
docking
予測
構造3
蛋白質AにおいてリガンドBが結
合していた位置にリガンドCが結
合している状態がもっともらしい
page22
11
結晶構造データを利用したドッキング結果の精密化
Original dokcing score
RMSD<2A; 25%
RMSD<1A
RMSD<2A
RMSD<3A
RMSD>3A
1結晶構造との重なりを考慮
ドッキングのスコア
ではなく、別の化合
物の複合体構造と
重なりの大きなドッ
キング予測構造を
採用すると、正しい
複合体構造を得や
すい。
予測
構造1
もっともらしい構造
予測
構造2
2結晶構造との重なりを考慮
RMSD<2A; 60%
RMSD<2A; 71%
RMSD<1A
RMSD<2A
RMSD<3A
RMSD>3A
RMSD<1A
RMSD<2A
RMSD<3A
RMSD>3A
page23
標的タンパク質3D構造
化合物をドッキング
タンパク質のi番目の残基と化合物が接触しているか(1)、
いないか(0)をfingerprintとする。タンパク質がN残基含ん
でいれば、N次元ベクトルとなる。=SIFt
page24
12
SIFT=タンパク質ー化合物複合体の
立体構造(ポーズ)を、1次元の数列
に直す方法。
CH3
H
アミノ酸配列に対し、化合物と接触
するものは「1」、接触しないものは
「0」とすると、ポーズは、数列(ベクト
ル)となる。
1次元の数字の列は扱いが簡単。
N
S
O
HO
1 0
0 1
0
0
0
0
SIFt
0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0
page25
SIFtの例:SIFtで化合物をクラスタリングし分類することができる。
page26
13
タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類
似性も議論できる。
ベクトルデータの距離と類似度
谷本インデックス
合計
化合物A
0
1
1
0
1
化合物B
A∪B
A∩B
0
0
0
1
1
1
1
1
1
0
0
0
1
1
1
化合物A
0
1
1
0
1
化合物B
A∪B
A∩B
1
1
0
0
1
0
0
1
0
0
0
0
0
1
0
化合物A
0
1
1
0
1
化合物B
A∪B
0
0
1
1
0
1
1
1
1
1
4
A∩B
0
1
0
0
1
2
3
3 類似度=1
合計
ベクトルの
ユークリッド距離
D(A,B)=√Σ(Ai-Bi)^2
4
0 類似度=0
合計
マハラノビス距離、
マンハッタン距離など
定義は多数ある。
類似度のインデックスも多数。
類似度=
0.5
既知化合物を用いたヒット化合物探索ができる
既知活性化合物をドッキングし、SIFtを作成
データベースの化合物のSIFtを作成
既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックス
などで評価し、類似化合物を検索する。
ヒット率
SIFtでのTc
ヒット化合物
ドッキングスクリーニングより高いpage28
14
CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定:広川貴次
活性化合物1
活性化合物2
活性化合物3
スコア1位
ドッキング
ポーズ
スコア2位
ドッキング
ポーズ
スコア3位
ドッキング
ポーズ
page29
CoLBA法:広川貴次(molprof/AIST)
①相互作用類似尺度:異なる2分子のポーズa,bが似ているとかどういうことか?
標的蛋白質のi番目の残基との
HB:水素結合数
HC:疎水性接触数
をP(i)とし、ヒストグラムPの間の類似性Sを定義
最終的に重みwをつけて、
ポーズa,b間の類似度とする。
page30
15
CoLBA法
③a, bポーズペアを分布図にする
②エネルギー順位スコア スコア悪い
ポーズaのスコアは、化合物Aの
ポーズのベストスコアからの差
スコアに置き換える。
ESab
リガンドA,Bのポーズa,b間
のエネルギー順位スコアを、
それぞれの差分スコアの平
均とおく。
スコア上位
Sab
ポーズにてない
正しいポーズが見つかれば、
ファーマコフォアサーチの要領で
効率良くヒット化合物を探索でき
る。
ファーマコグラム法
ポーズ似ている
スコアもよく、ポーズにも共通性が見られる
化合物A,Bの共通ポーズ
page31
ドッキングスコア上位化合物から薬理作用団位置推定
スコア1位化合物
スコア2位化合物
スコア3位化合物
スコア1位
ドッキング
ポーズ
スコア2位
ドッキング
ポーズ
スコア3位
ドッキング
ポーズ
page32
16
ファーマコグラム法:藤田・折田(アステラス製薬)
ドッキング結果から、ファーマコフォア
を満たすものを選択する。
多数のドッキング結果で、
ベンゼン環など特徴的なフラグメント
の分布を、空間をメッシュに切って
記録する。
局在傾向の見られるフラグメントの
種類と位置を同定する。
=> ファーマコフォアを作る。
page33
予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法
ドッキングスコア ∝ log(正しい座標とのRMSD)
ドッキングスコア ∝しない log(不正な座標とのRMSD)
同じ分子の多数のドッキングポーズとスコアを比較することで、
もっともらしい構造を選抜できる!
page34
17
エネルギー
複数のポーズのうち、もっともらしいものをどう選ぶか
着目したポーズからの距離(RMSD)
エネルギー
着目するポーズ
●のポーズは、最安定でない
●のポーズは、最安定
着目したポーズからの距離(RMSD)
page35
予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法
ドッキングスコア ∝ log(正しい座標とのRMSD)
ドッキングスコア ∝しない log(不正な座標とのRMSD)
赤:正しい⇔青:不正
PSRi
化合物jのドッキングポーズが多数あるとする。特定のポーズiに対し、その他のポー
ズのRMSDを計算し、ドッキングスコア:log(RMSD)の相関係数(Ri)を計算する。
PSRi = max{Ri} - Ri
ポーズiを参照座標に選んだときの相関係数が大:PSRi ~0(ポーズiはもっともらしい)
ポーズiを参照座標に選んだときの相関係数が小:PSRi は大
page36
18
Feature selection-based consensus scoring (FSCS) :寺本&福西(NEC)
活性化合物が存在し、1つでも良い
ので、蛋白質―化合物複合体の結
晶構造が解けているとする。
この活性化合物の自由エネルギー
面(PMF)は、横軸を正解複合体構
造からのずれ(RMSD)にとるとファ
ネル型をしていると仮定する。
通常、ドッキングスコアの精度はさ
ほど良くないので、きれいなファネ
ル型のPMFは得られない。そこで、
複数(5-6種類)のスコア関数を
用い、
FSCS = Σ w(i)*score(i)
というコンセンサスをとって、新しい
スコア関数を導入する。
FSCS = Σ w(i)*score(i)
このとき、係数wは、RMSDに対するFSCSによるPMFが、ファネル型になるように決定する。これは、
線形回帰式でもよいし、サポートベクターマシンで決めても良い。
実際にやってみると、FSCSによってきれいなファネル型になる場合が結構、ある。
ならない場合もある。
FSCSも、ドッキングポーズのアンサンブルの発生のさ
せ方に結果が強く依存する
スコア
RMSD
この新しいスコアでスクリーニングすると、
ヒット率が向上した。
19
Consensus docking-pose selection (CDPS) method
ファーマコグラム法と同様に、スクリーニング上位化合物の原子(結合)の分布をレファレンスとし、化合
物の原子(結合)分布の一致度をスコアとする。
さらに、化合物の複数のポーズを用い、ポーズが空間的に局在しているかどうかをスコアに反映する。
全スコア Score( A)   * min{D( Ax )}  (1   ) * L( A)
Na Nres
Nb Nres
a 1 i 1
b 1 i 1
Npose
D( Ax )     ( M ia atom ( Ax )  Mref i a atom ) 2    (1   )(M ib bond ( Ax )  Mref i b bond ) 2
L( A) 
原子、結合の分布の一致度
適用結果:CDPS(○)、補正前(●)
Number of hits (%)
100
 ( D( A )  D( A) ))
x 1
2
x
Npose
ポーズの空間分布の広がり度合い
(局在するものほど、結合が強い。
ポーズが分散しているものは、結合が弱い)
80
60
40
20
0
0
20
40
60
80
100
Number of compounds (%)
page39
Ligand-based drug screening
化合物の類似性を利用した、既知活性化合物の類似化合物
探索によるスクリーニング
既に、ヒット化合物がある、文献で知られている、
などの場合に、より優れた(活性の強い、副作用の少ない)
ヒット、リード化合物を化合物データベースから見つけてくる方法。
page40
20
化合物の類似性
化合物の類似性を比較するには、化合物の特徴を示す複数の数値(分子記
述子)を与え、そのベクトル間の距離により、類似度を計算するのが代表的な
やり方である。
分子記述子:
質量、原子数、電荷、慣性半径、HOMO-LUMO分子軌道エネルギー、グ
ラフ特性量(細谷インデックス、Wienerインデックス)、など。
O
{ 345.3, 22.78, -12.45, 0.149, 33.3, 1, 4, 0,….}
HO
O
O
TGS法(myPresto):検索速度:1300万分子/時間
page41
化合物の類似性:MACCS Keyなどのやりかた:ある部分構造があるか、ないか
O
O
数原子からなる部分構造を100
-300種類用意する。
これらの構造を含むか・含まない
か、いくつ含むかを数え上げる。
1化合物に、100-300次元のベ
クトルデータが与えられる。
HO
N
O
化合物B
O
O
OH
HO
化合物A
HO
O
O
化合物C
HO
O
S
1: C-C-O-C-O
2: C-C-C-C
3: C-(C=O)-C
4: C-C-O-H
このベクトル
間の距離を、
化合物の類
似性と定義
する。
N
HO
化合物D
1
2
3
4
A
1
1
1
1
B
0
1
0
1
C
0
1
0
1
D
0
1
0
1
page42
21
CATS記述子:分子内で水素結合をする部分などの距離を「特徴」とする方法
分子に含まれる原子・基を5つのfeatureに分類し(donar/ acceptor/ acid/ base/
hydrohobe)、さらに、分子内での各featureの距離を、feature間の結合の数で
10段階に分類する。分子から15とおりのfeatureの組み合わせを選び、各
featureの組み合わせと距離の出現頻度を、この150(=15x10)次元のベク
トルに記録する。
page43
ドッキングによる蛋白質間・化合物間の相同性の導入と分類
構造の異なる分子であっても、同じタンパク質に結合すれば、「類似の化合物」。
異なるタンパク質でも、同じ化合物を結合すれば「類似タンパク質」。
蛋白質ライブラリー
(protein pocket library)
化合物ライブラリー(chemical compound library)
1 2 3 4 5 6 7 8 9 10 11 12
1
2
○ ○
○
○
3
○
4○
○
5
○
6
○ ○
○
○
○ ○ ○
7
8
○
○
○
9
○
10
11
○
○
12
○
低選択性化合物
類似化合物
Similar compounds
類似ポケット
Similar pockets
低選択性ポケット
Low selectivity
化合物探索や高選択性の
分子標的薬を見つけるため
の、定量的な基礎を作る。
page44
22
距離、相同性、選択性の定義
受容体ポケットの集合:P={p1, p2, p3, … pM}
化合物の集合:X={x1, x2, … xN}
受容体ポケットiと化合物集合の各元とのドッキングスコア:vi = (s1i, s2i, s3i, ……sNi)
(添え字を交換することで、化合物の距離、相同性、選択性の定義にも使える)
化合物がN個あるとき、タンパク質にN個のスコアを対応させ、
2つのタンパク質間の距離をN次元空間の2点間の距離で定義する。
2つのタンパク質間の相同性は、N次元空間でのベクトルの内積で表現する。
受容体ポケットi-j間の距離の定義
D ij  (v i  v j ) 2 
M
 (s
k 1
タンパク質2
 s kj ) 2
距離
M
D ij   s ki  s kj
スコア2
又は
i
k
k 1
相同性
ユークリッド距離、一般化ユークリッド距
離、マンハッタン距離、マハラノビス距離
などが使えるが、結果に大差なし。
タンパク質1
スコア1
page45
化合物ドッキングによる受容体ポケットのクラスター解析
Cluster
1
Proteins
Cluster 1 1abe1 1abe2 5app1
2
3
4
Cluster 2
Cluster 3
5
Cluster 4
6
7
Cluster 5
Cluster 6
Cluster 7
1abf2
1tni
1hfc
1xid
2ack
1b9v
1ejn
1aqw
1cps
1tlp
1pso
1byg
1ida
2ctc
1pph
1srj
1rnt
2fox
1rds
5cpp
1coy
1aoe
1epb
1hpv
1com
1b58
1qpq
2gbp
1tng
1atl
1hyt
3erd
1a4q
2tmn
1glp
1cbx
1lna
1ets
1byb
1epo
1lst
1tnl
1f0r
1f3d
1a28
2qwk
1snc
3tpl
1pbd
1tmn
1gbr
1hos
1apt
1mts
1rob
1fki
1mup
1cdg
1phd
1cvu
1ckp
1cbs
4phv
1c1e
7tim
2cmd
1ppc
1mmq
4est
6rnt
1fkg
2cpp
3ert
1poc
2ifb
2cnt
1okl
1c83
1mld
Feature
Content in
cluster*
5app2
1lah
1tnh
1nqp
1xie
2ada
1a4g
1ivb
1fl3
1hsl
5er1
1htf1
1hdc
1eed
1abf1
1ebg
1f0s
1mrg
1ai5
1dog
1a42
1hsb
1mdr
Sugar-binding
70%(7)
Content in
database**
5.3%(7)
Serine protease
20%(4)
8.3%(11)
Neuraminidase
Hydrolase
26.3%(5)
26.3%(5)
3.8%(5)
12.8%(17)
1rne
1htf2
1dd7
1apu
HIV protease
Acid protease
19%(4)
28.6%(6)
4.5%(6)
4.5%(6)
3cla
1jap
1pma
1tyl
1nis
1png
4lbd
1lic
1fen
1d3h
1c5c
3cpa
1d0l
2aad
2pk4
1nco
1aco
1dr1
1dg5
1dhf
1qbu
Endonuclease
Serine protease
16.0%(4)
24.0%(6)
3.0%(4)
8.3%(11)
Oxidoreductase
45.8%(11)
12.1%(16)
1yee
1lcp
Catalytic antibody
Oxidoreductase
23.1%(3)
23.1%(3)
2.2%(3)
12.1%(16)
page46
23
Docking score index method
-in silico screening method based on known active
compounds-
ドッキング計算を利用したLigand-based drug screening
化合物の類似性を利用した、既知活性化合物の類似化
合物探索によるスクリーニング
page47
ドッキングによる化合物間の相同性の導入
構造の異なる分子であっても、同じタンパク質に結合すれば、「類似の化合物」。
ベクトルデータを、主成分分析すると、データを可視化できるし、
誤差を低減することで精度も上がる。
(protein pocket library)
(chemical compound library)
1 2 3 4 5 6 7 8 9
1
2
○ ○
○
○
3
○
4○
○
5
○
6
○ ○
○
○
7
8
○
○
○
9
○
10
11
○
○
12
○
10
○
○
○
11
○
○
○
12
○
○
○
○ ○ ○
score
=standard value+
C1*(deviation 1)
+c2*(deviation 2)
+c3*(deviation 3)
+c4*………
○ ○ ○
既知ヒット化合物
予想されるヒット化合物
page48
24
Multiple target screening法
Docking score index法
(1)化合物の標的蛋白質へのふるいわけ
性別
犯人:
身長
男
化合物ライブラリー
血液型
170 A型
COOH
O
分子
骨格
ドッキングソフト
O
ベンゼン
環
標的
蛋白質1
蛋白質2
蛋白質3
(2)ふるいわけられた化合物をスコア順
に並べなおす。
Score=3.2
メチル
基
1
カルボン
酸
1
ニトロ
基
1
0
DSI
蛋白質1
Score=5.5
CH3
Score=2.1
-3.1
蛋白質2
-1.4
蛋白質3
-0.4
蛋白質4
-2.1
ヒット化合物
page49
DSI法でのスクリーニング
化合物空間を用いたMIFの活性化合物の表現
実験的にMIFのHIT化合物とNON-HIT化合
物を取得。共同研究:田辺製薬
化合物の空間における、HIT化合物と
NON-HIT化合物の分布をPCAで図示し、
比較する。
MIFの構造
MIFの活性化合物
page50
25
相互作用行列の主成分解析
MIFの活性化合物・不活性化合物の主成分解析。
化合物の空間
MIFの構造を用いずに、他の25種類
のタンパク質とのタンパク質ー低分子
ドッキングの解析を行なった。
第1-2軸の空間
PCAにより化合物空間を張ると。
活性化合物と不活性化合物の存在
する空間は局在化している。
標的タンパク質の構造が未知でも、
HIT探索が可能。
HIT化合物探索や、Focusedライブラ
リーの設計に応用可能
●:活性化合物
●:既知活性化合物
●:不活性化合物
第3-4軸の空間
page51
生のデータ
2.5
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
-0.5
-1
-1.5
-2
-2.5
26
x1
スムージング
x1
x2
x3
x2
X1’
X1’
X2’
X1’’
隣り合うデータの平均をとっていく
2.5
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
10
15
20
25
30
35
-0.5
-1
-1.5
-2
-2.5
スムージングは繰り返し行える
2.5
2
1.5
1
0.5
0
0
5
-0.5
-1
-1.5
-2
-2.5
27
スムージングした結果と、元の信号の比較
2.5
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
-0.5
-1
-1.5
-2
-2.5
2次元、3次元のデータでも適用可能。
たとえば、マルチカノニカルMDのエネルギー分布など各種ヒストグラム、
ドッキング計算でのグリッドポテンシャルなど、実験データ以外の各種データに使うこと
ができる。
ドッキング計算でのグリッドポテンシャルの平滑化は、induced-fitの考慮になる。
x1
スムージング
x1
x2
x3
x2
X1’
X1’
X2’
X1’’
スムージングは、フーリエ変換フィルターの1種
(フィルターに多項式を用いた畳み込み積分を使った場合に相当する)
フーリエ変換フィルター
元のデータ
フーリエ変換
パワースペクトル
フィルター
(高周波成分を低減する)
ノイズを低減したデータ
逆フーリエ変換
28
元データ
2次元フーリエ変換
ノイズに当たる
高周波数成分
を除去
指紋
逆フーリエ変換
主成分分析:PCA
主成分分析法は、
多数のデータを分類する教師なし学習法であって、
データの共分散行列を対角化することで、基底ベクトル系を得る。
各データを基底ベクトルの空間に射影することで、データが主成分
空間の点としてあらわされる方法である。
基底ベクトルによって表現される情報は直交している。
また、対角化の過程において、軸の方向(符号)は意味を持たない。
共分散行列の対角化において、各基底ベクトルの固有値は、その
固有ベクトルが表現できるデータ量を表している。
したがって多次元データを主成分分析した場合、固有値の大きい
基底ベクトルを少数選ぶことで、多次元データを低次元データに圧
縮することができる。
結果は、フーリエ変換に似ている。
58
29
主成分分析は日常的に、自然の感覚として行って
いる。
蛯原友里
朝青龍
押切もえ
徳澤直子
ジャイアント馬場
本上まなみ
仲間由紀恵
ガッツ石松
顔の「輪郭」を分類してみよう。画像データは膨大な数値データのかたまりだが、果
59
たして処理できるのか・・・・・
なんだか、こ
んな感じだ。
60
30
正解・間違いといった教師信号な
しに、本能的に分類できる。→教
師なし学習法。
三角形
空間の真ん中に平均像を置き、
おおまかな特徴に応じて、データを配置する。
横長
横長ー縦長という情報と、
△ー▽という情報は、
互いを表現できない、「直交」した情報。
独立した(直交した)情報で分類する。
これがPCAである。
平均
縦長
逆三角形
61
顔の輪郭を
主成分分析するのは、
フーリエ解析するのと
ほぼ同じ結果になる。
主成分分析とフーリエ解析
の定義は全く異なる。
しかし
主成分分析(PCA)での
第一主成分、
第二主成分、
第三主成分、
・・・・
は、フーリエ解析での、
sin(x)
sin(2x)
sin(3x)
などのフーリエ成分とだい
たい
同じになる。
31
MIFの活性化合物・不活性化合物の主成分解析(DSI method)。
既知HIT化合物を中心に、化合物を選択
すると、RS法と同等性能のdatabase
enrichmentが得られる。
→ 有用なFocused Libraryが作れる
DSI法:全蛋白質(MIF含む)
MASC法:全蛋白質(全蛋白質)
DSI法:25蛋白質:MIFなし
MASC法:26蛋白質
DSI法では、標的蛋白質を用いても、
用いなくても同等の結果が得られる
page63
GPCRの活性化合物・不活性化合物への応用。
GPCRでの検証:アステラス製薬
100
6
90
2
80
0
PCA 2
-10
-5
-2
0
5
-4
-6
-8
-10
-12
-14
-16
PCA 1
10
Number of hits(%)
4
70
60
10m_4axis
30m_4axis
30m_6axis
50
40
30
20
Negative
特許
Active(30m+10m)
10
0
0
20
40
60
80
100
Number of compounds(%)
特許化合物(・)を中心にしてスクリーニング
購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 < 10μM)と
残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパ
クに対してドッキング計算し、PCA解析を行った。
page64
32
主成分分析と情報エントロピーを用いたノイズ低減方法
データを主成分解析:
これはフーリエ変換ににている。
大ざっぱな情報(元データの多くを表現する)から、
詳細情報(ノイズに相当する)までの成分に分解する。
Chemical Physics,177,993, 85-90
Y. Fukunishi, T. Kasai, K. Kuwata
PCAでの寄与の低い成分を中心
にデータを誤差範囲内で修正す
る。
このとき、復元後のデータの情報
エントロピーを、最大化するよう
にする。
主成分からのデータの復元
情報エントロピー
情報エントロピー=Σpi log(pi) = ∫p(x)log(p(x))dx
Piは、事象の起こる確率や頻度。総和が1になるように規格化する
Σpi = ∫p(x) dx = 1
2.5
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
-0.5
-1
-1.5
-2
-2.5
情報エントロピー
ノイズ成分
:-3.385
情報エントロピー:-3.049
情報エントロピー:-2.003
薬物ドッキングスクリーニングのとき、ドッキングスコアに適用しノイズ低減を行うこと
で、ヒット率を高めることができる。
33
元データ
スムージング
ノイズ低減後のデータ
パワースペクトルのフィルターリング
フーリエ変換
逆フーリエ変換
各成分のフィルター
(復元後データのエントロピー最大化)
主成分分析
逆変換
データ整形
主成分回帰 (PCR)
回帰分析
回帰後のデータに与える成分を
分析(フーリエ変換、PCAにほぼ類似)
PLS回帰
フーリエ成分、主成分に類似
Y = a + c1 * x1 + c2 * x2 + c3 * x3 +……
Non-linear PLS、
カーネルPLS, SVMなど
Y = a + c1 * x1 + c2 * x2 + c3 * x3 +…
+ d1*x1*x1 + d2 * x1*x2 + d3*x2*x2 +…..
回帰分析・モデル構築・予測
スコアの修正 : Machine-learning DSI (ML-DSI)法
既知活性化合物が存在する場合、ドッキングスコアを他のドッキングスコアの線形結合
で補正する。
機械学習法により、最適なデータベースエンリッチメントを与えるように、
主成分軸の選択とドッキングスコアの線形結合係数を調整する。
データベースエンリッチメントが最適化されるまで反復する
s
new i
a
 s M
i
b
b
a
b
線形結合係数の調整
protein set A
Number of hits (%)
100
80
1 2 3 4 5 6 7 8 9 10 11 12
1
2
○ ○
○
○
3
○
4○
○
5
○
6
○ ○
○
○
○ ○ ○
7
8
○
○
○
9
○
10
11
○
○
12
○
ドッキングスコアの修正
60
40
DSI
FR-DSI
ML-DSI
20
DSI法でスクリーニング
0
0
20 40 60 80 100
Number of compounds (%)
データベースエンリッチメントの計算
page68
34
DSI/FS-DSI/ML-DSI法の結果
protein set A
Number of hits (%)
Number of hits (%)
80
60
40
DSI
FR-DSI
ML-DSI
20
protein set E
100
100
0
80
60
40
DSI
FR-DSI
ML-DSI
20
0
0
20 40 60 80 100
Number of compounds (%)
0
180蛋白質使用
24蛋白質使用
20
40
60
80 100
Number of compounds (%)
ML-DSI法では上位1%化合物を選択した場合、約70%の活性化合物
が選択される。
page69
標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合
MTS法の結果
DSI法の結果
コンセンサスをとる
ヒット化合物候補
積集合が最も
ヒット率は高い。
分子構造の多様
性では、和集合
が高い。
目的に応じて両
者を使い分ける。
(構造のホッピン
グ、新規骨格を
入手したいか、
活性を伸ばすこ
とに重点を置く
か)
X線結晶構造
MDシミュレーションをした構造
○:MTS,●:DSI,■:和集合(∪)、■:積集合(∩)
page70
35
実証実験:AIST,塩野義製薬(TACE)
MTSでの予測化合物
DSIでの予測化合物
JBIRC
共通集合(3000化合物)
塩野義製薬
うち、ただちに購入できるもの900を購入、活性測定
手法
対象化合物
購入化合物数
Random screening
10万
10万
ヒット数 ヒット率 Enrichment
Glide (Schrodinger)
40万
700
0
0% x0
myPresto
100万
900
35
3.60% x460
7
0.01% x1
100万化合物中にはヒット化合物が~100程度あると予想されるが、MTS/DSIで
は、それらがだいたい予想の範囲に入っていると考えられる。
数十化合物を予測→数化合物がヒット(ヒット率10%)の場合
それ以上のヒット化合物を得るためには、結局ランダムスクリーニングを
しないといけない。
page71
実証実験:AIST,創薬バリューチェーン
MTSでの予測化合物
DSIでの予測化合物
JBIRC
共通集合(3000化合物)
化合物を類似性でクラスタリング、代表化合物を選抜
うち、ただちに購入できるもの108個を購入、活性測定
京都大学
大阪大学
酵素阻害剤
108個の化合物のアッセイ(1次:100μMでの活性)の測定結果
・100%阻害 23個 (21%)
・50%以上阻害 11個 (50%以上阻害は合計で31%以上)
・50%未満阻害 34個
創薬バリューチェーン:坂田恒昭、井上豪、他
関西を中心に、大学・企業の有志で結成した仮想創薬受託研究機関
その他、1次ヒットでヒット率10-50%の実施例が複数例あり。
page72
36
副作用の予測
蛋白質構造を基に、ドッキング計算で標的蛋白質を探すと、余り当たらない。
これは、薬物スクリーニングの精度に比べて、相当悪い。
ドッキングによる標的蛋白質の探索
薬物スクリーニング
Noise Reduction Method for Molecular Interaction Energy: Application to in Silico
Drug Screening and in Silico Target Protein Screening
Yoshifumi Fukunishi,*,† Satoru Kubota,‡ and Haruki Nakamura, J. Chem. Inf. Model. 46, 2071-2084 (2006)
73
DSI法による副作用予測
薬物を代謝するCYP(P450)は、体
内に数十種類ある。2つの薬物が同時
に同じCYPで代謝されると、代謝が遅
れて、薬の濃度が高まるなどの「薬物
間相互作用」が生じる。
No of ligands (%)
100
80
60
標的発見率
40
20
薬物が、どのCYPで代謝されるか
をDSI法で予測できた。
0
0
20
40
60
80
No of compounds (%)
100
P450での代謝は、タンパク質との相互作用
page74
37
副作用の予測: Similarity Ensemble Approach
(SEA)
“似ている2つの蛋白質は、似た化合物を結合しやすい“:化合物類似性で標的を探す
ChEMBLには、150万種類の活性化合物の
1万蛋白質との相互作用が収録されている
Large-scale prediction and testing of drug activity on side-effect targets
Eugen Lounkine, Michael J. Keiser, Steven Whitebread, Dmitri Mikhailov, Jacques Hamon, Jeremy L. Jenkins,
Paul Lavan4, Eckhard Weber4, Allison K. Doak3, Serge Coˆte´4, Brian K. Shoichet3 & Laszlo Urban1
2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1
75
DSIの代わりになる手法:サポートベクターマシン:Support vector machine
化合物にfeature vectorを割
りあて、ニューラルネットワ
ークに相当するベクトルの
内積などの計算で、判別関
数fを計算することで、判定
する。
w1
f(x)
Hit(f(x)>0)か、non-hit(f(x)<0)か?
Output layer
g(x)
wk
wd
K(xk,x)
X= { X1,
X2,
X3,
Xk, ……..
Kernel layer
Xd } Input layer
化合物 → { X1, x2, x3, x4, ….Xd} : feature vector
page76
38
DSIの代わりになる手法:サポートベクターマシン:Support vector machine
単層(パーセプトロン)なら:
チャーシューラーメン=OK
フルーツパフェ=OK
フルーツラーメン=OK
ラーメンパフェ=OK
w1
f(x)
旨いか、不味いか?
非線形応答
チャーシューラーメン=OK
フルーツパフェ=OK
フルーツラーメン=NG
ラーメンパフェ=NG
g(x)
wk
wd
K(xk,x)
X= { X1,
X2,
X3,
Xk, ……..
Kernel layer
Xd } Input layer
化合物 → { ラーメン、チャーシュー、アイス、フルーツ} : feature vector
page77
Support vector machine
DSIの代わりになる手法:サポートベクターマシン:Support
vector machine
active
wt・w
f
inactive
Feature vectorの空間
射影された高次元のfeature vectorの空間
page78
39
Support vector machine
DSIの代わりになる手法:サポートベクターマシン:Support
vector machine
f(x)
Output
g(x)
. ...
f(x)・f(x1)
f(x)・f(xk)
Kernel
Input
f(x)
f(x1)
........
f(xk)
X
X1
........
Xk
Input vector
Support vectors
page79
Support vector machine
DSIの代わりになる手法:サポートベクターマシン:Support
vector machine
f ( x)  sign( g ( x))
m
g ( x)   wk K ( xks , x)  b
k 1
xは入力ベクトル, wkおよびb は識別関数を決定するパラメータ,xks は
SV, mはSVの数である.K はベクトルxks およびx を引数とする関数で,
カーネル関数と呼ばれる.
K ( x1 , x2 )  exp( 
x1  x2
2 2
)
δ はガウシアン型カーネル関数の拡がりを決定するパラメータで,ユーザが
事前に値を定義する.
page80
40
分子の構造から、その一般的な性質を知る手法:ベイズ統計法
たばこを吸うと癌になる確率は?
Feature:タバコを吸う(吸わない)
Active: 癌になる
人口に対する癌患者数
タバコを吸うと癌になる確率
P(active | feature )  P( feature | active)
癌になった人がタバコを吸っていた割合
P(active)
P( feature )
喫煙率
調べやすい統計データから、調べにくい確率を求める手法
page81
分子の構造から、その一般的な性質を知る手法:ベイズ統計法
「ある部分構造をもつ」など
右辺は、データベースから計算可能
P(active | feature )  P( feature | active)
P(active)
P( feature )
複数のfeatureが、1分子に適用できる場合。
(ただし、各featureの寄与は、結果に対し独立に作用するとする)
P(active | feature )  P( feature1 | active) P( feature 2 | active) 
P( feature n | active)
P(active)
P( feature )
page82
41
機械学習法のin silicoスクリーニングへの応用
蛋白質ー化合物
相互作用行列
In silicoスクリーニング
主成分分析
Dockingスコア
計算
DSI法
(kNN)
上位の結果を選択
2D記述子
計算
FlexXの結果
DSI-SVM
100
Number of hits(%)
80
上位化合物の特徴抽出(ベイズ統計法)
Re-ranking
60
P180_org
P180_SVM
40
20
A.E.Klon, et al., J. Med. Chem. (2004)
47:2743-2749.
0
0
20
Sievgene(福西)
40
60
80
Number of compounds(%)
100
page83
大規模スクリーニングの後の化合物順位付け:場面で違う手法の効果
PGDSについて200万化合物をMTS+DSIでスクリーニング、100化合物を購入,20ヒットを得た。
DB enrich by MMPBSA
MTS
DS I
90
80
80
70
70
60
50
40
30
80
No of hits(%)
100
90
No o f h its (% )
No of hits (% )
100
100
60
50
40
30
20
20
10
10
0
20
40
60
No of compounds(%)
80
100
40
20
0
0
0
60
0
20
40
60
No of compounds(%)
80
100
0
20
40
60
80
No of compounds(%)
100
MMPBSA by NEC:佐久間
後で購入化合物のスクリーニング結果を整理してみると、MMPBSAの活性評価
が優れていることが分かる。
DSIは、ヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけで
はない。MTS法は、用いたタンパク質数までしか効果がない(上位1%を選ぶの
には効果的)。MMPBSAは最後に絞った1万化合物の順位付けに強い。
page84
42
実験でヒットがでたら、次のスクリーニング計算の準備をする
Cl
Cl
分子の類似性でヒット化合物をグループ分
けする。
O
O
Cl
O
OH
Me
O
Me
N
HO
HO
数十%は、
擬陽性!
捨てる
O
O
S
O
NH2
HO
O
O
N
Cl
Me
N
Me
N
グループ1:機械学習DSIへかける。
グループ1&2:機械学習MTSへかける
共通集合をとる
グループ2:機械学習DSIへかける
共通集合をとる
page85
Evaluation of chemical compound library
化合物データベースの評価:化合物空間を
描いてみる。
-we can evaluate the diversity of a series of compounds or
combinatorial library by the PCA of affinity matrix蛋白質ー化合物相互作用行列を用いて、主成分解析によって、ヒット化合物探索が可
能なことが示された。
これは、同時に、類似の化合物を分類できることを示している。
したがって、コンビナトリアルに合成される化合物ライブラリーの多様性の評価など、ライ
ブラリーの多様性、指向性の評価に用いることができる。
page86
43
類似の化合物が、空間中で固ま
っている(クラスター)のが分かる。
創薬では、幅広く探索することも
必要なので、まんべんなく、広く分
子の分布した集団を作成したい。
DSI法による化合物空間の例
親水的
疎水的
大きな分子
小さい分子
page87
市販化合物の作る世界
数の多さ
一人ぼっち
の化合物
類似化合
物が多い
市販化合物を、類似度の高いもの同士を線で結んで図にした。
ごく一部(10万化合物程度)から、多数の誘導体が合成されている。
一部の原料となる試薬は、原料そのままで売られている。
→ Small-world network
Small-World Phenomena in Chemical Library Networks: Application to
Fragment-Based Drug Discovery
Naoki Tanaka, Kazuki Ohno, Tatsuya Niimi, Ayako Moritomo, Kenichi Mori, and Masaya Orita
J. Chem. Inf. Model. 2009, 49, 2677–2686
page88
44
コンビナトリアル合成への応用
:N種類原料xM種類原料=N*M種類の分子を作る場合。
化合物A={ a0,
a1, a2,
a3, a4, …….}
化合物B={ b0, b1, b2, b3, b4,…….}
3.0
2.0
Act
Combi_in
Inactive
Combi_act
Sanofi
1.0
PC2
コンビナトリアル合成で生
成する化合物ライブラリ
ーを、事前にDSI法で評
価することができる。
例は、V1b受容体に対す
るコンビナトリアル合成の
例。
0.0
-1.0
-2.0
-3.0
-4 -3 -2 -1 0
1
2
3
4
PC1
page89
化合物を組み合わせて合成展開する場合
(コンビナトリアル合成)
化合物のパーツの組み合わせ方で、
出来上がり化合物群の多様性が変わる。
Small-World Phenomena in Chemical Library Networks: Application to Fragment-Based Drug Discovery
Naoki Tanaka, Kazuki Ohno, Tatsuya Niimi, Ayako Moritomo, Kenichi Mori, and Masaya Orita
J. Chem. Inf. Model. 2009, 49, 2677–2686
page90
45
薬理活性をもつ金属錯体の評価
金属錯体の薬もあるが、その扱いは、計算でも可能
金属錯体は、医薬品として最も古くから
使われてきた。
ラピスラズリ
しかし、現代ではその毒性から、ごく少
page91
数派に過ぎない。
薬理作用をもつ金属錯体の占める化合物空間
O
O
N
N
N
B
N
H3N
N N
Zn
N
Cl
Pt
Cl
H3N
N
S
Cl
STAT3 inhibitor
O
b-lactamase inhibitor
P
N
N
H
O
Br
O
O
F
O
O
Au
O
Pt
N
S
O
N
N
OH
O
O
O
Cathepsin B inhibitor
HO
Kinase inhibitor
N
N
N
N
H
O
N
Cu
Cu
O
N
N
N
N
Chemokine receptor (GPCR)
金属錯体の占める空間は、意外に
antagonist
Drug-likeになっている。
page92
Glycogen synthase kinase 3 inhibitor
N
N
Ru
C
O
46
蛋白質のMD計算によるモデリング:多数の
構造を発生すると適当な構造が含まれる
:ensemble docking
タンパク質は揺らぐ。
タンパク質の立体構造ごとに、異なるスクリーニング結果が得られる。
↓
どのタンパク質構造(スクリーニング結果)を選べば良いのか?
↓
本当のヒットでなくても良い、今までの何かの医薬品をドッキングしてみ
て、「薬っぽい化合物」を結合する構造が、ヒットの出る「良い構造」であ
る。
↓
その結果、MD計算で複数の蛋白質構造を準備することで、完全なホモ
ロジーモデリングでも、ヒット率12%程度(GPCR 2標的両方とも)を出
せた。
page93
多数のスクリーニング結果から、信頼性の高い計算結果を抽出する方法を開発する
ー計算結果の信頼性尺度の開発ー
Structure-based in-silico drug screeningでは、
標的タンパク質構造に結合する物質を探索す
る。しかし、標的蛋白質構造は、計算によって
様々な形がサンプルされるし、現実、構造は
揺らいでいる。
そのため、計算に用いる構造の数だけ、スク
リーニング結果が得られる。
膜蛋白質GPCR
μオピオイド受容体
おおよそ、多数の構造に対し、
・極めて良好なスクリーニング結果が得られる場合は、10%以下、
・まあまあ良好なスクリーニング結果が得られる場合は50%、
・悪いスクリーニング結果が得られる場合が40%、
といったところである。
構造毎の多数の
スクリーニング結果
信頼性の高いスクリーニング結果を得る手法の開発とは別に、
多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要。
データ提供
和田(富士通)、
酒匂(塩野義製薬)
page94
47
作業の流れ
蛋白質の結晶構造
タンパク質の分子動力学シミュレーション:1-3nsec程度
多数の蛋白質構造
それぞれの構造に対して薬物スクリーニング計算
計算結果1
計算結果2
良い結果:1割
計算結果3
計算結果4
まあまあ良い結果:5割
悪い結果:4割
page95
モデリングされた多数の構造に対する、スクリーニングテストでのΜ受容体でのAUC(q値)
qvalue_MTS
moe
prime
1
2
3
4
5
6
7
8
9
10
ini.
79.2
63.3
47.6
62.6
56.5
50.5
64.3
47.7
35.5
63.3
49.3
min.
54.3
48.0
50.1
65.6
64.4
69.2
60.7
47.7
51.6
71.9
62.3
2100 ps
76.6
69.4
61.8
59.1
56.1
60.0
60.1
45.7
65.0
73.4
59.2
2300 ps
66.7
63.2
35.2
57.2
50.2
49.2
82.8
34.9
66.7
48.7
60.3
2500 ps
68.8
71.1
51.9
66.2
64.8
36.2
75.6
54.7
65.8
63.9
59.7
2700 ps
48.8
60.3
44.5
62.7
65.8
47.5
63.0
61.2
60.9
54.1
58.0
2900 ps
74.2
64.8
56.7
62.2
71.9
56.9
53.6
57.2
62.4
37.3
50.7
3100 ps
87.7
65.4
70.9
57.2
60.1
63.7
67.3
53.3
53.0
58.6
46.3
3300 ps
73.7
68.8
57.9
52.6
56.8
59.1
65.2
54.3
41.2
64.6
3500 ps
64.7
40.4
36.8
57.8
58.0
58.2
57.1
53.2
55.7
49.0
60.6
3700 ps
76.9
61.9
48.9
56.1
57.5
37.3
70.0
60.9
66.2
32.5
55.2
3900 ps
75.8
64.3
54.6
45.0
52.2
49.3
69.6
47.3
63.3
44.9
60.4
非常に良い結果
塩野義製薬:酒匂氏提供
60.3
富士通:和田氏提供
page96
48
Universal active probe (UAP)の導入による、スクリーニング
結果の選択
ドッキングスクリーニングは、蛋白質構造が多数あれば、その
数だけ結果を生成できる。
蛋白質構造は、MDシミュレーションでいくらでも生成できる。
問題は、どのスクリーニング結果を選ぶか、である。
標的蛋白質には結合しないはずの、drug-likeな化合物の集
団を作成した(UAP)。
これをスクリーニング計算に混ぜておく。
すると、標的に対する真の化合物がヒットする割合は、UAPが
発見される割合に比例する結果となった。
つまり、標的の活性化合物が未知であっても、UAPを目印に、
もっともらしいスクリーニング結果を選ぶことができる。
97
Protein structure 1
Decoy set
Active
compounds
UAPs
Compound
library
Target protein
structures
Structure-based
Drug screening
Screening result
for each structure
AUC of
Active compounds
AUC of UAPs
Compare
Protein structure 2
AUC of
Active compounds
AUC of UAPs
Compare
98
49
UAPがスクリーニング結果
の上位にくる
100
100
90
90
80
80
70
70
60
Number of hits(%)
Number of hits(%)
真の活性化合物がスクリーニ
ング結果の上位にくる
(a)
50
40
Data with the
highest AUC_UAP
Data with the
lowest AUC_UAP
30
20
60
40
30
10
0
0
20
40
60
80
Highest UAP
enrichment curve
20
10
0
(b)
50
100
Number of compounds (%)
真の活性化合物がスクリーニ
ング結果の下位にくる
Lowest UAP
enrichment curve
0
20
40
60
80
100
Number of compounds (%)
UAPがスクリーニング結果
の下位にくる
99
テストに用いた標的タンパク質:水中のMDシミュレーションで120構造を発生した
COX-2, ACE, AMPC,
factor-Xa
(FXA),thrombin;(1pxx,
2pks, 2pu2, 2r9x, 2w26,
2zgp, 3ens, 4cox, 5cox,
6cox)など
100
50
UAPが発見される
ヒット率(AUC)
min
80
y = 0.5559x + 13.048
R² = 0.4799
70
60
50
40
30
20
10
0
0
10
20
30
botom
40
50
avg
10
20
30
50
top
31.79
33.005
34.90333
36.19133
60
70
avg
76.42884
73.40842
72.46901
69.35661
10
20
30
50
80
90
100
真の活性化合物が発見される
ヒット率(AUC)
101
UAPのヒット率と、真のヒット化合物のヒット率の相関係数(R)。
R=0.5~0.7と、比較的良い結果になった。
各デコイセット・各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)
UAP_minのコンセンサスが優れている。
単純には、3種類のUAPを混ぜた平均でも良い。
UAP
Correlation
coefficient
( R )平均
R for lig0 decoy
R for c001 R for DUD
UAP_GPCR
0.6295
0.6981
0.5295
0.5834
UAP_DUD
0.5151
0.6173
0.3622
0.4477
UAP_PDB
0.4165
0.7468
0.6161
0.6347
UAP_min
0.6927
0.7582
0.6190
0.6386
UAP_avg
0.6608
0.7297
0.5723
0.6072
UAP_max
0.6040
0.6753
0.5001
0.5529
102
51
生理活性ペプチドからの低分子探索のた
めの類似化合物探索
生理活性ペプチドは、発見もしやすく、実験も簡単。
しかし、ペプチドは、一般に
飲めば胃腸で分解され、吸収されない。
注射すれば1分程度で、血液中で分解される。
だから、生理活性ペプチドを見出した場合、同じ作用をする低分子
を探して、置き換えないといけない(ペプチドミメティクス)
myPresto/MD-MVO (molecular dynamics maximum volume overlap)
myPrestoのドッキングソフトsievgeneは、低分子用に開発されており、ペ
プチドのドッキングがうまくいかない。その結果、ペプチドをシードとした
DSI法でのヒット率は、ランダムスクリーニングよりは高いが、通常の低
分子シードの場合より低下せざるをえない。
page103
Molecular dynamics maximum volume overlap (MD-MVO)法
MVO法のポ
テンシャルを
アンブレラポテ
ンシャルに用
いる。
スコアは、分
子の重なりを
とる。
既知活性化合物
化合物データベース
MDによる分子の重ね合
わせと、スコア評価
ヒット候補化合物
分子重ね合わせと配座探索が、
MDで同時に行える。
page104
52
MD-MVO法での計算:分子シミュレーションによって、2つの異なる分子の体積・電荷の重なりの
大きいものを類似化合物とする。
分子内相互作用は普通に計算し、
分子間相互作用は、分子の重なりを
拘束ポテンシャルに用いる。
分子の重なりは、
原子を電荷で分類し、
同種原子の体積重なり
を計算する。
NB
分子A
分子B
分子C
その他(蛋白質、
水)
分子A
系内
MVO
MVO
系間
分子B
MVO
系内
MVO
系間
分子C
MVO
MVO
系内
系間
その他(蛋白
質、水)
系間
系間
系間
系内
S ( A, B)  
j 1
NA
 w(i, j) exp(c(( x
i 1
i
A
 x Bj ) 2  ( y iA  y Bj ) 2  ( z iA  z Bj ) 2 )
1; qiA  q Bj  qthr
w(i, j )  
A
B
0; qi  qi  qthr
page105
COX2
HIV
HIV
ROCS
AUC
AUC
ヒット率
ヒット率
1cx2
85.8
28.6
52.8
23.1
1pxx
98.5
50.0
64.5
30.8
3pgh
85.3
33.3
64.8
30.8
4cox
74.0
33.3
68.5
15.4
1aid
59.8
5.0
29.2
4.5
1bv7
93.3
40.0
75.8
36.4
1hte
70.3
5.0
59.3
13.6
1mes
88.2
35.0
77.0
36.4
Average
81.9
28.8
61.5
23.9
MD-MVO
上位
COX2
MD-MVO法
Number of hit compounds (%)
100
他の手法:ROCS, ChemFinderとの比較。
MD-MVOが優れている。
80
60
40
20
0
0
20
40
60
80
Number of selected compounds (%)
100
MD-MVOの結果
ChemFinder
9%
38.20%
9.80%
22%
51.40%
47.50%
ROCS(OpenEye)の結果 page106
53
sievgeneMVOの概要:ドッキングと同時に化合物類似性も考慮する。
入力分子:DBより
配座の発生
蛋白質への結合と同時に、
既知リガンド座標との重ね合わせ
既知活性化合物との
タンパク質ーリガンド複合体
静電荷のパターンを自分の好みに合わせて変更するなどした
仮想分子でも良い(薬物デザイン→似た化合物を探す)
相互作用の見積もり
最適な複合体モデルの選択
タンパク質との相互作用が最適で、
かつ既知リガンドの座標と近い複合体構造
を選択する
①タンパク質‐化合物間の
疎水性相互作用、vdW力、クーロン力を見積もり
②化合物‐既知リガンド間の
原子の種類ごとの原子座標の重なりを見積もり、
page107 総合スコア = ① + ②
ペプチド性リガンドから非ペプチド性薬物の開発
鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証
研究(塩野義製薬と共同研究)
①既知GPCR構造を元に
した、半自動GPCRモデリ
ング手法によるμオピオ
イド受容体の動的モデリ
ング
②多数のGPCR構造からの効
率的アンサンブルドッキング・
スクリーニング手法で、既知化
合物やDrug-like化合物がヒッ
トしやすい最適モデル構造を
選択
Wada et al., J. Chem. Inf. Model. 51, 2398-2407 (2011)
③生理活性ペプチド(上記
例では緑色: エンドモルフィン)
に置き換わる低分子化合
物(白、赤、青色)の探索:
Scaffold Hopping
Fukunishi & Nakamura, J. Mol.
Graph. Model. 27, 628-636 (2008)
・最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験
→ IC50 = 0.25 μM, 0.43 μM を示す化合物など、多数の有望な候補化合物を取得
・10化合物に対して細胞機能評価実験
→ 4ヶのアゴニスト、2ヶのアンタゴニストを同定
・μオピオイド受容体・ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開
→ IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性:IC50 = 0.087 μM)
54
結果
モデル
X線構造 (4dkl)
計算モデル構造と、
X線構造解析の比較
薬物結合ポケット周
辺での原子のずれ
は、約2.5Å。
薬物結合に重要な
アミノ酸残基の位置
は、再現されていた。
モデル
(1) UAP法を用いた正
確なモデル作成
X線構造 (4dkl)
アミンを
結合Asp
アミンを
結合Asp
(2) MD-MVO法を用
いたペプチドミメ
ティクス探索
Φを保持Phe
Φを保持Phe
(3) 新規活性化合物発見
底のAsp
底のAsp
結果
EM-1との類似度/
活性値(nM)
CH3
N
N
O
O
CH3
H
O
N
N
O
HC
Cl
C
l
O
C H3
N
l
N
H
NH
O
O
S
O
H_20
(0.197/2.0nM)
Loperamide
(0.254/1.5n
M)
0.309/ 0.314/ Tifluadom(0.304)
740M 666nM
N
H
N
H2N
N
F
0.186/
430nM
0.211/
250nM
0.245/
457nM
0.320/ 0.326/
391nM 86nM
NH2
N
H
O
O
HN
HO
EM-1
JOM-6
CH3
N
O
O
N
H
O
CH3
H2N
F
H3 C
O H
NH2
N
H
O
N
O H
DPI-3290(0.266)
l
H
N
O H
O
H
N
O
CH2
HC O3H2
O
CH3
N
H
CH3
O
H3C
Morphine
(0.222/1.0nM)
F
Frakefamide(0.323)
N
OOC H
N
O H
OOC H
Fentanyl(0.228/1.3nM)
OOC H
55
Fragment Screening by Replica Generation (FSRG)
method: In Silico Fragment Screening
“レプリカ分子”を生成して行う
超低分子量化合物の計算機スクリーニング
大きな分子は、多様性があり、化合物空間が広くなりすぎて、探索しきれない。
小さな分子なら、多様性に限りがあり、全てのバリエーションをテストすることも
可能。
ただし、小さい分子(フラグメント)は、活性も弱いので、ヒットを見つけてから、
分子をかなり大きく伸ばす。
Y. Fukunishi, Tadaaki Mashimo, Masaya Orita, Kazuki Ohno, Haruki
Nakamura, In silico fragment screening by replica generation (FSRG)
method for fragment-based drug design, Journal of Chemical Information
and Modeling, 49, 925-933 (2009).
page111
page111
fragment-based drug development(FBDD)とは?
通常の lead generation
“drug like”な化合物を対象.
The MW is < 500 Da. (rule of 5)
化合物が大きい
ヒット率は低いが (0.01%)、ヒットの活性
は強い
Lead optimization
不必要な部分を除き、
必要な側鎖を追加する
Fragment-based drug development
分子フラグメントを対象.
The MW is < 300 Da. (rule of 3)
化合物が小さい
ヒット率は高いが (1%)、ヒットの活性は弱い
ヒットフラグメントに、
側鎖をつけたり、2つのフラグメントを連結する
page112
page112
56
なぜ FBDDがいいのか?
化合物空間の広さ(多様さ)が問題だ
大きい
小さい
分子量
MW<160Da
For FBDD, MW < 300 Da
分子量 < 160Daで実現可能な分子
の種類は 107.
MW<500Da (Rule of 5)
分子量 < 500Daで実現可能な分子の種
類は 1060.
(太陽系の原子の数と同じ)
化合物空間が広すぎて、探索不可能
FBDD:
なんとか、化合物空間全域をだいたい探索できる。
1000万でも、実験するにはまだ多い。
計算機で、絞り込む必要がある。
page113
FBDDの可能性: 断片の組み合わせで無数の分子が生成できる.
市販化合物は、たかだ
か数百万種類
億を越える分子の
バリエーションが
得られる。
市販のフラグメントは 600,000種類.
これらの組み合わせで億単位の化合物を生み出せる
page114
57
標的蛋白質 COX2でのテスト計算
COX2阻害剤と、フラグメント
9 active compounds of COX2 were prepared.
これらの阻害剤を2分割して “active fragments”を用意する.
Br
H2N
O
O
Me
-
O
O2
S
O
N
O2S
N
F
O
F
Cl
O
Me
HN
-
SO2
F
O
O
O-
Cl
O-
N+
HN
Me
O
Me
S
O2
Me
Cl
O
OH
O2S
N
O
O
O
Me
O
O
N
Me
-O
S
HN
Me
-
Me
O
F
page115
O
N
結果:In silico screening by the MTS method: 通常のスコア関数
Fragment set A
Fragment set B
Number of hits (%)
100
Active compound
random
Coe_12
DUD_12
Coe_34
DUD_34
Whole
whole_DUD
80
60
40
20
0
0
20
40
60
80
Number of compounds (%)
100
Docking score = (van der Waals interactio) + (Accessible surface term)
+ (Coulombic interaction) + (Hydrogen bonding interaction)
計算では小さな “active fragment“は見出せない。
大き目の“active compounds”は見出せる.
page116
58
replicas of fragmentの準備
CH3
X
X
R
H
Side chain 1
N
S
Side chain 2
O
N
HO
X
X
H2
C
N
H
Original fragment
Side chain 4
Side chain 3
X
CH3
H
X
N
N
N
S
O
N
H
N
H
Side chain 6
Side chain 5
HO
6種類の側鎖を準備し、これらを元のフラグメントに導入して、
レプリカを6種類作成する。
Replica_1
page117
replicas of fragmentー”レプリカ“分子の準備
Cl
O
HN
-
O
Cl
O
Cl
O
R
-
O
R
Cl
HN
-
HN
O
HN
O
R
O
Cl
Fragment set A
R Cl
Fragment set B
We prepare the replicas for fragment set A and set B.
page118
59
結果:In silico screening results by the MTS method
: 電荷無視 + レプリカフラグメント生成法
100
Fragment set A
Number of hits (%)
80
Fragment set B
random
DUD_12
Coe_12
DUD_34
Coe_34
60
40
20
0
0
20
40
60
Number of compounds (%)
80
100
Docking score = (van der Waals interaction) + (Accessible surface term)
replica fragmentのヒット率は、非常に改善した。
page119
FSRG :人工的にフラグメントを大きくした仮想分子を発生してドッキングスク
リーニングを行う。ヒットが出たら、原料のフラグメントをヒットとする。
FSRG 法の流れ フラグメントライブラリー
(100,000 fragments)
X
レプリカ生成
X
CH3
X
H2
C
X
N
N
X
N
X
N
H
レプリカフラグメントライブラリー
(6 x 100,000 fragments)
標的蛋白質
[ protein pocket library ]
In-silico screening
(MTS 法)
[ Replica fragment library ]
3
4
5
○
○
○
○
○
○
6
7
8
9
10
11
○
○
12
○
○
●
Active fragments
○
○
○
○
N
H
側鎖セット
原子電荷無視
1
2
1
2
○
3
4 ○
5
6
○
7
8
○
9
10
11
12
13
N
H
MTS 法
○
○
○
化学合成
(fragment evolution /
linking, etc)
○
●
●
Lead compounds
page120
60
分子構造をグラフであらわす:myPresto/substructure_search
1
3
0
1
0
S=
2
1–2
2-3
5
2
4
1 -2
2- 3
2-4
1-5
1
1 0 1
0
1
0
SxS=
S=
0
1
0
0
1
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0 2 0
1 0 1
1歩あるいて
たどりつける原子
S: 隣接行列
3
1
0
1
1
0
0
0
0
2歩あるいて
たどりつける原子と、
その経路の数
SxSxS=
3歩あるいて
たどりつける原子と、
その経路の数
原子i と原子jがどれだけ離れているか、特定の分子構造の存在、
分子形状の計算などに用いられる。
電子回路設計などあらゆる回路、経路の問題に適用される。
page121
電子回路のシミュレーションにも用いる
0
1
0
0
1
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
電子が、どの素子を出発し、
何ステップめでどの素子に到達
するかを行列の積で計算できる。
分子構造の中で、結合をたどれる
最長の長さ、は重要な指標の1つ。
行列の積で、簡単に計算できる。
6
3
5
2
4
1
S4=
0
1
0
0
1
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
page122
61
同じ構造を含む分子を探す (部分グラフ同型問題)
page123
分子構造の一致は、行列計算で高速に行える。
1
3
S=
2
3
5
2
1
M=
0
1
0
1
0
1
0
1
0
0
1
0
0
1
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
Ullmanの定理
A(AM)t = S
S: サブグラフの隣接行列
M: 分子の隣接行列
A: サブグラフから分子への対応行列
(横列には1か所のみ1がある)
4
A=
0
0
1
0
0
0
1
0
0
0
0
0
0
1
0
t
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
=
0
1
0
1
0
1
0
1
0
62
H
N
O
H
O
C
N
C
H
H
1
2
2
4
5
1
5
H
二重結合、芳香族結合が
扱えるようにした
4
3
3
探索する分子構造の原子を並べ替えた。
i+1番目の原子は、1~i番目の原子までのいずれかに連結しているようにした。
1番の原子は出現頻度の少ない原子(ハロゲン→S→N→O→C→H)を選ぶ。
2
2
2
1
1
3
2
1
3
5
1
4
4
3
最初に2原子ペアを探索し、入力分子から見つけ出したパターンを記録。
その中から、3原子組を探索、その結果から4原子組を探索するようにした。
63