KP27 Support Vector Machine を用いた薬物活性クラス分類 = ∑

KP27
Support Vector Machine を用いた薬物活性クラス分類
(豊橋技科大)○錦織 克美,藤島 悟志,高橋 由雅*
1. はじめに
現在,医薬や農薬などの開発研究の場では既存
薬物のデータを背景に,化学物質の構造と種々の
性質との関連を積極的に見出し,これらの情報を
活用した合理的な新薬開発が進められている.し
入力空間 x
元の空間 x
かし一方で,例えば大きな期待を背負って登場し
た医薬品に対して重篤な副作用が報告されたり,
高次元特徴空間Φ(x)
図1.SVM による 2 クラス非線形識別の例
農薬においてはそのヒト健康や残留性による環
学習の問題は凸二次計画問題に帰着でき,最適
境影響などが社会的な問題となっている.
本研究では,こうした化学物質のリスクレポー
トに関連し,薬物の化学構造情報のみからその活
性クラスを識別・予測することをねらいとし,近
年,分類学習モデルの一つとして注目を集めてい
る Support Vector Machine[1](以下 SVM)を適用
化問題を解いて得られる識別関数は,最終的に次
式で表すことができる.
l
g ( x) = ∑ α i yi K ( x, x i ) + b
(2)
i =1
(α:ラグランジュ乗数 b:バイアス)
し,実データを用いてその有用性を検証した.
2.2 データセット
2. 方法
薬物活性クラス分類に際し,治験治療薬データ
2.1 Support Vector Machine
SVM は近年様々な応用領域において,優れた性
ベース MDDR[2]よりサブセットとして,4 種の異
能を示している学習アルゴリズムである.
SVM ではクラスラベル yi ∈ {− 1,+1}を有する学
(n=1〜4) 1354 種を使用した.
習サンプル x i ∈ R d を, f (xi ) = sgn(g(xi )) で分類する
提案する Topological Fragment Spectra(TFS)法[3]
ような識別関数 g (x) を学習する.SVM の発展的な
を用いた.TFS とは化学物質の構造式から可能な
特徴の一つとして,カーネルトリックを用いた高
部分構造を列挙し,その数値的な特徴付けに基づ
次元写像による非線形分離性の向上がある.デー
いて化学物質のトポロジカルな構造プロフィー
タ空間で定義され,Mercer の条件を満たすカーネ
ル関数 K (x, x′) を導入することにより,写像空間
ルを多次元数値ベクトルとして表現しようとす
での複雑な計算を避けて元の空間で直接解くこ
分構造を列挙し,特徴付けには各部分構造の質量
とができる(図 1).そのカーネル関数の一つとし
数を用いた.結果として Dopamine Antagonists の
て,次式で定義される Gaussian Kernel があり,本
構造特徴はそれぞれ 164 次元のベクトルとして記
研究ではこれを用いている.
述された.
 x − x′
K (x, x′) = exp −

σ2

2




なる受容体に作用する Dopamine (Dn) Antagonist
その化合物の構造特徴の記述子には筆者らの
るものである.ここでは,結合サイズ 5 までの部
実 験 に 際 し て は , SMO ( Sequential Minimal
(1)
Optimization)アルゴリズムを基にした SVM 学習
ツールを筆者らが作成し,用いた.データセット
Dopamine Antagonists 1354 化合物は,作用受容体
*[email protected]
(D1〜D4)を活性クラスとしてラベル付けし,
訓練集合,10%を予測集合とする 10-fold cross
訓練集合に 1218 化合物(90%),予測集合に 136
validation 法を用いて実験を行った.表 3 に示すよ
化合物(10%)と分割した.
うに,SVM は ANN に比べて全ての活性クラスで
より良好な予測結果を与えた.これにより,薬物
3. 結果
活性クラス分類における TFS を特徴記述ベクト
3.1 SVM による薬物活性クラス分類結果
ルとした SVM は,ANN による結果に比べ,より
TFS を入力シグナルとした活性クラス分類のた
優れた予測安定性を有することが示された.
めに,作用受容体の異なる 1218 種の Dopamine
Antagonists を SVM の学習に用いた.最適なカー
表3. SVM と ANN との比較
ネルパラメータ等のチューニングを施した結果,
SVM
ANN
学習では活性クラス識別をすべて正しく識別す
クラス
%学習
%予測
%学習
%予測
るモデルが作成できた.次に,得られたモデルを
ALL
100
91.1
90.1
83.4
D1
D2
D3
D4
100
100
100
100
88.5
87.0
89.4
95.8
84.7
83.7
91.0
95.2
81.3
73.4
84.5
90.8
活性クラスが未知の予測集合に適用し,予測試験
を試みた.その結果,表 2 に示すように 136 化合
物中 128 化合物(94.1%)の活性クラスを正しく
予測することができた.
*結果は 10-fold cross validation による平均値
表2.Dopamine Antagonists1364 種の分類結果
学習
予測
4. おわりに
本研究では,SVM を薬物活性クラス分類の問題
クラス
データ数
%学習
データ数
%予測
ALL
1218
100
128/136
94.1
D1
D2
D3
D4
136
369
213
500
100
100
100
100
10/13
38/41
21/22
59/60
76.9
92.7
95.5
98.3
に適用し,実データを用いてその有効性を検証し
た.SVM によるクラス分類モデルは,その優れた
汎化性能から従来手法である ANN を大きく上回
った.また,TFS による構造特徴記述と併用する
ことによって,化学構造からの活性クラス識別に
おける効果的な手順が確立できることを示唆し
他と比較して D4 Antagonist の予測率は高く,一
方,D1 Antagonist の値は低い.このことは各クラ
ている.
今後は引き続き,活性種の拡大を図るとともに,
スの学習サンプル数の大小に依存したものと考
ノイズ化合物を有する場合の分類性能について
えることができる.これらの結果は,構造記述子
も併せて検討したい.
として TFS を利用した薬物活性クラス分類に対
して,SVM が識別能力の高い分類モデルを提供可
能であることを示している.
3.2 人工ニューラルネットワークとの比較
筆者らは先に,TFS を入力シグナルとした人工
ニューラルネットワークが薬物の活性クラス識
別に対して良好な結果を与えることを示した[4].
そこで,TFS 表現を基礎とした SVM の薬物活性
クラス識別における分類・予測性能を ANN のそ
れと比較検討した.比較に際しては前述の 1354
種の Dopamine Antagonists を対象に,その 90%を
参考文献
[1] V.N. Vapnik : The Nature of Statistical Learning
Theory, Springer, (1995).
[2] MDL Drug Data Report, http://www.mdli.com/
[3] Y. Takahashi, H. Ohoka, and Y. Ishiyama,
Structural Similarity Analysis Based on Topological
Fragment Spectra, In “Advances in Molecular
Similarity”, 2, (Eds. R. Carbo & P. Mezey), JAI Press,
Greenwich, CT, (1998) 93-104.
[4] Y. Takahashi, S. Fujishima and K. Yokoe:
Chemical Data Mining Based on Structural Similarity,
International Workshop on Active Mining, The 2002
IEEE International Conference on Data Mining,
Maebashi (2002) 132-135.