KP27 Support Vector Machine を用いた薬物活性クラス分類 (豊橋技科大)○錦織 克美,藤島 悟志,高橋 由雅* 1. はじめに 現在,医薬や農薬などの開発研究の場では既存 薬物のデータを背景に,化学物質の構造と種々の 性質との関連を積極的に見出し,これらの情報を 活用した合理的な新薬開発が進められている.し 入力空間 x 元の空間 x かし一方で,例えば大きな期待を背負って登場し た医薬品に対して重篤な副作用が報告されたり, 高次元特徴空間Φ(x) 図1.SVM による 2 クラス非線形識別の例 農薬においてはそのヒト健康や残留性による環 学習の問題は凸二次計画問題に帰着でき,最適 境影響などが社会的な問題となっている. 本研究では,こうした化学物質のリスクレポー トに関連し,薬物の化学構造情報のみからその活 性クラスを識別・予測することをねらいとし,近 年,分類学習モデルの一つとして注目を集めてい る Support Vector Machine[1](以下 SVM)を適用 化問題を解いて得られる識別関数は,最終的に次 式で表すことができる. l g ( x) = ∑ α i yi K ( x, x i ) + b (2) i =1 (α:ラグランジュ乗数 b:バイアス) し,実データを用いてその有用性を検証した. 2.2 データセット 2. 方法 薬物活性クラス分類に際し,治験治療薬データ 2.1 Support Vector Machine SVM は近年様々な応用領域において,優れた性 ベース MDDR[2]よりサブセットとして,4 種の異 能を示している学習アルゴリズムである. SVM ではクラスラベル yi ∈ {− 1,+1}を有する学 (n=1〜4) 1354 種を使用した. 習サンプル x i ∈ R d を, f (xi ) = sgn(g(xi )) で分類する 提案する Topological Fragment Spectra(TFS)法[3] ような識別関数 g (x) を学習する.SVM の発展的な を用いた.TFS とは化学物質の構造式から可能な 特徴の一つとして,カーネルトリックを用いた高 部分構造を列挙し,その数値的な特徴付けに基づ 次元写像による非線形分離性の向上がある.デー いて化学物質のトポロジカルな構造プロフィー タ空間で定義され,Mercer の条件を満たすカーネ ル関数 K (x, x′) を導入することにより,写像空間 ルを多次元数値ベクトルとして表現しようとす での複雑な計算を避けて元の空間で直接解くこ 分構造を列挙し,特徴付けには各部分構造の質量 とができる(図 1).そのカーネル関数の一つとし 数を用いた.結果として Dopamine Antagonists の て,次式で定義される Gaussian Kernel があり,本 構造特徴はそれぞれ 164 次元のベクトルとして記 研究ではこれを用いている. 述された. x − x′ K (x, x′) = exp − σ2 2 なる受容体に作用する Dopamine (Dn) Antagonist その化合物の構造特徴の記述子には筆者らの るものである.ここでは,結合サイズ 5 までの部 実 験 に 際 し て は , SMO ( Sequential Minimal (1) Optimization)アルゴリズムを基にした SVM 学習 ツールを筆者らが作成し,用いた.データセット Dopamine Antagonists 1354 化合物は,作用受容体 *[email protected] (D1〜D4)を活性クラスとしてラベル付けし, 訓練集合,10%を予測集合とする 10-fold cross 訓練集合に 1218 化合物(90%),予測集合に 136 validation 法を用いて実験を行った.表 3 に示すよ 化合物(10%)と分割した. うに,SVM は ANN に比べて全ての活性クラスで より良好な予測結果を与えた.これにより,薬物 3. 結果 活性クラス分類における TFS を特徴記述ベクト 3.1 SVM による薬物活性クラス分類結果 ルとした SVM は,ANN による結果に比べ,より TFS を入力シグナルとした活性クラス分類のた 優れた予測安定性を有することが示された. めに,作用受容体の異なる 1218 種の Dopamine Antagonists を SVM の学習に用いた.最適なカー 表3. SVM と ANN との比較 ネルパラメータ等のチューニングを施した結果, SVM ANN 学習では活性クラス識別をすべて正しく識別す クラス %学習 %予測 %学習 %予測 るモデルが作成できた.次に,得られたモデルを ALL 100 91.1 90.1 83.4 D1 D2 D3 D4 100 100 100 100 88.5 87.0 89.4 95.8 84.7 83.7 91.0 95.2 81.3 73.4 84.5 90.8 活性クラスが未知の予測集合に適用し,予測試験 を試みた.その結果,表 2 に示すように 136 化合 物中 128 化合物(94.1%)の活性クラスを正しく 予測することができた. *結果は 10-fold cross validation による平均値 表2.Dopamine Antagonists1364 種の分類結果 学習 予測 4. おわりに 本研究では,SVM を薬物活性クラス分類の問題 クラス データ数 %学習 データ数 %予測 ALL 1218 100 128/136 94.1 D1 D2 D3 D4 136 369 213 500 100 100 100 100 10/13 38/41 21/22 59/60 76.9 92.7 95.5 98.3 に適用し,実データを用いてその有効性を検証し た.SVM によるクラス分類モデルは,その優れた 汎化性能から従来手法である ANN を大きく上回 った.また,TFS による構造特徴記述と併用する ことによって,化学構造からの活性クラス識別に おける効果的な手順が確立できることを示唆し 他と比較して D4 Antagonist の予測率は高く,一 方,D1 Antagonist の値は低い.このことは各クラ ている. 今後は引き続き,活性種の拡大を図るとともに, スの学習サンプル数の大小に依存したものと考 ノイズ化合物を有する場合の分類性能について えることができる.これらの結果は,構造記述子 も併せて検討したい. として TFS を利用した薬物活性クラス分類に対 して,SVM が識別能力の高い分類モデルを提供可 能であることを示している. 3.2 人工ニューラルネットワークとの比較 筆者らは先に,TFS を入力シグナルとした人工 ニューラルネットワークが薬物の活性クラス識 別に対して良好な結果を与えることを示した[4]. そこで,TFS 表現を基礎とした SVM の薬物活性 クラス識別における分類・予測性能を ANN のそ れと比較検討した.比較に際しては前述の 1354 種の Dopamine Antagonists を対象に,その 90%を 参考文献 [1] V.N. Vapnik : The Nature of Statistical Learning Theory, Springer, (1995). [2] MDL Drug Data Report, http://www.mdli.com/ [3] Y. Takahashi, H. Ohoka, and Y. Ishiyama, Structural Similarity Analysis Based on Topological Fragment Spectra, In “Advances in Molecular Similarity”, 2, (Eds. R. Carbo & P. Mezey), JAI Press, Greenwich, CT, (1998) 93-104. [4] Y. Takahashi, S. Fujishima and K. Yokoe: Chemical Data Mining Based on Structural Similarity, International Workshop on Active Mining, The 2002 IEEE International Conference on Data Mining, Maebashi (2002) 132-135.
© Copyright 2024 Paperzz