BIOVIA MATERIALS STUDIO アプリケーションガイド QSAR はじめに 発見を支援する強力な研究ツール BIOVIA社のQSAR (定量的構造活性相関) はモデリングやシミ ュレーションをPC上で実現する先進ソフトウェア;BIOVIA Materials Studio を介して利用することができます1。QSAR は既存のデータセットの中からパターンと相関を見出す手法 です。相関は、構造上の特徴を物質中で観測される性質と結 びつけるモデルを構築するために用いられます。後にこれら のモデルは、例えば高分子や表面、分子結晶や無機結晶、ゼ オライトの一連の物質や分子の性質を予測するのに用いられ ます。 1868年にCrum BrownとFranzerにより、化学組成と生理活 性の間に定量的な相関があることが初めて発表されました2 。1960年代初頭にはCorwin Hansch 教授によって生物学的 な系に応用され、これを理解する上での手がかりになりまし た。この方法は、生物学的な系において生物学的な分子の構 造がどのようにその活性を決定付けているのか更に簡単に説 明するQSAR(定量的構造活性相関)と改めて呼ばれるよう になりました。今や40年以上の間、QSARは生化学的にも 化学的にも発見へのプロセスにおいて重要な手法であり、研 究者が有望な新規標的分子の速やかなスクリーニングを可能 にする予測モデルを構築することを可能にしました。 今日の計算機能力と有効かつ進歩的な統計学的なアルゴリズ ムにより、標準的なPC上で簡単に利用できるQSARソフトウ ェアを用いて、複数の要因に依存した複雑な特性を予測する ことが可能になりました。さらに、この手法をコンピュータ ー上で行うことにより、研究者は化学的な現象をよりよく理 解できる高性能な仮想実験を行うことができます。BIOVIA 社のQSARでは構造解析や特性モデルの構築、およびGFAア ルゴリズムを用いた候補化合物の予測特性の迅速な推定が可 能であり、これは最先端な物質や化学の探索研究における一 つの解決法です3。このような計算機モデリング・シミュレ ーションおよび解析ツールは標的を絞った探索や解決手法に 基づくR&Dにおいて非常に価値ある手法となります。 QSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を 向上させるためには何を変えれば良いのか?という基本的で 重要な二つの問題に対応できます。 Lubrizol社の Douglas Barr博士は、QSARは「基本的な理解を 向上させ、より良い解決法を導き出し」だからこそ課題のパ ラメータを実質的に理解する上で計り知れないほど貴重であ り、「試験の実施可能性やコストが厳しく制限されるような 商業分野で、自信を持って“仮想実験に”着手することができ るようになる。」と明言しています4。 従来は、手間と時間のかかる実験が新規分子の発見の手段で あり、そのために市場に新しい製品を送り出すことが滞りが ちであったでしょう。Continental Tireの Michael Yorkは「実 験は人手と試薬と装置とエネルギーと時間がかかる。計算化 学は一人のオペレータで一日24時間、多様な化学反応を行 うことを可能にした。結果的に実験コストと工数を大幅に引 き下げることができる」と述べています。 計算機ツールを用いることで,研究者は費用のかかる実験を する前に “in silico“ に最適な物理化学特性を持つ化合物を 特定することが可能になりました。これは時間と費用の両方 を節約することになり、実験を始める前に劣った候補化合物 を切り捨てることが出来るようになります。計算機ツールを 整備・利用した場合にもたらされる投資利益率は、科学的研 究プロセスの強化と言った面よりむしろ重要なポイントとな ります。最近の企業の技術投資に関する文献によれば、IT市 場の情報活動の専門機関であるIDCは、モデリングやシミュ レーションソフトウェアを従来の実験研究に組み合わせて活 用する事から得られる投資利益は極めて大きいと結論付けて います。彼らは累積の投資利益率は、これらのツールと専門 家に対する投資1ドルあたり約3ドルから9ドルであると示 しています。Continental Tireはソフトウェアとハードウェア に対する初期投資を,計算機ツールを用いた工業的プロセス の解決により12ヶ月以内に回収することができました5。 このような幅広い支持と利用により、QSARの理論的仕組み は面白い発展局面に入りつつあります。使用可能で有用な記 述子のリストが次々と拡張されており、既に以前より、分子 を単に二次元の記述子で取り扱っていた頃とは比べ物になら ないほどに進歩しています。BIOVIAのQSARツールキットは 今やHOMO/LUMOエネルギーや個々の原子電荷のような量 子的要素を含んでおり、研究者が分子を調査したり理解した りする上での更に強力なツールとなっています。 このアプリケーションガイドは多くのQSAR成功例の一握り を例示するだけですが、この手法があらゆる研究者の研究ツ ール群に強力な一員を加えるもの であることを示します。QSARは今や問題解決、製品の革 新、コスト削減などの面で別格に位置する有用なツールと言 えます。 参考文献 1. Materials Studioに関するより詳細な資料は, www.accelrys.com のMS Modeling及び QSARの項目を参照下さい。 2. Crum Brown, A., and Frazer,T.,Transactions of the Royal Society of Edinburgh, 25, 151-203 (1868-9). 3. Rogers, D. and Hopfinger, A. J., “Application of Genetic Function Approximation to Quantative Structure Activity Relationships and Quantative Structure Property Relationships”, J. Chem. Inf. Comp. Sci., 1994, 34, 854-866 4. Statistical Innovation at the Lubrizol Company - an Interview with Dr Douglas Barr,Technology Manager, Engine Oils, The Lubrizol Corp. 5. Modeling at Continental Tire - an Interview with Michael York 6. Swenson, M., Languell, M., and Golden, J., Modeling and Simulation: the Return on Investment in Materials Science, 2004 (white paper) OHPフィルム用コーティング剤のQSAR研究 カラーレーザー・プリンタや固体インクジェット・プリンタ に用いられる透明フィルムは、米国3M社の主力商品です。 この研究の科学的なねらいは、インクの染みをきれいに捕 捉し、所定の位置にしっかりと定着させ、インク周辺にお ける光線の拡散を最小限に抑えることができるコーティン グを開発することです。3Mには日常的に使用しているコー ティングがかなりの数あり、それぞれに関する実験情報も数 多くあるため、フィルムの散乱および吸収特性に影響を及ぼ す分子の特性の解析にQSAR(定量的構造活性相関法)ツー ルを用いるのは自然な流れでした。データセットの導出に は,BIOVIAのQSARモジュールに実装されたロジャーの遺伝 的アルゴリズム(GFA)が使われました。 Organization 3M社,米国 回数を減らすことになります。 分子の特性分析に最適のツール GFAでは、決定的な記述子が次世代の関係へと受け継がれ、 重要でない分子の特性は淘汰され、次々と進化したデータセ ットを益々正確なものにします。最終結果は、望ましい分子 活性がいくつかの記述子の複雑な関数として表現された数学 的な記述となります。その結果得られた関係を使い、候補と なるコーティング剤を予測的に選別したり、適切な材料の種 類を提示することができます。さらに、分子のどの特性が重 要であるかという知識を、将来的な開発の指針として用いる こともできます。最初の作業は、性能あるいは有効度指数と して働く特性を決定することでした。Qファクター(光の散 乱の尺度)および「線消去長さ」(コーティングとフィルム の接着の尺度)の二つが選ばれました。これらの量は、透明 化技術では非常に重要なもので、実験で測定し、有効度指数 として理想的に選択することができます。 図2. このグラフは、線消去の長さをQSAR表示した場合 の精度を表しています。長さの実験値と予想値には密 接な相関があります。 参考文献 1. Rogers, D. and Hopfinger, A.J.,“Application of Genetic Function Approximation to Quantitative Structure Activity Relationships and Quantitative Structure Property Relationships,” J. Chem. Inf. Comp. Sci., 1994, 34, 854-866. 図1この画像はトナー粒子がフィルムのコーティングと 相互に作用する様子を示したものです。上に示す不活 性コーティングでは、不要な光の散乱原因となっていま す。下に示す活性コーティングでは、インクが吸収され て光の散乱が抑えられるため、 よりくっきりした画像が 得られます。 革新的 コーティング剤の発見と製造 コーティング材料の品質を判断するのに役立つことが証明さ れた記述子には、コーティング分子の表面における電荷分布 および全極性表面積が含まれました。良い相関が見られまし たが、線消去の長さについては使用するプリンタによって実 験値が著しく異なるため、同じプリンタでフィルムを染色し なければ予測値と実験値が一致しないことが分かりました。 3M社のQSAR式は競合製品の分析に用いられており、特に このような比較は時間の問題であるため3M社は市場での競 争に有利になっています。また候補コーティング剤はQSAR 式でその実現可能性を素早く予測して選別され、必要な実験 白檀香のQSARモデリング ウィーン大学の研究者達はノースカロライナ大学と共同 し、BIOVIAのソフトウエアを活用した広範囲の不整α-カン フォレン誘導体の香り特性の研究を実施しました1。 不整は自然界にはしばしば見られるものですが、異なる不 整エナンチオマー分子は非常に異なった物性を示すもので す。例えば白檀香を有するα-カンフォレン誘導体であるは Madrolは、単離されたエナンチオ構造に依存して白檀香や ミルク香を発します。 エナンチオマーの分子構造と白檀香との相関 この研究ではQSAR手法を用いて種々のエナンチオマーの構 造とその白檀香との関係が解析されました。44種のカンフ ォレニックが研究対象に選ばれ、ここからランダムに38種 がトレーニングセットとして、残りの化合物はテストセット として選ばれました。これらの誘導体は12の共通する殻構 造をもち、それぞれの殻に5種の置換基を持つものです。 一番の課題はどの香りの特性を予測に用いるかと言うことで した。と言うのは情報がそれぞれ別個の測定法を用いた、異 なった起源をもつからです。結局2つのスケールを作り出し ましたが、一つは等間隔のスケールで他の一つはより分布が 一様になるような非等間隔スケールです。 QSARモデルはleave-one-out交差検定を伴った多重線形回帰 (MLR)法で求めました。分子記述子が計算され関係のあ るものが相関解析により選択されました。解析により3化合 物が異常種と分かりトレーニングセットからは除外されまし た。 Organization Vienna大学 North Carolina大学 この研究によりQSAR手法が香りの予測のための正確なモデ ル作成に使えることが示されました。また、将来の白檀香誘 導体の最適化に役立つ、香りの発現に対する置換基の役目に 関する情報が得られました。 表1.香り強度の序列化に用いられたスケール。 スケー ル2は弱-強-平均間の差を大きくするために導入さ れました。 参考文献 1. A Kovatcheva, G. Buchbauer, A. Golbraikh, P.Welshman, 'QSAR Modeling of Campholenic Derivatives with Sandalwood Odor', J. Chem. Inf. Comput. Sci. 2003, 43, 259-266 図1. この画像はトナー粒子がフィルムのコーティングと 相互に作用する様子を示したものです。上に示す不活 性コーティングでは、不要な光の散乱原因となっていま す。下に示す活性コーティングでは、インクが吸収され て光の散乱が抑えられるため、 よりくっきりした画像が 得られます。 同じ6種の記述子が2つのモデルとスケールに対して適用さ れました。しかしながら、スケール2・・不均一スケール・ ・のモデルがスケール1を用いたものより良い予測性がある ことが分かりました。これは統計的な解析により分かったこ とですが、モデル1はRo2が0.86、Roʼ2が0.86であるのに 対し、モデル2ではそれぞれ0.95および0.94でした。この 研究は置換基が重要だと言うことも示しました。例えば、親 油性の置換基と官能化メチル基間の相互作用が白檀香を発現 すると言うことです。さらに、5員環上の置換基に関係する 記述子がモデル1にもモデル2にも現れていることです。こ のことはメチル基の数と位置が重要であることを示していま す。 一連の界面活性剤の臨界ミセル濃度の決定 この原子論的なQSAR研究は、分子ダイバーシティ設計の利 点と、確固とした予測のできる方程式を作るための原子論的 記述子の使用について示しています。 Organization National Starch (旧Unilever Research) GFAの活用による異なるタイプの界面活性剤向け 強力QSARモデル ニュージャージー州エッジウォーターのナショナルスターチ 社(旧ユニリーバ・リサーチ)から、界面活性剤に関する研 究が発表されました。この研究で、彼らは臨界ミセル濃度 (CMC)の予測を試みています。彼らは、CMCの適当な基 準として、オクタノール水分配係数を割り出しました。彼ら の研究では、適当な精度でCMCを予測することはできまし たが、2つの欠点があったことが示されています。 第1に、用いた記述子が総合的な分子双極子モーメントと 全分子容であったことです。第2に、会社のデータベース から選ばれた化学物質の試験セットが、予想に使うのに適 当なものではなかったことです。BIOVIAの科学者達は、C2 ・Vizualiserを用いて界面活性剤分子群の分子モデルを構築 しました。次にこれらを最小化し、Qeq法を用いて電荷を決 定しました。さらに、それらをQSARスプレッドシートに入 力し、記述子の拡張範囲を計算しました。記述子には、バ ラバン指数、形状と容積のためのジャース指数、拡張した Kier & Hallセット(5番目のオーダーまでインデックスを付 けた)が含まれていました。 そして、エクセルのファイルからデータを変換して取り込 み、遺伝的アルゴリズムを使った非線状モデルと一次スプラ インモデルを使用して回帰分析を行いました。 GFAは、データセットの中で正確に電荷特性を同定しました が、双極子記述子が低くなってしまいました。これは、デー タがもともと3つの領域からなることを示しています。領域 の範囲は、記述子塩基度に依存したものでした。この記述子 は準経験則を使って計算された量子力学的電荷から導き出さ れます。更なる分析によって、このデータセットにおいて分 子群が3つのクラスに及んでいたこと、この観測された分離 挙動は分子群の化学を反映するものであったことが確認され ました。 これはユニリーバ社、プロクター&ギャンブル社、シェル 社、BASF社、およびヘキスト社などの界面活性剤メーカー によって行われた研究の典型的なものです。 図1.異なるタイプの界面活性剤の挙動を表す一つの モデル 合成ポリマーの多様化および 集中化コンビナトリアルライブラリーの設計 Organization Rohom and Haas, USA コンビナトリアル・スクリーニング用の医薬化合物の合成ラ イブラリを設計するためにコンピュータ技術が広く使われて います。使用される技術は、生物活性を解析して多様化ライ ブラリまたは焦点化ライブラリを作るためのQSAR技術を利 用した分子ダイバーシティ、分子類似性です。 ポリマーの集中化ライブラリ−の設計 ローム・アンド・ハース社のCharles Reynolds氏は、高分子 の一群を解析するために、上記と同じ技法を使用しました1 。 同氏が使用した高分子のセットは、Brocchini氏らの高分子 ライブラリ2,3で、これはコンビナトリアル手法を用いた合成 高分子の小規模ライブラリーの並列合成の最初の実例の1つ です。 Reynolds氏は、仮想ライブラリを列挙するためにBIOVIAの ソフトウェアパッケージを使用しました。同氏は、共重合体 の多様化ライブラリおよび集中化ライブラリを設計するため に、BIOVIAで用いられている方法から誘導された、確率的 クラスタ分析4(およびQSARモジュールのGFAと連携させ た遺伝的アルゴリズム駆動QSPR5,4)を使用しました。 図1.合成ポリマーライブラリーのコンビナトリアル 合成 Reynolds氏は、ライブラリーを設計するために生物活性を 使う代わりに共重合体の物性値を使いました。これらはガラ ス転移温度、Tg、および親水性の尺度である空気・水-接触 角ですが、共に崩壊性バイオ材料用のポリマーの性能予測に 重要な物性です。 112の縮合ポリマー全ライブラリーから17の選択ライブ ラリーを選ぶためにトポロジカル記述子と確率的多様化法を 使いました。この小さな選択ライブラリーが以降のQSARモ デルの作成に使われました。 選択ライブラリーのTg、CAの実験データがQSARのトレ ーニングセットとして使われ、その後QSARモデルが全デー タセット中の残りのポリマーのTgとCAを計算するのに使 われました。 図2,TgのQSAR相関。赤い点は多様化トレーニングセッ ト化合物を示す。 これらのQSARモデルはTgとCAの特定の組み合わせを 持つポリマーの集中化ライブラリーを作成するのに利用で きます。集中化ライブラリーの二つの例は、高Tg/低C A群 (Tg計算値が60-80℃、CA計算値が60-80°)と 低Tg/高CA群 (Tg計算値;0-20℃,CA計算値;80100°)で、これらは図4に示されています。 集中化ライブラリーの成功度合いを評価する一方法として、 合成、評価されたポリマーに対してヒット数を計算する方法 があります。結果は印象的なものでした: • 低Tg-高CA集中化ライブラリーでは、25評価ポリマー( 選択ライブラリーの17種と集中化ライブラリーの8種) 中ヒット数は5。 図3.CAのQSARモデル。. 赤い点は多様化トレー ニングセット化合物を示す。 • 比較として、112候補ポリマーの全ライブラリ-から2 5ポリマーをランダムにテストした場合は、全ラーブラリ ー中、Tg、CAの両条件を満足するポリマーとしてわず か2 ヒットしか期待できない。 Reynols氏は、生物活性な低分子化合物の設計に有用性が証 明されている類似性と多様性の概念が、合成ポリマーの設計 にもうまく利用できることを見いだしました。 図4.TgとCA QSARモデルを使い選ばれた焦点化ライブラリ。赤の 四角および青の点は,実験で得られたTg-CA分布空間における集中 化ライブラリーとして選ばれた化合物を示す。 参考文献 1. Charles H Reynolds, “Designing Diverse and Focused Combinatorial Libraries of Synthetic Polymers”J. Comb. Chem., 1999, I, 297-206 2. Brocchini S., James K., Tangpasuthadol V, Kohn J, “A Combinatorial Approach for Polymer Design”, J. Am. Chem. Soc., 1997, 119, 4553-4554. 3. Brocchini S., James K., Tangpasuthadol V, Kohn J, “Structure-Property Correlations in a combinatorial library of degradable biomaterials”, J. Biomed. Mater. Res., 1998, 42, 66-75. 4. Reynolds, C. H.; Druker, R.; Pfahler, L. B. “Lead Discovery Using Stochastic Cluster Analysis (SCA): A New Method for Clustering Structurally Similar Compounds”J. Chem. Inf. Comput. Sci. 1998, 38, 305-312. 5. Rogers D, Hopfinger A J, “Application of Genetic Functional Approximation to Quantitative Structure- Activity Relationships and Quantitative Structure- Property Relationships”J. Chem. Inf. Comput. Sci., 1994, 34, 854-66. 自動車タイヤの物理特性の解析とQSARモデル 自動車タイヤを構成する予測方程式を計算してタイヤの総合 特性を最適化するために、BIOVIAのQSARソフトウェアが用 いられました。 Organization Monsanto General Tire Corp. 物理特性と複雑な因子間の相関の決定 自動車タイヤを構成する予測方程式を計算してタイヤの総合 特性を最適化するために、BIOVIAのQSARソフトウェアが用 いられました。 自動車のタイヤは通常、架橋ブタジエンゴム、充填剤(二酸 化珪素基剤が増えている)、アクリル高分子化合物、カーボ ン・ブラック、および架橋剤、ゲル化促進剤、およびオゾン 耐性剤などの様々な微量成分が複雑に組み合わさって構成さ れています。タイヤの設計では、様々な環境や負荷(自動 車、軽トラックおよびスポーツ汎用車)に対して、ある一定 範囲の性能を満足することが求められます。 この研究では、遺伝的関数近似(GFA)回帰を実施した後 に、完全な相互検証分析が行われました。2つの方法、すな わち多重直線回帰と直線および非直線モデルに対する遺伝的 関数から得られた結果を、ショア硬度、オゾン劣化および最 大抗張力について比較しました。 GFAの解からは、「オゾン劣化」のデータセットを非常によ く説明できる簡単な4項の関数が見つかりました。GFAの解 は、システムの全特性に対するXVR2の許容値を用いて識別 することができました。 オゾン劣化の様な特性は同時に作用し結果を左右する色々な 要因に依存し、その改良は昔から費用と時間のかかるもので した。コンピューターソフトウエアを利用し、特性値とそれ に複合的に影響する因子群間の関係を決定することで非常 に多くの実験と研究資源が節約できるようになります。GFA で構築されたモデルを使うことにより将来の実験を理論的 に成果が見込まれた方向に目標設定することを可能にしま す。Continental Tire社では同様なソフトウエアを活用するこ とにより年間150万ドルの節減を見込んでいます。 タイヤは使用環境での劣化に耐えることができなければなり ませんが、使用後に廃棄物として問題とならないようにもし なければなりません。 一連の実験は、モンサントのナイロン・グループに勤務して いるAndy Coran氏とStan Lee氏が行いました。この実験は、 アメリカのゼネラル・タイヤと共同で行われました。 実験計画法(単純な全実施要因計画)は、3つの構成要素が それぞれ5水準になるよう開発されています。この実験で は、3水準の可塑剤(ジオクチル・アジペート DOA)、3水 準のアクリレートゴム(ACR)および3水準のニトリルブチ ルゴム(NBR)を設定しました。その後、修正された一部実 施要因計画の実験を実施しました。その結果、14バッチの ポリマー(13個は別個で1つは複製)になりました。その 後このシステムに加硫し、機械的特性を試験しました。試験 したのは、ヤング率、最大抗張力、ならびにオゾン劣化や熱 膨張係数など、いくつかの摩耗特性を含む様々な物理的特性 でした。 元々の分析では、多重直線回帰法を用いてモデルの組成と物 理的特性の関係を判断しました。この分析では新しい組成パ ラメータが追加され、構成要素の相乗効果が示されました。 この事例では、BIOVIAの研究者たちはこれら主要変数の組 み合わせを示す変数を構築し、物理的観測結果と非直線的 な関係があるかどうかを分析しました。これらの観測結果に は、ヤング率や最大抗張力だけでなく、より複雑な時間の関 数であるオゾン劣化率などのマクロ的現象も含まれていまし た。 Lubrizol社におけるエンジン潤滑油のQSAR最適化 コンビナトリアル・スクリーニング用の医薬化合物の合成ラ イブラリを設計するためにコンピュータ技術が広く使われて います。使用される技術は、生物活性を解析して多様化ライ ブラリまたは焦点化ライブラリを作るためのQSAR技術を利 用した分子ダイバーシティ、分子類似性です。 Lubrizol (www.Lubrizol.com) の研究者たちはエンジン潤滑油 の性能の研究と最適化に定量的構造活性相関(QSAR)の手 法を用いました。 この手法により、他のモデリングテクニックでは解決できな かった新規トラクション流体の活性予測を行い、改善された 新しい潤滑油を設計しました。時間と資源の節約のため、公 開されている実験的な試験がQSARモデルの構築に用いられ ました。 トロイダル変速機がエンジンで効率よく稼動するためにはト ラクション流体がシステムを潤滑することが必要です。もっ とも有効なトラクション流体はすべりを防ぎ、変速機から最 大の力を引き出すことができるために高いトラクション係数 が要求されます。トラクション流体は基材油と添加剤の組成 物です。トラクション係数は基材油に固有の特性ですが、酸 化防止剤や分散剤のような添加剤により性能が向上するよう に調整することができます。 Organization Rohom and Haas, USA 既に報告されていた結果から21分子のトラクション係数を 入手しました。Lubrizol社はこれらの結果を利用したので、 この仕事を始める前に測定試験を行なう必要は全く有りませ んでした。これらはモデルとテスト分子セットの構築のため にトレーニングセット中に取り込まれました。テスト分子セ ットは「このモデルはトレーニングセット外の分子について も予測可能であるだろうか?」という問いに答えるようにモ デルの検証に使われます。 図2. テストセットの分子の一例 予測可能な回帰モデルを構築するためにLubrizol社はBIOVIA 社の Generic Function Approximation (GFA) 法を用いまし た。GFA法は最も良い記述子を選別するために自然淘汰の技 術を用いる進化したアルゴリズムです。GFAは多くの選択肢 の中からいくつかの最も重要な記述子を選択出来るので、こ のことは重要なことです。 図1.合トレーニングセットのトラクション係数の実験 地、予測の相関 トラクション流体係数は、金属板とボールの間に流体を置い た小型のトラクション装置を用いて測定され、係数が計算さ れます。これは長い時間がかかる試験であり、新しいトラク ション流体の開発にかかる時間を抑えるのには試験の数を最 小限に抑えることが重要です。 油およびガス 新しい改良潤滑油の設計 量子力学や古典力学のような従来のモデリング手法をこれら の系に用いることは挑戦的な試みでした。Lubrizol社はこの 問題の解決のためにQSARテクニックを採用しました。 QSARは、この場合トラクション流体係数のような既知の実 験データと計算された記述子との間に数学的な相関、すなわ ちモデルを生成します。分子の表面積のような分子記述子や 処方データのような、種々なものが記述子となり得ます。ひ とたび良いモデルが得られれば新しい分子セットの活性予測 に利用することができます。 Lubrizol社は卓越したr2値を持つ数種のモデルを構築する ためにGFAを用い、r2値の交差検定を実施しました。r2値 が0.98の最も良い式では、Jurs3, Shadow indices4や分 子屈折5の記述子が含まれていました。これらの記述子は全 て、化学者たちが直感的にトラクション流体の設計に重要で あると感じていた分子の形や柔軟性に関するものです。 表1.3つのテスト分子でのトラクション係数の予測値と実験値 このモデルはその後テストセットから選んだ3分子のトラク ション係数の予測に用いられました。三分子の予測値と実験 値は上に示す通り、非常によく一致しています。 参考文献 1. M. P. Dare-Edwards; Synth. Lubr., 1991, 8(3), 197 2. Rogers, D. and Hopfinger, A.J., "Application of Genetic Function Approximation to Quantitative Structure Activity Relationships and Quantitative Structure Property Relationships," J. Chem. Inf. Comp. Sci., 1994, 34, 854-866. 3. Stanton D., Jurs P., Anal. Chem. 1990, 62, 2323 4. Roxburgh, Jurs, Anal. Chim. Acta., 1987, 199, 99 5. Leffler,J.E.;Grunwald,E.,Rates and Equilibrium Constants of Organic Reactions, JohnWiley & Sons,NewYork (1963) 油田での腐食防止剤のQSAR解析 トラビスケミカルズ社の科学者たちは、油田侵食阻害剤の活 性予測にマテリアル・サイエンスにおけるQSAR法を応用す るために、BIOVIA社のCerius2ソフトウェアを使用していま す。油田侵食阻害剤の侵食保護能の測定に利用するインピ ーダンスデータを解析するために、QSAR法を採用していま す。 Organization Travis Chemivcals,Canada 新しい腐食防止剤の活性予測 BIOVIAのQSARソフトウェアのGenetic Function Approximation(GFA)アルゴリズムを予備的な阻害剤分子 セットに適用しました(総数25種類)。ついで、得られた モデルを用いて、試験的な分子セットの性能を予測しまし た(総数8種類)。インピーダンス実験により、ふたつのセ ットの実験活性(さまざまな時間間隔での侵食率)を得まし た。 GFAモデルはいずれも、予備的セットについての実験値とき わめて類似した侵食率が得られました(図参照)。これらの 分子の侵食率と、BIOVIA社のソフトウェアで得られたある 種の分子記述子とのあいだには強い相関関係があることがわ かりました。 図1.腐食速度の計算値、実験値に対するGFAモデル. この相関関係から、試験分子セットの性能を予測することが 可能でした。この最初の研究の結果は有望なものであり、ほ とんどの分子について、予測された侵食率は係数2の範囲内 でした。 これらの研究から、新しい腐食防止剤の活性予測にQSARが 適用できる可能性が示されます。この技術は現在トラビスケ ミカルズ社でのこうした化合物のデザインに応用されていま す。 QSAR活用の意義をさらに知るには 実験からより多くの情報を抽出 応用事例 QSARモジュールを用いればMaterials Visualizerにある機能よ り更に進んだ統計手法の実行が可能になります。このモジュ ールによりクラスタリングアルゴリズム、主成分分析のよう なデータ整理の技術や、多重線形回帰、部分的最小二乗法の ような回帰法を使うことが出来るようになります。 上に挙げたQSARや他のソフトウアツールに関する実例、イ ンタビュー、文献はBIOVIAの実例ライブラリのほんの一部 です。 応用事例の全リストの閲覧には、www.accelrys.co.jp/ resource-center/case-studies にアクセスしてください。 MS Modeling Overview CD QSARはBIOVIAのモデリングおよびシミュレーションパッ ケージプログラムに不可欠な部分です。次の項目を含むMS Modeling Overview CD を入手することができます: • 簡単な概要 - MS Modelingで出来ることを簡単に説明し ます。 • BIOVIA Materials Studio Visualizer - 簡単な分子の描画 からReaction Preview tool までのBIOVIA Materials Studio Visualizerの機能性をカバーします。 • アプリケーションモジュールと例 - モジュール情報と、 結晶・高分子と軟質材料・触媒という三つの重要な分野か らの応用例 • Client-server - Materials Studio と サポートされているプ ラットフォームで採用されている柔軟なクライアント-サ ーバーの基本設計概念を説明 BIOVIA Materials Studio Visualizer MS Modelingパッケージソフトの主力製品であるBIOVIA Materials Studio Visualizerは、ポリマービルダーや表面ビル ダーなどの強力な構造作成、描画ツールと可視化や基本的 な統計解析ツールとの連携を実現しており、さらには特に QSAR手法に向けて設計されたスタディテーブルのような広 範囲のドキュメント形式をサポートしています。 強力な構造作成 描画、可視化、統計解析ツールの連携 BIOVIA Materials Studio Visualizer は Windows 環境用に 設計され、他のWindowsツールと統合することが可能 です。Windows仕様のインターフェースは習得が簡単 であり、どんなQSARモデルから得られた結果も他のMS Modelingユーザーと簡単に共有することができます。 QSARを利用して何ができるのか? • 実験から更なる情報を引き出すことが可能になります • 迅速に候補化合物を選別できます • バルクの問題にどの分子特性が影響するかを知る手がかり を与えます • 実行しようとしている評価試験の最適化ができます FAST Descriptors:トポロジカル および熱物理特性の利用 Fast Descriptors moduleはQSARが提供する基本的な記述子 を、さらに位相的(トポロジカル)および熱物理的特性を含 むように拡張します。これらの記述子の適用範囲には、薬物 探索でのコンビナトリアルライブラリーの解析、配合研究で の添加剤のスクリーニングや選択、混和性の評価、高分子の 設計などが含まれます。 GFA:高度な遺伝アルゴリズムと 強力な統計解析の連携 強力な統計解析と組み合わされた最新の遺伝的アルゴリズム を用いることで、QSARのGenetic Function Approxi-mation (GFA) moduleは統計学的に妥当な構造活性モデルのランダム 化された集団を迅速に作成します。 多数の統計的に有意な構造活性モデルを高速に生成 “適者生存”の進化スタイルのアプローチを用いること で、GFAは候補リストから数千の候補QSARモデルを構築 し,それはユーザーが選んだ活性に対してテストが行われま す。これらの中で劣ったモデルは切り捨てられ、一方で有効 あるいは優れているモデルは保存され、次のラウンドのテス トに“親モデル”の次の新しい世代として生き残るよう利用さ れます。これが、アルゴリズムが収束するまで反復して繰り 返されます。 この方法からは二つの主要な結果が得られます。先ず第一 は、質の高い有効なQSARモデル集団です。これは元 のテストデータからは明らかではないような統計モデルやS AR相関を含むことがあります。さらには,得られたモデル は元のデータの多面な解釈に基づき構成されますので、それ まで気づかなかったような、元々の検討課題への深い洞察を もたらします。 MS Modeling の主力製品、BIOVIA Materials Studio Visualizerの画面。MS Modeling はバルクの非晶ポリマ ーから有機、無機結晶にわたる広範囲の材料の表示が できます。 新しいモデルを生成する為のGFAで用いられる組み 替えモデルのダイアグラム VAMP:多重極モーメントなどの正確な 電子物性計算に理想的 VAMPは半経験的量子力学計算プログラムであり、有機や無 機分子の系に分子軌道法を用いることを可能にします。これ は分子力場計算と第一原理による方法の中間に位置するモジ ュールであり、多くの特性を迅速に計算することができま す。それゆえVAMPは多重極モーメントや軌道エネルギー、 平均分極率のような精密な電子特性を作成するのに理想的な モジュールと言えます。 統合的なQSARモジュールとして、これらの特性は一点計 算エネルギーから計算することが可能です。VAMPはstudy table内で構造最適化を行うことにより構造の評価のために 利用することも出来ます。 VAMP結果、分子の軌道表示 QSAR ワークフロー 前述の例にて描かれていたように、材料科学におけるQSAR には、原子論的QSARと配合設計向けQSARという二つの主 要なカテゴリーがあります。原子論的QSARでは記述子を抽 出できる化学構造が必要となりますが、これがもっとも有名 なQSAR法です。配合設計QSARは配合データと、関連した 実験データが記述子となるため、化学構造を全く必要とし ないということが特徴的です。このワークフロー(解析の 流れ)では原子論的QSARの基本的な手法の要点を述べ、最 後に手短に配合設計でのワークフローを示します。原子論的 QSARに関連する主な項目はstudy tableの作成と評価、記述 子の計算、モデルの構築、モデルの検証と新しい特性の予測 の4つです。これらの全ての項目はMS ModelingのQSARの 中で統合されています。 スタディテーブルの作成と評価 Tableの 作成 記述子の 計算 モデルの 構築 モデルの 検証 QSAR計算を行なう際の最初のステップは分子とそれらの既 知の活性のトレーニングセットを作成することです。これは 最も重要なステップで、トレーニングセットのサイズやトレ ーニングセット中の分子の多様性、活性データの精度がモデ ルの成功の鍵を握る事になるからです。例えば、もし幅広い 分子構造の活性予測を行いたいのであれば、単純な同族列を 計算する場合より大きなトレーニングセットが必要になりま す。同様に、SARモデル構築の際に利用する回帰法も、活性 データが正規分布を示すような活性データセットを用いるこ とにより効果が強化されることになります。もし、次のステ ップで、双極子モーメントやそれらの成分のような三次元記 述子を計算しようとしている場合には幾何学的構造が非常に 重要になる事になります。 MS Modelingの QSARツールを用いればMaterials Visualizer中 の強力な描画ツールを使って構造を描き、それをStudy table に挿入することが出来ます。一方、もしこれらの構造を.sd のような工業で標準的なファイル形式で保存している場合 には複数の構造と活性情報を一度の操作でstudy table中に取 り込むことができます。最終的には、二次元描画ソフトから 直接study table中にコピー&ペーストすることも出来ます。 一旦、構造をstudy table中に書き込んでしまえば次にしなけ ればならないことは評価です。例えばもし三次元記述子を計 算したい場合は、全ての分子を同じ手法で最適化しなけれ ばなりません。構造最適化にはそれぞれ経験的、半経験的 な構造最適化の手法であるForcite と VAMPを使うことがで き、Models dialogから簡単に選ぶことができます。また、 幾何構造が整合しているかをチェックするために各構造の3 D表示画面を開くことが出来ます。例えば、全ての分子の アルキル連鎖を全transの配座にする、と言うような場合で す。もし不一致を見つけた場合はstudy table中で修正するこ とが出来ます。 もし、まだ活性データを構造とともに取り込んでいない場合 は、個々のセルに入力することも出来ますし、スプレッドシ ートからコピー&ペーストすることもできます。いったんデ ータがstudy table中に入力されると、平均・中央値・分散・ 分布データなどの種々の統計学的な情報が得られる単変量解 析を行うことが出来ます。もしデータが正規分布でない場 合、別々の変換法をtransform-data(データ変換)ツールが 素早くテストし、そのデータに最適なデータ変換法を選べる ようになります。 記述子の計算 Tableの 作成 記述子の 計算 モデルの 構築 モデルの 検証 原子論QSARでは記述子は分子の主要な特性を表すモデルで す。これらは分子量のような単純な記述子から多重極モーメ ントのような三次元記述子のように複雑なものまでに及びま す。しかしながら、記述子はMS Modeling内で計算される特 性に限る必要はありません。すなわち、簡単に測定したり、 実験情報から解明した物理特性であっても良いわけです。 MS ModelingのQSARには多くの異なる記述子があります。 主な記述子はChi, Kappa, Balaban, Wienerのようなトポロジ ーインデックスを含むFast 記述子群です。MS Modelingの広 範囲などのモジュールもまた記述子を作成するために利用す ることも出来ます。QSARに実装されている記述子モデルの ほか、ExcelなどのWindows製品から単にコピー&ペースト することにより独自の記述子を加えることも出来ます。 現在、記述子生成のために特別に設計されたインターフェ ースを備えたモジュールがMS Modeling中に二つあります。 それは分子力場計算モジュールのForciteと半経験的量子力 学計算モジュールのVAMPです。電子的な記述子を加える以 外に、VAMPモデルを利用することで特定の原子の原子特性 を記述子として利用することが出来るようになります。例え ば、全ての構造に共通な原子上の電荷の場合などです。将 来は、特定原子上のFukui関数のような反応性指数を与える Dmol3など、他のMS Modelingモジュールで得られる原子的 特性をカバーするように拡張されます。 全ての記述子は共通のダイアログからアクセスできます。ユ ーザーの望む記述子を選択しRunをクリックするだけです。 計算が完了するとすぐに、study tableの選択した記述子の情 報が更新されます。 いったん記述子の計算が終われば、すぐにモデル構築に進む こともできますし、代わりに高い相関を持つ記述子を捜すこ とも出来ます。相関行列の自動計算機能はMS Modelingの中 に提供されています。 モデルの構築 Tableの 作成 記述子の 計算 モデルの 構築 モデルの 検証 このプロセスでの次の段階は、興味のある特性を一つ以上の 記述子の組み合わせと相関づける回帰モデルを構築すること です。ここで有効な統計的手法はたくさんありますが、MS Modelingの QSAR 中で使える手法は、線形回帰(MLR)、 部分的最小二乗法(PLS)、GFAです。MLRとPLSは両者と もよく知られたアルゴリズムなので、これ以上の説明は省き ます。 らの化合物に対してモデルがどの程度良く適合するかをテス トできます。そして最適なモデルを後の予測のために使いま す。 いったん良いSAR modelが得られると、新しい分子を現在の study tableに追加するだけで特性を予測することが出来ま す。または、得られたSAR modelを新しいstudy tableに適用 でき、したがって優位な化合物や組成を別のstudy tableに分 けておくこともできます。 もし、他の共同研究者とSARモデルを共有したい場合は、書 き出して共同研究者へ送ることも出来ます。共同研究者は簡 単に MS Modeling内に読み込み、記述子を計算することが でき、モデルは自動的にMS Modelingの記述子を認識し、特 性を予測します。この簡単な共有方法は共同作業を活性化す るために設計されたものです。 GFAダイアログ:線形や二次などの 追加項が選択できます。 GFAは非線形のデータや記述子の数に比べて少ないデータ しかない場合に相関を作成する最先端のアルゴリズムで す。GFAは初期のランダムに生成された一連のモデルに交叉 や突然変異の操作を行うことで最適なモデルの集団を作り出 すという進化論を用いたアルゴリズムです。交叉は二つの親 モデルを二つの新しい子モデルを作り出すために分割するこ とです。もし子モデルが親モデルよりも良い場合、それらは 集団の中に維持されます。このようにしてよい特徴または記 述子が親から子へ受け継がれていき、最適な記述子を持つモ デルを提案できるようにSAR式が進化します。 GFAには従来の回帰法より優れた、次のような幾つかの利点 があります。 • 多様なモデルの生成により、内在する構造特性を見抜くこ とが出来る • スプライン関数により非線形のモデルをフィットできる • lack-of-fitの項目により生成するモデルのサイズを制限 し、過剰なフィッティングを抑えることができる。 各回帰計算の結果は予測された変数値、残査、数式データ、 統計的な妥当性、入力パラメータの概要を含んだグリッドド キュメントに保存されます。これにより各計算の完全な進行 記録が保存されるため、仕事と進捗状況を追跡することが容 易です。 統計的な検証は非常に重要で、r2値、クロスバリデーシ ョンのr2、F検定値のような統計的なテストを含んでいま す。これらの情報は一つの、タブつきのグリッドドキュメン トに書かれているので、簡単に生成したモデルと統計的情報 を関連付けることができます。 モデルの検証 Tableの 作成 記述子の 計算 モデルの 構築 モデルの 検証 モデル構築の段階での統計的な検証では、得られたモデルが どの程度良いのかという最初の概算を行います。更に完璧な 評価を行うためには、活性既知の化合物のテストセットをト レーニングセットから切り離しておかねばなりません。これ QSAR 活用の実例 Organization Monsanto社 QSARをどのように実験計画に活用できるかという実例をこ こに示しておきます。この手法は実験結果の評価、実験的な 配合研究ワークフローの改善、配合プロセスの効率化に活用 することができます。 遺伝アルゴリズムによる 実験設計(GFAXD)法 工業的な研究開発では、プロセスのモデル開発のために統計 学的実験計画法が用いられています。そこでは、一連の特定 条件の下でのプロセスの操作をシミュレートする実験の中か ら情報を抽出し、その後に次のことを調べます。 GFAXD法には次のような基本的な特徴があります。 ・全ての可能な独立変数が制御可能か否かにかかわらず検討 される • プロセスの成果を支配する独立変数を、そうでないものか ら分離する • 制御可能な各独立変数の実際的範囲の全体が検討される • 上述の独立変数を従属変数に関連付ける数学的モデルを導 き出す • 目標値の正確な近似が制御可能な独立変数に対し決定され る • これらのモデルを用い、実験的にまだ試していない条件下 での今後の実験性能を予測する • 非制御独立変数については、正確な付随的変数が決定され る 実験設計法には幾つかの制限があります。まず、検討中の変 数が増えるとともに必要な実験の数が指数関数的に増えま す。次に、すべての変数範囲に対し連続変数が仮定されます が、これは必ずしも妥当な仮定であるとは限りません。最後 に、実験計画法による検討結果と探索的な実験の結果を統合 することが困難なことです。 • 実験結果の解析をGFAアルゴリズムを用いて行う • 制御可能な独立変数の目標値は、ランダムに発生される • 実験研究者はモデルのGFA populationを推算し、科学的な 理由と確認実験を基に最適なプロセスモデルを選択する KowarのGFAXD法により実験研究者は、従来の実験計画法の 実際的な利用に比べ、より多くの要因を検討できるようにな りました。 参考文献 1. ogers, D., Hopfinger, A. J., "Application of Genetic Function Approximation to Quantitative Structure Activity Relationships and Quantitative Structure Property Relationships". J. Chem. Inf. Comp. Sci., 1994,34, 854-866. 2. Box, G. E. P., Hunter, W. G., Hunter, J. S., "Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building", John Wiley & Sons, New York, 1978, pp 324-334. 3. Kowar, T.R., "Genetic Function Approximation Experimental Design (GFAXD): A New Method for Experimental Design", J. Chem. Inf. Comp. Sci., 1998, 38, 858-866 Monsanto社のThomas Kowar博士はRogersの遺伝アルゴリズ ム(GFA)を統計学的実験計画法と同様の目標を達成するた めに利用しました。Rogersの GFAアルゴリズムはQSAR解析 に応用することに成功したので、実験計画法にもまた有効で あることがわかるだろうと予想されました。Kowarは実験計 画法においてGFAを利用すればプロセス開発をより効率的に できると期待しました。 Kowarは実験計画法の解析にBIOVIA社のソフトウェアを用 い、GFA計算を行いました。まず、Box、Hunter、Hunterの 24の設計例についてGFAを当てはめることからはじめ、実 験計画法によって見出されたモデルをGFAを用いても決める ことができるのかを検討しました。 Kowarは、統計学的実験設計解析を用いて導き出された回帰 式と同じ式を含む一連のモデル式をGFAアルゴリズムを用い て見出しただけでなく、その結果、実験研究者が得られる情 報の質と量が向上することを見出しました。彼はこの応用手 法を遺伝アルゴリズム実験計画(GFAXD)法と名づけまし た。 ダッソー・システムズは、3Dエクスペリエンス企業として、企業や個人にバーチャル・ユニバースを提供することで、持続可能な イノベーションを提唱します。世界をリードするダッソー・システムズのソリューション群は製品設計、生産、保守に変革をもたら しています。 ダッソー・システムズのコラボレーティブ・ソリューションはソーシャル・イノベーションを促進し、 現実世界をより良い ものとするためにバーチャル世界の可能性を押し広げています。 ダッソー・システムズ・グループは140カ国以上、あらゆる規 模、業種の約19万社のお客様に価値を提供しています。 より詳細な情報は、www.3ds.com(英語) 、www.3ds.com/ja (日本語) を ご参照ください。 Dassault Systèmes Corporate Dassault Systèmes 10, rue Marcel Dassault CS 40501 78946 Vélizy-Villacoublay Cedex France BIOVIA Asia Pacific ダッソー・システムズ・バイオビア株式会社 141-6020 東京都品川区大崎 2-1-1 ThinkPark Tower ©2014 Dassault Systèmes. All rights reserved. 3DEXPERIENCE、CATIA、SOLIDWORKS、ENOVIA、DELMIA、SIMULIA、GEOVIA、EXALEAD、3D VIA、3DSWYM、BIOVIA、およびNETVIBESはアメリカ合衆国、またはその他の国における、 ダッソー・システムズまたはその子会社の登録商標または商標です。その他のブランド名や製品名は、各所有者の商標です。 ダッソー・システムズまたはその子会社の商標を使用する際には、書面による明示の承認が必要です。 ダッソー・システムズの3Dエクスペリエンス・プラットフォームでは、12の業界を 対象に各ブランド製品を強力に統合し、各業界で必要とされるさまざまなインダス トリー・ソリューション・エクスペリエンスを提供しています。 BIOVIA Americas BIOVIA 5005 Wateridge Vista Dr., San Diego, CA 92121 USA
© Copyright 2025 Paperzz