スペクトル検索講座③ サーチアルゴリズム - Bio-Rad

THE SADTLER NEWSLETTER
Vol. 29 Sep., 2010 (Japanese)
スペクトル検索講座③ サーチアルゴリズム
スペクトル検索講座の最後は、サーチアルゴリズムについてです。スペクトルサーチでは一般的にベースラインがゆが
んでいなければ、おおむね良好な結果を得ることができる Euclidean Distance がよく利用されています。しかしながら、
ヒットリストのヒット率 (HQI) が思わしくない場合はサーチアルゴリズムを変更していみるのも一つの手段です。特に、
データベースに、測定スペクトルに関連する化合物はないとわかっている場合、サーチアルゴリズムを変えてみることで、
同定の候補となるようなケミカルクラスを導きだせることもあります。その際にはヒットリストをどのように観察する
かもポイントになります。この方法を含め、今回は KnowItAll に登録されている IR スペクトル検索のサーチアルゴリ
ズムによるヒットリストの違いとその特徴を紹介します。
Euclidean Distance の特徴
測定データとデータベースの両スペクトルのデータポ
イントをドット積の平方根で除算し、スペクトルのデー
タポイントすべてを使って、全領域をノーマライズし
ます。HQI(ヒットクオリティーインデックス)はそ
れぞれのデータポイントごとの差異の二乗を合計して
算出されます。スペクトルサーチ全般において、有効
なアルゴリズムで、測定スペクトルがデータベースに
含まれていないものであっても、同類の化合物が検出
され、ケミカルクラスの分類は可能になります。しか
しながら、スペクトルのベースラインが吸光度 0 でな
い場合には逆に検索結果に悪影響を及ぼすこともあり
ます。アルゴリズムは、ベースラインポイントを含め、
測定スペクトルとデータベーススペクトルのそれぞれ
のポイントを比較します。ベースラインのオフセット
やゆがみまで比較する二つのスペクトルの差異と解釈
してしまいます。
スペクトルとサーチアルゴリズム
サーチアルゴリズムは基本的に測定スペクトルとデータ
ベーススペクトルのポイントや面積を比較してその一致
度を数値化するもので、アルゴリズムやサーチソフト自
身にスペクトロスコピーに関する知識があるわけではあ
りません。よく利用される Euclidean Distance は、カー
ブの下の領域全体を一致させるように設計されたアルゴ
リズムです。たとえば OH 伸縮によるブロードな吸収バ
ンドがあるようなスペクトルでは、Euclidean Distance
ではそのブロードな領域が重視されてしまい、スペクト
ル全体からすると比較的狭い領域となるシャープなピー
クは軽視する傾向にあります。
このため、データベースの中に一致するものがないとわ
かっている測定スペクトルや測定スペクトルに大きな領
域を占めるバンドがある場合、検索結果から同定の手が
かりとなる情報を見出すことが難しくなります。つまり、
OH あるいは CH 伸縮による大きくて、ブロードなピー
クがある場合、サーチアルゴリズムはそのバンドを中心
にその化合物を検索するため、スペクトルの特徴的な
ピークの存在を最小限に評価もしくは無視してしまうこ
ともあります。このため、混合物のケミカルクラスによ
る分類さえ難しくなってしまいます。
First Derivative の特徴
測定スペクトルのデータポイントをデータベーススペ
クトルのデータポイントと比較するというより、測定ス
ペクトルのデータポイント間と同じポイントのデータ
ベーススペクトルのデータポイント間との差異を比較
します。これにより、ベースラインのオフセットによる
違いが排除され、ベースラインの傾きによる誤差を最小
限することができます。短所は、測定スペクトルがデー
タベースの中に含まれていないとき、ヒットリストエ
ントリーは測定スペクトルと大きくかけはなれたもの
になってしまうことです。また、Euclidean Distance
アルゴリズムと比べて、2cm-1 以上の小さなピークシフ
トに対する許容範囲が狭くなります。
ヒットリストにエントリーされたスペクトルが測定スペ
クトルと異なり、大きな領域のバンドに偏っている場合、
サーチアルゴリズムの特徴を理解し、適切なサーチアル
ゴリズムを選択して、良好な検索結果を得ることができ
ます。
1
Sadtler Newsletter Vol.29
HQI とブレーク
スペクトルサーチから未知化合物の同定を行う場合、
ヒットリストの最初のエントリーだけでなく、ヒットリ
スト全体を検証することが必要です。サーチソフトにで
きることは、サーチアルゴリズムの計算式にしたがって、
測定スペクトルとデータベーススペクトルを比べること
だけです。このため、ヒットリストの最上位にリストさ
れたエントリーが未知化合物同定の手がかりとなること
はあっても、必ずしも正確な同定結果ではないこともあ
ります。下位のエントリーに有力な候補化合物がリスト
されていることもあります。
この下位のエントリーから有力な候補化合物を見つけ
出す要素となるのがブレークです。ブレークとはヒッ
トリストにあるエントリーとのその次のエントリーの
HQI 値の差で、サーチアルゴリズムと HQI に密接な
関係があります。Euclidean Distance でサーチした場
合、HQI の値が 900 以上のエントリーがあるとよい
ヒットリストである考えられており、ブレーク 40 以
上の化合物が確度の高いエントリーだといえます。1st
Derivative Distance では HQI が 750 であればいいヒッ
トリストであるといわれ、HQI が低い場合、ブレーク
は小さいほうがいいとされています。また、アルゴリズ
ムに関係なく、HQI が 700 以下のヒットリストエント
リーの場合、ブレークが 20 から 30 の範囲でそのユニー
ク性を示します。つまり、HQI が低くても、ブレーク
が 20 から 30 の間にかたまっているエントリーはケミ
カルクラスの推定に役立つものであると考えられます。
KnowItAll8.3 にはヒットリストエントリーの HQI の
数値とそのばらつき ( 配分 ) をバーチャートで表示させ
る HQI オーバービューという機能が追加されています。
この機能により、他のエントリーと大きくかけ離れては
いるけれど、ある特定のケミカルクラスの推定が可能な
エントリーがあるかどうかを一目で確認することができ
ます。
図 1 のヒットリストは検索結果の HQI( ヒットクオリ
ティーインデックス ) が低いだけでなく、ヒットリスト
の上に表示された HQI オーバービューのバーチャート
で示すようにブレーク (HQI 間の差 ) が小さくなってい
るのがわかります。これはいい検索結果ではないことを
意味します。さらに、最初のいくつかのエントリーの
スペクトルをみると、アルゴリズムが 2900cm-1 付近の
CH 振動領域に着目し、700cm-1 付近と 3200cm-1 付近
のピークが考慮されていないことがわかります。
次にサーチアルゴリズムを 1st Derivative にして、再検
索を行いました。図 2 がそのヒットリストです。ここで
は HQI の数値ではなく、Euclidean Distance で検索し
た検索結果では無視されていたシャープなピークに一致
したエントリー ( ベンゼン ) がリストされたことに着目
します。HQI オーバービューでは、2 番目以降のエント
リーの HQI は非常に接近しており、ある特定のケミカ
ルクラスからのエントリーであることを示唆しています。
この 2 番目以降のエントリーを確認すると、シクロヘキ
サンを示唆するものであることがわかります。
まとめ
サーチアルゴリズムの違いで、検索結果は大きく異
なります。また、1st Devivative は面積を重視する
Euclidean Distance の欠点を補完するアルゴリズムで
あることを覚えておくと便利です。
Euclidean Distance では、面積を重視するため、未知
化合物同定の決め手となる小さなピークは無視される傾
向にあります。このため、全体に無視されていると思わ
れるピークだけを部分サーチするなどのテクニックが
必要となります。( 実際には KnowItAll インフォマティ
クスシステム 8.1 以上には混合物解析をサポートする
Mixture Analysis が標準となっているため、この機能
を利用することが可能です。
図 2 1st Derivative Distance
最初のエントリーの HQI は 600 であるが、次のエ
ントリーと大きなブレークがある。検証の価値のあ
るヒットリスト。
図 1 Euclidean Distance
最初のエントリーの HQI は 617 で、ブレークの少
ないヒットリスト。
Sadtler Newsletter Vol.29
検証
KnowItAll インフォマティクスシステム 8.3 を使って、
シクロヘキサンとベンゼンの混合物のサンプルでサーチ
を実行しました。データベースにはセレクトコレクショ
ン、サーチアルゴリズムは Euclidean Distance、500
~ 4000cm-1 の領域でスペクトル検索した結果を検証し
ます。
2
KnowItAll インフォマティクスシステムのサーチアルゴリズムの特徴
サーチスピード
優先される要素
重視するピーク
ノイズ
ベースラインの傾き
ベースラインのオフセット
ピークシフト
飽和ピーク
理想的な HQI
Euclidean
Distance
First
Derivative
Correlation
○
面積
ブロード
×
×
×
○
○
>900
×
傾き
シャープ
×
○
○
×
×
>750
×
面積
ブロード
○
×
×
○
○
>900
Tips!
ベールの法則
サーチは、スペクトルがこのベールの法則に従ってい
ることが前提となっています。未知スペクトルとデー
タベーススペクトルの間には測定条件、すなわち試料
の濃度やセルの長さが異なることがあります。このた
めスペクトルの形に違いがあるが、ベールの法則に従っ
ている場合は、ノーマライズ処理でこの違いを取り除
くことが可能となります。ベールの法則に従わないス
ペクトルは、スペクトルのバンド強度の相対比の関係
が失われ、サーチアルゴリズムを混乱させます。この
ようなスペクトルは主にサンプリングに問題があるた
めに生じる現象といわれています。
KnowItAll 8.3の新機能
HQI とブレークの説明のところにもありました HQI オーバービューのほかにもに KnowItAll8.3 には、ヒットリス
トの検証や構造解析に便利な機能が追加されています。KnowItAll は毎年新しい機能が追加され、スペクトロスコピー
ストをサポートしています。IR サーチマスターや古い IR エディションからのアップグレード価格を設定しています
ので、ぜひご検討下さい。詳細についてはお問い合わせ願います。
スペクトルの表示順
ヒットリストから複数のエントリーを選択し、スペクト
ルウインドウに表示させたとき、その表示順を任意に変
更することができます。
サーチ領域の表示
サーチ条件で設定されたサーチ領域がヒットリストのス
ペクトルウインドウ上にもハイライト表示されるように
なりました。スペクトル上のどの領域をサーチ対象にし
たのかすぐにわかります。
スペクトル名
スペクトル名がスペクトルの近くに表示されるようにな
りました。スペクトルの表示順の変更やスペクトル名の
表示位置については機能は日本のユーザーの方からも多
くのご要望をいただいていた機能です。
AnalyzeIt IR の知識ベース
ユーザーがケミカルクラスと官能基の知識ベースを作成
できるようになりました。ユーザー独自のケミカルクラ
スの官能基データをサドラーの知識ベースと一緒にコリ
レーションすることができます。
3
Sadtler Newsletter Vol.29
お知らせ
パッケージデータベースが新フォーマットになります
2012 年 1 月より、パッケージデータベースを新しい
フォーマットで供給いたします。現行フォーマットでご
利用中のデータベースはそのままお使いいただくことが
できますが、2012 年以降は現行フォーマットのデータ
ベースの供給、サポートを終了させていただきますので、
ご了承下さい。
新フォーマットへの移行措置について
2010~2011 年に購入またはアップグレードされたデー
タベースは、2012 年以降に無償で新フォーマットへ変
換することができます。
フォーマット変更の理由とメリット
従来より一部のパッケージデータベースの構造式やプロ
パティーにバグがありました。インフォマティクス事業
部ではその問題を解決または回避すべく、都度バグの除
去や修正ファイルを提供を行ってきましたが、このたび、
すべてのデータベースに登録されている構造式やプロパ
ティーを一新すべくファイルフォーマットの変更が決定
されました。
これを機にパッケージデータベース用のセキュリティー
デバイスとコントロールファイルが廃止されます。この
ためデータベースのインストールやバックアップメディ
アの管理が容易になり、データベースの追加購入などの
仕様の変更も簡単になります。
2001 年にデータベース ABC を購入したと想定して説
明します。
このユーザーが 2010-2011 年末までにデータベース D
を追加購入する場合、2017 年まで ABCD すべてのデー
タベースが 2012 年以降の無償アップグレードの対象と
なります。
2012 年までに ABC を現行フォーマットにアップグレー
ドしても、2017 年までは新フォーマットへのアップグ
レードは無償となります。さらに 2012 年以降にデータ
ベース D を追加購入する場合、発生する費用は D の価
格のみです。
しかしながら、このユーザーがアップグレードせずに
2012 年以降に D を追加購入する場合、現行フォーマッ
トと新フォーマットを一つの PC で混在させることがで
きませんので、既存の ABC も新フォーマットへアップ
グレードしなければなりません。追加データベースの費
用とは別にアップグレード費用が発生します。
新しい PC や OS に対応するため、今後ソフトウェアの
アップグレードは必須となります。これに伴い、データ
ベースもアップグレードも必要となります。
早めの対応をお願いいたします。
新フォーマットデータベース導入のスケジュールの概要を下に示します。
本スケジュールは今後変更されることもありますので、ご了承願います。
2000 2001 2002 ・
・
・
・
・
・
2009
2010
移行措置期間
新フォーマット 供給開始
アップグレード
アップグレード不可
新フォーマット 無償アップグレード
旧フォーマット
現行フォーマット
お問合せ、ユーザー登録は
2012
2011
購入/アップグレード
新フォーマット 無償アップグレード
新フォーマット 有償アップグレード
[email protected]
へ
本紙に記載された会社名または製品などの固有名詞は各社の商標または登録商標です。記載内容や製品に関するお
問合せ、ご要望は下記までお願いいたします。
バイオ・ラッド ラボラトリーズ株式会社
インフォマティクス事業部
〒114-0002
東京都品川区東品川2-2-24 天王洲セントラルタワー20F
TEL 03-6361-7080 Fax 03-5463-8483
E-mail [email protected]
Sadtler Newsletter Vol.29
4