バイオインフォマティクス I 金谷

-マイクロアレイ解析-
金谷重彦
情報科学研究科・情報生命学専攻・比較ゲノム学講座
1.はじめに
バイオインフォマティクス I「マイクロアレイ解析」では、MicroArray Analyzer(TREBAX)システムを用いて演
習を通してマイクロアレイ解析を理解する。本システムは主にスポット型アレイ法(cDNA マイクロアレイ法)によ
り得られたデータをもとに、遺伝子の発現プロフィイルと分子生物学的機能、さらには DNA 塩基配列とを効率的
に対応づけることを目的としたデータ解析システムであるが、データのフォーマットを合わせれば、スポット型ア
レイ法(cDNA マイクロアレイ法)以外のデータにも適用できる。TREBAX では具体的には、[1]スポット型アレイデ
ータに含まれる偏り誤差の軽減および発現データの質の評価、[2]発現プロファイルのゲノム情報、アノーテーショ
ン情報との統合解析、[3]同一の実験条件で作成したマイクロアレイにおいて再現性を有する有意に発現そした遺伝
子の探索、[4]複数のマイクロアレイによる類似な発現プロファイルを有する遺伝子の探索、[5]マイクロアレイ実験
間の比較、[6]ゲノムに沿った発現量変化の視覚化、[7] ウェブ検索機能等の解析を実行できる。他の表計算ソフト
で加工することを容易にするために解析結果はすべてテキスト形式で出力されるように設計した。種々の解析法お
よび本システムの操作についての詳細ならびに参考文献を付録1に添付してあるので、さらに解析技術を理解した
い時には付録1を参考にしていただきたい。
本講義で例として用いるデータは、LB 培地により培養された枯草菌を時系列に沿って細胞全体の発現遺伝子変
化をマイクロアレイによって測定した発現データである。LB 培地は枯草菌細胞の増殖を最大にするために開発され
た培地であり、培養初期において二分裂による細胞増殖が最大化する。この時期を対数増殖期と呼ぶ。また、対数
増殖期の後の一定の分裂状態となった時期を定常状態という。本研究では、対数増殖期と定常期を含む 12 時間にお
いてLB培地 37℃で細胞を振とう培養し、8時点において細胞を抽出し、枯草菌ゲノム中の 3100 遺伝子に対して
mRNA 量を二色蛍光型 cDNA マイクロアレイにより測定した。測定点を以下に示す。なお、対照実験には、すべて、
DSM培地で培養した枯草菌について OD(濁度)=0.4 において抽出した mRNA を用いた。マイクロアレイデータ
は小笠原研究室より提供していただいた。
1
2.計算機実習
<前半>
まずはじめに、演習の準備として、作業ディレクトリの作成等を通して Unix コマンドに慣れる。その後、cDNA
マイクロアレイにおける補正対数値の算出法を習得する。
(1) 演習の準備
1A. 作業ディレクトリの作成
作業ディレクトリを作成する。
%mkdir□bioinfo↲
(今回の演習ではディレクトリ名を bioinfo とする。)
自分の作業ディレクトリに移り、演習用のデータを以下のようにしてコピーする。
%cd□bioinfo↲
%cp□–r□/home/gtc/skanaya/ensyu□.↲
((注)しばらく時間がかかります。
ensyu ディレクトリに移動する。
%cd□ensyu↲
1B.入力ファイルの確認
cDNA マイクロアレイ測定により得られたデータを確認する。
MicroarrayData ディレクトリに移動する。
%cd□MicroarrayData↲
ディレクトリ内にあるファイルの内容をチェックする。ファイル名が SORT で始まるファイルについて内容を確
認する。
%less□SORTBSLB1¥□data.txt↲
(q で閉じる)
コントロール実験
スポットID
シグナル強度
目的とした実験
バックグラウンド強度
シグナル強度
aadK
561.080017
273.866669
539.619995
211.977783
aadK
379.5
174.711105
405.119995
105.73333
aapA
573.299988
166.955551
4380.939941
147.46666
.......
1C アレイ解析プログラムの起動
ensyu ディレクトリに戻る。
%cd□.. ↲
MicroArray Informatics のメイン画面が出力する。
%./UnixMicroArrayRun.sh ↲
2
バックグラウンド強度
(2)マイクロアレイ解析
<ステップ1> 補正対数費の計算[PartialAv.Scaling]
入力ファイル:SORT*
出力ファイル:SCAMA*
i 番目のスポットについての2つの実験(コントロール実験と目的実験)に対するシグナル強度を
xi(Target) 及 び xi(control) と す る 時 、 対 数 比
log(xi(Target)/xi(control)) と 平 均 強 度 Avi=
log(xi(Target)+xi(control))をもとにベースライン baselinei を算出し、補正対数比 LOGi を求める。
LOGi = log(xi(Target)/xi(control))‐baselinei
PartialAv.Scaling ボタンをクリック
↓
Button for All Data analyzed ボタンをクリック
((注)--End--までクリックを続ける)
3
<ステップ2> マスターファイルの情報を補正対数比の統合[InfoMerge via.MasterFile]
入力ファイル名:SCAMA*
出力ファイル名:UNI*
InfoMerge via.MasterFile ボタンをクリック
↓
Information marge for all data ボタンをクリック
プロットされたデータを確認する。
Plotter ボタンをクリック
↓
任意のファイルを選択しクリック
4
データの質の評価を以下に示す。
データの質の分類
データの質の定義
‐2
値が欠落していて対数比が得られない
1
シグナル値‐バックグラウンド値が負となり対数が求められない
0
オレンジ
1
黄、緑
2
10
二つの実験に対するシグナル値‐バックグラウン強度が 0 とみなされる範囲にある
二つの実験のうち一方においてシグナル値‐バックグラウン強度が 0 とみなされる範囲にある
赤
統計的に有意でない補正対数比
(ピンク)
(ユーザーが定義した範囲の補正対数比)
青
統計的に有意な補正対数比
任意のプロットを選択しクリック
クリックするとプロットの遺伝子名や配列情報等の GENBANK のアノテーション情報が得られる。
<ステップ 3> ユーザー指定条件を満たす遺伝子の探索[Statistics for all ArrayData]
入力ファイル名:UNI*
出力ファイル名:GENE*,HIST*,STAT*
Statistics for all ArrayData ボタンをクリック
↓
threshold の設定
今回は min=log(0.01)
max =log(100.0) に設定
↓
ALL Data used ボタンをクリック
5
<結果の整理>
MicroarrayOutput ディレクトリに出力された GENEDefault.txt ファイルを開き、結果を解析する。
端末エミュレータ(kterm)を起動し、ensyu ディレクトリまで移動する。
%less□GENEDefault.txt↲
(q で閉じる)
課題1
LB4 の時系列データについて、100 倍以上有意に変化が見られた遺伝子を列挙せよ。
_________________________________________________________________________________________________
(3) 多変量解析
<後半>
発現プロファイルの類似性により遺伝子を分類する方法を習得する。分類法としてここでは BL-SOM(バッチラー
ニング自己組織化法)により発現プロファイルにより遺伝子を分類する。本システムでは、K 平均法(付録 F4)
ならびに主成分分析(付録 F1)
、さらにはオリジナルの SOM アルゴリズム(付録 F3)も搭載されているので時間
に余裕のある人はこれらも試すこともできる。
多変量解析では
遺伝子発現量を遺伝子 x 実験からなる行列表現 → データのスケーリング → 多変量解析(SOM)
の流れでデータを作成し解析する。この手順にしたがって実際にデータの解析を進める。
6
<STEP4>複数のマイクロアレイデータの補正対数比を行列に表現する[Data Merge]
入力ファイル名:SCAMA*
出力ファイル名:MERGE*
Data Merge ボタンをクリック
↓
ファイルを全て選択する (注意:LB1~LB8 まで順番に加える!!)
↓
>Add> ボタンをクリック
↓
Start Merge ボタンをクリック
<STEP5> ゲノムの位置による並び替え[Positioning Sorting]
入力ファイル名:MERGE*
出力ファイル名:POS*
Positioning Sorting ボタンをクリック
↓
ファイルを選択しクリック
7
<STEP6> それぞれのマイクロアレイについての遺伝子ごとの平均値を作成[AV.(gene)]
入力ファイル名:POS* 出力ファイル名:AV*
Av(gene) ボタンをクリック
↓
POSMERGE~.txt ファイルを選択しクリック
ゲノムにおける位置と発現プロファイルの視覚化(Genome)
入力ファイル名:AV* 出力ファイル名:(なし)
Genome ボタンをクリック
↓
ファイルを選択し順にクリック
8
<STEP7>遺伝子ごとに複数のマイクロアレイデータの二乗和を 1 にスケーリング(Gene Norm(SS=1))
入力ファイル名:AV* 出力ファイル名:AVGN2*
Gene Norm(SS=1)ボタンをクリック
↓
AVPOSMERGE~.txt を選択しクリック
↓
Starting ボタンをクリック
<STEP8>一括処理型自己組織化マップ法(BL-SOM)[BL-SOM]
入力ファイル名:AV* 出力ファイル名:WTSPCA*,WTSRND*,WTSSON*,CLSOM*
(i) 初期ウエイトベクトルの作成
BL-SOM ボタンをクリック
↓
Data Set より AVGN2.txt を選択しクリック
↓
PCA lnit.ボタンをクリック
9
(ii)学習過程
再び BL-SOM ボタンをクリック
↓
Data Set から AVGN2.txt , Weight Matrix から WTSPCA~.txt を選択しクリック
↓
SOM Weight Construction ボタンをクリック
(iii)構築したウエイトベクトルに基づいたマッピング
再び BL-SOM ボタンをクリック
↓
Data Set から AVGN2.txt , Weight Matrix から WTSSOM~.txt を選択しクリック
↓
Classification ボタンをクリック
((注)しばらく時間がかかります)
10
(iv)発現プロファイル解析
Viewer ボタンをクリック
↓
CLSOM*.txt ファイルを選択しクリック
課題 2 SOM で解析した結果、細胞全体における発現プロファイルが大きく変化したポイントは時系列データの何
番目と何番目の間か?
課題 3
“ybaK”という機能未知遺伝子と似た発現プロファイルを示す遺伝子を列挙せよ。
課題 4
課題 3 の解答より、ybaK は細胞内においてどのような機能を持っていると予測できるか?
11
--------------------------------------------------------- 付録1 --------------------------------------------------------------------------本システム(TREBAX)の使い方に加え、マイクロアレイにおける情報解析について以下の順番で説明する。
1. DNA マイクロアレイ実験
2.アレイインフォマティクス
3.統合システム(TREBAX)
4.インストール
5.フォルダの内容
6. TREBAX の実行法
7.遺伝子機能カテゴリーファイルの構築法
8.操作方法
9.参考文献
第1章および第2章では、マイクロアレイ技術と解析手法の現状を把握できるように DNA マイクロアレイ実験ならびにアレイ
インフォマティクスについての論文を紹介する。第3章から TREBAX の実行に関して説明する。
1.DNA マイクロアレイ実験
DNA アレイの基本原理は DNA のハイブリダイゼーション(hybridization)であり、サザンブロットやノーザンブロットを大
規模かつ並列で行うことで数千から数万個の遺伝子の発現量を測定する方法である。DNA アレイ実験には、GeneChip 法、ス
ポット型アレイ法(cDNA マイクロアレイ法)、および Serial Analysis of Gene Expression (SAGE)法がある。
GeneChip 法は Affymetrix 社が開発した方法であり、各遺伝子の検出に対して最大 40 塩基(通常は 11-20 塩基程度)のオリ
ゴヌクレオチドが使われる。各遺伝子について、他の遺伝子と比べて最も相同性の低い領域をいくつか選択し、それぞれの領域
に対して 11-20 塩基からなる完全相補オリゴヌクレオチドとこの配列と1塩基置換が中央付近にある不完全オリゴヌクレオチ
ドに対する蛍光強度差から発現量を測定する。スポット型アレイ法(cDNA マイクロアレイ法)は、基準となる系(対照実験)と目
的とする系(目的実験)それぞれから mRNA を抽出し、それぞれの系において二つの蛍光色素(例えば、Cy3 と Cy5)により
ラベルされた cDNA を、マイクロアレイ上にスポットした cDNA と競合ハイブリダイゼーションすることにより、それぞれの
実験における 1000-10,000 種類の遺伝子の発現量の相違を検出する方法である(図 1)。Serial Analysis of Gene Expression
(SAGE)法では cDNA 断片(タグ)をライゲーション反応により一本につなぎあわせ、その配列を決定する。タグ配列の出現頻
度により細胞内の各々の mRNA 量を定量する方法である。
図1 cDNA マイクロアレイ実験
マイクロアレイ実験技術により得られる大量の遺伝子に対する発現プロファイルデータを網羅的に転写解析(トランスクリプ
トーム解析)することが可能となり、これに伴ったバイオインフォマティクス技術の開発が進展している。バイオインフォマテ
ィクスが直面する主な課題として、(1)実験室における情報管理、(2)マイクロアレイデータ解析(2A)マイクロアレイ実験におけ
る画像処理、(2B)ランダムノイズおよびバイアスの軽減化、(3)発現パターンによる遺伝子の分類(遺伝子発現プロファイリング)、
(3)生物システムの高次の制御モデリングへの応用があげられる。(2)は直接マイクロアレイ実験解析を行うための基本的な課題
12
である。次節ではスポット型アレイ法を中心にマイクロアレイにおけるインフォマティクスを説明する。
2.アレイインフォマティクス
アレイ解析におけるインフォマティクス解析の流れは、(1)マイクロアレイの設計、(2)cDNA マイクロアレイ実験と画像解析、
(3)シグナル評価、(4)遺伝子発現プロファイリング解析の4つの過程からなる。
2.1 マイクロアレイの設計
数千から数万種類の cDNA を選択しアレイスライドにスポットする。統計によるマイクロアレイにスポットする cDNA の設
計法は Kerr and Churchill(2001)により提案された。
2.2 cDNA マイクロアレイ実験と画像解析
目的実験と対照実験の二つの実験により抽出された mRNA をもとに逆転写することにより cDNA を作出し、それぞれについ
て異なった蛍光色素(Cy5, Cy3)を標識する。標識された cDNA をマイクロアレイスライド上のスポットと共ハイブリダイズする。
マイクロアレイスライドを CCD カメラ(charge-coupled device camera)により異なったレーザー波長でスキャニングすること
により二つの実験における個々の遺伝子に対する mRNA 量を定量する(Schena et al., 1995; Brown and Botstein, 1999)。スキャニン
グにより Cy3 および Cy5 に対する 16-ビット(0 - 216-1 =65,535)の TIFF 画像ファイルを作成する。この過程は主に以下の3つの
過程からなる。
(1)スポットの位置の計測:マイクロアレイを設計したときの情報を考慮してスライド上のスポット位置の計測を行う。スポッ
トの位置の計測を行うアルゴリズムの開発(Bozinov and Rahnenführer, 2002)がなされているが、通常、マニュアル操作が含まれる
ことが多い。
(2) 背景処理:スポットの形状を把握しスポットとその背景のピクセルを識別する。
(3) 強度測定:スポットとその背景のピクセルの強度を測定する。
これらの画像処理に関しては現状では研究途上にある分野である(Chen et al., 1997; Jain et al., 2002, Nagarajan, 2003)。個々のス
ポットに対して数百のピクセルが対応し,その位置と形状が実験の質に依存する。これらの位置と形状を自動かつ迅速に認識す
るアルゴリズムの開発が必要とされている。画像解析ソフトウエアについてウエブサイトを以下に挙げる。
ArrayWorx
http://biomicro.mit.edu/biofabrication/scanning.htm
GenePix
http://www.axon.com/gn_GenePixSoftware.html
ImaGene
http://www.biodiscovery.com/imagene.asp
Scan Alyze
http://rana.lbl.gov/EisenSoftware.htm
2.3 シグナル評価
対照実験(T)ならびに目的実験(R)の cDNA がそれぞれ特定の色素(Cy3 および Cy5)により標識されたとする。このとき、通
常、二つの蛍光強度の対数比(log-ratio=log(T/R))により実験間の個々の遺伝子の発現量変化を評価する。マイクロアレイスライド
の同一の遺伝子に対する複数のスポットから再現性の低いスポットを検出し削除する。また、非線形補正により対数比を補正す
る(Chen and Bittner, 1997; Dudoit et al., 2002; Newton et al., 2000; Kerr et al., 2001; Tseng et al., 2001)。
2.3.1 発現強度の規格化(Normalization)
一般に Cy3 と Cy5 の二種類の蛍光色素で cDNA を標識する。これらは相対的に不安定であること、また、標識する過程にお
ける cDNA への取り込み効率が異なることから、画像処理の過程で得られたこれらの二色の蛍光強度にはランダムノイズとバイ
アスの二つの誤差が含まれる。シグナル強度が低いほどこれらの誤差の影響を受けやすい。これらの誤差を軽減化する方法とし
て MA プロット(MA-plot)がある(Dudoit, et al., 2002b; Quackenbush, 2002)。それぞれのスポットに対する蛍光強度の対数比を
13
Mi
log(Ti / Ri ) 、平均対数強度(averaged logarithmic intensity)を Ai
log(Ti ) log( Ri / 2 とする。 Ai を横軸、 M i を縦
軸にプロットすることにより平均対数強度に対する偏り誤差を評価することができる。図 2 上段は MA プロットの一例である。
この図から平均対数強度が低い領域において対照実験におけるシグナル強度が低い傾向にあることがわかる。
このような偏り誤差を補正するために M i
Mi
f ( Ai )
を求める。ここで
i
0 の近傍において Ai と M i の関数
(2)
i
は i 番目のスポットに対する残差である。式(2)により得た関数 f をもとにそれぞれの Ai に対するベース
ラインを求め、これを
Mˆ i
f ( Ai )
(3)
とする。規格化対数比(normalization log-ratio)は M i と M̂ i との差(式(4))により求められる。
~
Mi
Mi
Mˆ i
(4)
補正前(図2上段)および補正後(図2下段)の MA プロットを図2に示す。この図から明らかなように下段において M i
0に
対して対称的な分布となっていることから、蛍光色素特異的なシグナルによる偏り誤差は軽減されたことになる。この方法では、
大多数のスポットに対しては発現強度に大きな差がないことが前提となっている。また、 Ai と M i の関数
Mi
f を求める過程で
0 の近傍の統計的規定法は Schadt et al.(2001)および Tseng et al.(2001)により提案されている。
図 2 MA プロット(上段、補正前;下段、補正後)
繰り返し実験がなされている場合のデータの規格化法についての統計処理、スポットされている位置を考慮した規格化、二色
の蛍光色素を例えば Cy3 を対照実験および Cy5 を目的実験に対応させた場合とその対応を逆にした場合の二通りの実験を行う
ことによる規格化についての方法もまた提案されている(References 2.3.1 参照)。
2.3.2 クオリティーフィルタリング(Quality filtering)
クオリティーフィルタリングは同一の cDNA が複数含まれるマイクロアレイについての再現性が低いスポットを削除する過程
である。再現性の評価法として変動係数(Coefficient of variation; CV)が用いられることが多い。p 個の同一の cDNA のスポットが
14
マイクロアレイスライドにスポットされており、それぞれの強度が mi=log(Cy3i/Cy5i) であるとき、CV は、これらのスポットに
対する強度の標準偏差を平均値で割ることにより得られる(式 5)。この値が小さいほど再現性の高いスポットであることから、
設定した閾値をもとにバラツキの大きいスポットを除去し、再現性の高いスポットのみを遺伝子発現プロファイリングに用いる
ことが多い。
p
CV
SDi
1, 2,..., p [ mi ]
m
100
( mi
m ) 2 /( p 1)
i 1
100
m
(5)
2.4 遺伝子発現プロファイリング
一枚のマイクロアレイを解析する場合、対照実験と目的実験の間に発現量において有意な変化を伴った遺伝子の探索ならび目
的実験の細胞全体の遺伝子発現量による特徴づけはマイクロアレイ解析の基本であり、多くの研究が進められている(Oshima et
al.,2002a, 2002 b; Kobayashi et al., 2001 等)。一方、複数のマイクロアレイ実験をもとに類似の発現遺伝子の探索ならびに実験間の
類似性を把握することは、類似の発現を有する遺伝子を探索するだけでなく遺伝子発現の組織ならびに環境特異性と関連した制
御メカニズムをゲノムスケールで理解すること、および生物をシステムとして把握することの基礎として重要である。いま、N
個の遺伝子からなるマイクロアレイを用いて M 枚の異なる条件でマイクロアレイ実験を行ったとすると発現プロファイルデー
タは以下のような行列で記述される。
s 番目と t 番目の遺伝子の発現プロファイルを M 次元のベクトルを用いて xs(xs1, xs2,…, xsM)と xt(xt1, xt2,…, xtM)とすると、これら
のベクトル間を比較することにより遺伝子間の発現類似性を評価することができる。一方、j 番目と k 番目の実験の発現プロフ
ァイルをそれぞれ N 次元のベクトル yj(x1j, x2j,…, xNj)と yk(x1k, x2k,…, xNk)により表現し、これらのベクトル間を比較することによ
り実験間の類似性を遺伝子の発現プロファイルにより評価することができる。このような多変量で記述されるデータ解析法を一
般には多変量解析とよぶ。多変量解析は学習のアルゴリズムにより非教師学習(unsupervised learning)と教師学習(supervised
learning)に分けられる。マイクロアレイ解析実験で用いられている解析手法を表1に示す。上述の発現プロファイルのみから遺
伝子間の類似性もしくは実験間の類似性を評価するための解析手法を非教師学習(unsupervised learning)、また、病因となる遺伝
子を探索するために例えば健常者と患者といった外的基準を遺伝子発現プロファイルにより識別することを目的とする手法を
教師学習(supervised learning)とよぶ。後者はがん研究などにおける遺伝子発現プロファイルによる診断などの応用の分野に用い
られる場合が多い。 多変量解析におけるデータ解析は、遺伝子、あるいは実験間を適切に表現するためデータ行列の類似性の
定義、標準化、および特徴抽出などの前処理を行うことがしばしばある。表 2 において、遺伝子間を比較する場合の実験に対す
る標準化ならびに遺伝子間の類似性尺度の例を示す。cDNA マイクロアレイ解析において、対数比により遺伝子間を比較する場
合に、類似性の尺度とし 1-correlation(表 2 の式 b4)を使うことがある。一つの遺伝子において全ての実験の対数比が全て正であ
15
り、もう一つの遺伝子において全ての実験の対数比が全て負である場合を考える。前者は対照実験に対して目的実験の発現量が
全て上がったことを、また後者は全て下がったことを示す。このような場合であっても、correlation は正となることがある。し
かしこのような場合には一方の遺伝子の発現量は常に上昇したことを示し、他方の遺伝子の発現量は常に減少したことを示すた
め、対照実験を基準とした発現量の間には負の関係があることとなる。1-cos
表 の式 b5)を用いることにより、このような問
題を回避するなどの前処理の段階で注意を要する。
表1 多変量解析
応用例(参考文献)
1 Unsupervised learning
1.1 Self-organizing map
2.4.2.1(b1)
1.2 Principal component analysis
2.4.2.1(b2)
1.3 Independent component analysis
2.4.2.1(b3)
1.4 K-medoid method
2.4.2.1(b4)
1.5 Hierarchical clustering
2.4.2.1(b5)
(a) Bottom-up methods
Single linkage, Complete linkage, Mean linkage, Centroid linkage
(b) Top-down methods
Tree structured vector quantization, Macnaughton-Smith algorithm
1.6 K-means method
2.4.2.1(b6)
2. Supervised learning
2.1 Support vector machines
2.4.2.2(b1)
2.2 Nearest neighbor classifiers
2.4.2.2(b2)
2.3 Discriminant function based on linear discriminant
2.4.2.2(b3)
Bayes rule, Maximum likelihood discriminant rule,
Fisher linear discriminant analysis, Logistic discrimination,
Penalized discriminant analysis
_______________________________________________________________________________________________________________
表 2 データの標準化と類似性尺度
(a)標準化
(a1)オートスケーリング(autoscaling)
x si
( x si
x s ) / s ii
(a2)二乗和1への相対値表現
x si
x si /
2
M
i 1 x si
b)類似性の尺度
1
d Mk (x s , x t )
(b1) Minkowski metric
wi
1 と設定した場合を非標準化距離、wi
M
wi x si
i 1
xti
1 /( s ii 2 ) と設定したとき標準化距離という。
2 のときユークリッド距離(Euclidean metric)という。
(b2) Mahalanobis metrix
16
(
1)
1 のときマンハッタン距離(Manhattan metric)、
d Ml ( x s , x t )
x s1
xs
x t1 , x s 2
xt S
1
xs
xt 2 ,..., x sM
xt
1
t 2
xtM
s11
s 21
s12
s 22
...
...
sM1
sM 2
...
...
s1M
s2M
1
x s1
xs2
...
...
... s MM
x t1
xt 2
...
x sM
xtM
(sij は変量 i と j の共分散で表す。)
(b3) Canberra metric
d C (x s , x t )
(b4) 1-correlation
d x s xt
M
( xs
i 1
M
x si
x ti
i 1
x si
x ti
M
i 1 ( x si
1 r (x s , x t ) 1
M
i 1 ( x si
xs ) 2
xs )( xti
xt )
M (x
j 1 ti
xt ) 2
xsi
M
).
(b5) 1-cos
1 cos x s x t
1
M
i 1 x si xti
2
M
i 1 x si
M x 2
j 1 ti
3.統合解析システム(TREBAX)
スポット型アレイ(cDNA マイクロアレイ法)におけるインフォマティクス解析の基礎としては、(1)画像データとして得られた
発現データの規格化、(2)複数のアレイ間の再現性の評価、(3)一枚のマイクロアレイ実験の発現遺伝子による特徴づけ、(4)多変
量解析に基づいた遺伝子発現プロファイル解析、(5)遺伝子発現プロファイルのゲノム情報ならびに遺伝子機能分類との統合解
析が挙げられる。
これらの解析を可能とするシステムを Java ベースで構築した。
cDNA マイクロアレイから得られる発現情報、
遺伝子の機能分類を含むアノーテーション情報およびゲノム情報を統合的に解析する場合に、解析手法(インフォマティクス)と
これらのバイオ情報の組み合わせにより可能となる研究(解析目的)をバクテリアを例に整理した(図 3 上段)
。これらを達成
するためのシステムのプロトタイプを構築した。このシステムはマイクロアレイにスポットされている遺伝子について対照実験
と目的実験のシグナル強度とバックグラウンド強度による規格化からはじまり、上記の(1)-(5)の課題を達成する。そのメイン画
面を図 3 下段に示す。まずはじめに、MA プロットによる発現データの規格化は”Partial Av.Normarization”(図中①)ボタン
をクリックしファイルを選択することにより達成される。さらにゲノム情報および遺伝子機能分類により、発現量が有意に変化
した遺伝子ならびに機能クラスごとにこれらの遺伝子頻度を集計することにより一枚のマイクロアレイを特徴づけることがで
きる(プロセス①②③)
。同一の条件で複数のマイクロアレイを作成したときの遺伝子発現変化量の再現性はプロセス①④⑤⑧
⑨あるいは①④⑤⑨により達成される。④は選択されたマイクロアレイから発現変化量による行列を構築するプロセスであり、
⑤と⑥はそれぞれゲノム位置での遺伝子の並べ替えおよび同一の遺伝子に対する発現変化量の平均値を算出するプロセスであ
る。プロセス⑦ではゲノムに沿った遺伝子の発現プロファイルを視覚化できる。これにつづく、⑧は発現プロファイルの標準化
を行う。本システムでは標準化の方法としては、発現変化量による行列全体に対して平均値を0、標準偏差を 1 とするスケーリ
ング(”Autoscaling for all data”)、個々の実験に対して平均値を0、標準偏差を 1 とするスケーリング(”Autoscaling for variables”)、
遺伝子それぞれについて発現変化量の総和を1とするスケーリング(“Gene Scaling.(SUM=1)”)ならびに二乗和を1とするスケ
ーリング(“Gene Scaling.(SS=1)”)の 4 種のスケーリングが可能である。発現変化量による行列をもとに転写単位予測は⑩により
達成される。さらに、4 種類の非教師学習法(主成分分析、Batch-learning Self-organizing Map (BL-SOM)、Original SOM (OR-SOM)、
17
k-mean method) に よ る デ ー タ 解 析 ( プ ロ セ ス ⑪ ) お よ び 実 験 間 の 相 関 を 二 種 の 相 関 解 析 ( プ ロ セ ス ⑫ 、 ピ ア ソ ン 相
関”Correl(Pearson)”)ならびに方向余弦にによる相関(”Exp. Correl(cos)”)により検討できる。
図 3 (上段)マイクロアレイインフォマティクスの基本解析(インフォマティクス解析手法、バイオ情報と解析目的)
、
(下
段)MicroArray Informatics システム(メイン画面)
4. インストール
4.1 Java のインストール
本システムは Java(J2SDK1.4.1 以上)を予めインストールしておくことが必要である。
Java2 のインストールは、直接、
URL http://java.sun.com/
からインストールするか、あるいは適当なインストールディスクからインストールする。
18
4.2 TREBAX システムのインストール
(1) TREBAX フォルダをパーソナルコンピュータの適当なところへ移動する。
(2) TREBAX フォルダのプロパティの“読み取り専用“を解除する。
windows XP
TREBAX フォルダをマウスの左ボタンでプロパティを選択し、読み取り専用についているボタンを解除する。
さらに、
“このフォルダ、およびサブフォルダとファイルに変更を適用する”をクリックした後、”OK”をクリックする。
(3)環境設定
j2sdk1.4.2 をインストールした場合を例に説明する。
システム環境変数
JAVA_HOME
および値としてインストールした JAVA を
C:¥j2sdk1.4.2
と設定する。また Path として
C:¥j2sdk1.4.2¥bin
を追加する。
5. TREBAX フォルダの内容
TREBAX フ ォ ル ダ に は 、 フ ァ イ ル と し て mainf.jpg( メ ニ ュ ー 画 面 ) 、 Category.txt 、 memo.txt 、 Category.txt 、
BSGeneClassification.txt(これら4つのファイルについては第6章で説明)
、およびいくつかの実行形式ファイル(*.bat)と4つ
のフォルダ(GenBankSeq、MicroArray、MicroarrayData、MicroarrayOutput)が存在する。MicroArray フォルダ(TREBAX
プログラムの実行形式が格納)以外のフォルダ(MicroarrayData、MicroarrayOutput、GenBankSeq)にはユーザが指定したファ
19
イルを格納する。これらのフォルダの内容を以下に説明する。
5.1 GenBankSeq フォルダ
GenBankSeq フォルダには、解析する遺伝子が含まれている GenBank 形式で記述された配列データを入れる。GenBank 形
式におけるひとつの LOCUS により記述されているファイルを複数含めることができる。
5.2 MicroArray
MicroArray フォルダは class ファイルにより構成されている。
5.3 MicroarrayData
MicroarrayData フォルダはマスタファイル(MasterBS.txt)とマイクロアレイファイル(接頭辞が SORT**で始まる)からな
る。マスタファイルは、マイクロアレイのスポット ID と遺伝子名を対応づけるファイルである。また、マイクロアレイファイ
ルはマイクロアレイのスポット ID ごとにターゲット実験と比較実験におけるシグナル強度が記述されたファイルである。これ
らのファイルのフォーマットを以下に説明する。
マスタファイル(MasterBS.txt)
マスターファイルは作製したマイクロアレイに含まれる全てのスポットについて ID 名、遺伝子名、遺伝子番号、ゲノム上の位
置ならびに向きの情報を含む。スポット ID についてアルファベット順に並べておくことが必要である。また同一の cDNA から
なるスポットが複数存在するときには、その個数にあわせてスポット ID を含ませる。
スポット ID
遺伝子名
aadK
aadK
BG11037
2734911
2735762
-1
aadK
aadK
BG11037
2734911
2735762
-1
aapA
aapA
BG12556
2765783
2767159
1
aapA
aapA
BG12556
2765783
2767159
1
abfA
abfA
BG11900
2937401
2938900
-1
遺伝子番号
遺伝子の位置 1
遺伝子の位置 2
ゲノム上の向き
…………………………………………………………………………………………………..
…………………………………………………………………………………………………..
遺伝子名:GenBank で登録されている遺伝子名
ゲノムの向き:+鎖を1、-鎖を-1 とする。
マイクロアレイファイル(接頭辞が SORT**で始まる)
マイクロアレイファイルはスポット ID とコントロール実験と目的とした実験のシグナル強度とバックグラウンド居度からなる。
スポット ID はアルファベット順に並んでいること、また、4つの強度値は浮動小数点で記述されていることが必要である。
--- コントロール実験---
--- 目的とした実験 ---
スポット ID
シグナル強度 バックグラウンド強度
シグナル強度
aadK
758.820007
317.200012
739.359985
341.688904
aadK
583.299988
278.288879
463.0
196.800003
aapA
804.640015
350.044434
2193.23999
350.155548
aapA
818.619995
302.600006
2802.219971
340.777771
abfA
762.26001
309.422211
513.280029
309.444458
……….
20
バックグラウンド強度
5.4 MicroarrayOutput フォルダ
MicroarrayOutput フォルダは全ての出力ファイルを出力するためのフォルダである。
6. 遺伝子機能カテゴリーファイルの構築法
Category.txt と BSGeneClassification.txt は GenBank 遺伝子名とその機能分類を規定するファイルである。適当な表作成ソ
フ トを用い て表形 式で機 能分類を 作成し たものが BSGeneClassification.txt であ る。こ のファイ ルをバ ッチファ イル
ConverterClassifcation.bat により TREBAX システムで使用できる形式に変換したファイルが Category.txt である。
BSGeneClassification.txt
BSGeneClassification.txt の例を以下に示す。左側のカラムは、GenBank 配列データにおける遺伝子名を示す。この遺伝子が
帰属する機能クラス、サブクラスをタブ区切りにより作成する。ここで、同じクラスもしくはサブクラスに属する遺伝子群は、
連続した行に記述する。
GenBank
遺伝子名 クラス
サブクラス1
サブクラス2
yloA CellEnvelopeAndCellularProcesses
Adaptation
to
atypical
Adaptation
to
atypical
Adaptation
to
atypical
conditions
ynbA CellEnvelopeAndCellularProcesses
conditions
………
yxaB CellEnvelopeAndCellularProcesses
conditions
divIB CellEnvelopeAndCellularProcesses
Cell division
divIC CellEnvelopeAndCellularProcesses
Cell division
………
gid
CellEnvelopeAndCellularProcesses
Cell division
dltA CellEnvelopeAndCellularProcesses
Cell
wall
AnionicPolymerBiosynthesis
………
ファイル BSGeneClassificaiton.txt からファイル Category.txt への変換
ファイル BSGeneClassificaiton.txt からファイル Category.txt への変換は、ConvertClassification.bat をダブルクリックする
ことにより達成される。
21
ファイル Category.txt の内容確認
ファイル Category.txt の内容確認は、DatabaseEditor.bat をクリックすることにより実行される。Function Category をクリ
ックすることにより作成した機能分類ごとに遺伝子を確認することができる。また、遺伝子名をクリックすると GenBank 形式
で記述された配列情報をみることができる。
実行例を以下に示す。Function Category5.3 をダブルクリックにより選択した後、yneB をダブルクリックにより選択する(上
図)と、Gene Information ウインドウ(下図)に配列情報が出力される。Gene Information の下段にユーザのメモを記述でき
る。このユーザメモは memo.txt にセーブされる。
6.3. memo.txt
遺伝子機能についてのユーザコメントを残すためのファイルである。MicroArrayIfnormatics システムを実行する前に特にユー
ザーが特に設定する必要はない。
7.TREBAX システムの実行
TREBAXRun.bat をダブルクリックすると、メニュー画面が出力される。
22
解析の目的ごとの解析例を表に示す。
解析目的
解析手順
(a)特定の遺伝子破壊株と野生株において遺伝子発現の変化を解
8(a) 単一のマイクロアレイ解析
析する場合
(b) 複数のマイクロアレイ実験についての発現プロファイルが
8(b) 複数のマイクロアレイ解析
類似の遺伝子を探索する。
(c)同一の条件で複数回実験を行ったときの再現性のあるスポッ
8(c) 複数のマイクロアレイの再現性解
トと対応する遺伝子を探索する。
析
(d)バクテリアのゲノム情報と複数のマイクロアレイによる発現
8(d) 転写単位推定
プロファイルから転写単位を推定する。
(e)複数のマイクロアレイ間の関係をみたい。
8(e) マイクロアレイ相関解析
(f)ゲノムに沿って発現プロファイルを調べたい
8(f)ゲノム位置における発現プロファ
イル解析
8.マイクロアレイ解析
8 (a) 単一のマイクロアレイ解析法
単一のマイクロアレイ解析は(1)データの前処理、(2)マスターデータとの統合化、(3)機能分類解析の三つのプロセスにより達成
される(図)
。
図 単一のマイクロアレイを解析する手順
(1) データの相対値表現
cDNA マイクロアレイにおいては、各々のスポットに対して二つの実験(目的とする実験と対照とする実験)における mRNA
量を二つの色素を用いて測定し、それぞれの遺伝子における発現量変化を対数比により評価する。
Partial Av.Normalization ボタンをクリックすることにより、cDNA マイクロアレイにおける二つの実験間の偏り誤差を軽減
するための前処理(詳細は、前処理を参照)を行い、それぞれのスポットに対して二つの実験における補正対数比
~
Mi
Mi
Mˆ i
23
を算出する。
Plotter ボタンにより、それぞれの遺伝子のスポット ID に対して補正対数比と平均対数強度{ log[fi(Target)] + log[f i(Ref)] }/2 に対
するプロットを得ることができる。
(2) マスターファイルとの統合化:InfMerge via. MasterFile ボタンによりスポット ID と遺伝子名を対応づける。この操作に
より、遺伝子名に対して補正対数比と平均対数強度{ log[fi(Target)] + log[f i(Ref)] }/2 に対するプロットを得ることができる。Plotter
ボタンをクリックすることにより遺伝子名に対して補正対数比と平均対数強度{ log[fi(Target)] + log[f i(Ref)] }/2 に対する二次元プロ
ットを得ることができる。
(3) 機能分類解析:Statistics for all ArrayData ボタンによりユーザの設定した範囲(例えば、補正対数比において 10 倍以上
[log(fi(Target)/f i(Ref)) > log(10)]あるいは 1/10 以下[log(fi(Target)/f i(Ref)) < log(0.1)])の発現変化が得られた遺伝子を出力する。また、
機能カテゴリーごとの遺伝子の分布を出力する。
8.(b) 複数のマイクロアレイ解析法
複数のマイクロアレイ実験についての発現プロファイルが類似の遺伝子を探索する手順を図に示す。
(1) Partial Av.Normalization ボタンをクリックすることにより、cDNA マイクロアレイにおける二つの実験間の偏り誤差を軽
減するための前処理(詳細は、前処理を参照)を行い、それぞれのスポットに対して二つの実験における補正対数比
~
Mi
Mi
Mˆ i
を算出する。
(2) Data Merge ボタンにより複数のマイクロアレイデータを統合化する。この操作により遺伝子と選択した実験からなる発現
プロファイルマトリックスを構築する。
24
(3) Position Sorting ボタンによりゲノム上の位置によりスポット ID を並べ替える。
(4) Av(gene)ボタンにより複数個のマイクロアレイそれぞれについて遺伝子ごとの補正対平均値を求める。
(5)スケーリングボタン(5a-5d)により適切な方法を選び発現プロファイルマトリックスにおける各要素をスケーリングする。本
システムでは、発現プロファイルマトリックスをもとにユーザの目的にあった数値変換をスケーリングと呼ぶ。本システムに搭
載されている4つのスケーリング法について説明する。
オートスケーリング(Autoscaling)
Autoscaling for all data および Autoscaling for variables のいずれも平均値を 0、標準偏差を1となるように発現プロファイル
マトリックスの数値を変換する方法をオートスケーリング(Autoscaling)という。このスケーリングにより、変換後の値が平均値
からの標準偏差を単位とした変動の程度を得ることができる。Autoscaling for all data では、発現プロファイルマトリックス全
体の平均値と標準偏差に基づいて次式により発現プロファイルマトリックスの各要素 xsj を x’sj に変換する。
x ' sj
x sj
x
N M
1
( x sj
NM 1 s 1 j 1
x)
2
( x は、全ての xsj に対する平均値である。
)
Autoscaling for variables では、発現プロファイルマトリックスのそれぞれの変量について平均値と標準偏差に基づいて次式に
より発現プロファイルマトリックスの各要素 xsj を x’sj に変換する。
x'sj
xsj
N
s 1
( xsj
xj
( xj
x j )2
1
N
N
x sj
(j 番目の変量における平均値)である。
)
s 1
N 1
前者は、各々の変量のバラツキの程度を解析に含めたいときの変換法であり、後者は、変量ごとの標準偏差を一定とすることに
より、各々の変量のバラツキの程度を均一とする変換法である。
相対値表現
Gene Scaling (SUM=1)では個々の遺伝子に対して変量ごとの総和を1となるようにスケーリングする。また、Gene Scaling
(SS=1)では二乗和を1となるように変換する。後者は、発現プロファイルにおいて、正の相関のある遺伝子を探索するために使
われることが多い。
ボタン
スケーリング法
Autoscaling for all data
データマトリックス全体の規格化
統合したマイクロアレイデータ全体の平均値を 0、標準偏差を1に変換する。
Autoscaling for variables
各々の変量に対する規格化
統合したマイクロアレイデータについてそれぞれのマイクロアレイごとに平均値
を 0、標準偏差を1に変換する。
Gene Scaling. (SS=1)
各々の遺伝子について二乗和を1に変換
各々の遺伝子に対して、複数個のマイクロアレイについてのそれぞれの補正対数
比の二乗和が1となるように規格化する。複数のマイクロアレイにおける発現プ
ロファイルの相対量により類似の遺伝子を探索するときに有効な方法である。
Gene Scaling. (SUM=1)
各々の遺伝子について総和を1に変換
各々の遺伝子に対して、複数個のマイクロアレイについてのそれぞれの補正対数
比の総和が1となるように相対値に表す。負の値があるときには使用できない。
25
(6)4種の教師なり学習アルゴリズム(主成分分析、オリジナル自己組織化法、バッチラーニング自己組織化法、ならびに K-平
均法)から適当なものを選び、複数のマイクロアレイデータをもとに類似の発現プロファイルを有する遺伝子を探索する。
ボタン
解析法
PCA
主成分分析法(Principal component analysis)
OR-SOM
オリジナル自己組織化法(Original Self- Organizing Mapping)
BL-SOM
バッチラーニング自己組織化法 (Batch-learning Self-Organizing Mapping)
K-mean
k-平均法(k-mean methods)
(c) 複数のマイクロアレイの再現性解析
(1)データの前処理(Partial Av. Normalization)した後、(2)同一の条件で測定したアレイデータにより発現データ行列を作成する。
さらに、(3)MultiReproduction ボタンにより遺伝子ごとに、複数のマイクロアレイにおいて発現量変化に再現性を評価する。
(d)転写単位の推定
以下の5つのプロセスにより隣接遺伝子の発現プロファイル間の相関により転写単位を推定することができる。
(1) Partial Av.Normalization ボタンをクリックすることにより、cDNA マイクロアレイにおける二つの実験間の偏り誤差を軽
減するための前処理(詳細は、前処理を参照)を行い、それぞれのスポットに対して二つの実験における補正対数比
~
Mi
Mi
Mˆ i
を算出する。
(2) Data Merge ボタンにより複数のマイクロアレイデータを統合化する。この操作により遺伝子と選択した実験からなる発現
プロファイルマトリックスを構築する。
(3) Position Sorting ボタンによりゲノム上の位置によりスポット ID を並べ替える。
(4) Av(gene)ボタンにより複数個のマイクロアレイそれぞれについて遺伝子ごとの補正対平均値を求める。
(5) TUnit(Operon) Est により隣接遺伝子の発現プロファイル間の相関により転写単位を推定する。
26
(e) マイクロアレイ間の相関解析
8.(b)と同様の(1)-(5)のプロセスを実行したのち、 (6a)Exp.Correl(Peason)あるいは(6b)Exp.Correl(cos)により実験間の相関を評
価する。
ピアソン相関(6a)
N
i 1 ( xij
r (x j , x k )
N
i 1 ( xij
N
ここで、 x j
i 1
x j )( xik
x j )2
xk )
N
i 1 ( xik
xk ) 2
xij
N
である。
方向余弦(6b)
cos x j x k
N
i 1 x ij x ik
2
N
i 1 x ij
N x 2
j 1 ik
27
(f)ゲノム位置における発現プロファイル解析
以下の5つのプロセスにより隣接遺伝子の発現プロファイル間の相関により転写単位を推定することができる。
(1) Partial Av.Normalization ボタンをクリックすることにより、cDNA マイクロアレイにおける二つの実験間の偏り誤差を軽
減するための前処理(詳細は、前処理を参照)を行い、それぞれのスポットに対して二つの実験における補正対数比
~
Mi
Mi
Mˆ i
を算出する。
(2) Data Merge ボタンにより複数のマイクロアレイデータを統合化する。この操作により遺伝子と選択した実験からなる発現
プロファイルマトリックスを構築する。
(3) Position Sorting ボタンによりゲノム上の位置によりスポット ID を並べ替える。
(4) Av(gene)ボタンにより複数個のマイクロアレイそれぞれについて遺伝子ごとの補正対平均値を求める。
(5)Genome ボタンによりゲノムに沿った発現プロファイルを視覚化する。
9. 操作方法
メインウインドウにおけるボタンごとに解析法について以下に説明する。
28
A1 Partial Av. Normalization
プログラムの概要:補正対数比の算出
入力ファイル名:SORT**(MicroarrayData フォルダにファイルを格納しておく。)
出力ファイル名:SCAMA**
i 番目のスポットについての二つの実験(コントロール実験と目的実験)に対するシグナル強度を xi(Target)および xi(Control)とする
とき、対数比 log(xi(Target)/xi(Control))と平均強度 Avi= log(xi(Target) + xi(Control) )をもとにベースライン baselinei を算出し、補正対数
比 LOGi を求める。
LOGi = log(xi(Target)/xi(Control)) - baselinei
出力ファイル形式
スポット ID
補正対数比
平均強度
補正前対数比
データの質
aadK
-0.004624672175 3.5275269539164746
-0.2571246078693954
2
aadK
0.011476337804 3.445703582090392
-0.28151636258805857
2
aapA
0.029429323033 3.101906444100412
-0.3515651636819679
2
.............................................................
データの質
___________________________________________________________________________________________________________
データの質 Plotter に データの質の定義
のクラス
おける色
___________________________________________________________________________________________________________
-2
値が欠落して対数比が得られない
-1
シグナル値-バックグラウンド値が負となり対数比が求められない
0
オレンジ色 二つの実験に対するシグナル-バックグラウンド強度が0とみなされる範囲にある
1
緑
二つの実験のうち一方がシグナル-バックグラウンド強度が 0 とみなされる範囲にある
2
赤
統計的に有意でない補正対数比
(ピンク色
ユーザが定義した範囲の補正対数比)
10
青
統計的に有意な補正値
___________________________________________________________________________________________________________
29
30
A2 InfoMerge via. MasterFile
プログラムの概要:マスターファイルの情報と補正対数比の統合
入力ファイル名:SCAMA**
出力ファイル名:UNI**
出力ファイル形式(UNI**)
スポット ID
遺伝子名 遺伝子 ID
ゲノム上の位置と向き 補正対数比
平均対数強度
対数比
aadK
aadK
BG11037
2734951
2735805 -1
-0.205771
2.902527
-0.152103
2
aadK
aadK
BG11037
2734951
2735805 -1
-0.117921
2.465268
-0.035207
2
aapA
aapA
BG12556
2765826
2767205 1
-0.27580
3.064613
-0.24597
2
……………
……………
31
データの質
A3 Statistics for all ArrayData
プログラムの概要:ユーザー指定条件を満たす遺伝子の探索
入力ファイル名:UNI**
出力ファイル名:GENE**, HIST**
出力ファイルの例
GENE*ファイル 探索された遺伝子のリスト
閾値
Threshold log(min)=-0.6989700043360187
Threshold log(max)=0.6989700043360187
ファイル名と発現が有意に変化した遺伝子の数
UNISCAMASORTBSLB1 data.txt
1023
pos:
aapA
aapA
abrB
ahrC
alsS…..
neg:
acsA
acsA
acuC
acuC
ald .....
pos: 正に変化した遺伝子のリスト
neg: 負に変化した遺伝子のリスト
ylaN
3.389065
0.455198927
2.97028087
1
6.3
yoqF
3.058474
0.152058130
2.30419443
0
5.2
遺伝子名 補正対数比
機能グループ
平均対数強度
//
……
HIST*ファイル
Threshold log(min)=-0.6989700043360187
Threshold log(max)=0.6989700043360187
UNISCAMASORTBSLB1 data.txt
1023
pos:
66
6.3
In other organisms
35
6.4
No similarity
…….
neg:
41
6.3
In other organisms
35
4.2.3
Specific pathways
23
1.11.3.2
PrimaryTransporter
…….
//
UNISCAMASORTBSLB2 data.txt
942
pos:
64
6.3
In other organisms
25
6.4
No similarity
……..
……..
neg:
38
6.3
In other organisms
37
5.2
Phage-related functions
……..
1
5.1.2
SurfactineSynthesis
//
閾値
ファイル名 有意に変動した遺伝子の数
pos:正に変動した遺伝子の数の機能グループのリスト
遺伝子の数 機能グループ ID 機能グループ
neg:負に変動した遺伝子の数の機能グループのリスト
遺伝子の数 機能グループ ID 機能グループ
// 一つのファイルに関するリストの終了を示す。
32
対数比
データの質
B1 Data Merge
プログラムの概要:複数のマイクロアレイデータの補正対数比(-5 以上、5以下の補正対数比)を行列に表現する。
入力ファイル名:SCAMA**
出力ファイル名:MERGE**
出力ファイルの例
33
B2 Position Sorting
プログラムの概要:ゲノムの位置による並べ替え
入力ファイル名:MERGE**
出力ファイル名:POS**(出力ファイル形式:MERGE**と同じ)
34
B3 Av.(gene)
プログラムの概要:それぞれのマイクロアレイについて遺伝子ごとの平均値の作成
入力ファイル名:POS**
出力ファイル名:AV**(出力ファイル形式:MERGE**と同じ)
35
B4 Genome
プログラムの概要:ゲノムにおける位置と発現プロファイルの視覚化
入力ファイル名:AV**
出力ファイル名:
(なし)
Gene Information からウェブ検索ができる。
36
C1 Autoscaling for all data
プログラムの概要:複数のマイクロアレイデータ全体を平均0、標準偏差1となるようにスケーリングする。
入力ファイル名:AV**
出力ファイル名:AVSCAL**(出力ファイル形式:MERGE**と同じ)
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験を行ったときに、
遺伝子発現に関する特性値(LOG 値)xsj (s=1,2,…,N,
j=1,2,…,M)からなる行列(下図)を定義することができる。
この行列の全ての要素 xsj を以下の式によりスケーリングする。
x'sj
xsj
x
N M
1
( xsj
NM 1 s 1 j 1
x )2
ここで x は、全ての xsj に対する平均値である。
37
C2 Autoscaling for variables
プログラムの概要:それぞれのマイクロアレイごとに平均0、標準偏差1となるようにスケーリングする。
入力ファイル名:AV**
出力ファイル名:AVAS(出力ファイル形式:MERGE**と同じ)
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験を行ったときに、
遺伝子発現に関する特性値(LOG 値)xsj (s=1,2,…,N,
j=1,2,…,M)からなる行列(下図)を定義することができる。
この行列の全ての要素 xsj を以下の式によりスケーリングする。
x'sj
xsj
N
s 1
( xsj
ここで、 x j
xj
x j )2
N 1
1
N
N
x sj
である。
s 1
38
C3 Gene Scaling (SS=1)
プログラムの概要:遺伝子ごとに複数のマイクロアレイデータの自乗和が1となるようにスケーリングする。
入力ファイル名:AV**
出力ファイル名:AVGN2(出力ファイル形式:MERGE**と同じ)
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験を行ったときに、
遺伝子発現に関する特性値(LOG 値)xsj (s=1,2,…,N,
j=1,2,…,M)からなる行列(下図)を定義することができる。
それぞれの遺伝子(s)における M 個の要素 xsj(j=1,2,…,M)を以下の式によりスケーリングする。
x'sj
xsj
M
j 1
x j2
39
C4 Gene Scaling. (SUM=1)
プログラムの概要:遺伝子ごとに複数のマイクロアレイデータの和が1となるようにスケーリングする。
入力ファイル名:AV**
出力ファイル名:AVGN1**(出力ファイル形式:MERGE**と同じ)
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験を行ったときに、
遺伝子発現に関する特性値(LOG 値)xsj (s=1,2,…,N,
j=1,2,…,M)からなる行列(下図)を定義することができる。
それぞれの遺伝子(s)における M 個の要素 xsj(j=1,2,…,M)を以下の式によりスケーリングする。
x' sj
x sj
M
x sj
j 1
40
E1 TUnit (Operon) Est
プログラムの概要:転写単位の推定
入力ファイル名:AV**
出力ファイル名:TUest**, TUNITvote.txt
出力ファイル形式(TUNITvote.txt)
カラムの左から出現回数、予測オペロンに含まれる遺伝子数および遺伝子を出力する。
(出力例)
5
5
2
3
2
2
1
4
1
1
yceC
rapJ
yceD yceE
yceF
yceG
opuAA
opuAB
opuAC
yceG opuAA
opuAB
opuAC
ycdF
yceA
//
1
3
ycgE
ycgF
nadE
…
…
出力ファイル形式(TUest**)
TUest**ファイルには TUNITvote.txt を得る過程で用いた統計情報が格納される。
アルゴリズム
第 s 番目の遺伝子の発現プロファイルは M 次元のベクトルにより記述することができる。
xs
xs1, xs 2 ,K, xsj ,K, xsM
ベクトルで記述された x s , xt を用いて、ゲノム上で隣接しかつ同一のDNA鎖に位置する二つの遺伝子(s, t)の発現プロファイ
41
ルの相関により転写単位を予測するアルゴリズムを以下に示す。このアルゴリズムでは必ずしも隣接遺伝間の相関に関する情報
が得られなくとも転写単位を推定することができる。
発現プロファイルとゲノム情報に基づいた転写単位推定アルゴリズム
ステップ 1: 同一のディレクトンに属する遺伝子間の相関係数の算出
同一のディレクトンに有する第 s 番目と第 t 番目の遺伝子対の発現プロファイル x s , xt の間の相関係数 r
こで、 s
1,2,K , N , t
s, t
を算出する。こ
1,2,K , N であり、N は、注目したディレクトンに属する遺伝子の総数である。
ステップ2:隣接関係を考慮した発現相関のある遺伝子の 3’方向への探索
第 s 番目の遺伝子の発現プロファイル x s と隣接する遺伝子(s+1 )の発現プロファイル x s
1 に有意な相関があるとき、転写単
位集合Цにこの遺伝子を帰属させる。つづいて、s 番目と s+2番目の遺伝子発現プロファイルにおいて有意な相関が得られると
きに s+2番目の遺伝子を集合Цに帰属させる。この操作を s+3, s+4,…と繰り返し有意な相関が得られなくなったところで終了
する。
ステップ3:隣接関係を考慮した発現相間のある遺伝子の 5’方向への探索
s-1 番目,s-2 番目・・・ に対して同様の操作を行う。
ステップ4:転写単位区間の候補の列挙
(2)と(3)により得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子により挟まれた遺伝子群を一つの転写
単位と推定する。
文献
Fujii, N., Akitomi, J., Kobayashi, K., Ogasawara, N., Kanaya, S. (2003) Regulator identification by expression profiles of transcriptional
factor mutants and promoter sequence in Bacillus subtilis, Genome Informatics, 14, 396-397.
42
F1 PCA
プログラムの概要:主成分分析法
入力ファイル名:AV**
出力ファイル名:PCA**
1.操作法
主成分分析法
ファイルを選択すると主成分分析が開始される。
Viewer
フ ァ イル と主 成分 軸を 選択 する と主 成分 スコ ア(Principal Component Score)、 因子 負荷 量(Factor Loadings) 、% 分散
(%Variance)、累積寄与率(Cumulative Variance)が得られる。
2.主成分分析法
(a)主成分スコア
主成分分析法(Principal Component Analysis)とは多変量データの最大分散に着目した二次元線形写像法である。主成分分析法
の概要を図に示す。
43
いま、N 個の遺伝子からなるマイクロアレイを用いて M 個の実験により発現プロファイルを測定したとするとき、s 番目の遺
伝子における j 番目の実験における発現変量(補正対数比)を xsj とする(s=1,2,…, N; j=1, 2, …, M)
。
M 個のマイクロアレイにおける発現変量を大文字(X1, X2, …, XM)で表す。このとき第1主成(Z1)は M 次元の多変量空間において
最大の分散をもつ軸、第2主成分(Z2)は第1主成分に直交する二番目に大きな分散を有する軸である。それぞれの軸は、M 個の
変量(X1, X2, …, XM) の線形和で表す。すなわち第 k 主成分軸(Zk)は
Zk
bk1 X 1 ... bkM X M
により表現する。ここで、
M
b
j 1 kj
(1)
2
1 である。この Zk の第k番目の主成分スコアと呼ぶ。
本プログラムでは以下の式により平均値が原点となるように変換( x sj
Xj
N
i 1
x sj
xij N である。(詳細な主成分の計算法は理論的背景で説明する)。
44
X j )した後、主成分を算出する。ここで、
(b)因子負荷量(Factor Loadings)
式(1)によりそれぞれの遺伝子に対して第k主成分スコアを求めたとする。第 j 番目の変量と第 k 番目の主成分スコアの間の相関
係数を変量jと第k主成分の因子負荷量とよぶ(式および図)
。
N
( xij
X j )( z ik
Zk )
i 1
r( X j , Z k )
N
( x ij
X j)
i 1
(2)
N
2
( z ik
Zk )
2
i 1
図 因子負荷量 r(Xj, Zk)の概念図
第 j 番目の変量と第 k 主成分が正の相関を有するとき、第 j 番目の変量は第 k 主成分に正に寄与するという。一方、第 j 番目の
変量と第 k 主成分が負の相関を有するとき、第 j 番目の変量は第 k 主成分に対して負に寄与するという。
(c)(%Variance)
M 個の変量の全分散に対する第k主成分の分散をパーセント分散(%Variance)とよぶ(式(3))。
N
%Var ( Z k )
M
( z ik
Zk )2
i 1
N
100
( xij
X j)
(3)
2
j 1 i 1
%Var は全体の変量における遺伝子の分布に対する主成分プロットに反映される程度の指標である。例えば、主成分第1および
2軸の%Var の合計が 70%であれば、M 個の変量における遺伝子の分布の分散の 70%がこれら二つの軸に反映されているとい
うことになる。
出力ファイル
45
>percentVar
0.3831
0.2233
0.1067
…..
>proportion
0.3831
0.6064
0.7132
…..
>SCAMACold2.txt 0.7513
0.2814
0.0948
…..
>SCAMACold6.txt 0.6965
0.1636
0.4484
.....
.....
>SCAMASCM1txt 0.7285
-0.0584 -0.0094
.....
yaaA
0.9322
0.1717
0.1905
.....
recF
0.8907
0.0979
0.3621
.....
yaaB
0.9360
0.0920
0.2696
.....
.....
.....
.....
.....
.....
.....
…..
…..
…..
….
gyrB
0.9526
0.1145
0.1145
.....
>percentVar
第1主成分から第 M 主成分に対する%Var
>proportion
第1主成分から第k主成分(k=1,2,...,M)までの累積寄与率
因子負荷量
M 個の変量における変量名、各々の主成分に対する因子負荷量
>SCAMACold2.txt
0.7513
0.2814
0.0948
…..
.....
各々の遺伝子に対する主成分スコア
N 個の遺伝子における遺伝子名、各々の主成分スコア
yaaA
0.9322
0.1717
0.1905
.....
.....
…..
…..
…..
….
3 理論的背景
M 個の変量 X1 , X 2 ,…, X M からなるデータマトリックスについて平均値を基準とした線形和により第 k 主成分(Zk)を表す。
Zk
bk1 ( X1
X1 ) ... bkM ( X M
(T1)
XM )
ここで、 X j は j 番目の変量における平均値である。また、係数(bk1, bk2,…, bkM)は
M
b
2
j 1 kj
1
(T2)
により規格化されているものとする。式(T1)をデータマトリックスの要素で記述すると式(T3)となる。
zik
bk1(xi1 X1) ... bkM (xiM XM )
(T3)
主成分スコア( zik )の二乗和 SS における最大値を求めることにより主成分軸を構築する。
SS
N
( zik ) 2
(T4)
i 1
Lagurange の未定乗数法により SS を最大化したときの係数(bk1, bk2,…, bkM)を求める。いま、
46
N
SS
( zik ) 2
i 1
2
N
i 1
bk1 ( xi1
X 1 ) ... bkM ( xiM
XM )
である。主成分分析では式(T2)の制約条件のもとで SS を最大とする(bk1, bk2,…, bkM)を求める。そのために Lagrange の未定乗数
法を用いる。SS と制約条件からなる関数 F を式(4)により定義する。
M
F (bk 1 ,..., bkM )
SS
bku
2
1
(4)
u 1
SS を最大化することは、
F (bk 1 ,..., bkM )
bkj
0
(5)
を求めることに帰着する。ここで j=1,2,…M である。式(5)を解くと M 個の同次方程式が得られる。
N
bk 1
X1)2
( x i1
i 1
bk 1
N
( xi2
bk 2
X 2 )(x i1
i 1
N
( x i1
X 1 )( x i 2
i 1
N
X 1 ) bk 2
X 2)
...
X 2 )2
( xi 2
i 1
bkM
... bkM
N
( x i1
X 1 )( xiM
XM )
( xi 2
X 2 )( xiM
XM ) 0
i 1
N
i 1
0
……
N
bk1 ( xiM
X M )( xi1
i 1
X1) bk 2
N
( xiM
i 1
XM )( xi 2
X 2 ) ... bkM
N
( xiM
i 1
X M )2
0
これらの同次方程式は式(6)のように行列によりあらわすことができる。
X1)2
N
i 1 ( xi1
N
i 1 ( xi 2
X 2 )( xi1
N
i 1 ( xi1
N
i 1 ( xi 2
X1)
.....
X1)( xi 2
X2)
X 2)
2
....
....
.....
N
i 1 ( xiM
X M )( xi1
X1 )
N
i 1 ( xi1
N
i 1 ( xi 2
X 1)( xiM
XM )
bk1
X 2 )( xiM
XM )
bk 2
.... ....
N
i 1 ( xiM
X M )( xi 2
X 2 ) ....
N
i 1 ( xiM
X M )2
...
bkM
0
(T6)
式(2)より、全ての係数(bk1, bk2,…, bkM)が0とはならない条件でλを求めることは式(7)の行列式を解くことに帰着する。
N
i 1(xi1
N
i 1(xi2
X1)2
X2)(xi1 X1)
.....
N
i 1(xiM
N
i 1(xi1
N
i 1(xi2
X1)(xi2 X2)
....
X2)
....
2
.....
XM)(xi1 X1)
N
i 1(xiM
N
i 1(xi1
N
i 1(xi2
X1)(xiM XM)
X2)(xiM XM)
.... ....
XM)(xi2 X2) ....
ここで得られた固有値λを大きい順に 1, 2,…,
N
i 1(xiM
0
(T7)
XM)2
M とする。これらのλ値をもとに式(T6)を解くことにより係数(bk1,
得られ、さらに、式(T1)における主成分スコアを求めることができる。固有値 1, 2,…,
の分散と対応する。
47
bk2,…, bkM)が
M は、それぞれ、第1、2、…、M
番目
F2 BL-SOM と F3 OR-SOM
プログラムの概要:一括処理型自己組織化マップ法(BL-SOM)
入力ファイル名:AV**
出力ファイル名:WTSPCA**, WTSRND**, WTSSOM**, CLSOM**
1.操作法
自己組織化地図の構築は (1) 初期ウエイトベクトルの作成、(2) 学習過程、(3) 構築したウエイトベクトルに基づいた遺伝子の
分類により達成される。(1)初期ウエイトベクトルの作成において、本システムでは、入力データ(それぞれの遺伝子の発現プ
ロファイルが格納されたファイルであり、接頭辞において AV をもつ。
)における主成分軸をもとに初期値を設定する方法、な
らびに、ランダム値を初期値に設定する方法の2種類が搭載されている。主成分軸に基づいた初期値は出力ファイル名の接頭辞
が WTSPCA と指定されたファイルに出力される。また、ランダム値に基づいた初期値は出力ファイル WTSRND を接頭辞にも
つファイルに格納される。つづいて、(2)学習過程では、初期ウエイトベクトルファイル(WTSPCA あるいは WTSRND)と入力デ
ータをもとに、入力データの多変量分布に適合するようにウエイトベクトルを構築する。構築されたウエイトベクトルは、接頭
辞に WTSSOM をもつファイルに格納される。さらに、(3)構築したウエイトベクトルに基づいた遺伝子の分類では、入力デー
タと WTSSOM により遺伝子の発現プロファイルと最もユークリッド距離が小さいウエイトベクトルに対する格子点に分類さ
れる。分類結果は CLSOM を接頭辞にもつファイルに格納される。操作法を以下に述べる。
(1) 初期ウエイトベクトルの作成
(2) 学習過程
48
Data Set から選択する入力ファイルは(1)で選んだファイルと同じものを選ぶ。また、(1)で構築された Weight Matrix を選択す
る。
(3) 構築したウエイトベクトルに基づいたマッピング
Data Set から選択する入力ファイルは(1)で選んだファイルと同じものを選ぶ。また、(2)で構築された Weight Matrix を選択す
る。
(4) 発現プロファイル解析
49
出力ファイル形式(ウエイトベクトルファイル)
ウエイトベクトルに関わる出力ファイル(WTSPCA、WTSRND、WTSSOM)は以下に示す同一の形式である。
>SCASORT1
>SCASORTLB
…..
>SCASORTMM
>XSIZE=30
>YSIZE=13
0
0
0.5701
0.6855
-0.0849
……
0
1
0.3771
0.4799
-0.1988
……
…
…
…..
…..
…..
……
29
11
1.3685
1.3158
1.9604
……
29
12
1.1755
1.1102
1.8465
……
変量名
>SCASORT1 から>SCASORTMM までは解析に用いたマイクロアレイ実験名と対応する。
自己組織化地図のサイズ
>XSIZE=30 は、自己組織化地図のx方向(水平方向)の格子点数を、>YSIZE=13 はy方向(垂直方向)の格子点数を表す。
格子点のウエイトベクトル
各格子点の x 座標、y座標、およびウエイトベクトルの順に格納される。
出力ファイル形式(CLSOM)
遺伝子分類ファイルの形式を以下に示す。
>SCASORT1
>SCASORTLB
…..
>SCASORTMM
yaaA
17
6
0.0019
0.1128
0.0188
......
recF
12
9
0.0021
0.0336
-0.0134 ......
.....
.....
.....
.....
.....
.....
......
変量名
>SCASORT1 から>SCASORTMM までは解析に用いたマイクロアレイ実験名と対応する。
遺伝子分類
遺伝子ごとに、遺伝子名、分類された格子点のx座標、y座標、発現プロファイルと分類された格子点へのユークリッド距離、
発現プロファイルの順に格納される。たとえば、
yaaA
17
6
0.0019
0.1128
0.0188
......
については、yaaA は遺伝子名、17, 6 は yaaA が分類された格子点のx座標とy座標、0.0019 は yaaA 遺伝子の発現プロファイ
ルと座標(17,6)のウエイトベクトルとのユークリッド距離は 0.0019 であることを示す。また、0.1128, 0.0188, ....は変量
SCASORT1、SCASORTLB、...における発現量である。
50
2. BL-SOM および OR-SOM のアルゴリズム
BL-SOM のアルゴリズムの概念図を図に示す。BL-SOM は、(1)初期値設定、(2)ウエイトベクトルの開発、(3)開発されたウエ
イトベクトルによる遺伝子の分類の三つのステップからなる。
(1)初期値の設定
第 s 番目の遺伝子の M 個のマイクロアレイに対する発現プロファイルを xs= (xs1 ,xs2 ,…, xsM)とする。二次元の格子点を i,j (i
= 1, 2, …, I, j = 1, 2, …, J)とする。二次元の格子点(ij)上に M 次元のリファレンスベクトル wij=(wij1, wij2 ,…, wijM)を
置く。初期リファレンスベクトルは、入力ベクトル xi の平均 xave を基準とした 2 つの主成分軸により設定する。入力ベクトル
xi に対して得られた主成分第 1 および第 2 ベクトルを b1 および b2 とする。これら二つの軸に対する入力ベクトルの標準偏差を
σ1 およびσ2 とする。また、入力ベクトルの平均ベクトルを xave としたとき、wij は式(2)により定義した。
w ij
x ave 5 1b1
i I/2
I
5 1b2
j
J /2
J
(2)
ここで、J = I σ1/σ2 とする。
(2)ウエイトベクトルの開発
コホネンの SOM アルゴリズム(OR-SOM)においては、リファレンスベクトル wij に作用する入力ベクトル xi により逐次 wij を更新
する。
w (ijnew)
w ij(old )
(t ) x k
w (ijold )
(3)
ここでα(t)は、学習係数(0 < α(t) < 1)である。また、ij の近傍に関してもリファレンスベクトルの更新を行う。この方法
ではデータの入力順が wij に反映される。すなわち、入力順が後である入力ベクトルほどリファレンスベクトル wij に影響を及ぼ
51
す。本研究では、入力順によるリファレンスベクトルへの影響を回避するためのアルゴリズムを検討した。はじめに、全ての入
力ベクトル xk を最小のユークリッド距離を有するリファレンスベクトル wi’j’に分類する。つぎに次式によって、リファレンス
ベクトル wij を更新する。
xk
w (ijnew)
ここで、近傍 Sij は i
(t )
w (ijold )
i' i
(t )
(t ) かつ j
x k S ij
Nij
(t )
w (ijold )
j'
(4)
j
(t ) の条件を満たす格子点 i’j’に分類された入力ベクト
ル xk の集合、Nij は Sij の要素数である。また、α(t)は学習係数、
β(t)は近傍を決定する数である。学習は次式によって
定義する二乗誤差で評価する。
e( t )
N
{x k
k 1
w i' j '}2
(5)
ここで i’j’は xk が分類された格子点である。(k=1, 2, ..., N)
(3)遺伝子の分類
各々の遺伝子について発現プロファイルと全てのウエイトベクトルとの距離を求め、最小の距離を有するウエイトベクトルと対
応する格子点に遺伝子を分類する。
文献
Nishio, H., Md.Altaf-Ul-Amin, Sato, T., Wada, K., Wada, Y., Minato, K., Kobayashi, K., Ogasawara, N., Kanaya, S., (2003) Visualization of
gene classification based on expression profile using BL-SOM, Proc. of WSOM’03, pp. 101-106.
F3 OR-SOM
プログラムの概要:自己組織化マップ法(オリジナル法)
入力ファイル名:AV**
出力ファイル名:WTOPCA**, WTRND**, WTOSOM**, CLOSOM**
1 操作方法
操作方法 BL-SOM と同じ。
(学習過程において入力データにより逐次重みベクトルを更新する。)
2 アルゴリズム
OR-SOM のアルゴリズムは BL-SOM を参照。
52
F4 K-mean
プログラムの概要:k-平均法
入力ファイル名:AV**
出力ファイル名:CLKM**
出力ファイル形式
2.アルゴリズム
N 個の遺伝子にそれぞれに M 種類の実験条件による相対遺伝子発現量が測定されたとすると,NxM の行列によりこれらの発
現量を表現することができる式 1 により記述される行列をもとに K-平均法の説明をする。
GENE
gene1
gene2
X1
x11
x21
X2
x12
x22
...
...
...
Xj
x1 j
x2 j
...
...
...
XM
x1M
x2 M
...
...
genei
...
...
...
xi1
...
...
...
xi 2
...
...
...
...
...
...
...
xij
...
...
...
...
...
...
...
...
geneN 1
geneN
...
x N 11
xN1
...
...
...
xN 12 ... xN 1 j
x N 2 ... xNj
xiM
...
1
1
1
1
...
...
... x N 1M 1
... x NM 1
XM
x1M
x2 M
...
...
xiM
...
(1)
...
x N 1M
x NM
(1) パラメータ設定
分類するクラスの数 K ならびに学習回数 nc を設定する.また,ncycle=0 とする.
(2) 初期分類:遺伝子を K 個のクラスに分類する.クラス1,2,
.
.
.
,K に属する遺伝子の数をそれぞれ n1,n2,…,nK とする.
53
(1)
x11
(1)
x21
gene1
gene2
クラス1
..
x12
(1)
...
x1 j
(1)
x22
(1)
...
x2 j
...
...
...
genen1
(1)
( 2)
gene1
( 2)
gene2
..
( 2)
genen2
クラス 2
(1)
...
(1)
n1 1
x
( 2)
x11
(2)
x 21
...
( 2)
x n2 1
xn1 2
(1)
(2)
x12
( 2)
x 22
...
( 2)
x n2 2
(1)
...
x1m
x1m
(1)
...
x
x2 m
... xn1 j
(1)
1
(1)
2m 1
...
(1)
...
... x
( 2)
(1)
...
(1)
n1 m 1
xn1m
( 2)
... x1 j
( 2)
... x 2 j
...
...
( 2)
... x n2 j
(1)
(1)
(2)
... x1m 1
( 2)
... x 2m 1
...
...
( 2)
... x n2 m 1
x1m
( 2)
x2 m
...
(2)
x n2 m
::::::::::::::::::::::
クラス K
gene1
(K )
x11
gene2
(K)
x21
..
クラス1
x1
クラス2
x1
(classk )
( class1)
( class 2 )
x12
(K)
...
x1 j
(K )
...
(K)
x22
(K )
... x2 j
(K)
... x2m 1
...
genenK
(3)クラス内平均( x j
(K )
(K )
xnK 1
...
(K )
xnK 2
(K)
...
...
... xnK j
(K)
x1m 1
...
(K )
x1m
(K)
x2m
...
... xnK m 1
(K )
(K )
...
(K)
xnK m
(K )
)を求める。
x2
( class1)
( class 2 )
x2
.
.
.
.
... ... x j
... ... x j
( class1)
( class 2 )
... x m
... x m
( class1)
( class 2 )
.
.
.
.
.
.
.
x1
クラス k
( classk )
( classk )
x2
.
.
.
.
... ... x j
( classk )
... x m
( classk )
.
.
.
.
.
.
.
.
.
.
.
x1
クラス K
( classK )
x2
( classK )
... ... x j
( classK )
... xm
( classK )
(4)遺伝子を K 個のクラスのうち最小の距離を有するクラスに新たに分類する。
d (i , j )
m
s 1
x is
xs
(classj )
2
ここで i は第 i 番目の遺伝子を,j は第j番目のクラスを示す。
(5) ncycle を1インクリメントし、ncycle < nc かつ分類結果が前回と異なるとき、(3)にもどる。
(6)遺伝子の分類結果ならびにクラスごとの平均値を出力し,プログラムを終了する。
54
G1 Exp.Correl(Pearson)
プログラムの概要:マイクロアレイ実験間のピアソン相関係数を求める。
入力ファイル名:AV**
出力ファイル名:EXPC**
1. 操作法
2. 相関係数
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験により発現プロファイルを測定したとするとき、s 番目の遺伝子に
おける j 番目の実験における発現変量(補正対数比)を xsj とする(s=1,2,…, N; j=1, 2, …, M)
。
j 番目と k 番目の実験の相関係数を式(1)に示す。
N
( xij
r( X j , X k )
X j )( xik
Xk )
i 1
N
( xij
X j )2
i 1
(2)
N
( xik
X k )2
i 1
出力ファイル形式
/MicroarrayOutput/AVtest.txt
>SCASORTLB1
1.0000
0.8903
0.6638
0.6321
…..
>SCASORTLB2
0.8903
1.0000
0.6994
0.6142
…..
>SCASORTMX
0.6638
0.6994
1.0000
0.7878
…..
……
…..
…..
…..
…..
…..
第1行目に相関解析をおこなったファイル名が格納される。ここでは、
/McroarrayOutput/Avtest.txt
が相関解析をおこなったファイル名である。
第2行目から相関データである。上の例では、(1,2)の位置にある小数点数(0.8903)は、第1番目の変量(実験 SCASORTLB1)
と第2番目の変量(SCASORTLB2)の相関、(2,3)の位置にある小数点数(0.6994)は、第 2 番目の変量(実験 SCASORTLB2)
と第 3 番目の変量(SCASORTMX)の相関であることを示す。
55
G2 Exp.Correl(cos).
プログラムの概要:マイクロアレイ実験間の方向余弦を求める。
入力ファイル名:AV**
出力ファイル名:EXPCOS**
1. 操作法
2. 方向余弦
N 個の遺伝子からなるマイクロアレイを用いて M 個の実験により発現プロファイルを測定したとするとき、s 番目の遺伝子に
おける j 番目の実験における発現変量(補正対数比)を xsj とする(s=1,2,…, N; j=1, 2, …, M)
。
j 番目と k 番目の実験の方向余弦を以下に示す。
cos x j x k
N
i 1 x ij x ik
2
N
i 1 x ij
N x 2
j 1 ik
出力ファイル形式
G1 Exp.Correl(Pearson)と同一の形式である。
56
参考文献
1. Experimental methodology developed
Significant of Digital Gene Expression Profiles (SAGE)
Audic,S., and Claverie, J. M. (1997) The significance of digital gene expression profiles, Genome Res., 7, 986-995.
von Kampen, A., van Schaik, B., pauws, E., Michiels, E., Ruijter, J., Caron, H., Versteeg, R., Heisterkamp, S., Leunissen, J., Baas, F., and
van der Mee, M. (2000) USAGE: A web-based approach towards the analysis of SAGE data. Bioinformatics, 16, 899-905.
Lash, A., Tolstoshev, C., Wagner, L., Schuler, G.., Strausberg, R., Riggins G., and Altschul, S. (2000) SAGE map: A public gene expression resource. Genome
Res., 10, 1051-1060.
Man, M. Z., Wang, X., and Wang, Y. (2000) POWER_SAGE: Comparing statistical tests for SAGE experiments. Bioinformatics, 16, 953-959.
Velculescu, V., Zhang, L., Vogelstein, B., and Kinzler, K. (1995) Serial analysis of gene expression. Sci., 270, 484-487.
Yamamoto, M., Wakatsuki, T., Hada, A., and Ryo, A. (2001) Use of serial analysis of gene expression (SAGE) technology. J. Immunol. Methods, 250, 45-66.
Differential display
Matz, M., Usman, N., Shagin, D., Bogdanova, E., and Lukyanov, S. (1997) Ordered defferential display: A simple method for systematic comparison of gene
expression profiles. Nucleic Acids Res., 25, 2541-2542.
GeneChip
Baugh, L. R., Hill, A. A., Brown, E. L., and Hunter, C. P. (2001) Quantitative analysis of mRNA amplification by in vitro transcription. Nucleic Acids Res., 29,
E29.
Lipshutz, R., Fodor, S., Gingeras, T., and Lockhart, D. (1999) High density synthetic oligonucleotide arrays. Nature Genetics Chipping Forecast, 21, 20-24.
Lockhart, D. J., Dong, H., Byrne, M., Follettie, M., Gallo, M., Chee, M., Mittmann, M., Wang C., Kobayashi, M., Horton, H., and Brown, E. (1996)
Expression monitoring by hybridization to high-density oligonulcleotide arrays. Nature Biotech. 14, 1675-1680.
Wodicka, L., Dong, H., Mittmann, M., Ho, M., and Lockhart, D. (1997) Genome-wide expression monitoring in Saccharomyces cerevisiae. Nature Biotech.,
15, 1359-1367.
cDNA microarray
Bao, P. Frutos, A., Greef, C., Lahiri, J., Muller, U., Peterson, T., Warden, L., and Xie, X., (2002) High-sensitivity detection of DNA hybridization on
microarrays using resonance light scattering., Anal. Chem., 74, 1792-1797.
Bowtell, D. (1999) Options available – from start to finish – for obtaining expression data by microarray. Nature Genet. (supplement), 21, 25-32.
Brown P., and Botstein, D. (1999) Exploring the new world of the genome with DNA microarrays, Nature Genetics, 21 (Suppl. 1), 33-37.
Schena, M., Shalon, D., Davis, R., Brown, P. (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Sci., 270,
467-470.
Pennie W. (2002) Custom cDNA microarrays: technologies and applications. Toxicol., 181/182, 551-554.
Xiang, C., and Chen, Y. (2000) cDNA microarray technology and its application., Biotechnol. Adv., 18, 35-46.
2. Data processing
2.1 Microarray design
Kerr. M. and
Churchill,G. (2001) Experimental design for gene expression microarrays., Biostatistics, 2, 183-201.
Churchill G. (2002) Fundamentals of experimental design for cDNA microarrays, Nature Genet., 32, 490-495.
57
2.2 Image analysis
Chen Y., E.R. Dougherty, and M. L. Bittner, (1997) Ratio-based decisions and the quantitative analysis of cDNA microarray image, J. Biomedical Optics, 2,
364-374.
Jain, A., Tokuyasu, T., Snijders, A., Segraves, R., Albertson, D., and Pinkel, D. (2002) Fully automatic quantification of microarray image data.
(http://jainlab.ucsf.edu/Projects.html), Genome Res., 12, 325-332.
Bozinov, D. and Rahnenführer, J. (2002) Unsupervised technique for robust target separation and analysis of DNA microarray spots through adaptive pixel
clustering, Bioinformatics, 18, 747-756.
Schena, M., Shalon, D., Davis, R.W., Brown, P. (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Sci., 270,
467-470.
Brown, P. and Bptsteom. D., (1999) Exploring the new world of the genome with DNA microarrays., Nature Genet., 21, 33-37.
Nagarajan R, (2003) Intensity-based segmentation of microarray images. IEEE Trans. Med. Imaging., 22, 882-889.
2.3 Signal Assessment
2.3.1 Normalization
Baum, M. Bielau, S., Rittner, N., Schmid, K., Eggelbusch, K., Dahms, M., et al. (2003) Validation of a novel, fully integrated and flexible microarray benchtop
facility for gene expression profiling., Nucleic Acids Res., 31, e151.
Dudoit, S. et al., (2002) Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments., Statistica Sinica, 12,
111-139.
Dudoit, S., Fridlyand, J., and Speed, T. P., (2002) Comparison of discrimination methods for the classification of tumors using gene expression data, J. Am.
Statistcal Assoc., 97, 77-87.
Kerr M. K. and G. A. Churchill, (2001) Bootstrapping cluster analysis: assessing the reliability of conclusions from microarray experiments., Proc. Nat. Acad.
Sci., 98, 8961-8965.
Lee, M. Kuo, F., Whitmore, G., and Sklar, J., (2000) Importance of replication in microarray gene expression studies: Statistical methods and evidence from
repetitive cDNA hybridizations., Proc. Natl. Acad. Sci. USA., 97, 9834-9839.
Newton M. A. et al., (2000) On differential variablitiy of expression ratios: improving statistical inference about gene expression changes from microarray data.
J. Computational Biol., 8, 37-52.
Pritchard, C.C., Hsu, L., Delrow, J., and Nelson, P. (2001) Project normal; Defining normal variance in mouse gene expression., Proc. Natl. Acad. Sci. USA.,
98, 13266-13271.
Quackenbush, J. (2002) Microarray data normalization and transformation, Nature Genetics, 32, 496-501.
Tan, P., Downey, T., Spitznagel Jr., E., Xu, P., Fu, D., Dimitrov, D., Lempicki, R., Raaka, B., and Cam. M., (2003) Nucleic Acids Res., 31, 5676-5684.
Townsend, J.P., and Hartl, D. L., (2002) Bayesian analysis of gene expression levels: statistical quantification of relative mRNA level across multiple strains or
treatments. Genome Biol, 3, 0071.1-0071.16.
Tseng, G. C. et al., (2001) Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects,
Nucleic Acids Res., 29, 2549-2557.
Yang, Y. Dudoit, S., Luu, P., Lin D., Peng, V., Ngai, J., and Speed, T., (2002) Normalization for cDNA microarray data: a robust composition method
addressing single and multiple slide systematic variation., Nucleic Acids Res., 30, e15.
2.3.2 Quality filtering
Lee, M. et al., (2000) Importance of replication in microarray gene expression studies: statistical methods and evidence from repetitive cDNA hybridization.,
Proc. Natl. Acad. Sci. USA, 97, 9834-9839.
Tseng, G., Oh, M., Rohlin, L., Liao, J., and Wong. W., Issues in cDNA microarray analysis: quality filtering channel normalization, models of variations and
58
assessment of gene effects., Nucleic Acids Res., 29, 2549-2557.
2.3.3 Others
Microarray standards and repositories
Moreau, Y., Aerts, S., Moor, B.D., Strooper, B.D., and Dabrowski, M., (2003) Comparison and meta-analysis of microarray data: from the bench to the
computer desk. Trends in Genet., 19, 570-577.
Data management
Ermolaeva, O. Rastogi, M. Pruitt K.D., Schuler G.D., Bittner M.L., Chen Y., Simon, R., Meltzer, P, Trent J.M., Boguski, M. S., (1998) Data management and
analysis for gene expression arrays. Mature Genetics, 20, 19-23.
Stoeckert Jr., C., Causton, H., Ball, C., (2002) Microarray databases: standards and ontologies., Nature Genet., 32, 469-473.
2.4 Gene Expression Profiling
2.4.1 Mono-microarray analysis
Kobayashi, K., Ogura, M., Yamaguchi, H., Yoshida, K., Ogasawara, N., Tanaka, T., Fujita, Y., (2001) Comprehensive DNA microarray of Bacillus subtilis
two-component regulatory systems., J. Bacteriol., 183, 7365-7370.
Seki, M., Narusaka, M., Ishida, J., Nanjo, T., Fujita, M., Oono, Y., Kamiya, A., Nakajima, M., Enju, A., Sakurai, T., Satou, M., Akiyama, K, Taji, T.,
Yamaguchi-Shinozaki, K., Carninci, P., Kawai, J., Hayashizaki, Y., and Shinozaki, K., (2002) Monitoring the expression profiles of 7000 Arabidopsis genes
under drought, cold and high-salinity stresses using a full-length cDNA microarray. Plant J., 31, 279-292.
Oshima T., Wada, C., Kawagoe, Y. Ara, T., Maeda, M., Masuda, Y., Hiraga, S., Mori, H., (2002) Genome-wide analysis of deoxyadenosine
methyltransferase-mediated control of gene expression in Escherichia coli., Mol. Microbiol., 45, 673-695.
Oshima, T., Aiba, H., Masuda, Y., Kanaya, S., Sugiura, M., Wanner, B. L., Mori, H., Mizuno, T., (2002) Transcriptome analysis of all two-component
regulatory system mutants of Escherichia coli K-12., Mol. Microbiol., 46, 281-291.
Tepperman, J., Zhu, T., Chang H, Wang, X., Quail P. (2001) Multiple transcription-factor genes are early targets of phytochrome A signaling. Proc. Acad. Sci.
USA., 98, 9437-9442.
2.4.2 Multivariate analysis
2.4.2.1 Unsupervised learning
(a) Exploring Data (application of multivariate analysis)
Bono, H., and Okazaki, Y. (2002) Functional transcriptiomes: comparative analysis of biological pathways and processes in eukaryotes to infer genetic
networks among transcripts. Current Op. in Struct. Biol., 12, 355-361.
Colantuoni, C., Jeon, O. Hyder, K., Chenchik, A., Khimani, A., Narayanan, V., Hoffman, E.P., Kaufmann, W.E., Naidu, S., and Pevsner, J. (2001) Neurobiol.
Desease, 8, 847-865.
Sørlie, T., Perou, C.M., Tibshirani, R., Aas, T., Geisler, Sl., Johnsen, H., Hastie, T., Eisen, M. B., van de Rijn, M., Jeffrey, S. S., Thorsen, T., Quist, H., Matese,
J. C., Brown, P. O., Botstein, D., Lønning P. E., Børresen, Dale, A., (2001) Gene expression patterns of breast carcinomas distinguish tumor subclasses with
clinical implications., Proc. Natl. Acad. Sci. USA., 98, 10869-10874.
Garber, M., Troyanskaya, O., Schluens, K., Petersen, S., Thaesler, Z., Pacyna-Gengelbach, M., van de Rijn, M., Rosen G., Perou, C., Whyte, R., Altman R.,
Brown, P., Botstein D., and Petersen, I., (2001) Diversity of gene expression in adenocarcinoma of the lung. 98, 13784-13789.
Tanaka, T.S., Kunath, T., Kimber, W.L., Jaradat, S. A., Stagg, C.A., Usuda, M., Yokota, T., Niwa, H., Rossant, J., Ko, M. (2002) Gene expression profiling of
embryo-derived stem cells reveals candidate genes associated with pluripotency and lineage specificity. Genome Res., 12, 1921-1928.
Wen, X., Fuhrman, S., Michaels, G.S., Carr, D. B., Smith, S., Barker, J. L., and Somogyi, R., (1998)
59
Large-scale temporal gene expression mapping of central nervous system development., Proc. Natl., Acad. Sci. USA, 95, 334-339.
(b) Methodology development
(b1)Self-organizing map (SOM)
Burton, G., Guan, Y., Nagarajan, R., McGehee, R. (2002) Microarray analysis of gene expression during early adipocyte differentiation. Gene, 293, 21-31.
Chen, J., Peck, K., Hong, T., Yang, S., Sher, Y., Shih, J., Wu, R., Cheng, J., Roffler, S., Wu, C., Yang, P. (2001) Global analysis of gene expression in
invasion by a lung cancer model. Cancer Res. 61, 5223-5230.
Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M. Downing, J., Caligiuri, M., Bloomfield, C., Lander, E., (1999)
Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Sci., 286, 531-537.
Harris, T., Childs, G.(2002) Global gene expression patterns during differentiation of F9 embryonal carcinoma cells into parietal endoderm. Funct. Integr.
Genomics 2, 105-119.
Kaski, S., Nikkila, J., Oja, M., Venna, J., Toronen, P., Castren, E. (2003) Trustworthiness and metrics in visualizing similarity of gene expression.. BMC
Bioinformatics, 4, 48.1-13.
Kasturi J, Acharya R, Ramanathan M, An information theoretic approach for analyzing temporal patterns of gene expression. Bioinformatics 19, 449-458.
Kontkanen, O., Toronen, P., Lakso, M., Wong, G., Castren, E. (2002) Antipsychotic drug treatment induces differential gene expression in the rat cortex. J.
Neurochem. 83, 1043-1053.
Li, J., Johnson, J. (2002) Time-dependent changes in ARE-driven gene expression by use of a noise-filtering process for microarray data. Physiol Genomics 9,
137-144.
Mavroudi, S., Papadimitriou, S., Bezerianos, A. (2002) Gene expression data analysis with a dynamically extended self-organized map that exploits class
information. Bioinformatics 18, 1446-1453.
Meireles, S., Carvalho, A., Hirata, R., Montagnini, A., Martins, W., Runza, F., Stolf, B., Termini, L., Neto C., Silva, L., Soares, F., Neves, E., Reis, L. (2003)
Differentially expressed genes in gastric tumors identified by cDNA array. Cancer Lett. 190, 199-211.
Nishio, H., Amin, M., Sato, T., Wada, K., Wada, Y., Minato, K., Kobayashi, K., Ogasawara, N., and Kanaya, S. (2003) Visualization of gene classification
based on expression profile using BL-SOM., Proc. of WSOM03, 101-106.
Ressom, H., Wang, D., Natarajan, P. (2003) Adaptive double self-organizing maps for clustering gene expression profiles. Neural Networks,16, 633-640.
Saban, M., Hellmich, H., Nguyen, N., Winston, J., Hammond, T., Saban, R. (2001) Time course of LPS-induced gene expression in a mouse model of
genitourinary inflammation. Physiol. Genomics 5, 147-160.
Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dmitrovsky,E., Lander, E., and Golub, T. R. (1999) Interpreting patterns of gene expression with
self-organizing maps: Methods and application to hematopoietic differentiation. Proc. Natl. Acad. Sci. USA, 96, 2907-2912.
Törönen, P., Kolehmainer, M., Wong, G., and Castrėn E., (1999) Analysis of gene expression data using self-organizing maps., FEBS Letters, 451, 142-146.
Toronen, P., Kolehmainen, M., Wong, G., Castren, E. (1999) Analysis of gene expression data using self-organizing maps. FEBS Lett. 451, 142-146.
Vahey, M., Nau, M., Taubman, M., Yalley-Ogunro J, Silvera, P, Lewis, M. (2003) Patterns of gene expression in peripheral blood mononuclear cells of rhesus
macaques infected with SIVmac251 and exhibiting differential rates of disease progression. AIDS Res. Hum. Retroviruses, 19, 369-387.
Vahey, M., Nau, M., Jagodzinski, L., Yalley-Ogunro, J., Taubman, M., Michael, N., Lewis, M. (2002) Impact of viral infection on the gene expression profiles
of proliferating normal human peripheral blood mononuclear cells infected with HIV type 1 RF. AIDS Res. Hum. Retroviruses 18, 179-192.
Wang, J., Delabie, J., Aasheim, H., Smeland, E., Myklebost, O. (2002) Clustering of the SOM easily reveals distinct gene expression patterns: results of a
reanalysis of lymphoma study. BMC Bioinformatics, 3, 36.1-9.
Xiao, L., Wang, K., Teng, Y., Zhang, J. (2003) Component plane presentation integrated self-organizing map for microarray data analysis. FEBS Lett. 538,
117-124.
Yih, L., Peck, K., Lee, T. (2002) Changes in gene expression profiles of human fibroblasts in response to sodium arsenite treatment. Carcinogenesis 23,
867-876.
60
(b2) Principal component analysis (PCA) and Singluar value decomposition (SVD)
Alter, O., Brown, P.O., Botstein, D., (2000) Singular value decomposition for genome-wide expression data processing and modeling., Proc. Natl. Acad. Sci.
USA., 97, 10101-10106.
Horn, D., and Axel, I., (2003) Novel clustering algorithm for microarray expression data in a truncated SVD space., Bioinformatics, 19, 1110-1115.
Gene shaving
Hastie, T., Tibshirani, R., Eisen, M.B., Alizadeh, A., Levy, R., Staudt, L., Chan, W.C., Bostein, D., Brown, P., (2000) ‘Gene shaving’ as a method for
identifying distinct sets of genes with similar expression patterns., Genome Biol., 1, 0003.1-0003.21.
(b3) Independent component analysis (ICA)
Lee, S., Batzoglou, S., (2003) Application of independent component analysis to microarrays. Genome Biol., 2003,4, R76.
Martoglio, A., Miskin, J. Smith, S. MacKay, D., (2002) A decomposition model to track gene expression signatures: preview on observer-independent
classification of ovarian cancer., 18, 1617-1624.
(b4) K-medoids
Chang, H., Chi, J., Dudoit, S., Bondre, C., van de Rijn, M., Botstein, D., and Brown P., (2002) Diversity, topographic differentiation, and positional memory in
human fibroblasts., Proc. Natl. Acad. Sci. USA., 99, 12877-12882.
(b5) Hierarchical clustering
Eisen, M., Spellman, P., Brown, P., and Botstein, D., (1998) Cluster analysis and display of genome-wide expression patterns., Proc. Natl. Acad. Sci. USA., 95,
14863-14868.
Heyer, L. J., Kruglyak, S., and Yooseph, S., (1999) Exploring expression data: identification and analysis of coexpressed genes. Genome Res., 9, 1106-1115.
Model-based clustering
Pan, W., Lin, J., Le, and C.T. (2002) Model-based clustering analysis of microarray gene-expression data., Genome Biol., 3, 0009.1-0009.8.
Yeung, K. Y., Fraley, C., Murua, A., Raftery, A.E., and Ruzzo, W.L., (2001) Model-based clustering and data transformations for gene expression data.
Bioinformatics, 17, 977-987.
Two-way clustering
Getz, G., Levine, E., and Domany, E., (2000) Coupled two-way clustering analysis of gene microarray data., 97, 12079-12084.
Lazzeroni, L., and Owen, A., (2002) Plaid models for gene expression data, Statistica Sinica, 12, 61-85.
Binary tree- structure vector quantization
Sultan, M., Wigle, D.A., Cumbaa, C.A., Maziarz, M., Glasgow, J., Tsao, M.S., and Jurisica, I. (2002) Binary tree-structured vector quantization approach to
clustering and visualizing microarray data., Bioinformatics, 18, S111-S119.
Kernel hierarchical clustering
Qin, J., Lewis, D., Noble W.S., (2003) Kernel hierarchical gene clustering from microarray expression data., Bioinformatics, 19, 2097-2104.
(b5) Comparison methods for unsupervised learning
Chen, G. Jaradat, S., Banerjee, N., (2002) Evaluation and comparison of clustering algorithms in anglyzing ES cell gene expression data., Statistica Sinica, 12,
61
241-262.
Reproducibility of clustering patterns
McShane, L., Radmacher, M., Freidlin, B., Yu, R., Li, M., and Simon, R., (2002) Methods for assessing reproducibility of clustering patterns observed in
analyses of microarray data., Bioinformatics, 18, 1462-1469.
(b6) K-means method
Ishida, N., Hayashi, K., Hoshijima, M., Ogawa, T., Koga, S., Miyatake, Y., Kumegawa, M., Kimura, T., Takeya, T., (2002) Large scale gene expression
analysis of osteoclastogenesis in vitro and elucidation of NFAT2 as a key regulator., J. Biol. Chem., 277, 41147-41156.
2.4.2 Supervised Learning
(a) Application
van’t Veer, L., Dai, H., van de Vijver, M., He, Y. D., Hart, A., Mao, M., Peterse, H., vander Kooy, K., Marton M., Witteveen, A., Schreiber, G., Kerkhoven, R.,
Roberts, C., Linsley, P., Bernards, R., and Friend, S. (2002) Gene expression profiling predicts clinical outcome of breast cancer, Nature, 415, 530-536.
(b) Methodology development
(b1) Support vector machine
Iizuka, N., Oka, M. Yamada-Okabe, H., Nishida, M., Maeda, Y., Mori, N., Takao, T., Tamesa, T., Tangoku, A., Tabuchi, H., Hamada, K., Nakayama, H., and
Ishitsuka, H., (2003) Oligonucletoide microarray for prediction of early intrahepatic recurrence of hepatocellular carcinoma after curative resection., Lancet,
361, 923-929.
Lee, Y., and Lee C. (2003) Classification of multiple cancer types by multicategory support vector machines using gene expression data., Bioinformatics, 19,
1132-1139.
Yeang, C., Ramaswamy, S., Tamayo, P., Mukherjee, S., Rifkin, R., Angelo, M., Reich, M., Lander, E., Mesirov, J., and Golub, T., (2001) Molecular
classification of multiple tumor types., Bioinformatics, 17, S316-S322.
(b2) Nearest neighbor classifiers
Dudoit, S., Fridlyand, J., and Speed, T., (2002) Comparison of discrimination methods for the classification of tumors using gene expression data. J. Am. Stat.
Assoc., 97, 77-87.
Olshen, A., and Jain, A., (2002) Deriving quantitative conclusions from microarray expression data., Bioinformatics, 18, 961-970.
Li, L., Weinberg, C., Darden, T., and Pedersen, L., (2001) Gene selection for sample classification based on gene expression data: study of sensitivity to choice
of parameters of the GA/KNN method., Bioinformatics, 17, 1131-1142.
2.4.3 Others
(a) Missing value estimation
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein D., and Altman, R. (2001) Missing value estimation methods for
DNA microarrays., Bioinformatics, 17, 520-525.
(b)
Expression Profiling Modeling
Boldrick, J. Alizadeh, A., Diehn, M., Dudoit, S., Liu, C., Belcher, C., Bostein, D., Staudt, L., Brown, P., and Relman, D., (2002) Proc. Natl. Acad. Sci. USA.,
99, 972-977.
62