平成23年度公開講座 統計数理研究所大会議室 2011年10月25日火曜日 10時~16時(5時間) 統計的パターン認識の方法について 総合的な理解を目指して 江口 真透 (統計数理研究所, 総研大統計科学) http://www.ism.ac.jp/~eguchi/ 小森 理 (統計数理研究所) http://www.ism.ac.jp/~komori/ 統計的パターン認識とは 人間の脳は運動と言語の機能を獲得する学習過程において様々な試行錯誤の経験 を通して優れた予測能力も身に付ける.統計的パタン認識とは,脳が持つ‘ 予測する 本能’というべき基本的性質の統計学的な定式化である.枠組みは,p 次元の特徴 ベクトル x と, そのクラスラベル y から構成される. x から y への写像 h を識別子と 呼び,目的はトレーニングデータに基づく学習から良い識別子hを構成することである. このとき,x を入力,y を出力と見て h のことを学習機械とも呼ぶ.乱暴な言い方をす れば,医師とはカルテ x から患者の病気 y を診断する学習機械である. 統計的パタン認識の方法論は, 1990 年代より機械学習の分野から新しい学習アル ゴリズムが提案され, 多方面の進展が見られる.狭義の意味では統計的判別解析 と同等である. 抜粋:小項目 「ブースティング.医学統計学の辞典,丹後俊郎 ・小西貞則 編, 朝倉書店 (2010) 」 パタン認識の問題は 世の中、多くの問題はパタン認識の問題に帰着できる。 パタン認識とは一つの対象に対して,それから与えられた特徴を根拠に分類, 帰属,表現形を予測する問題である. 元来,生物の脳は,生きていることによって蓄えられた経験を基に,絶えず 明日のことを考える.この意味では,予測は卑近な日常の作業でもあり,かつ 永遠の未解決問題でもある。 もしこれら全てのパタン認識の問題がエラーフ リーで行われるなら、投資家は決して損をしないだろうし天気予報は、確率付 きの予測をする必要はなくなり、世の中に誤診も、倒産も,災害の被害もなく なるかもしれない…. パタン認識の実際 ● ● ● 文字認識 音声認識 ● ● 顔認識 指紋認識 画像認識 ● 話者認識 ☆ クレジットスコアリング ☆ 薬剤奏功性予測 ☆ メディカルスクリーニング ☆ 倒産予測 ☆ 病形判定 ☆ 故障予測 ☆ 予後予測 ☆ 感染病予測 ☆ 天気予測 ☆ 地震予測 ☆ 治療効果予測 講座の内容 統計的パターン認識について、基本的な事柄から最先端の発展までを統一的な 視点から把握できるように、統計的機械学習の観点から構成された講義をする。 教師なしデータの学習としてクラスタリングの概説をし、教師ありデータのパターン 認識のために判別分析について詳しく解説する。 初めにFisherの線形判別からロジスティック回帰について復習をして、その基本的 な理解に立って、最近のサポートベクターマシン、アダブーストについて統計的な 考え方を紹介したい。 統計的機械学習とはデータを学習するアルゴリズムの研究であるが、単にアルゴ リズムの説明だけでなく、その背景、特に確率的な考察を通して学習アルゴリズム の確率的振る舞いを理解することを目標にする。 情報幾何の枠組みからロス関数を最小にする判別関数の性質について考察する。 最後に表現形予測の具体的な問題として遺伝子発現データなどから治療効果など の医学的な問題を紹介する。 ポスト講座の情報 講座終了後の講座に関する質問などはメールでも受け付けます Email: [email protected] [email protected] 講座の内容に関連するホームページは以下にあります http://www.ism.ac.jp/~eguchi/2011openlec_pattern_recognition.html http://www.ism.ac.jp/~eguchi/Topics_pattern_recognition.html http://www.ism.ac.jp/~eguchi/pdf/LIDG.pdf 講座の構成 1. 確率的フレームワーク 2 . Fisherの判別関数,ロジスティック判別 3. ブースティング 4. サポート・ベクターマシン 実データ解析 – 臨床医学から 5. L2 と L1の正則化 6. 統計的パターン認識法の総合的な理解 タイムテーブル 1.確率的フレームワーク 10:00-11:00 11:00-12:30 2.Fisherの判別関数,ロジスティック判別 3.ブースティング 4.サポート・ベクターマシン 昼休み 13:30-15:00 15:00-16:00 実データ解析 – 臨床医学から 5. L1 と L2 正則化 6.方法論の総合理解 講座のゴール ロジスティック判別 Fisherの判別関数 L2 と L1の正則化 カーネル法 サポート・ベクターマシン ブースティング 1章: 確率的フレームワーク 特徴ベクトルとクラスラベル 特徴ベクトル x = ( x1 , ... , x p ) 特徴空間 X ⊆ Rp クラスラベル y ラベル集合 トレーニングデータ テストデータ { 1, " , G } D train = { ( x i , y i ) : i = 1, ..., n } test D test = { ( x test , y ) : j = 1, ..., m } j j マルチクラス判別関数 特徴ベクトル クラスラベル y ∈ { 1, " , G } x = ( x1 , ... , x p ) h:x→ y 識別子 F : ( x, y) → z 判別関数 ( z ∈R ) h F ( x ) = arg max F ( x , y ) y ∈ {1, " , G } F ( x, hF ( x)) = max F ( x, y) y∈{1,", G} F ( x ,3 ) 例えば G = 5, ならば F ( x ,1) F ( x ,2 ) F ( x ,4) F ( x ,5 ) 1 2 3 4 5 hF ( x ) = 3 2値クラス判別関数 特徴ベクトル クラスラベル x = ( x1 , ... , x p ) 判別関数 識別子 判別子 y ∈ { − 1, + 1} F : x →z h F ( x ) = sgn{ F ( x )} 2値クラス( G = 2 )場合 F(x, y) , y = 1, 2 とは次の関係を考えるとよい. F ( x ) = F ( x , + 1) − F ( x , − 1) 確率分布 ( x , y ) の確率密度関数を p ( x , y ) と書く. 特徴空間 X の部分集合B とクラスラベル集合の部分集合 C の確率は p(B, C ) = ∫ ∑ p ( x , y ) dx B y∈C p( y) = 周辺密度 条件付密度 ∫ X p ( x , y ) dx p( x, y) p( y | x ) = p( x ) p( x ) = と書かれる. ∑ p( x, y ) y∈{1,...,G } p( x, y) p( x | y ) = p( y ) p( x, y ) = p( x | y ) p( y ) = p( y | x ) p( x ) エラーレイト 特徴ベクトル x ∈ R ,クラスラベル p y ∈ { 1, " , G } に対して 判別ルール h F ( x ) の エラーレイト(誤判別確率)は Err(hF ) = P(hF ( x ) ≠ y ) 定義から, Err ( hF ) = ∑ Pr( h i≠ j と定義される. G F ( x ) = i , y = j ) = 1 − ∑ Pr( h F ( x ) = i , y = i ) i =1 トレーニングエラー Err train ( h F ) = # { i : hF ( x i ) ≠ yi } n for Dtrain ={ ( xi , yi ) : i =1, ..., n } テストエラー Err test ( hF ) = test # { j : h F ( x test j ) ≠ yj } m test for Dtest = { ( x test j , y j ) : j =1, ..., m} となる. 擬陽性と偽陰性 2値判別の場合 y = +1 y = −1 hF ( x ) = + 1 True Positive False Positive hF ( x ) = − 1 False Negative True Negative 擬陽性率(FPR) FPR( hF ) = P( hF ( x ) = + 1| y = − 1) 擬陰性率 (FNR) FNR( hF ) = P( hF ( x ) = − 1| y = + 1) Err( hF ) = FNP( hF ) P ( Y = + 1) + FPR( hF ) P( Y = − 1) ROCカーブ Receiver Operating Characteristic 識別子 f (x) は判別関数 F(x) と 閾値 c によって f ( x ) = sgn( F ( x ) − c ) と作られるとする. このとき ROC = {( FPR (c), TPR (c)) | −∞ < c < ∞} ここで FPR(c) = P( F ( X ) > c | Y = 0), TPR(c) = P( F ( X ) > c | Y = 1) TPR lim (FPR (c), TPR (c)) = (0, 0) 1 c→ ∞ lim ( FPR (c ), TPR (c )) = (1,1) c→ −∞ 0 1 FPR AUC(Area under the ROC curve) AUC = ∫ −∞ ∞ TPR (c) d FPR(c) = Pr(F ( x−1 ) < F ( x+1 )) p(F( x) | y = −1) p(F( x) | y = +1) p(F( x) | y = −1) p(F( x) | y = +1) TPR (c ) TPR (c ) F ( x) c F ( x) c FPR ( c ) FPR ( c ) TPR 1 TPR 1 c c AUC AUC 0 1 FPR 0 1 FPR Bayesルール 特徴ベクトル x を与えたときの y の条件付密度を p( y | x ) とする. 判別関数を F ( x , y ) = p ( y | x ) と定義するとき その判別ルールをBayesルールと呼び,h Bayes ( x ) とあらわす. 定理1 任意の判別ルール h に対して, Err(h Bayes ) ≤ Err(h) 注意: 最適な判別ルールが自明な形で与えられている. 問題点はBayesルールを定める p( y | x ) が未知であることだ. データ解析者にできることは,トレーニングデータによって p( y | x ) を学習することだ. Bayesルールの最適性 Err ( h ) ≥ Err ( hBayes ) ∂R p( y = −1 | x ) (∀ h ) p( y = +1 | x ) B 0.4 0.3 0.2 0.1 -2 2 ∂R h ∂R B 4 6 8 2章: Fisherの判別関数と ロジスティック判別 多変量正規モデル p Euclid空間 R 上の正規分布(Gauss分布)の確率密度関数は ϕ ( x , μ,V ) = 1 1 T −1 exp{ − ( x − μ ) V ( x − μ )} p/2 1/ 2 ( 2π ) det(V ) 2 ( x, y ) の確率密度関数を次のように仮定する. (等分散の仮定) p( x, y) = p ( y )ϕ ( x , μ y , V ) ( x ∈ R p , y ∈ {1,..., G }) ϕ ( x , μ y ,V ) log は x に関して線形である. ϕ ( x , μ g ,V ) 1 0.75 0.5 0.25 0 4 2 0 -4 -2 -2 0 2 -4 4 最尤推定 データ { x1 ,..., xn }が p次元正規分布(密度関数) ϕ ( x, μ,V ) から得られたと仮定する. 尤度関数は n L( μ,V ) = ∑ log ϕ ( xi , μ,V ) i =1 1 n = − ∑ {( x i − μ )T V −1 ( x i − μ ) + log det(V ) + p log 2π } 2 i =1 最尤推定量 ( μˆ ,Vˆ ) = arg max L( μ,V ) は次で与えられる μ ,V n 1 n 1 μˆ = ∑ xi , Vˆ = ∑ ( xi − μˆ )( xi − μˆ )T n i =1 n i =1 Bayesルール このとき、 FBayes ( x ) = log α1 = V −1 ( μ +1 − μ −1 ), α 0 = p ( y = +1 | x ) = α1T x + α 0 p ( y = −1 | x ) 1 p ( y = + 1) ( μ +1T V −1 μ +1 − μ −1T V −1 μ −1 ) + log 2 p ( y = − 1) マルチクラスの場合は hBayes ( x ) = arg max { p ( y | x )} y ∈{1,..., G } = arg min {( x − μ y )V −1 ( x − μ y ) + log p ( y )} y ∈{1,..., G } 注意: 上式の中の項:( x − μ y )V −1 と呼ぶ. Cf. MTシステム. (x − μy ) をMahalanobisの2乗距離 Fisherの判別関数 トレーニングデータ Dtrain = { ( xi , yi ) : i = 1, ..., n } が与えられたとき FˆFisher ( x ) = αˆ1T x + αˆ 0 をFisherの線形判別関数と呼ぶ。 ただし n 1 T T αˆ 1 = ( μˆ +1 − μˆ −1 ) T Vˆ −1 , αˆ 0 = ( μˆ +1 Vˆ −1 μˆ +1 − μˆ −1 Vˆ −1 μˆ −1 ) + log 2 n μˆ + 1 = ∑ i =1 n n I ( y i = + 1) x i ∑ i =1 , μˆ − 1 = I ( y i = + 1) ∑ i =1 n ∑ I(y i = + 1) ∑ I(y i = − 1) i =1 n i =1 I ( y i = − 1) x i ∑ i =1 I ( y i = − 1) n n 1 1 T Vˆ = ∑ ( x i − μˆ ) ( x i − μˆ ), μˆ = ∑ x i n i =1 n i =1 条件付確率 (2値クラス) p ( x , y ) = p ( y )ϕ ( x , μ y , V ) ( x ∈ R p , y ∈ {− 1, + 1}) の下では 仮定 p ( y = +1 | x ) = p ( y = +1)ϕ ( x , μ +1 , V ) p ( y = +1)ϕ ( x , μ +1 , V ) + p ( y = −1)ϕ ( x , μ −1 , V ) p ( y = + 1)ϕ ( x , μ +1 , V ) T exp( α1 x + α 0 ) p ( y = − 1)ϕ ( x , μ −1 , V ) = = T T p ( y = + 1)ϕ ( x , μ +1 , V ) exp( − α x − α ) + exp( α x +α0) 1 0 1 1+ p ( y = − 1)ϕ ( x , μ −1 , V ) ここで 1 ( μ +1 − μ −1 ) T V −1 , 2 p ( y = + 1) 1 1 α 0 = ( − μ +1T V −1 μ +1 + μ −1T V −1 μ −1 ) + log p ( y = − 1) 2 4 α1 = ロジステック回帰モデル (2値クラス) n トレーニングデータ Dtrain = ( xi , yi ) i =1 , yi ∈{−1,+1} に対し,尤度関数は n L(α1 , α0 ) = ∑ log{p( y = +1 | xi )}I ( yi =+1) { p( y = −1 | xi )}I ( yi =−1) i =1 I ( yi = +1) I ( yi = −1) exp(α xi + α 0 ) exp(−α xi − α 0 ) = ∑ log T T exp( − α x − α ) + exp( α i =1 1 0 1 xi + α 0 ) i T 1 n exp{ yi (α1 x i + α 0 )} = ∑ log T T exp( − α1 x i − α 0 ) + exp( α1 x i + α 0 ) i =1 n となる. T 1 T 注意:通常の2値ロジステック回帰モデル は y = 0,1 と扱うので,上と形が違う. 条件付確率 (マルチクラス) 仮定 p( x, y) = p ( y )ϕ ( x , μ y , V ) ( x ∈ R p , y ∈ {1,..., G }) の下では = p( y | x) p ( y )ϕ ( x , μ y , V ) G ∑ i =1 p (i )ϕ ( x , μ i , V ) exp( α1 y x + α 0 y ) T = G ∑ exp( α1 g x + α 0 g ) T i =1 1 T T ここで α1g = μy V −1, α0 g = μg V −1 μg + log p( y) 2 ( g = 1,...,G), ロジステック回帰モデル(マルチクラス) n トレーニングデータ Dtrain = ( xi , yi ) i =1 , yi ∈{1,..., G} が与えられたとき 尤度関数は n n i =1 i =1 L((α11, α01),...,(α1G , α0G )) = ∑ log p( yi | xi ) = ∑ log となる. exp( α1 yi x i + α 0 yi ) T G ∑ exp( α1g xi + α 0 g ) T g =1 注意.2値クラス判別の場合,クラスラベルを{−1,+1} かまたは,{1,…,G} と選ぶことによってモデルの表現が違うことに注意する. ロジステック判別関数 2値クラスの場合は T FˆLog ( x ) = αˆ 1 x + αˆ 0 (αˆ1 , αˆ0 ) = arg max L(α1 , α0 ) ( α1 ,α0 ) マルチクラスの場合は T FˆLog ( x , y ) = αˆ 1 y x + αˆ 0 y ((αˆ11 , αˆ01 ),..., (αˆ1G , αˆ0G )) = arg max ( α11 ,α01 ),...(α1G ,α0 G ) L((α11 , α01 ),...., (α1G , α0G )) 上の尤度関数の最大化は Rでは“glm”で実行可能. 反復重み付け最小二乗法 2値クラスの場合 (αˆ1 , αˆ 0 ) ⎡ ⎢ ∂ L(α1,α0 ) = ⎢ ⎢ ∂(α1,α0 ) ⎢ ⎢⎣ を求める推定方程式は T ⎤ exp{yi (α1 xi + α0 )} yi xi ⎥ ∑ T T i =1 exp(α1 xi + α0 ) + exp(−α1 xi − α0 ) ⎥ =0 T ⎥ n exp{yi (α1 xi + α0 )} ⎥ yi ∑ T T ⎥⎦ i =1 exp(α1 xi + α0 ) + exp(−α1 xi − α0 ) n 反復重み付け最小二乗法 (t +1) (α1 ,α0 (t +1) ) = (α1 ,α0 ) + I (α1 ,α0 )−1 (t ) がよく使われる. (t ) (t ) (t ) n I (α ,α0 ) = ∑ (t ) 1 (t ) i =1 xi xi (t )T exp(α1 ∂ (t ) (t ) L(α1 ,α0 ) ∂(α1,α0 ) T (t )T xi +α0 ) + exp(−α1 (t ) xi −α0 ) (t ) Fisher判別関数と ロジステック判別関数の関係 (1) 共に正規性の仮定: p ( x , y ) = p ( y )ϕ ( x , μ y , V ) から導出され,共に, h ( x ) = arg min F ( x , y ), ここで y ∈ {1,.., G } T F ( x , y ) = αˆ 1 y x + αˆ 0 y Fisher判別関数は { p ( y ), μ y , V : y = 1,..., G } は同時尤度関数 ⎤ 1 n ⎡G JL = − ∑ ⎢∑ I ( yi = g ){( xi − μ g )V −1 ( xi − μ g ) − 2 log p ( g )} + log det V ⎥ 2 i =1 ⎣ g =1 ⎦ の最大化によって推定して,パラメータ ( αˆ1 y , αˆ 0 y ) が導出される ロジステック判別は条件付き尤度関数の最大化から直接 ( αˆ1 y , αˆ 0 y ) が導出される n CL = ∑ log i =1 exp( α1 yi xi + α 0 yi ) T G ∑ exp( α g =1 1g T xi + α 0 g ) Fisher判別関数と ロジステック判別関数の関係 (2) 1.正規性の仮定のもとではFisher判別関数とロジステック判別関数ともに 漸近的にベイズルールになる(ベイズ漸近一致). 2.正規性の仮定のもとではトレーニングエラーの漸近分散はFisher判別関数 によるものがロジステック判別によるものより小さいことが示されている 3.ロジステック判別の良さは,必ずしも正規性をする必要がなくて,条件付分布が 次の形で与えられていればいつでも,ベイズ漸近一致となる. exp( α 1 y x + α 0 y ) T p( y | x) = G ∑ i =1 exp( α 1 g x + α 0 g ) T Fisher判別関数と ロジステック判別関数の拡張(1) 指数型分布族 p ( x | y ) = p ( y ) f ( x ) exp{θ y t ( x ) −ψ (θ y )} T n ( y = 1,..., G ) G このとき同時尤度: L J = ∑∑ {θ yi T t ( xi ) −ψ (θ yi ) + log p( g )} i =1 g =1 によって最尤推定量 {θˆg , pˆ ( g ) : g = 1,..., G} が求まれば. 拡張されたFisher判別関数は FFisher ( x , y ) = θˆ y t ( x ) −ψ (θˆ y ) + log p ( y ) となる. 条件付き尤度: L C = ここで n ∑ log i =1 T exp( β1 yi t ( xi ) + β 0 yi ) G ∑ g =1 T exp( β1g t (xi ) + β 0 g ) β1y = θ y , β0 y = ψ (θ y ) + log p( y) によって最尤推定量 { βˆ1g , βˆ0 g : g = 1,..., G} が求まれば 拡張されたFisher判別関数は Flog ( x, y ) = βˆ1 y t ( x ) + βˆ0 y となる. 2次元正規分布 ϕ ( x , μ, V ) = 1 2π (det V ) 1 2 ⎧ 1 ⎫ T exp⎨− ( x − μ ) V −1 ( x − μ )⎬ ⎩ 2 ⎭ 条件付き確率 p( y | x ) = p( y ) ϕ ( x, μ y ,V y ) ⎛ p1 ⎞ ⎛ 0 .2 ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ p 2 ⎟ = ⎜ 0 .3 ⎟ ⎜ p ⎟ ⎜ 0 .5 ⎟ ⎝ 3⎠ ⎝ ⎠ ⎛ ⎜ ⎜ ⎜ ⎛ μ1 ,V ⎞ ⎜ ⎜ ⎟ ⎜ μ 2 ,V ⎟ = ⎜ ⎜ μ ,V ⎟ ⎜ ⎝ 3 3⎠ ⎜ ⎜ ⎜⎜ ⎝ ( y = 1, 2, 3 ) ⎡− 2⎤ ⎢− 2⎥ ⎣ ⎦ ⎡0⎤ ⎢0⎥ ⎣ ⎦ ⎡ 2⎤ ⎢2 ⎥ ⎣ ⎦ , , , ⎡1 ⎢0 ⎣ ⎡ 1 .98 ⎢ − 0 .36 ⎣ ⎡1 .25 ⎢ 1 .2 ⎣ ⎞ ⎟ ⎟ ⎟ − 0 .36 ⎤ ⎟ ⎟ 1 ⎥⎦ ⎟ ⎟ 1 .2 ⎤ ⎟ 2 .21⎥⎦ ⎟⎟ ⎠ 0⎤ 1 ⎥⎦ 条件付き確率 p( y = 1 | x ) p( y = 2 | x ) p( y = 3 | x ) 1 1 1 0.75 0.5 0.25 0 4 2 0 -5 0.75 0.5 0.25 0 4 2 -2 0 2.5 -4 5 4 2 0 -5 0 -5 -2.5 0.75 0.5 0.25 0 -2.5 -2 0 2.5 -4 5 -2.5 -2 0 2.5 -4 5 Bayes境界 4 2 -6 -4 -2 2 -2 -4 4 6 条件付き確率プロット 1 0.8 0.6 0.4 0.2 20 40 60 80 100 3章: ブースティング アダブーストの考え ブースト学習 Boost by filter (Schapire, 1990) Bagging, Arching (bootstrap) (Breiman, Friedman, Hasite) AdaBoost (Schapire, Freund, Batrlett, Lee) 弱い学習は強化できるのか? Schapire, R. (1990) 強い学習可能性 未知の例題が得られるなら任意の小さなエラーを除いて正確 に予測できる. 弱い学習可能性 ランダム・ゲスより少しだけ性能のよい予測ができる. 弱い学習可能な予測機械を集めて,それらをうまく 組み合わせると 強い学習可能な1つの予測機械が 構成できるか? 学習機械のクラス 決定スタンプ { Fstamp = f j ( x, a, b) = ± sgn ( x j − b) : j ∈ {1,", p}, b∈ IR } 線形判別 { Flinear = f ( x , β ) = sgn ( β1T x + β 0 ) : β = ( β1 , β 0 ) ∈ IR p +1 ニューラルネット SVM } k近接近傍 ポイント: 強力な性能の機械クラスより,個性の豊かな機械クラス Fstamp ⊆ Flinear 指数ロス関数 (2値クラス) トレーニングデータを D train = { ( x i , y i ) : i = 1, ..., n } とする. 判別関数 F (x) に対する経験指数ロス関数は L D exp 1 (F ) = n n ∑ i =1 exp{ − y i F ( x i )} X と Y 上のデータ分布を q(x, y) = q(x) q(y|x) とする 判別関数 F (x) に対する期待指数ロス関数は E L exp (F ) = ∫ { X ∑ exp{ − yF ( x )}q ( y | x )}q ( x ) d x y∈{ + 1, − 1} アダブースト・アルゴリズム 1. 初期値 : w1 (i ) = 2. For t = 1," , T (a) (b) ( c) 1 n (i = 1" n ), F0 ( x ) = 0 ε t ( f ) = ∑ I( yi ≠ f ( xi ) ) wt ( i ) , ∑ wt ( i ' ) εt ( f(t ) ) = min εt ( f ) f∈F αt = 1 − ε t ( f( t ) ) 1 2 log ε t ( f( t ) ) wt +1 (i ) = wt (i ) exp(−α t f ( t ) ( xi ) yi ) 3 . sign ( FT ( x ) ), where FT ( x ) = T ∑α t =1 t f(t ) ( x ) 学習アルゴリズム f (1 ) ( x ) w1 (1), " , w1 ( n ) ε w 2 (1), " , w 2 ( n ) 1 f(2) ( x ) {( x1 , y1 ),..., ( x n , y n )} ε α1 α 2 T ∑α 2 t =1 f (T ) ( x ) wT (1), " , wT ( n ) T 最終の判別関数 FT ( x ) = ∑ α t f ( t ) ( x ) t =1 α T t f(t ) ( x ) 学習曲線 トレーニングカーブ 0.2 0.15 0.1 0.05 50 100 150 Iter = 1,…..,277 200 250 停止規則 トレーニングデータ D train = { ( x i , y i ) : i = 1, ..., n } T 最終の判別関数 FT ( x ) = ∑ α t f ( t ) ( x ) t =1 T の決め方 Topt = arg min Err train ( h FT ) T >0 Topt = arg min Err test ( h FT ) T >0 Topt = arg min CVErr T >0 train ( h FT ) 10-fold CV Error rate D = {( x i , y i ) } n i =1 T , FT ( x ) = ∑ α t f ( t ) ( x ) t =1 Validation Validation Validation 1 2 3 Training Training 4 " 9 ε (1) ε ( 2 ) ε (3) ⇒ Averaing by 1 10 ε (k ) ∑ 10 k =1 10 重み更新の特徴 重み更新 w t ( i ) → w t +1 ( i ) f ( t ) ( x i ) ≠ yi ⇒ eα t 倍 f ( t ) ( x i ) = yi ⇒ e −α t 倍 重みつきエラー ε t ( f(t ) ) → ε t +1( f(t ) ) → εt +1( f(t +1) ) 1 ε t +1 ( f ( t ) ) = 2 ( 最悪エラー ) 1 ε t +1 ( f ( t ) ) = 2 n の証明 ε t +1 ( f t ) = ∑ I ( f ( t ) ( xi ) ≠ yi ) i =1 n = ∑ I( f i =1 (t ) wt +1 (i ) ∑ wt +1 (i' ) ( x i ) ≠ y i ) exp{ − α t y i f ( t ) ( x i )} w t ( i ) n ∑ exp{ −α i =1 t y i f ( t ) ( x i )} w t ( i ) n = = exp{ α t }∑ I ( f ( t ) ( x i ) ≠ y i ) w t ( i ) i =1 n n i =1 i =1 exp{ α t }∑ I ( f ( t ) ( x i ) ≠ y i ) w t ( i ) + exp{ − α t }∑ I ( f ( t ) ( x i ) = y i ) w t ( i ) 1 − ε t ( f(t) ) ε t ( f(t) ) ε t ( f(t) ) 1 − ε t ( f(t) ) ε t ( f(t) ) + ε t ( f(t) ) ε t ( f(t ) ) {1 − ε t ( f ( t ) )} 1 − ε t ( f(t ) ) = 1 2 決定スタンプの更新 決定スタンプ s j ( x) = f j ( x) or − f j ( x) 特徴ベクトル j 番目の ⎧+ 1 if x j > b j ここで f j ( x) = ⎨ ⎩ − 1 if x j < b j x j1, ... , x j n bj xj Error数 5 6 b j = arg min { b 5 6 5 6 1 | f ( x i ) − yi |} ∑ 2 i 5 4 5 65 次の学習 16 ⎡ nb. of correct ans. ⎤ = 0 . 5 log = log 2 ⎥ 4 ⎣ nb. of false ans. ⎦ α1 = 0.5 log ⎢ 重みの更新: Weight down to 0.5 Weight up to 2 bj bj xj Error 数 4.5 4 6 5.5 7.5 7 9 8.5 97 8 1 b j = arg min{ ∑ w(i) | s j ( xi ) − yi |} 2 i b 指数ロス関数の更新 指数ロス関数: 更新: 1 n Lexp ( F ) = ∑ exp{− yi F ( x i )} n i =1 F ( x) → F ( x) + α f ( x) を考えよう 1 n Lexp( F + α f ) = ∑exp{− yi F ( xi )}exp{−α yi f ( xi )} n i=1 [ 1 n = ∑exp{− yi F ( xi )} eα I( f ( xi ) ≠ yi ) + e−α I( f ( xi ) = yi ) n i =1 = Lexp ( F ){ eα ε ( f ) + e −α (1 − ε ( f )) } n ここで ε( f ) = ∑ I ( f (x ) ≠ y ) exp{− y F (x )} i =1 j i Lexp ( F ) i i ] 逐次最適化 Lexp ( F + α f ) = Lexp ( F ){ ε ( f ) eα + (1 − ε ( f )) e −α } ε ( f ) e α + (1 − ε ( f )) e − α 2 ⎧ 1− ε( f ) α⎫ =⎨ − ε ( f )e ⎬ + 2 ε ( f ){1 − ε ( f )} α e ⎩ ⎭ ≥ 2 ε ( f ){1 − ε ( f )} 等号は α opt 1 1− ε( f ) = log 2 ε( f ) アダブースト = 指数ロス逐次最小化 min Lexp ( Ft −1 + α f ( t ) ) = Lexp ( Ft −1 ) ε ( f ( t ) ){ 1 − ε ( f ( t ) )} α∈ R α opt 1 − ε ( f(t ) ) 1 = log ε ( f(t ) ) 2 (a) f(t ) = argmin εt ( f ) ( b) α t = arg min Lexp ( Ft −1 + α f (t ) ) f ∈F α∈ R (c) wt +1 (i ) ∝ wt (i ) exp{ α t y i f t ( xi )} ロジット・ブースト 対数ロス関数(マイナス条件付尤度)を次で定義する. n L log ( F ) = − ∑ log i =1 exp(− yi F ( xi )) exp( F ( xi )) + exp( − F ( xi )) F( 0 ) ( x ) = 0 から次の反復を T 回実行する. (a ) f (t ) = arg min f ∈F where (b ) n ∑ p( xi )(1 − p( xi ))( i =1 p( xi ) = yi − p( xi ) − f )2 p( xi )(1 − p( xi )) exp( − F ( x i )) exp( F ( x i )) + exp( − F ( x i )) F( t ) = F( t −1) + f ( t ) 機械学習から提案 学習可能性: boosting weak learners? AdaBoost : Freund & Schapire (1997) 弱い学習機械 { f 1 ( x ), .... , f p ( x ) } 強い予測機械 f (x) ステージワイズ α 1 f (1) ( x ) α 1 f (1 ) ( x ) + " + α t f ( t ) ( x ) シミュレイション (完全分離ケース) 1 特徴空間 [-1,1]×[-1,1] 0.5 決定境界 -1 -0.5 0.5 -0.5 1 x2 = sin( 2π x1 ) { ( xi , yi ) : i = 1," ,1000 } xi ∈ [ −1, 1] × [ −1, 1] -1 yi ∈ {−1, + 1} 学習機械の線形クラス Linear classification machines ⎧ + 1 if r1 x1 + r2 x2 + r3 ≥ 0 f ( x1 , x2 ) = sgn ( r1 x1 + r2 x2 + r3 ) = ⎨ ⎩ − 1 if r1 x1 + r2 x2 + r3 < 0 1 Random generation 0.5 {r1 , r2 , r3} ~ U ( −1, 1) 3 -1 -0.5 0.5 -0.5 -1 1 学習の過程 (I) 1 1 1 0.5 0.5 0.5 0 0 0 -0.5 -0.5 -1 -0.5 -1 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 -1 -1 Iter = 1, train err = 0.21 -0.5 Iter = 13, train err = 0.18 1 0.5 1 Iter = 17, train err = 0.10 1 1 0.5 0.5 0.5 0 0 0 -0.5 -0.5 -0.5 0 -1 -1 -1 -1 -1 -1 -0.5 0 0.5 Iter = 23, train err = 0.10 -0.5 0 0.5 -0.5 0 0.5 1 1 Iter = 31, train err = 0.095 Iter = 47, train err = 0.08 1 学習の過程 (II) 1 1 0.5 1 0.5 0 -0.5 -1 0.5 0 0 -0.5 -0.5 -1 -1 -0.5 0 0.5 Iter = 55, train err = 0.061 1 -1 -1 -0.5 0 0.5 Iter = 99, train err = 0.032 1 -1 -0.5 0 0.5 Iter = 155, train err = 0.016 1 最終の決定境界 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 0.5 Contour of F(x) 1 -1 -0.5 0 Sign(F(x)) 0.5 1 指数ロス関数 (マルチクラス) D train = { ( x i , y i ) : i = 1, ..., n } とする. トレーニングデータを 判別関数 F ( x, y) に対する(経験)指数ロス関数は L D exp 1 (F ) = n n G ∑∑ i =1 g =1 exp{ F ( x i , g ) − F ( x i , y i )} X と Y 上のデータ分布を q(x, y) = q(x) q(y|x) とする 判別関数 F ( x, y) に対する(期待)指数ロス関数は G G L exp ( F ) = ∫ {∑ ∑ exp{ F ( x , g ) + F ( x , y )} q ( y | x )}q ( x ) d x E X y =1 g = 1 対数ロス関数 (マルチクラス) トレーニングデータを D train = { ( x i , y i ) : i = 1, ..., n } とする. 判別関数 F ( x) に対する(経験)対数ロス関数は L D log 1 (F ) = − n n ∑ log i =1 exp{ F ( x i , y i )} G ∑ exp{ F ( x , g )} g =1 i X と Y 上のデータ分布を q(x, y) = q(x) q(y|x) とする 判別関数 F ( x) に対する(期待)対数ロス関数は L log ( F ) = − ∫ E X G {∑ log y =1 exp{ F ( x , y )} G ∑ exp{ F ( x , g )} g =1 q ( y | x )}q ( x )dx 対数ロスとロジステック判別の関係 判別関数 F ( x) の (経験)対数ロス関数は exp{ F ( x i , y i )} 1 n L ( F ) = − ∑ log G n i =1 ∑ exp{ F ( x i , g )} D log g =1 パラメータ (α1 , α0 ) = (α11,....,α1G , α 01,....,α 0G ) の尤度関数は L(α1 , α0 ) = n 1 log ∑ n i =1 exp{α1 yi xi + α 0 yi )} T G ∑ exp(α1g xi + α0 g ) T g =1 なので, F ( x, y) = α1 y x + α0 y ならば,LDlog ( F ) = − L ( α1 , α 0 ) T KLダイバージェンス ラベル集合 Y = { 1, " , G } m ( x , y ), μ ( x , y ) 非負値関数 DKL ( m, μ ) = 注意 特徴空間 ∫ G ∑ {m( x , y ) log X y =1 X ⊆ Rp (x ∈ X , y ∈Y ) m( x , y ) − m ( x , y ) + μ ( x , y )}dx μ ( x, y) X と Y 上の条件付分布 p(y|x), q(y|x) と周辺分布 p(x) に対して m ( x , y ) = p ( y | x ) p ( x ), μ ( x , y ) = q ( y | x ) p ( x ) DKL ( m, μ ) = ∫ X G {∑ p ( y | x ) log y =1 ならば p( y | x ) } p ( x )dx q( y | x ) 指数ロスと対数ロスの関係 X と Y 上のデータ分布 q(x, y) = q(x) q(y|x) に対し, モデル分布を次のように定める: m1 ( y | x ) = m2 ( y | x ) = G ∑ exp{ F ( x , g ) − F ( x , y )} g =1 exp{ F ( x , y )} G ∑ exp{ F ( x , g )} g =1 このとき DKL (q, m) = ∫ { X ∑ y∈{+1, −1} q( y | x) log q( y | x ) − q( y | x) + m( y | x)}q( x)dx m( y | x) 対数ロス 指数ロス 期待指数ロスの下限 Empirical exp loss Lexp ( F ) = Expected exp loss n 1 n ∑ exp(− y F ( x )) i =1 i i Lexp ( F ) = E{exp(−YF ( X )} Theorem. Let F be a space of all discriminant functions and Fopt = arg min Lexp ( F ). F ∈F p( y = +1 | x ) 1 . Then Fopt ( x ) = log p( y = −1 | x ) 2 変分による証明 (*) 実際, Fε = Fopt + εη とおくと ∂ Lexp ( Fε ) |ε =0 = 0 (∀η ) である. ∂ε ∂ ⎡∂ ⎤ Lexp ( F ) = E ⎢ exp(−YFε ( X ))⎥ ∂ε ⎣ ∂ε ⎦ |ε =0 = E [η ( X ) Y exp(−YF ( X ))] = E [η ( X ){exp(− F ( X )) p( y = +1 | X ) − exp( F ( X )) p( y = −1 | X )}] p( y = +1 | X ) = E[η ( X ) exp(− F ( X )) p( y = +1 | X ){exp(2 F ( X )) − }] p( y = −1 | X ) 1 p( y = +1 | x ) 故に (*)に注意すると, Fopt ( x ) = log . 2 p( y = −1 | x ) AdaBoostの優れている点 フィッシャー線形判別 ロジステック判別 p F ( x , y ) = α1 x + α 0 = ∑ α1 j x j + α 0 j =1 ベイズルールのパラメトリック版 T AdaBoost F ( x, y ) = ∑ α1t f t ( x, y ) t =1 ベイズルールのノンパラメトリック版 f t ( x , y )自身が特徴ベクトル x を使った判別関数であ る. f t ( x, y ) は,トレーニングデータに応じて各ステージで 最適なものが選ばれる. T は学習のプロセスに応じて決めることができる. AdaBoostの欠点 1. 学習の不均衡 AUCBoost Balancing the false n/ps’ AsymAdaBoost 2. 過剰学習に陥る EtaBoost ミスラベルを含むトレーニングデータ AUCBoost 高次元データ・小標本 LocalBoost トレーニングデータの局所構造 Simulation (complete random) 1 0.5 -1 -0.5 0.5 -0.5 -1 1 Overlearning of AdaBoost 1 1 1 0.5 0.5 0.5 0 0 0 -0.5 -0.5 -0.5 -1 -1 -0.5 0 0.5 1 -1 -1 -1 Iter = 51, train err = 0.21 -0.5 0 0.5 Iter = 151, train err = 0.06 1 -1 -0.5 0 0.5 Iter =301, train err = 0.0 1 マージンを統合したAdaBoost Eta-loss function regularized EtaBoost 1. Initial settings : w1 (i ) = n ε m ( f ) ∝ ∑ I( yi ≠ f ( xi )) wm (i ) , 2. For m = 1," , T (a) 1 (i = 1" n ), F0 ( x ) = 0 n εm ( f(m) ) = min εm ( f ) i =1 f (b) ( c) wm+1 (i ) ∝ wm (i ) exp(−α * m f ( m ) ( xi ) yi ) 3 . sign ( FT ( x ) ), where FT ( x ) = T ∑α t =1 t f(t ) ( x ) 簡単な例題 ミスラベルを持つ例題 AdaBoostとEtaBoostの比較 AdaBoost EtaBoost η-Boost AdaBoost,η-Boost Different boundaries 2. For m = 1," , T (a) (b) εm ( f(m) ) = min εm ( f ) f AdaBoost vs ηBoost 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 0.5 1 -1 -0.5 0 AdaBoost,η-Boost Different boundaries 0.5 1 4章:サポート・ベクターマシン 超平面の幾何 α1 超平面の幾何 H R p ∋ x 6 Fα ( x ) = α1 x + α 0 T H α = { x ∈ R m : Fα ( x ) = 0 H α = α1 この時 α1 ⊥ は法線 ⊥ − α1 α0 α1 } 2 α1 と書ける { c1α1 : c1 ∈ R } の直交補空間を表す. ⊥ さて x ∈ Rm を取ろう。この時、 Fα ( x ) = α1 x + α 0 = (c1 + α0 α1 2 )α 2 1 なので x を H へ射影した点を x とすると * r2 = x − x* 2 ⎛ α0 = ⎜ c1 + 2 ⎜ α 1 ⎝ ⎞ ⎟ ⎟ ⎠ 2 α1 x r x* y 2 = F (x) α1 2 2 マージン最大化 超平面 H α の w は超局面と 1:1 でない. H α = H cα (∀ c ≠ 0 ) そこで例題 { x i : 1 ≤ i ≤ n} の中で超局面 H α への 距離の最小値が 1 になるよう決めよう. α1 min dist( xi , H α ) = min | Fα ( xi ) | 1≤ i ≤ n 1≤ i ≤ n α1 1 = α1 このとき | Fα ( x i ) | = | α 1 x i + α 0 | ≥ 1 T ( ∀ i ∈ { 1, 2 ,..., n }) この等号を満たす x i をサポートベクターと呼ぼう. サポートベクターマシン サポートベクターを含む2平面 Hα − Hα と + 1 の間の距離は ρ = α 1 T 1 ( α ) = Φ 1 2 α1 α1 = とおくと、 ρ 1 2 || α1 ||2 の最大化は Φ の最小化に注意すると サポートベクターマシンは次の形で定義される。 min Φ ( α 1 ) α1 Subject to y i Fα ( x i ) ≥ 1 ∀ i ∈{1,", n } 2次計画法 n 1 n n T Q(γ ) = ∑ γ i − ∑∑ γ iγ j yi y j xi x j 2 i =1 i =1 i =1 双対問題 max Q(γ ) subject to (1) ∑ γ i yi = 0, 主問題のラグランジュ関数は J (α , γ ) = {( ) } 1 T T α1 α1 − ∑ γ i yi α1 xi + α 0 − 1 2 ∂J (α, γ ) = 0 ⇔ α1 = ∑ γ i yi xi = 0 ∂α1 ∂J (α, γ ) =0 ⇔ ∂α 0 ∑γ y i i =0 (2) γ i > 0 クーン タッカー条件より { ( ) }= 0 γ i y i α 1T x i + α 0 − 1 J (α, γ ) = 12 α1 α1 − ∑ γ i yi w1 xi − α 0 ∑ γ i yi + ∑ γ i T = 1 2 T (∑ γ y x ) ∑ γ y x − ∑ γ y ( ∑ γ y x ) ∑ γ γ y y x x + ∑ γ = Q (γ ) = − 12 T i i T i i i i j j i i T i j i j i j i サポートベクターマシンによる判別関数は Fsvm ( x ) = α1 s x + α 0 s T ⎧⎪ α1 s = ∑ γ s i y i x i ⎨ ⎪⎩α 0 s = 1 − α1 s x suppot i x j + ∑γ i カーネルSVM 入力ベクトル x から特徴ベクトルへの写像を x 6 φ( x) とすると φ(x) の線形な判別関数 T Fα ( x ) = α1 φ ( x ) + α 0 サポートベクターマシンによる学習は 1 n n T Q ( γ ) = ∑ γ i − ∑ ∑ γ i γ j y i y j x i x jϕ ( x ) T ϕ ( x i ) 2 i =1 j =1 subject to (1) ∑γ y i i =0 (2) 0 ≤ γ i ≤ c を解いて実行される ∀i ∈ {1,", n} カーネル表現 サポートベクターマシンは, Fsvm ( x ) = α 1 φ ( x ) + w α 0 , T n α1 = ∑ γ i y i φ ( x i ), i =1 α 0 = ∑ γ i yi を作る. これから, n n i =1 i =1 Fsvm( x) = ∑γ i yi φ( xi )T φ( x) + ∑γ i yi 内積カーネルを Fsvm ( x ) = K ( x , xi ) = φ( x )T φ( xi ) + 1 ∑γ i と定めれば yi K ( x , x i ) 1 n n T Q (γ ) = ∑ γ i − ∑ ∑ γ iγ j y i y j x i x j K ( x , x i ) 2 i = 1 j =1 n i =1 カーネル・トリック 特徴ベクトル φ(x) の具体的な形は必要でなく 内積カーネル K ( x , y ) さえ与えれば実行できる K ( x, y ) φ(x) 例題 K ( x , y ) = ( x T y + 1) d 例えば,d = 2 の場合 m K (x, y ) = 1 + 2 ∑ i =1 m xi + 2 ∑ i =1 ϕ ( x ) = ( 1, , 2 x i , 2 x i , yi + 2 ∑ m xi yi x j y j + i≠ j 2 xi x j , xi 2 )T ∑ i =1 xi 2 yi 2 クラスタリングの簡単な紹介 クラスタリング Partitional k-means Fuzzy c-means Unsupervised learning Model-based Hierarchical Agglomerative Divisive 3 major algorithms n k centers c j = ∑ u ij x i i =1 n ∑ u ij −−−→ ←−−− weights u ij = u ( x i , c j ) ( j = 1,.., k i = 1,..., n i =1 k-means Fuzzy c-means ⎧ 1 if j = argmin j ' ||| xi − c j ' || u ij = ⎨ ⎩ 0 otherwise k u ij = 1 / ∑ (|| x i − c j || / || x i − c j ' ||) j ' =1 Model-based k uij = p j exp(− || xi − c j || ) / ∑ p j* exp(− 12 || xi − c j* ||2 ) 1 2 2 j* =1 ) 階層クラスタリング クラスタリング ⊆ 教師無し学習 階層クラスタリング 最短距離法,単連結法 分割最適化クラスタリング k-means法,自己組織化マップ Eisen et al. (1998) PNAS http://derisilab.ucsf.edu/data/microarray/software.html Nature 2002; 415: 530-6. ArrayMaker Version 2 http://derisilab.ucsf.edu/data/microarray/software.html Gal File Maker v1.2 Cluster: Tree View: J-Express: 5章:L1正則化 正則化法とは 統計的推定とは, データ D に基づいて経験ロス関数 Lemp(θ, D) の最適 化によってパラメータθ を求めることである. このとき,しばしば,過学習が起こることがあり,これを 防ぐための方法の一つとして正則化法が広く用いられ ている. (正則化ロス関数) = (経験ロス関数) + λ(罰則項) Lemp (θ , D ) λ = Lemp (θ , D ) + λ P (θ ) λ > 0 を正則化パラメータと呼び,正則化のための 罰則(ペナルティ)項の強さをコントロールする. 正則化法の幾何的な解釈 (正則化ロス関数) = (経験ロス関数) + λ(罰則項) Lemp (θ , D ) λ = Lemp (θ , D ) + λ P (θ ) の関係において2つ推定量 θˆλ = arg min Lemp (θ , D ) θ∈Θ λ θˆ0 = arg min Lemp (θ , D ) θ∈ Θ の違いをペナルティ関数 P(θ) の連想する幾何による 解釈が得られることを以下のスライドで紹介する. 正則化法の幾何的なイメージ I (経験ロス関数) + λ(罰則項) = (正則化ロス関数) Lemp (θ , D ) + λ P (θ ) = Lemp (θ , D ) λ + 20 = 20 20 10 10 10 0 0 0 -10 -10 -10 -20 -20 -20 -20 -20 -10 0 10 20 -10 0 10 20 -20 -10 0 10 20 正則化法の幾何的なイメージ II (正則化ロス関数) = (経験ロス関数) + λ(罰則項) Lemp (θ , D ) λ = Lemp (θ , D ) + λ P (θ ) {θ ∈ Θ : Lemp (θ , D ) = C0 } θˆ0 = arg min Lemp (θ , D ) θ ∈Θ {θ ∈ Θ : P (θ ) = θˆλ = arg min Lemp λ (θ , D ) θ ∈Θ C1 λ } Stein推定とリッジ回帰 データ が x ~ N p (θ , I ) に従うとき θ の推定のため負の対数尤度関数にP(θ ) emp L λ (θ , D ) 1 = || x − θ || 2 + λ P (θ ) 2 グラディエントは以下のようになり ∂ emp L (θ , D ) ∂θ λ ∂ = θ− x + λ P (θ ) = 0 ∂θ James-Stein推定量が得られる. p−2 ˆ θJS = (1 − x 2) || x || 事後分布最大推定(MAP) 事後分布π(θ |D) = Πi f(xi|θ )π(θ) を最大にする方法を Maximum a posteriori推定と呼ぶ emp L λ (θ , D ) = n ∑ log f ( xi ,θ ) + λ log π (θ ) i =1 θˆλ = arg max Lemp (θ , D ) θ ∈Θ λ で与えられる. 事後分布最大推定(λ = 1)は最尤推定量(λ = 0)をペナル ティ関数 log π (θ )によって正則化している. ベクトル場の連想する力学系 定義から θ̂λ は 下の推定方程式を満たす. ∂ emp ˆ ∂ L ( θλ, D ) = − λ P ( θˆλ ) ∂θ ∂θ G (θ ) ∂ P (θ ) はパラメータ空間 Θ の中でベクトル場である. ∂θ 勾配ベクトル場と呼ぶ. ベクトル場の湧き出し量と調和関数 ベクトル場 h( θ ) に対して湧き出し量が下で定義される p p p ∂ div h( θ ) = ∑ h i (θ ) + ∑∑ h i (θ )Γi jj (θ ) i =1 ∂θ i i =1 j =1 j ここで Γi k (θ ) は情報計量に関するクリストフェル記号を表す. P(θ )の勾配ベクトル場の湧き出し量が0, div ( ∂∂θ P ( θ )) = 0 を満たすとき調和関数と呼ぶ. 正則化法の幾何 2つ推定量 θˆ0 = arg min Lemp (θ , D) と θˆλ = arg min Lemp (θ , D) は θ∈ Θ θ ∈Θ λ 期待ロス関数 IL (θ ) = IE {Lemp (θ , D) } に関して n {IL (θˆ0 ) − IL (θˆλ )} = − λ * div(grad( P (θ )) + 2 λ* 2 2 || grad ( P (θ ) ||2 + o(1) の関係がある.ここで λ* = n λ とする. 注意: 特にペナルティ関数 P(θ ) が調和関数であれば, 必ず 正則化によって λ*|| grad(P(θ ) ||2/2 だけ漸近改良が得られる. スパース学習 p >> n 問題において一般化線形モデル E ( y | x ) = g ( xi T β + α ) を考えるとき,過剰な数の回帰係数パラメーターたちの多くは 0 で 0でない係数パラメーターは少数であるとして,それに対応する xj だけが有効な遺伝子(タンパク)発現であると考えることができれば 有効である. 最近, L 1 正則化について Lasso, Adaptive lasso, Least angle regression, Dantzig selectorなど著しい理論的な発展と実用がある. ここでは基本形のLassoについて紹介する. Lasso yi = xi T β + α + ε i (i = 1,..., n) 線形モデル ここで xi , β は p次元ベクトルとする. Lasso推定量 (Least absolute shrinkage and selection operator) (αˆ , βˆ ) = arg min n ∑ ( yi − xi i =1 T β − α ) subject to 2 p ∑| β j | = t j =1 Tibshirani, 1996 JRSSB スパース縮小 条件付最小化のためのラグランジュ法から p ∂ n 1 { ∑ 2 ( yi − xi T β − α ) 2 − λ ( ∑ j =1| β j | − t )} ∂β i =1 n n = ( ∑ xi xi ) β − ∑ ( yi − α ) xi − λ sgn( β ) = 0 T i =1 i =1 Lasso推定量 β̂ と最小2乗推定量 β̂ OLS は次の関係で結ばれる. n −1 βˆ = βˆ OLS + λ ( ∑ xi xi T ) sgn( βˆ ) i =1 n ∑ xi xi T = I (単位行列 ) ならば i =1 βˆ j = βˆOLS j + λ sgn( βˆ j ) ( j = 1,..., p ) スパースの表現 正規直交デザイン行列 ∑ xiT xi = I (単位行列 ) のときは βˆ j = βˆ OLS j + λ sgn( βˆ j ) ( j = 1,..., p ) βˆ j = sgn( βˆOLS j )(| βˆOLS j | − λ ) + これを逆に解くと ⎧ A if A > 0 をあらわす. ⎩ 0 otherwise + となる. ここで A = ⎨ 注意: λ は 制約 βˆ OLS ∑ | βˆ j | = t から一意に決まる. β̂ j j λ −λ β̂ j −λ λ βˆ OLS j スパースネスの制御 t ∑ | βˆ j | = t スパースネスの制御は t の選択に帰着される. 6章:統計的パターン認識法の 総合的な理解 1章: 確率的フレームワーク □ 特徴ベクトルとクラスラベル □ 擬陽性と偽陰性 □ マルチクラス判別関数 □ Bayesルール □ 判別関数の注意 □ Bayesルールのエラーレイト □ 2値クラス判別関数 □ 確率分布 □ エラーレイト □ エラーレイトの評価 □ Bayesルールの最適性 1. 確率的フレームワーク 2 . Fisherの判別関数,ロジスティック判別 3. ブースティング 4. サポート・ベクターマシン 実データ解析 – 臨床医学から 5. L2 と L1の正則化 2章: Fisherの判別関数, ロジスティック判別 □ 多変量正規モデル □ 最尤推定 □ ロジステック回帰モデル □ Bayesルール □ 条件付確率 (2値クラス) □ Fisherの判別関数 □ ロジステック回帰モデル (2値クラス □ 2次元正規分布 □ 条件付確率 (マルチクラス) □ 条件付き確率 □ ロジステック回帰モデル(マルチクラス) □ Bayes境界 □ 条件付き確率プロット □ ロジステック判別関数 3章: ブースティング 1 □ K-Lダイバージェンス □ ε t +1 ( f ( t ) ) = 2 の証明 □ 指数ロス関数 □ 指数ロス関数の更新 □ アダブーストの考え □ 逐次最適化 □ 学習機械のクラス □ アダブースト = 指数ロス逐次最小化 □ アダブースト □ シミュレイション (完全分離ケース) □ 学習アルゴリズム □ 学習機械の線形クラス □ 指数ロス関数 □ 学習の過程 (I), (II) □ 学習曲線 □ 最終の決定境界 □ 重み更新の特徴 4章:サポート・ベクターマシン □ 超平面の幾何 □マージン最大化 □ サポートベクターマシン □ 2次計画法 □ カーネルSVM □ カーネル表現 5章: L2 と L1の正則化 □ Stein推定とリッジ回帰 □ MAPとスパース学習 □ 幾何的イメージ(ベクトル場) □ Lassoとスパース表現 確率的フレームワーク ロジスティック判別 Fisherの判別関数 L2 と L1の正則化 ブースティング カーネル法 サポート・ベクターマシン 実データ解析 – 臨床医学から 確率的フレームワーク Any boosting Æ any loss functions can be implemented. U-boost, η-boost, AUC-boost, pAUC-boost t-boost, Group-boost, Local-boost logit-boost, L2-boost Any kernal Æ any linear model can be applied Fisher-kernel, Robust kernel PCA kernel ICA, kernel logistic http://www.ism.ac.jp/~eguchi/Topics_enter.htm Refrerences 1 □ Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, 179-188. □ Efron, B. (1975), The efficiency of logistic regression compared to normal discriminant analysis. J. Amer. Statist. Asoc.70, 892-898. □ Schapire, R. (1990). The strength of the weak learnability. Machine Learning 5, 197227. □ Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B, 58, 1, 267-288 □ Hand, D. J. and Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: a review. J. Roy. Statist. Soc., A, 160, 523-541. □ Schapire, R. Freund, Y, Bartlett, P. and Lee, W. (1998). Boosting the margin: a new explanation for effectiveness of voting methods. Ann. Statist. 26, 1651-1686. □ Vapnik, V. N. (1999). The Nature of Statistical Learning Theory. Springer: New York. □ Friedman, J., Hastie, T. and Tibshirani, R. (2000). Additive logistic regression: A statitistical view of boosting. Ann. Statist. 28, 337-407. Refrerences 2 □ Pepe. M.S. and Thampson, M.L. (2000). Combing diagnostic test results to increase accuracy. Biostatistics 1, 123-140. □ Ratsch, G., Onoda, T. and Muller K.-R. (2001) Soft Margins for AdaBoost. Machine Learning. 42(3)}, 287-320. □ Eguchi, S. and J. Copas . A class of logistic-type discriminant functions. Biometrika 89, 1-22 (2002). □ Murata, N., T. Takenouchi, T. Kanamori and S. Eguchi , Information geometry of UBoost and Bregman divergence. Neural Computation 16, 1437-1481 (2004). □ E. Candes and T. Tao. The Dantzig selector: Statistical estimation when p is much larger than n. Ann. Statist. 35, 6 (2007) 2313-2351. □ T. Kanamori, T. Takenouchi, S. Eguchi and N. Murata (2007): Robust Loss Functions for Boosting, Neural Computation, 19, 2183-2244 □ J. Fan and J. Lv. Sure Independence Screening for Ultra-High Dimensional Feature Space. J. Royal. Statist. Soc B, 70, 5 (2008) 849-911. □ O. Komori, S. Eguchi. A boosting method for maximizing the partial area under the ROC curve. BMC Bioinformatics (2010) 11:314. 日本語の参考文献 1 (講師に関連した総説など) ゲノム・プロテオミクスデータを用いた予測解析: 機械学習による新しい統計的手法. 小森 理, 江口 真透.計量生物学 32, 1, (2011) 49-73 [pdf] AUCを用いた格付予測評価指標と重み付き最適化. 三浦 翔,山下 智志,江口 真透.`定量的 信用リスク評価とその応用' 津田博史 ・中妻照雄 ・山田雄二 編 (2010) 朝倉書店 [pdf] ブースティング.医学統計学の辞典,丹後俊郎 ・小西貞則 編, 朝倉書店 (2010) [pdf] 信用リスクスコアリングにおけるAUCとAR値の最大化法. 三浦 翔,山下 智志,江口 真透.金 融研究研修センター・20年度ディスカッションペーパー (2008) [pdf] 関連遺伝子セットの多重解の存在.プリチャード真理, 江口真透.日本統計学会誌 38巻 シリー ズJ 2号,199-212 (2009) [pdf] 統計的パターン認識: 線型判別からアダブーストまで. 日本化学会情報化学部会誌 25, 68 (2007) [pdf] リスク科学のための人工知能的方法と統計的思考. 人工知能学会誌 22巻 5号特集「定量的リ スク科学」656-662 (2007年9月) [pdf] 日本語の参考文献 2 ゲノムデータ解析のための統計的方法を目指して. 特集:予測と発見, 統計数理 54, 375-403, 2006 [pdf] DNA チップデータ解析において統計学の役割は何か? バイオテクノロジージャーナル 5,430-435, 羊土社 (2005年7月) [pdf] 情報幾何 (6月,2007年) 小項目 (統計データ科学活用事典)朝倉書店 [pdf] 情報幾何と統計的パタン認識. 数学 56巻 380-399,日本数学会編集,岩波書店,2004年10月. [pdf]. 統計的パタン識別の情報幾何 -U ブースト学習アルゴリズム- 数理科学 特集「統計科学の最前線」, No. 489, 53-59 March 2004. [pdf] 統計的識別の方法について - ロジスティック判別からアダブーストまで - 応用統計学会 第24回 シンポジ ウムプログラム-多変量解析の新展開- 特別講演 (5月, 2002) [pdf] Neyman-Pearsonの補題から導かれる判別分析, 福島大学商学論集 第67巻第3号 39-46,故 豊岡康行教授 追悼号(1999年2月) [pdf] 補遺(定理 1 の証明) ベイズルールによる判別空間 + { } − { } RB = { x ∈ R p : hBayes ( x ) = + 1} = x ∈ R p : p ( y = + 1 | x) ≥ p (y = − 1 | x) RB = { x ∈ R p : hBayes ( x ) = − 1} = x ∈ R p : p ( y = + 1 | x) < p (y = − 1 | x) の 誤判別確率 の良さについて見てみよう 一般に、判別 ルール { R = R+ , R− } が 与えられたとき 誤判別 の 確率は Err ( h ) = Ρ ( x ∈ R − , y = + 1) + Ρ ( x ∈ R + , y = − 1) = ∫ p ( x ) p ( y = +1 | x )dx + ∫ p ( x ) p ( y = −1 | x )dx R− で与えられる。 R+ Err ( h ) − Err ( hBayes ) = (∫ R = − ∫ − RB − ( ∫ − R −\R−B ≥ ( ∫ − R \R = (∫ R ∫ ∫ − RB \ R B − − R RB − \ R − − − ) p ( x ) p ( y = +1 | x ) dx + ( ∫ ∫ − RB − ∫ − ) p ( x ) p ( y = −1 | x ) dx + RB + ) p ( x ) p ( y = +1 | x ) dx + ( ∫ − R + \ RB + ) p ( x ) p ( y = −1 | x ) dx + ( ∫ + R \ RB ) p ( x ) p ( y = −1 | x ) dx + ( ∫ R + − ∫ + RB RB + \ R + − + ) p ( x ) p ( y = −1 | x ) dx ∫ ∫ + RB \ R ) p ( x ) p ( y = +1 | x ) dx + ) p ( x ) p ( y = +1 | x ) dx = {1 − Err ( h )} − {1 − Err ( hBayes )} Err ( h ) − Err ( hBayes ) ≥ {1 − Err ( h )} − {1 − Err ( hBayes )} ⇔ Err ( h ) − Err ( hBayes ) ≥ 0 R− R − \ RB RB− − R− ∩ B R B−− − RB \ R − ⎛ ⎜ − ∫− ⎜ ∫− RB ⎝R ⎞ ⎟= − ∫ ⎟ −∫ − ⎠ R \ R B RB \ R □ 実データ解析–臨床医学から 統計数理研究所 小森 理 統計数理研究所 江口 真透 2011 年 10 月 25 日 (火) 統計数理研究所 発表内容 1 AUC と AUCBoost Receiver Operating Characteristic Curve AUCBoost 脊髄患者のデータ 2 PSA データ解析 研究概要 AUCBoost の応用 PSA cutoff nomogram 3 AUCBoost の拡張 pAUCBoost 乳癌データへの応用 ROC カーブ 設定 x ∈ R p : マーカーベクトル y ∈ {0, 1} : クラスラベル . F(x): スコア関数, c: 閾値 { F(x) ≥ c ⇒ 陽性 F(x) < c ⇒ 陰性 FPR(c) = P(F(X) > c |y = 0) TPR(c) = P(F(X) > c |y = 1) ⇓ ROC = {(FPR(c), TPR(c)) |c ∈ R} . . Area under the ROC curve (AUC) ROC カーブの性質 1 2 3 ロジスティック回帰や古典的なフィッシャーの線 形判別のように,ある特定の確率分布を想定して いない. 二つの母集団の事前確率に対し,影響されないの でケース・コントロール研究にも適用可能. AUC は判別の際に用いる閾値 c に依存しない,判 別の良さを測ることができる. ROC 以外の指標 陽性的中率 (Positive Predictive Value), 陰性的中率 (Negative Predictive Value) sen × P(Y = 1) sen × P(Y = 1) + (1 − spe) × P(Y = 0) spe × P(Y = 0) NPV ≡ P(Y = 0|F(x) < c) = spe × P(Y = 0) + (1 − sen) × P(Y = 1) PPV ≡ P(Y = 1|F(x) ≥ c) = オッズ比 Odds ration = 尤度比 sen/(1 − sen) (1 − spe)/spe LRP = P(F(x) ≥ c|Y = 1) sen = , P(F(x) ≥ c|Y = 0) 1 − spe LRN = P(F(x) < c|Y = 1) 1 − sen = , P(F(x) < c|Y = 0) spe 注:どれも閾値 c または事前確率に依存.感度 (sen=TPR(c)), 特異度 (spe=1-FPR(c)). AUC を最大にする最適なスコア関数 ネイマン・ピアソンの基本定理より,AUC を最大化する最適なス コア関数は次式で与えられる. 最適なスコア関数 Fopt ≡ argmax AUC(F) ( F ) g1 (x) = m , g0 (x) . 但し, g0 , g1 はそれぞれの母集団にたいする確率密度関数とする. このことは Eguchi and Copas (2002) と McIntosh and Pepe (2002) で示されている. 例: 多変量正規分布 確率変数 X0 と X1 が X0 ∼ N(µ0 , Σ0 ), X1 ∼ N(µ1 , Σ1 ), のように正規 分布に従っているとき,AUC を最大にする最適なスコア関数は次 式で与えられる. (Komori, 2011) ( g (x) FN (x) = m 1 g0 (x) ) −1 −1 −1 = x′ (Σ−1 0 − Σ1 )x + 2(µ1 Σ1 − µ0 Σ0 )x, 但し, [ ]. 1 g0 (x) = (2π)−p/2 |Σ0 |−1/2 exp − (x − µ0 )′ Σ−1 (x − µ ) 0 0 2 [ ] 1 −p/2 −1/2 ′ −1 g1 (x) = (2π) |Σ1 | exp − (x − µ1 ) Σ1 (x − µ1 ) . 2 Su and Liu の線形スコア関数との関係 Su and Liu (1993) の定理 正規性の仮定のもとで,最適な線形スコア関数は次式で与えら れる. lN (x) = (µ1 − µ0 )′ (Σ0 + Σ1 )−1 x . また,上記の lN (x) は,F N (x) の x0 での一次近似であることが示 されている (Komori, 2010). x0 = Σ0 (Σ0 + Σ1 )−1 µ1 + Σ1 (Σ0 + Σ1 )−1 µ0 . スコア関数の重要性 確率変数 X0 ∼ N(0, 1), X1 ∼ N(0, 4) を考える. lN から生成される ROC カーブ TPR 0.2 0.4 0.6 0.8 1.0 0.8 0.6 0.4 0.2 0.705 0.5 0.0 0.0 TPR . 1.0 FN から生成される ROC カーブ 0.0 0.2 0.4 0.6 0.8 FPR 1.0 0.0 0.2 0.4 0.6 FPR . 0.8 1.0 ROC カーブの凸性 最適な ROC カーブの特性 Proof 最適なスコア関数による ROC カーブは常に凸である (Pepe, . 2003). FPR(c) = . ∫ ∫ ( m x x g1 ( ) g0 ( ) ) >c g0 (x)dx, TPR(c) = ( ) g1 (x)dx. g ( x) m g1 ( x) >c 0 よって, ∫ 1.0 . = lim ∫ 0.6 ∆c→0 0.2 0.4 ∫ = 0.705 0.0 TPR . 0.8 dTPR(c) dFPR(c) lim ( ) g1 (x)dx g ( x) c<m g1 ( x) <c+∆c 0 ( ) g0 (x)dx g ( x) c<m g1 ( x) <c+∆c 0 ( ) g ( x) c<m g1 ( x) <c+∆c 0 ∆c→0 ∫ ( ) g0 (x)dx g ( x) c<m g1 ( x) <c+∆c 0 0.0 0.2 0.4 0.6 FPR 0.8 1.0 = m−1 (c). m(c)−1 g0 (x)dx 先行研究 Pepe and Thompson (2000) は AUC の最大化する 手法を提案し,Pepe et al. (2006) の論文でロジス ティック回帰との比較を行った. Ma and Huang (2005) と Wang et al. (2007) はシグ モイドによる AUC の近似を行い,AUC の最大化 を行っている. 近似 AUC それぞれのクラス y ∈ {0, 1} に対する確率密度関数をそれぞれ g0 , g1 とすると,AUC は ∫ ∫ AUC(F) = H(F(x1 ) − F(x0 ))g0 (x0 )g1 (x1 )dx0 dx1 , とかける. 但し,H(z) = 1(z ≥ 0), 0(z < 0). 同様に近似 AUC は ∫ ∫ AUCσ (F) = Hσ (F(x1 ) − F(x0 ))g0 (x0 )g1 (x1 )dx0 dx1 , となる.但し,Hσ (x) = Φ( σx ) であり Φ は標準正規分の分布関数. AUC と近似 AUC との関係 近似 AUC と AUC との関係 (Komori, 2011) ( ( )) Ψ(c) = AUCσ F + c m Λ , とする.但し, Λ(x) = g1 (x)/g0 (x) とし m は単調増加関数とする.このとき,Ψ(c) は c ∈ R に関 し,単調増加関数となり, . ( ) sup AUCσ (F) = lim Ψ(c) = AUC Λ . c→∞ F が成り立つ. Proof. ∂ 1 Ψ(c) = ∂c 2 ∫ ∫ ( ) ( ) ( ) ζ(x1 ) − ζ(x0 ) H′σ F(x1 ) + c ζ(x1 ) − F(x0 ) − c ζ(x0 ) g0 (x0 )g0 (x1 ) Λ(x1 ) − Λ(x0 ) dx0 dx1 ( ) 但し,ζ(x) = m Λ(x) .よって, . AUCσ (F) < lim Ψ(c) c→∞ = [ { }] F lim AUCσ c +ζ c ) (F +ζ lim AUC σ c→∞ c c AUC(ζ) = AUC(Λ), = = c→∞ ブースティング 基本概念 . 多種多少な弱判別機 f をうまく組み合わせ,強力で柔 軟なスコア関す F を構築すること. F(x) = T ∑ . αt ft (x) t=1 AdaBoost (Freund and Schapire, 1997) LogitBoost (Friedman et al., 2000) GAMBoost (Tutz and Binder, 2006) Eta-Boost (Takenouchi and Eguchi, 2004) AUCBoost の目的関数 まず初めに,弱判別機の集合 F を用意する (さまざまな stump を 用意する) . F = p ∪ { } f (x) = aH(xk − bk ) + (1 − a)/2 | a ∈ {−1, 1}, bk ∈ Bk , k=1 これらの弱判別機を用い,以下の目的関数を最大化する. p ∑ n0 ∑ n1 ∑ { (2) }2 1 ∑ AUCσ,λ (F) = Hσ (F(x1 j ) − F(x0i )) − λ Fk (xk ) , n0 n1 i=1 j=1 k=1 x ∈B k k 但し,λ は平滑化パラメータ,Fk(2) は Fk の二回差分とする. 平滑化項:F のデータへの過剰な当てはまりを抑えると共に,判別における各 xk の解釈 を容易にする. 平滑化パラメータ (λ) と尺度パラメータ (σ) との関係 一般性を失うことなく, AUCBoost の目的関数は以下のように書き換えられる: AUCBoost の目的関数 AUCλ (F) = p ∑{ n0 ∑ n1 ∑ }2 1 ∑ Φ(F(x1 j ) − F(x0i )) − λ Fk(2) (xk ) n0 n1 i=1 j=1 k=1 x ∈B k k . 目的関数は: AUCσ,λ (F) = n0 ∑ p ∑ { (2) . n1 ∑ Fk (xk ) }2 1 ∑ Hσ (F(x1 j ) − F(x0i )) − λσ2 . n0 n1 i=1 j=1 σ k=1 xk ∈Bk と書き換えられ,λσ2 = λ′ σ′2 が成り立つとき, ( AUCσ,λ (F) = AUCσ′ ,λ′ を得る.これは AUCσ,λ (F) の最大化は AUC1,λσ2 ( ) F σ ) σ′ F , σ の最大化と等価であることを示す.よって, max AUCσ,λ (F) = max AUC1,λ (F). σ,λ,F λ,F AUCBoost アルゴリズム 1. スコア関数の初期値 F0 (x) を決める. 2. t 番目の繰り返し回数に対し,(t = 1, ..., T ) a. 最適な弱判別機 ft とその重み αt を以下のように求める. ft ∂ = argmax AUCλ (Ft−1 + α f ) , ∂α α=0 f ∈F αt = argmax AUCλ (Ft−1 + α ft ). α>0 b. 新たに求めた弱判別機でスコア関数を更新する. Ft (x) = Ft−1 (x) + αt ft (x). 3. 最後に T 個の重み付き和で最終的なスコア関数を求める. F(x) = F0 (x) + T ∑ t=1 αt ft (x) K -fold クロスバリデーション 0.76 0.74 0.72 Ȣ = Ȣ = Ȣ = Ȣ = 0.0001 0.001 0.01 0.1 0.70 AUCCV 0.78 0.80 チューニングパラメータの決定 0 50 100 150 200 250 T 平滑化パラメータ λ と繰り返し数 T の様々な組み合わせに対する AUCCV (λ, T) の値. 300 スコアプロット スコア関数を各マーカーごとに分解してプロットした もの.つまり, F(x) = p ∑ ( ) Fk (xk ), x = (x1 , ..., x p ) ∈ R p k=1 としたときの xk に対する Fk (xk ) のプロット. スコアプロットの高さはそのマーカーの有効性に比例する スコアプロットの形状により,各マーカーがどのように判 別に寄与しているかを理解できる. 脊椎病患者のデータ データ:子供の脊髄病患者 81 名のデータ. ラベル:手術後に kyphosis が残存したか (present) 否か (absent). 変数(マーカー) :Age 患者の年齢(単位:月), Number 手術をした脊髄の個数,Start 手術を開始 した脊髄の箇所. トレーニングデータ:最初の 70 名 テストデータ:残りの 11 名. 100 Age 150 200 2 4 6 Number 8 10 5 10 Start 15 8 8 6 6 0 50 100 Age 150 200 4 score 2 0 2 0 0 2 50 0 0 0 0 4 score 4 score 2 1 score 2 score 1 1 score 2 6 3 3 3 8 AUCBoost とその他の手法のスコアプロット 1 2 4 6 Number AUCBoost(左) AUC=0.777 (0.926), AdaBoost(右) AUC=0.666 (0.997), テスト(トレーニング). 8 10 5 10 Start 15 150 200 2 4 6 Number 8 10 5 10 Start 15 2 1 1 0 50 100 150 200 Age GAM(左) AUC=0.666 (0.949), GLM(右) AUC=0.666 (0.869), テスト(トレーニング). 0 0 0 2 1 100 Age 0 2 0 50 score 2 score 2 score score 4 score 4 score 4 2 0 0 3 3 3 8 6 8 6 6 8 AUCBoost とその他の手法のスコアプロット 2 2 4 6 Number 8 10 5 10 Start 15 第一部のまとめ 1 医療の判別問題にしばしば用いられる ROC カーブとその下 側面積 (AUC) の諸性質を説明した. 2 また AUC を最大化するブースティング手法 AUCBoost の説 明をした 3 脊椎データを用い実際の判別を行い,スコアプロットの有 用性を説明した. 発表内容 1 AUC と AUCBoost Receiver Operating Characteristic Curve AUCBoost 脊髄患者のデータ 2 PSA データ解析 研究概要 AUCBoost の応用 PSA cutoff nomogram 3 AUCBoost の拡張 pAUCBoost 乳癌データへの応用 慶應病院 1920年に創設され,長い歴史を誇る.来院者数も非常に多く,データの 蓄積量も膨大.独自の情報収集蓄積のシステムを持ち,医療の質の向上,患者 の精神的肉体的負担の軽減するために,そのデータの有効活用を目指す.この ような状況において,慶應病院の泌尿器科の医師達との共同研究が5年前から 始まった.前立腺癌患者の無駄な生検を減らすことが目的. 研究背景 食文化の欧米化により,近年前立腺癌患者の数が 急増している. また,高齢化社会の影響で,高齢者の前立腺癌患 者の割合が高くなりつつある. PSA(prostate specific antigen) が 4 ng/ml 以上で全 ての患者に対し生検を行っているが,中には不必 要な生検も数多く含まれる. 前立腺癌:ごく普通の癌で,高齢になると多くの人が前立腺癌の 兆候を示す.また,良性のものは摘出する必要はなく,手術以外 にホルモン治療などの選択肢がある. 研究の目的 慶應病院に来られる前立腺患者の悪性腫瘍 (significant) と良性腫瘍 (insignificnat) の判別をで きるだけ精度よく行いたい. PSA は泌尿器科の世界で一番有用なマーカーとし て用いられているが,それほど判別精度がよくな いことが指摘されている. I PSA 以外の情報(年齢,前立腺の体積,生検回数)な どの情報をうまく組み合わせて判別精度を上げたい. 判別の結果を現場の医師たちに受け入れ安い形に し,多くの病院で実際に使ってもらいたい. I PSA-cutoff nomogram PSA データ 2004 年から 2008 年の5年間の間に慶應病院に来られた患者で, 年齢が70歳以上で PSA の値が20 ng/ml 以下の合計400名の 患者.ラベル情報:significant, insignificant. PSA: prostate specific antigen: 前立腺から血液中に分泌され るタンパク質.前立腺癌患者では PSA の値が大きくなるこ とが知られており,通常 4ng/ml 以上で悪性腫瘍の疑いが濃 厚とされる. F/T ration: PSA の中には遊離型 (free) が存在し,それと全体 の PSA の比がしばしば診断の際に用いられる.比率が小さ いほど悪性腫瘍の疑いが強まる. TZ vol 前立腺癌と関連が強いとされる部分.この体積が小 さいほど悪性腫瘍の疑いが強い. NBx: 患者の生検の回数. 60 counts 20 40 60 40 0 0 20 counts 80 80 100 100 4 つのマーカーのヒストグラム 0 5 10 15 20 0 20 40 60 80 100 120 TZ vol counts 0 0 50 20 100 40 counts 60 200 80 300 PSA 0.0 0.2 0.4 F/T ratio 0.6 0.8 1.0 1.5 2.0 2.5 3.0 NBx PSA, F/T ratio, TZ vol と NBx のヒストグラム.黒が significant cancer, 白が insignificant cancer. 4 つのマーカーの ROC と AUC 0.8 0.6 TPR 0.4 0.2 0.4 0.2 TPR 0.6 0.8 1.0 TZ vol 1.0 PSA AUC= 0.792 0.0 0.0 AUC= 0.624 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 FPR 0.8 1.0 0.8 0.6 TPR 0.2 0.4 0.2 0.4 0.6 0.8 1.0 NBx 1.0 F/T ratio TPR 0.6 FPR AUC= 0.598 0.0 0.0 AUC= 0.729 0.0 0.2 0.4 0.6 FPR 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR PSA, F/T ratio, TZ vol と NBx の ROC と AUC. TZ vol が一番有用であることが示唆される. AUCBoost 4 sets of weak classifiers PSA weights: F ( x) ! F/T ratio 1 2 f (TZ vol) " 1 1 2 f 2 (PSA) " TZ vol i 3 3 NBx i"1 i"2 f3 (F/T ratio) " ####### " T T fT (NBx) ! F (PSA) " F (F/T ratio) " F (TZ vol) " F (NBx) f i (PSA) classification F ( x) $ c % significant cancer 1 PSA F ( x) & c % insignificant cancer PSA, F/T ratio, TZ vol と NBx を使った AUCBoost. 0 8 6 4 F(TZ vol) 0 2 4 0 2 F(PSA) 6 8 4つのマーカーのスコアプロット 5 10 15 20 0 20 60 80 100 8 6 0 2 4 F(NBx) 6 4 0 2 F(F/T ratio) 40 TZ vol 8 PSA 0.2 0.4 F/T ratio 0.6 1 2 3 NBx 4つのマーカーがどのように判別に効いているかを読み取ることができる. PSA cutoff nomogram (NBx=1) TZ vol () 0 F/T ratio 0 12 16 20 24 28 32 36 40 44 48 4(4-4) 4(4-4) 4(4-4) 4(4-4) 4(4-6.3) 5.9(4-7.9) 6.8(4-8.8) 7.3(4-9.5) 7.5(4-9.8) 7.9(4-11.4) 8(4-11.8) 0.04 4(4-4) 4(4-4) 4(4-4) 4(4-4.2) 4(4-6.5) 6.3(4-8.1) 7.1(4-8.8) 7.5(4-9.7) 7.8(4-10.4) 8.2(6.3-13.6) 8.3(6.3-13.6) 0.12 4(4-4) 4(4-4) 4(4-4) 4(4-4.6) 4(4-6.5) 6.4(4-8.1) 7.2(4-8.8) 7.6(4-9.8) 7.8(4-10.4) 8.3(6.3-13.6) 8.4(6.3-13.6) 0.16 0.2 0.24 0.28 0.32 0.36 0.4 4(4-4) 4(4-4) 4(4-4.7) 4(4-5.5) 4(4-7.1) 7(4-8.3) 7.6(5.8-9.4) 8.1(6.5-10.7) 8.4(6.7-11) 8.8(7.2-20) 9(7.3-20) 4(4-4) 4(4-4) 4(4-6.2) 4(4-6.5) 6.5(4-7.5) 7.7(6.3-9.3) 8.4(7.2-10.2) 9(7.5-20) 9.4(7.5-20) 10(7.9-20) 10.2(8.1-20) 4(4-4) 4(4-4) 4(4-6.6) 5(4-7.1) 6.7(4-8) 7.9(6.4-9.6) 8.6(7.3-11) 9.4(7.5-20) 9.7(7.7-20) 10.6(8.2-20) 11(8.2-20) 4(4-4) 4(4-4.8) 4(4-6.7) 5.8(4-7.1) 7.1(4-8.3) 8.1(6.9-9.9) 8.8(7.3-12.4) 9.7(7.9-20) 10.2(8-20) 11.1(8.4-20) 12.1(8.4-20) 4(4-4) 4(4-5.1) 4(4-7.1) 6(4-7.4) 7.2(4-8.6) 8.2(6.9-10.2) 9(7.3-17.3) 9.9(7.9-20) 10.4(8-20) 11.7(8.4-20) 12.6(8.4-20) 4(4-4) 4(4-5.5) 5.4(4-7.4) 6.3(4-7.5) 7.3(4.9-8.8) 8.4(7.2-10.7) 9.4(7.5-20) 10.2(7.9-20) 10.8(8.1-20) 20(8.5-20) 20(8.7-20) 4(4-4) 4(4-5.5) 5.4(4-7.4) 6.3(4-7.7) 7.3(4.9-8.8) 8.4(7.2-10.7) 9.4(7.5-20) 10.2(7.9-20) 10.8(8.1-20) 20(8.5-20) 20(8.7-20) NBx(生検回数)=1 のときの PSA の閾値と 95%信頼区間の nomogram.但し感度は 95%. PSA cutoff nomogram (NBx=2) TZ vol () 0 F/T ratio 0 12 16 20 24 28 32 4(4-4) 4(4-4) 4(4-4) 4(4-5.8) 4(4-7.3) 6.6(4-8.3) 7.4(4-9.3) 0.04 4(4-4) 4(4-4) 4(4-5.1) 4(4-6) 4(4-7.5) 7.1(4-8.5) 0.12 4(4-4) 4(4-4) 4(4-5.5) 4(4-6) 4(4-7.5) 7.1(4-8.5) 0.16 0.2 0.24 0.28 0.32 0.36 0.4 36 40 44 8.4(6.4-20) 48 7.7(4-10.6) 8(4-11.1) 8.4(6.4-20) 7.5(4.2-9.7) 8.1(4.2-11) 8.4(6.4-11.8) 8.6(6.9-20) 8.8(6.9-20) 7.6(4.2-9.7) 8.1(4.2-11.6) 8.4(6.4-12) 8.7(6.9-20) 8.8(6.9-20) 4(4-4) 4(4-4) 4(4-6.5) 4(4-6.3) 6.2(4-7.9) 7.4(4-9) 8.1(6.5-10) 8.6(7.3-12.3) 9(7.3-20) 9.6(7.3-20) 9.9(7.6-20) 4(4-4) 4(4-4.9) 4(4-7.3) 6(4-7.3) 7.1(4-8.4) 8.1(6.9-10) 8.8(7.5-12.1) 9.9(7.9-20) 10.2(8.2-20) 11.4(8.7-20) 13.1(8.7-20) 4(4-4) 4(4-6.1) 5.5(4-7.5) 6.3(4-7.9) 7.4(4-9) 8.4(7.3-11) 9.4(7.5-20) 10.4(8-20) 11.1(8.4-20) 20(8.9-20) 20(9-20) 4(4-4) 4(4-6.2) 6.2(4-7.9) 6.6(4-7.9) 7.5(6.3-9) 8.8(7.4-11.4) 9.9(7.7-20) 11(8.4-20) 13.3(8.5-20) 20(9.5-20) 20(9.9-20) 4(4-4) 4(4-6.5) 6.3(4-8.2) 6.7(4-8.1) 7.5(6.3-9.4) 8.8(7.4-12.6) 9.9(7.7-20) 11.4(8.4-20) 16.6(8.5-20) 20(9.5-20) 20(9.9-20) 4(4-4) 4(4-6.7) 6.4(4-8.2) 7(4-8.4) 7.8(6.4-9.9) 9(7.4-20) 10.2(7.9-20) 12.1(8.5-20) 20(8.5-20) 20(9.5-20) 20(10-20) 4(4-4) 4(4-6.8) 6.4(4-8.2) 7(4-8.4) 7.8(6.5-9.9) 9(7.4-20) 10.2(7.9-20) 12.8(8.5-20) 20(8.5-20) 20(9.5-20) 20(10-20) NBx(生検回数)=2 のときの PSA の閾値と 95%信頼区間の nomogram.但し感度は 95%. PSA cutoff nomogram (NBx=3) TZ vol () 0 F/T ratio 0 12 16 20 4(4-4) 4(4-4) 4(4-6.5) 4(4-6.3) 0.04 4(4-4) 4(4-4) 4(4-6.7) 0.12 4(4-4) 4(4-4) 4(4-6.7) 0.16 0.2 0.24 0.28 0.32 0.36 0.4 24 28 32 36 40 44 48 5.3(4-7.9) 7.1(4-9) 7.7(4-10) 8.2(5.9-13.3) 8.4(6.3-20) 8.8(6.9-20) 9(6.9-20) 4(4-6.7) 6(4-8) 7.4(4-9.1) 8(5.3-10.2) 8.5(6.5-20) 8.7(6.8-20) 9.4(7.2-20) 9.4(7.3-20) 4(4-6.7) 6.1(4-8) 7.4(4-9.3) 8(5.3-10.2) 8.5(6.8-20) 8.8(6.9-20) 9.4(7.3-20) 9.6(7.3-20) 4(4-4) 4(4-4) 4(4-7.2) 4.8(4-7.3) 6.7(4-8.4) 7.9(6.1-9.9) 8.5(7-11.8) 9.4(7.3-20) 9.8(7.5-20) 10.4(7.7-20) 10.7(8.1-20) 4(4-4) 4(4-6.5) 5.8(4-7.9) 6.5(4-8.1) 7.4(5.7-9) 8.5(7.3-11.7) 9.6(7.5-20) 10.7(8.2-20) 11.8(8.4-20) 20(9.4-20) 20(9.6-20) 4(4-4) 4(4-6.9) 6.3(4-8.2) 6.8(4-8.4) 7.6(6.3-9.9) 8.9(7.3-20) 10.2(8.1-20) 12.3(8.4-20) 20(8.8-20) 20(9.9-20) 20(10-20) 4(4-4) 4(4-7.3) 6.6(4-8.4) 7.2(4-8.5) 8(6.6-9.9) 9.4(7.5-20) 10.6(8.3-20) 20(8.8-20) 20(9.3-20) 20(10.2-20) 20(10.4-20) 4(4-4) 4(4-7.3) 6.8(4-8.8) 7.3(4-8.8) 8(6.6-10.2) 9.6(7.5-20) 11(8.3-20) 20(8.8-20) 20(9.3-20) 20(10.2-20) 20(10.4-20) 4(4-4) 4(4-7.5) 7(4-8.8) 7.4(4.9-9) 8.2(7.1-10.7) 9.8(7.5-20) 11.8(8.4-20) 20(9-20) 20(9.5-20) 20(10.4-20) 20(10.4-20) 4(4-4) 4(4-7.5) 7(4-8.8) 7.4(4.9-9) 8.2(7.1-11) 9.9(7.5-20) 11.9(8.4-20) 20(9-20) 20(9.5-20) 20(10.4-20) 20(10.4-20) NBx(生検回数)=3 のときの PSA の閾値と 95%信頼区間の nomogram.但し感度は 95%. 第二部のまとめ 1 2 3 PSA データに対し AUCBoost を適用した結果につ いて説明をした. 実際の医師が現場で使いやすいように, nomogram という形で判別結果をまとめた. 感度を95%を維持し,特異度を45%まで上げ ることができた.122回の生検を回避. 発表内容 1 AUC と AUCBoost Receiver Operating Characteristic Curve AUCBoost 脊髄患者のデータ 2 PSA データ解析 研究概要 AUCBoost の応用 PSA cutoff nomogram 3 AUCBoost の拡張 pAUCBoost 乳癌データへの応用 Partial Area under the ROC Curve (pAUC) 設定 x ∈ R p : マーカーベクトル y ∈ {0, 1} : クラスラベル . F(x): スコア関数, c: 閾値 { F(x) ≥ c ⇒ 陽性 F(x) < c ⇒ 陰性 FPR(c) = P(F(X) > c |y = 0) TPR(c) = P(F(X) > c |y = 1) ⇓ ROC = {(FPR(c), TPR(c)) |c ∈ R} . . AUC から pAUC へ Cook (2007) では AUC の値がマーカーの有用性を 必ずしも反映しないことを指摘.また,Pencina et al. (2008) は AUC の拡張として新たな指標を 提案. Walter (2005) ではメタアナリシスで pAUC を,Qi et al(2006) はタンパク質の相互作用の予測の評価 に pAUC を用いている. 近似 pAUC 予め固定した α1 と α2 に対し,閾値 c1,F と c2,F を以下のように定義する. ∫ ∫ H(F(x0 ) − c1,F )g0 (x0 )dx0 = α1 , H(F(x0 ) − c2,F )g0 (x0 )dx0 = α2 但し,g0 ,g1 はそれぞれの母集団の確率密度関数とする.このとき近似 pAUC は ∫ ∫ pAUCσ (F, α1 , α2 ) = H(F(x0 ) − c2,F )H(c1,F − F(x0 ))H(F(x1 ) − c2,F )H(c1,F − F(x1 )) ∫ + ×Hσ (F(x1 ) − F(x0 ))g0 (x0 )g1 (x1 )dx0 dx1 ∫ H(F(x0 ) − c2,F )H(c1,F − F(x0 ))g(x0 )dx0 H(F(x1 ) − c1,F )g1 (x1 )dx1 で与えられる.但し,Hσ (x) = Φ( σx ) とし,Φ は標準正規分布の分布関数とする. Hσ (F(x1 ) − F(x0 )) を H(F(x1 ) − F(x0 )) とすると通常の pAUC となる. 近似 pAUC の性質 近似 pAUC と pAUC との関係 (Komori and Eguchi, 2010) 関数 Ψ を ( ) ( ) Ψ(γ) = pAUCσ F + γ m Λ , α1 , α2 , とする.但し,Λ(x) = g1 (x)/g0 (x) とし,m はある単調増加関数と する.このとき,Ψ(γ) は γ ∈ R の単調増加関数となり, ( ) sup pAUCσ (F, α1 , α2 ) = lim Ψ(γ) = pAUC Λ, α1 , α2 . F が成り立つ. γ→∞ . pAUCBoost の目的関数 スコア関数 F 構築に使う弱判別機の集合を F とする. F = { f (x) = Nk,l (xk )/Zk,l | k = 1, 2, . . . , p, l = 1, 2, . . . , mk }, 但し,Nk,l は xk に対する3次自然スプラインの l 番目の基底関数とし,Zk,l はその基準化パラメー タとする.このもとで,目的関数を以下のように取る. pAUCσ,λ (F, α1 , α2 ) = n0 ∑ n1 1 ∑ H(F(x0 ) − c2,F )H(c1,F − F(x0 ))H(F(x1 ) − c2,F )H(c1,F − F(x1 ))Hσ (F(x1 j ) − F(x0i )) n0 n1 i=1 j=1 + n0 p ∫ n1 ∑ ∑ { ′′ } 1 ∑ H(F(x0 ) − c2,F )H(c1,F − F(x0 )) H(F(x1 ) − c1,F ) − λ Fk (xk ) 2 dxk , n0 n1 i=1 j=1 k=1 但し,λ は平滑化パラメータであり,Fk′′ は Fk の二回微分とする. この種の罰則項つきの目的関数を最大にするものは3次自然スプラインである (Hastie and Tibshirani, 1990). 平滑化パラメータ (λ) とスケールパラメータ (σ) との関係 一般性を失うことなく,pAUCBoost の目的関数は以下のように書き換えられる. pAUCBoost の目的関数 = pAUCλ (F, α1 , α2 ) n0 ∑ n1 1 ∑ H(F(x0 ) − c2,F )H(c1,F − F(x0 ))H(F(x1 ) − c2,F )H(c1,F − F(x1 ))Φ(F(x1 j ) − F(x0i )) n0 n1 i=1 j=1 + n0 p ∫ n1 ∑ ∑ { ′′ } 1 ∑ H(F(x0 ) − c2,F )H(c1,F − F(x0 )) H(F(x1 ) − c1,F ) − λ Fk (xk ) 2 dxk , n0 n1 i=1 j=1 k=1 . 証明.λσ2 = λ′ σ′2 のとき, ( pAUCσ,λ (F, α1 , α2 ) = pAUCσ′ ,λ′ ) σ′ F, α1 , α2 , σ が得られる.これより, pAUCσ,λ (F, α1 , α2 ) の最大化は pAUC1,λσ2 ( F σ , α 1 , α2 ) の最大化と等価とな る.それゆえ,maxσ,λ,F pAUCσ,λ (F, α1 , α2 ) = maxλ,F pAUC1,λ (F, α1 , α2 ). となる. . pAUCBoost のアルゴリズム 1. 初期値を F0 (x) = 0,|β0 ( f )| = 1 のようにする. 2. t = 1, ..., T に対し, a. Ft−1 + βt−1 ( f ) f に対する二つの閾値 c1 と c2 を求める. b. ワンステップ Newton-Raphson 法で β を更新する. βt−1 ( f ) → βt ( f ) c. 最適な ft を選ぶ. ft = argmax pAUCλ (Ft−1 + βt ( f ) f, α1 , α2 ) f d. スコア関数を更新する. Ft (x) = Ft−1 (x) + βt ( ft ) ft (x). ∑T 3. 最後に F(x) = t=1 βt ( ft ) ft (x) を得る. 発表内容 1 AUC と AUCBoost Receiver Operating Characteristic Curve AUCBoost 脊髄患者のデータ 2 PSA データ解析 研究概要 AUCBoost の応用 PSA cutoff nomogram 3 AUCBoost の拡張 pAUCBoost 乳癌データへの応用 乳癌データの概要 2種類のデータ (van’t Veer et al., 2002) I I 臨床データ: Age(年齢),Size(腫瘍の大きさ),Grade(腫瘍 レベル) , Angi(血管浸潤の有無), ERp(エストロゲン), PRp(プロゲステロン), Lymp(リンパ腺浸潤). 遺伝子発現データ: 25000 の遺伝子 クラスラベル:転移あり 1, 転移なし 0 トレーニングデータ: 78 人; テストデータ 19 人 I I 臨床データには AUCBoost を適用(Age, Size には3次 自然スプライン,その他の離散変量にはスタンプを 使用). 遺伝子発現データに関しては,Pepe et al. (2003) の フィルタリングの手法を用い,その後に pAUCBoost を適用. 30 35 40 45 50 55 4 1 0 0 0 1 3 4 Lymp 0 1 2 score 3 2 score 1 0 10 20 30 40 0 1 3 2 1 0 0 1 2 score 3 4 ERp 4 Size score 1 Angi 4 Age 1 2 score 3 4 3 2 score 0 1 2 0 1 score 3 4 スコアプロット (臨床データ) 2 Grade 3 0 1 PRp スコアプロットの形状を見ることにより,どのように判別に効いているかを理解でき,ま たその高さからどの変量が一番判別に対し効果があるかを判断できる. 今回の結果: AUC(トレーニング)=0.846, AUC(テストデータ)=0.964 van の結果:AUC(トレーニング)=0.882, AUC(テストデータ)=0.869, 但し AUC の最大値は 1. 0.0 -1.0 6 8 0.0 0.5 -1.0 -0.5 8 0 -0.4 -0.2 0.0 0.2 NM_018964 0.4 -0.4 -0.2 0.0 0.2 0.4 0.6 AA555029_RC 6 4 2 0 0 2 4 6 score 8 Contig40831_RC 8 0.5 6 score 6 4 0.5 0.0 NM_001710 2 score 0.0 0.6 4 score -0.5 0 -0.5 0.4 0 -1.0 8 8 6 -1.0 0.2 2 8 -1.5 Contig63649_RC 4 -1.5 0.0 NM_006201 6 -2.0 2 score -0.2 4 score 0.4 0 -2.0 score 0.0 0 0.2 NM_006931 -0.5 2 8 6 4 score 2 0.0 6 8 -1.5 AB023173 0 -0.2 4 score 0 -2.0 4 -0.5 Contig41613_RC 2 -1.0 2 8 6 4 score 0 2 6 4 2 0 score 8 スコアプロット (遺伝子発現データ) -0.4 -0.2 0.0 0.2 Contig55574_RC 0.4 -0.2 0.0 0.2 AL137615 25000 個の遺伝子の発現量を pAUC の値で順位付けを行い,上位100個に入る確率を計 算し,それが5割以上の遺伝子を選択.それを pAUCBoost に適用し上記のスコアプロッ トを得る. 今回の結果: pAUC(トレーニング)=0.089, pAUC(テストデータ)=0.042 van の結果:pAUC(トレーニング)=0.025, pAUC(テストデータ)=0.008, 但し pAUC の最大値は 0.1(α1 = 0, α2 = 0.1). 第三部のまとめ 1 FPR(false positive rate) を低く抑え,TPR(true potive rate) をできるだけ大きくするブースティング (pAUCBoost) を説 明した. 2 実際に乳がんの遺伝子発現データに適用した結果を説明 した. R または S に関する参考資料 1 S によるデータ解析,渋谷政昭・柴田里程 著,共立出版. 2 S と統計モデル,John M. Chamber and Trevor J. Hastie 著, 柴田里程 訳,共立出版. 3 S-PLUS による統計解析,W. N. Venables and B. D. Ripley 著, 伊藤幹夫・大津泰介・戸瀬信之・中東雅樹 訳,Springer. 4 R で学ぶデータサイエンス,金森敬文・竹之内高志・村田昇 著,共立出版 5 R のパッケージ:ada, boost, GAMBoost, lars, e1071,... 参考文献 I Eguchi, S. and Copas, J. (2002). A class of logistic-type discriminant functions. Biometrika 89, 1–22. Freund, Y. and Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences 55, 119–139. Friedman, J., Hastie, T. and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. The Annals of Statistics 28, 337–407. Hastie, T. and Tibshirani, R. (1990). Generalized Additive Models, Chapman & Hall. Komori, O. (2010). Boosting methods for maximization of the area under the ROC curve and their applications to clinical data, The Graduate University for Advanced Studies: Ph.D. thesis. Komori, O. (2011). A boosting method for maximization of the area under the ROC curve. Annals of the Institute of Statistical Mathematics 63, 961–979. Komori, O. and Eguchi, S. (2010). A boosting method for maximizing the partial area under the ROC curve. BMC Bioinformatics 11, 314. Ma, S. and Huang, J. (2005). Regularized ROC method for disease classification and biomarker selection with microarray data. Bioinformatics 21, 4356–4362. McIntosh, M. W. and Pepe, M. S. (2002). Combining several screening tests: Optimality of the risk score. Biometrics 58, 657–664. Pencina, M. J., D’Agostino Sr., R. B., D’Agostino Jr., R. B. and Vasan, R. S. (2008). Evaluating the added predictive ability of a new marker: From area under the ROC curve to reclassification and beyond. Statistics in Medicine 27, 157–172. 参考文献 II Pepe, M. S. (2003). The Statistical Evaluation of Medical Tests for Classification and Prediction, New York: Oxford University Press. Pepe, M. S. and Thompson, M. L. (2000). Combining diagnostic test results to increase accuracy. Biostatistics 1, 123–140. Pepe, M. S., Cai, T. and Longton, G. (2006). Combining predictors for classification using the area under the Receiver Operating Characteristic curve. Biometrics 62, 221–229. Pepe, M. S., Longton, G., Anderson, G. L. and Schummer, M. (2003). Selecting differentially expressed genes from microarray experiments. Biometrics 59, 133–142. Su, J. Q. and Liu, J. S. (1993). Linear combination of multiple diagnostic markers. Journal of the American Statistical Association 88, 1350–1355. Takenouchi, T. and Eguchi, S. (2004). Robustifying AdaBoost by adding the naive error rate. Neural Computation 16, 767–787. Tutz, G. and Binder, H. (2006). Generalized Additive modeling with implicit variable selection by likelihood-based boosting. Biometrics 62, 961–971. van’t Veer, L. J., Dai, H., van de Vijver, M. J., He, Y. D., Hart, A. A. M., Mao, M., Peterse, H. L., van der Kooy, K., Marton, M. J., Witteveen, A. T., Schreiber, G. J., Kerkhoven, R. M., Roberts, C., Linsley, P. S., Bernards, R. and Friend, S. H. (2002). Gene expression profiling predicts clinical outcome of breast cancer. Nature 415, 530–536. Wang, Z., Chang, Y. I., Ying, Z., Zhu, L. and Yang, Y. (2007). A parsimonious threshold-independent protein feature selection method through the area under receiver operating characteristic curve. Bioinformatics 23, 2788–1794.
© Copyright 2026 Paperzz