Neyman-Pearson の補題から導かれる判別分析

Neyman-Pearson の補題から導かれる判別分析
江口 真透
統計数理研究所, 総合研究大学院大学
1.
はじめに
判別分析の目的は単純である.個体からなるグループと各々のグループから標本が得られた
時,新しく与えられた未確定な個体のグループへの (できるだけ正確な) 分類が目的である (cf.
Krzanowski and Marriott, 1995).例えば,ある考古学者が青銅器時代の幾つかの人種が同定さ
れ,各々の人種の人骨標本が得られている場合,新しく発掘された人骨がどの人種に属するかを
決めたいなら判別分析が利用できるだろう.最近の新しい方向にはデータの構造に反復測定,時
間と空間の依存性をモデル化した問題が考察され,ニューラルネット,統計物理を援用した方法
が研究されている (cf. McLachlan, 1992).この論文では簡単のため2グループで完全なトレーニ
ングデータが得られる標準的な設定を考えよう.
ある個体の反応ベクトル値 x が集団 Π1 からか,或いは Π0 から生じたのかを判別する問題を
考えよう.ここで x は y が 1, 0 を取るかによって確率 π1 , π0 で密度関数 g1 (x), g0 (x) を持つ条
件付き分布に従うとする.このように, (y, x) の分布は
g(y, x) = {π0 g0 (x)}1−y {π1 g1 (x)}y
と書ける.
(この論文を通して,混乱が生じない限りに於いて分布と密度関数を区別しない.
)ある
いは,この問題は 与えられた x から y を impute する問題とも言える.この判別問題に対して
最適なルールは,よく知られているように “ λ(x) > 0 ならば y = 1,λ(x) ≤ 0 ならば y = 0 と
せよ.” で与えられる.ここで
λ(x) = log
π1
g1 (x)
+ log .
g0 (x)
π0
言い換えれば、将来のデータ x がデータ空間を2分割された部分空間 {x : λ(x) > 0} と {x :
λ(x) ≤ 0} のどちらに属しているかで集団 Π1 か,或いは Π0 への帰属を決定する.
標準的な設定では,予め n 組のトレーニングデータ (y1 , x1 ), . . . , (yn , xn ) が与えられ,その
データから λ(x) を推定する.もし g(y, x) が完全にパラメトライズされて,例えば,
fθ (y, x) = {π0 f (x, θ0 )}1−y {π1 f (x, θ1 )}y ,
θ = (θ1 , θ2 )
と与えられているならば, λ(x) もパラメトリック形
λ∗ (x) = log
π1
f (x, θ1 )
+ log
f (x, θ0 )
π0
(1)
となる.これより λ∗ (x) をパラメトリックに推定すれば良いことになる.そうでなければ, λ(x)
を直接ノンパラメトリックな方法で推定しなければいけないが,現実にはデータ x の次元が 大
きいときは大量のデータがないとうまく判別ルールが適用できない.いわゆる,次元の呪いの問
題の1つである.
1
この論文ではこの λ(x) がパラメトリックと,ノンパラメトリックの二つの極端な設定の中間的
な状況を考える.現実のデータが与えられたとき,分布 g がパラメトリックに従っていると確信
できることは,めったにない.むしろ,モデル P とは,数学的な仮定であり、完全ではないけれ
ど、ほぼモデルに従っていると仮定する方が自然な場合が多い. このような状況を反映させる柔ら
かなモデルを考察し,これを「概パラメトリックモデル (Near-Parametric model)」と呼ぼう (cf.
Eguchi, 1997; Eguchi and Copas, 1998).基礎分布 g がパラメトリックモデル P = {fθ : θ ∈ Θ}
の近くにある場合である.具体的には α > 0 が存在して,
min DKL (g, f ) = O(n−1−α )
f ∈P
(2)
を仮定する.ここで、DKL (g, f ) は分布 g から f への Kullback-Leibler ダイバージェンスを表す.
この仮定は次のように正当化される.帰無仮説 H0 : g ∈ P とその対立仮定説 H1 : g ∈
/ P の検定
を考えよう.この適合度検定において,検定の限界として α > 0 なるどんな対立仮説の列に対し
ても漸近的には検出力が 0 となる.逆に α = 0 の時 局所対立仮説列と呼ばれ O(1) で非心 χ2 分
布の和で表現される (cf. Eguchi, 1991).又, α < 0 の時, 検出力は漸近的に 1 となる.従って,
α ≤ 0 の場合はこの検定は少なくとも漸近的には正当な性能が期待できる.言い換えれば (y, x)
がパラメトリックか、又はノンパラメトリックに従っているかを漸近的に検出できる.このように
N (P) =
Nα
ここで Nα = {g : min D(g, f ) = O(n−1−α )}
f ∈P
α>0
は P を包む管状近傍を成し漸近的に P へ退化する集合列の中でパラメトリックかノンパラメト
リックかが判定できないような対立仮説を含む極大列と云える.( 注意:lim α→∞ Nα = P). この
ように 剛直なモデル P の代わりに,それを包み込む柔軟な概モデル N (P) のもとで,判別ルー
ルについて考察しよう.容易に想像されるように,基礎分布 g がモデル P に完全無欠に属する
とする仮定から提案される全ての判別ルールは概モデル N (P) の仮定の下ではモデル P の外で
もよく働くとは期待できない.この発表ではモデル P の下で正当化された方法をカーネル関数を
使って N (P) の下でも良い性能を持つように改良する工夫を提案する.この節の最後に説明され
るようにこの工夫は“ カーネル局所化 ”と呼ばれる.
この予稿では,2節では,パラメトリックな判別ルールのクラスを提案する.このクラスの中で,
典型的な例は,ロジスティック回帰判別である.このクラスは Neyman-Peason の補題の変形から
導かれる.次に3節では,本節で導入された概モデルのもとでの2節で与えた判別ルールの改良に
ついて提案する.これは,パラメトリックな方法にカーネル関数 K(u/h) を組み込んで判別点 x の
廻りの近傍の情報を引き出すことによって得られる.通常は正規カーネル関数 K(t) = exp(−t2 /2)
を使う. パラメトリックな方法でトレーニングデータ (y1 , x1 ), . . . , (yn , xn ) から得られた線形判
別関数を λ̂(x) とする. 第 i 番目のデータに対して, 等ウェイトの代わりに
K
λ̂(xi ) − λ̂(x)
h
のウェイトを付けて,再び同じパラメトリックな方法で求める方法である.これをカーネル局所
化と呼ぼう.このようにデータ xi から境界 {x : λ̂(x) = 0} への距離に応じてウェイトの大きさ
2
を変えることによって標的点 x の判別の問題に相対的に高い情報を持つデータに高いウェイトを
与えていることになる. ウィンドウ幅 h を ∞ に採るとウェイトは一様になるので λ̂(x) に戻るが,
h の大きさに応じて滑らかな非線形な判別関数が得られる. トレーニングデータからウィンドウ
幅 h をチューニングすると従来の判別ルールより性能が改善されることを示す.
2.
判別関数のクラス
Neyman-Peason 補題は数理統計学の基本的命題としてさまざまな理論のベースとなる.この
節ではこの補題を使って判別ルールのクラスを提案する.最初に補題の復習をしよう.λ(x) の定
義から, 任意の λ∗ (x) と u に対して, 不等式
π1 g1 (x)
> exp(u)
π0 g0 (x)
on {x : λ(x) > u} − {x : λ∗ (x) > u}
が成立し、他方では
π1 g1 (x)
≤ exp(u)
π0 g0 (x)
on {x : λ∗ (x) > u} − {x : λ(x) > u}
が 成立する.これより,両式の両辺 x について各々の領域で P0 (dx) で積分して差を取ると,不
等式
δ(u) = π1 {P1 (λ > u) − P1 (λ∗ > u)} − π0 exp(u) {P0 (λ > u) − P0 (λ∗ > u)} ≥ 0
が得られる.ここで P1 と P0 は g1 , g0 から作られる確率測度を表す.u = 0 の時
δ(0) = ER(λ∗ ) − ER(λ) ≥ 0
から λ による判別ルールが最適であることが結論される.ここで ER(λ) は判別関数 λ(x) を用い
た時の誤判別確率,エラー率 π1 P1 (λ ≤ 0) + π0 P0 (λ ≥ 0) を表す.
この発表では別の利用を考えよう.更に u の範囲 (−∞, ∞) 上で δ(u) 積分する事によって
∗
∞
Dw (λ, λ ) =
−∞
δ(u)w(u)du
を考えよう.ここで 関数 w(u) は正の重みを表す.この Dw を使って判別ルールを提案したい.
判別の問題を考える際に集団 Π をラベルする 0, 1 は全く便宜的なものである.これより逆にラ
ベル 1, 0 をつけても不変であるような判別ルールだけを考察の対象とする.これは自然に
w(−u) = eu w(u)
(3)
が要求される.以後これを仮定する.これから Dw はより扱い易い形
Dw (λ, λ∗ ) = π0 Eg0 {W (−λ) − W (−λ∗ )} + π1 Eg1 {W (λ) − W (λ∗ )}
が得られる.この Dw を使って判別ルールを式(1)で定義された λ∗ (x) を指数型分布族 f (x, θ) =
exp{θ T t(x) − ψ(θ)} の下で考えよう.この時,
λγ (x) = β T t(x) + α,
3
と表される.ここで γ = (α, β T )T , α = −ψ(θ1 ) + ψ(θ0 ) + log π1 − log π0 , β = θ1 − θ0 とする.
(注意: dim γ = dim θ + 1 となる).
この時仮定からトレーニングデータ (y1 , x1 ), · · · , (yn , xn ) が得られたとする.この時 Dw の経
験版 D̄w が
D̄w (λ, λγ ) =
n
n
1
1
yi {W (λ(xi )) − W (λγ (xi ))} +
(1 − yi ){W (λ(xi )) − W (λγ (xi ))}
n i=1
n i=1
と定められる.この γ に関する D̄w (λ, λγ ) を最小にする γ̂ を使って判別関数を
λ̂w (x) = γ̂ T τ (x)
と推定する.ここで τ (x) = (1, t(x)T )T とする. γ̂ を求める推定方程式は
δ̄w (γ) =
n
1
ξw (yi , λγ (xi ))τ (xi ) = 0
n i=1
(4)
で与えられる.ここで
ξw (y, λ) = y w(λ) + (y − 1)w(−λ)
と表す. このように Dw からデータに基づく D̄w を導出する事によって判別関数 λ̂w (x) が与え
られる.ここで関心があることは,どの重み関数 w を選ぶかによって λ̂w にどんな性能が求めら
れるかにある.
式(3)を満たす重み関数 w1 と w2 に対して2つの関数
α1 w1 (u) + α2 w2 (u)
α1
α2
と w1
u w2
u
α1 + α2
α1 + α2
α1 + α2
は,再び,式(3)を満足する. また
w (u) =
1
.
w(−u)
もそうである。このように,式(3)を満足する正の関数全体 W は十分豊富な空間と云える. 重
み関数 w の典型例として,ここで w の規格化
w(u) −→ w̄(u) =
w(u)
w(u) + w(−u)
を考えよう.この時,任意の w に対して
w̄(u) =
1
e−u
=
1 + eu
1 + e−u
となる.この w̄ を採用した Dw̄ の経験版は
n
1
1
1
− log
(1 − yi ) log
n i=1
1 + exp{λ(xi )}
1 + exp{λγ (xi )}
n
exp{λγ (xi )}
1
exp{λ(xi )}
− log
+
yi log
n i=1
1 + exp{λ(xi )}
1 + exp{λγ (xi )}
4
で与えられる.これは γ の関数として定数を除いてロジスティック回帰の対数尤度のマイナスと一
致する.このように e−u /(1 + e−u ) から定められる判別はロジスティック回帰判別と同値となる.
判別ルールのクラスの中でその性能比較ををパラメトリックモデルの場合において考察しよう.
良さの基準として、誤判別確率を採用しよう.判別関数 λ̂(x) が与えられた時,損失関数は
L(λ̂, λ∗ ) = π0 {P0 (λ̂ ≥ 0) − P0 (λ∗ ≥ 0)} + π1 {P1 (λ̂ < 0) − P1 (λ∗ < 0)}
となる.ここで, λ∗ は式(0)で定義されている.O’Neil (1980) の公式より, λ̂ = λγ̂ のリス
ク関数は漸近的に
R(λ̂, λ) =
1
tr(BΣ) + o(n−1 )
n
(5)
となる.ここで Σ は γ̂ の漸近分散,
B =
1
E
{τ (x)τ (x)T }.
4 β (π0 P0 +π1 P1 )
Dw による判別関数 λ̂w のリスク関数は式 (5) の右辺の Σ が
Σw = lim
n→∞
E
∂ δ̄w
∂γ T
−1
Var (δ̄w ) E
∂ δ̄w
∂γ T
−1
で 与えられる.このように与えられる漸近リスクの公式は,Dw による判別関数のクラスの中で
は一様に最良なものは存在しないだろう。一般には漸近リスクは解析的な表現は困難で数値的評
価によって比較される。
3.
局所化された判別関数
セミパラメトリックな場合の判別解析について考察しよう.第1節で議論されようにモデル P
を膨らませた概モデル N (P) の下では前節で導入された判別関数のクラスでは狭すぎるだろう.
何故ならこのクラスは γ の推定に違いがあるだけで、結局は十分統計量 t(x) の線形関数であるこ
とには変わりはない.この節では、このクラスを超えて“ 局所化 ”によって線形判別関数をデー
タに応じて非線形化する方法を提案する.その鍵となるアイデアは式(4)で与えられた推定方程
式 δ̄w = 0 に対して適当なカーネル関数 K を使って,与えられた u(x) を中心に重み付けること
にある.以後, K に対して
K
λ
h
= 1−
λ2
+ O(h−4 )
2h2
(6)
を仮定する.このように推定方程式はカーネル関数を使って
n
i=1
K
λγ (xi ) − u
ξw (yi , λγ (xi )) τ (xi ) = 0.
h
(7)
この γ に関する方程式の解を γ̂u と書く.ここで u = λ̂w (x) を採用すれば局所化された判別関
数は
λ̃w (x) = γ̂λ̂w (x) T τ (x)
5
で与えられる.このように λ̃w (x) は τ (x) の係数が λ̂w (x) を通して x の関数となる.カーネル関
数 K に対する仮定(6)から h → ∞ につれて局所化判別関数 λ̃w (x) は元の線形判別関数 λ̂w (x)
に漸近する.
さて λ̃w (x) と λ̂w (x) の性能比較をしよう.最初にノンパラメトリックな状態を考えよう.即ち,
g∈
/ P, minf ∈P DKL (g, f ) = O(1). とする.良さの基準として,この方法に自然なリスク関数
Rw (λ̃w , λ) = E Dw (λ̃w , λ)
を採用する.
命題 1. λ̂w (x) を Dw による判別関数, λ̃w (x) をその局所化された判別関数とする.この時
R(λ̂w , λ) − R(λ̃w , λ) =
1 T −1
1
δ Jγ δ + o( 2 )
2
h
h
が成立する.ここで
δ = E(g−fθ ) {ξw (y, λγ (x))τ (x)τ (x)T }γ.
証明. 初めに λ̃w (z) − λ̂w (z) を評価しよう.カーネル関数 K の仮定(6)から推定方程式(7)を
β̂ で展開すると,
−
n
1 {λ̂w (xi ) − λ̂w (z)}2 ξw (yi , λγ (xi ))τ (xi )
2nh2 i=1
n
∂
1
ξw (yi , λγ (xi ))τ (xi )τ (xi )T (β̂u − β̂)|u=λ̂w (z) = O(h−4 )
+
n i=1 ∂λ
が成立する.これを逆に取ると
λ̃w (z) − λ̂w (z) = −
n
1
−1
J
{λw (xi ) − λw (z)}2 ξw (yi , λγ (xi ))τ (xi ) + O(h−4 ).
2nh2 γ i=1
(8)
次にこの結果を使ってリスクの差を評価する.
R(λ̂w , λ) − R(λ̃w , λ) = E[π0 Eg0 {W (−λ̃w ) − W (−λ̂w )} + π1 Eg1 {W (λ̃w ) − W (λ̂w )}]
なので展開すると,
−Eg [ξw (v, λγ (z))E{λ̃w (z) − λ̂w (z)}] + O(h−4 )
なので (8) を代入すると,
1 (z,v)
E
[ξw (v, λγ (z)){Eg(y,x) (λ̂w (x) − λ̂w (z))2 ξw (y, λγ (x))τ (x)T Jγ−1 τ (z)] + O(h−4 )
2h2 g
1
= 2 E(g−fθ ) {ξw (v, λγ (z))λ̂w (z)τ (z)T }Jγ−1 E(g−fθ ) {ξw (y, λγ (x))λ̂w (x)τ (x)} + O(h−4 )
h
−
これより命題 1 の主張が証明される.□
このように命題を一見すると局所化による改良が明らかにされた思える.しかし命題 1 の主張
に混乱があることに気付く.リスクの改善量は h → 0 に近づけると ∞ に増大する一方で改善量
h → ∞ の時だけに成立する漸近評価である.いったいどの h を選択すれば良いかは何の示唆も
6
与えていない.このような不透明な議論の生じる理由を明らかにするためには根本に戻る必要が
あるだろう.基礎分布 g はパラメトリックモデル P に完全に分離されている仮定から命題 1 の
考察がスタートした.λ̂w は漸近的に λ∗ に収束する.ここで λ∗ は
Dw (λ, λ∗ ) = min Dw (λ, λβ )
β
を満たす.このように g ∈
/ P なので λ∗ = λ だから λ̂w は漸近一致性さえ満足していない.同様に
λ̃w も一般には漸近一致でない.したがってこのような基礎分布 g の仮定ではノンパラメトリッ
クな手法に依るべきであろう.結論から言うとこの設定ではモデル P は基礎分布 g の情報は何
も与えないのでノンパラメトリックな手法が採用されるべきで一致性のない λ̂w と λ̃w の性能を
比較する意味がない.
以上の考察を通して,我々は基礎分布 g が第1節で与えたような概モデルの状況に集中しよう.
この時リスク差は次のように精密化される.
命題 2. 基礎分布 g がパラメトリックモデル P に対して(2)であると仮定する.この時
R(λ̂w , λ∗ ) − R(λ̃w , λ∗ ) =
1 T −1
1
δ Jβ δ −
v + o(n−1 h−4 )
h2
8nh4
が成立する.ここで
v = Eg(v,z) Eg(y,x) [−
∂
ξw (v, λ(z))ξw (y, λγ (x))2 {τ (z)T Jγ−1 τ (x)}2 {λ∗ (x) − λ∗ (z)}4 ].
∂λ
証明. 命題 1 と同様な展開を O(h−4 ) まで進めると
R(λ̂w , λ∗ ) − R(λ̃w , λ∗ ) =
−
1
∂
1
Eg [ξw (y, λ(x))E{λ̃w (x) − λ̂w (x)}] − 4 Eg [ ξw (y, x)E{λ̃w (x) − λ̂w (x)}2 ] + O(h−6 )
2
2h
8h
∂λ
となる.ここで右辺第2項の中でデータに関連する部分を抜き出して評価しよう.
{λ̃w (x)− λ̂w (x)}2 =
=
n
2
1 1 2
−1
E
E{
λ̂
(x
)−
λ̂
(x)}
ξ
(y
,
λ
(x
))τ
(x
)J
τ
(x)
+o(n−1 h−4 )
w
i
w
w
i
γ
i
i
γ
4h4
n i=1
1
E (v,z) [{λ∗ (z) − λ∗ (x)}4 ξw (v, λγ(z))2 {τ (z)T Jγ−1 τ (x)}2 ] + o(n−1 h−4 ).
4nh4 g
この評価を第2項に代入し、第1項は命題 1 の結果を適用すると結論が得られる.□
この命題から直接導かれることはリスク改善量は h−2 の上に凸な2次関数になっていることが
分かる.従って最大の改善量を与えるウィンドウ幅 h の最適幅が
ĥ2opt =
v̂
4nδ̂2
で与えられる.ここで v̂ と δ̂ は v と δ の適当な一致推定量を表す.実際、δ と v は γ の関数な
ので D̄w の最小化によって得られた γ̂ を代入することによって構成できる.
4.
おわりに
7
ロジスティック回帰判別を含むパラメトリック判別ルールのクラスが提案された.これは,最
適な判別関数 λ(x) とフィットするパラメトリックな判別関数 λ∗ (x) の隔たりを表すインデックス
Dw (λ, λ∗ ) が Neyman-Peason の補題から導入され,トレーニングデータに基づく経験バージョ
ン D̄w (λ, λ∗ ) のフィッティングで定義された.ポイントは D̄w (λ, λ∗ ) の λ を含む項が加法的に表
現されるのでフィッティングは λ と独立に実行されることにある.従って未知の判別関数 λ(x) の
知識なしでパラメトリックな方法で推定できる.このように重み関数 w 毎に別々の判別関数が導
出される.重み関数 w の豊かさがこの判別関数のクラスの大きさを決定する.より良い w のメ
ニューはまだ分かってない.相対効率の意味で一様にベストな判別関数を与える w は存在しない.
ロジスティック回帰判別を与える重み関数 1/(1 + exp(u)) に対して2節で定義され反転
を施し
た重み関数 1 + exp(−u) ががよい性能を持つことが予想されるが明確な根拠はまだ明らかでない.
概モデルのもとで上のパラメトリック判別ルールをカーネル局所化法によってノンパラメトリッ
クな方法が取り込れ,非線型化が考察された.基礎分布 g のモデル P への乖離の程度に応じて
局所化を調整するようなウィンドウ幅の決めかたが提案された.このカーネル局所化法は手法に
自然なリスク関数を定義から改良することが分かるが判別関数として自然なリスク関数,例えば
期待誤判別確率を改良しているかは分ってない.今後の問題として残っている.残念ながら,現
段階では,データの実際の適用は行われてないが,心不全のデータに基づいて新しい診断法の開
発ための応用が計画中である.
参考文献
[1] Efron, B. (1975). The efficiency of logistic regression compared to normal discriminant analysis, J. Amer. Statist. Assoc., 70, 892-898.
[2] Eguchi, S. (1991). A geometric look at nuisance parameter effect of local powers in testing
hypothesis Ann. Institut. Statist. Math., 43, 245-260.
[3] Eguchi, S. (1997). Near-parametric inference, Information Geometry and Neuralnetwork,
organised by C. M. Bishop at Newton Institute, Cambridge University.
[4] Eguchi, S. and Copas, J. B. (1998). A Class of Lodal Likelihood Methods and NearParametric Asymptotics. J. Roy. Statist. Soc. B, 60 709-724.
[5] Krzanowski, W. J. and Marriott, F. H. C. (1995). Multivariate Analysis Part 2, Arnold,
London.
[6] McLachlan, G. J. (1992). Discriminant Analysis and Statistical Pattern Recoghition. Wiley,
New York.
[7] O’Neill, T. J. (1980). The general distribution of the error rate of a classification procedure
with application to logistic regression discrimination, J. Amer. Statist. Assoc., 75, 154-160.
8