配布資料その2

§
情報幾何構造の統計的意義・その2
— 期待値、分散、パラメータ推定 —
長岡浩司 June 11, 2006
「情報幾何への入門と応用」配付資料
[1] 一般に、統計多様体 S = {pθ } の接ベクトル u =
P
i
ui (∂i )θ ∈ Tpθ (S) に対し、その
e-表現 (e-representation) u(e) を
u(e) := u `θ =
X
ui ∂i log pθ (: Ω → R)
i
で定める。このとき、Fisher 計量 g は
g(u, v) = Eθ [u(e) v (e) ] =: hu(e) , v (e) ipθ
(確率分布 pθ dµ に関する L2 -内積)
と表される。 以下では S が指数型分布族
"
pθ (ω) = exp C(ω) +
d
X
#
i
θ Fi (ω) − ψ(θ)
i=
の場合を考える。
Remark
一般に u の α-表現は u(α) := u `(α) (← §3 [3])で定義される。
[2] p = pθ における接ベクトルの e-表現は
(∂i )(e)
p = Fi − ∂i ψ(θ) = Fi − ηi (θ) = Fi − hFi ip
where
hF ip := Ep [F ]
で定まり、その全体は
Tp(e) := {u(e) | u ∈ Tp } = {F | F ∈ F and hF ip = 0}
where
F := spanR {1, F1 , . . . , Fd }
と表される。
Remark
Ω が有限集合で S = P(Ω) の場合は
F = RΩ (実数値確率変数全体)
1
[3] S 上のベクトル場 X =
P
i
X i ∂i に対し
X が S の e-接続に関して平行 ( e-parallel)
⇐⇒ ∃F ∈ F, ∀p ∈ S, (Xp )(e) = F − hF ip .
[4] S 上の実数値関数 hF i : p 7→ hF ip の Fisher 計量に関する gradient の e-表現は
(grad hF i)(e)
p = F − hF ip
よって grad hF i は e-parallel。
[5] (Theorem)
∀F ∈ F に対し
k(d hF i)p k2 = Vp [F ]
where
左辺 =
X
(∂i hF i)p (∂j hF i)p g ij (p) (cotangent space Tp∗ (S) 上の計量)
i,j
右辺 = hF − hF ip ip (分散)
[6] S の部分多様体 (曲指数型分布族 curved exponential family)
M = {pθ(u) | u = (ua ) ∈ U },
U : open ⊂ Rm ,
m := dim M < dim S
とその点 p = pθ(u) ∈ M に対し、M 上の関数 hF i|M の微分 (d hF i|M )p ∈ Tp∗ (M ) のノルムは
k(d hF i|M )p k2 ≤ Vp [F ]
を満たす。ここで
等号成立 at p ⇐⇒ (grad hF i)p ∈ Tp (M )
∀p ∈ M で等号成立 ⇐⇒ (grad hF i)|M が M 上のベクトル場
(S の e-接続に関して平行な M 上のベクトル場)
[7] 「真の分布は M に属するがパラメータ u の値が未知」という状況のもとで u の値を
推定する問題を考える。推定量は m-次元統計量
T = (T a ) : Ω → Rm
2
で表される。ただし T a ∈ F を仮定する。
Remark
|Ω| < ∞ で S = P(Ω) の場合は仮定は不要。|Ω| = ∞ でも実は不要。
T が不偏性 (unbiasedness)
∀u ∈ U, hTiu = u
(h · iu は分布 pθ(u) に関する期待値 )
を満たすならば、[6] において F の pθ(u) に関する分散共分散行列 Vu [T] と M の(座標系 [ua ]
に関する)Fisher 情報行列 GM
u に対し
−1
Vu [T] ≥ (GM
u )
が成り立つ (Cramér-Rao の不等式)。ここで
p = pθ(u) で等号成立 ⇐⇒ ∀a ∈ {1, . . . , m}, T a − hT a iu ∈ Tp(e) (M )
[8] 与えられた曲指数型分布族 M およびその座標系 [ua ] に対し、Cramér-Rao 不等式の
等号をすべての u で達成するような推定量 T ((exact な) 有効推定量 efficient estimator と
呼ばれる)が存在するための必要十分条件は、M が指数型分布族( S の e-接続に関して自己
平行)であり、かつ [ua ] が期待値座標系(M の m-接続に関して affine な座標系)であるこ
とである。また、有効推定量は(存在すれば)最尤推定量(S の最尤推定の M への m-射影)
に一致する。
[9] N 個のデータを用いた推定量 T : ΩN → Rm の平均二乗誤差の漸近論 (N → ∞ の極
限) に関する甘利の定理 (Ann. Statist., 10, 357-385, 1982) を紹介する。以下は、Amari &
Nagaoka, Methods of Information Geometry (AMS & OUP, 2000) からの抜粋を若干書き直
したものである。
In general, the estimator T = [T a ] contains a bias of order
1
N
whose coefficient is C a (u).
In order to reduce and compensate for this bias of the estimator, we use C a (T) instead of
the bias C a (u), to obtain
T ∗a = T a +
1 a
C (T).
2N
(1)
We call this a bias-corrected estimator. The bias of T∗ is
hT∗ iu − u = O(
1
).
N2
The mean square error of a bias-corrected first-order efficient estimator is given asymptotically by the expansion:
¡
¢
1
1
1
K ab + O( 3 ).
h(T ∗a − ua ) T ∗b − ub i = g ab +
2
N
2N
N
3
(2)
K ab may be decomposed into the sum of positive semidefinite matrices:
´2ab
³
´2ab ³
´2ab
³
(e)
(m)
(m)
K ab = ΓM
+ 2 HM
+ HA
,
(m)
(e)
(m)
where the terms ΓM , HM , and HA
(3)
represent the m-connection coefficients of M , the em-
bedding e-curvature of the model M , and the embedding m-curvature of A(u), respectively:
³
´2ab
(m)
ΓM
³
´2ab
(e)
HM
³
´2ab
(m)
HA
a
b
κ
λ
= Γ(m) cd Γ(m) ef g ce g df ,
= H (e) ce H (e) df gκλ g cd g ea g f b ,
a
b
= H (m) κλ H (m) µν g κµ g λν ,
(4)
and
(5)
(6)
and
a
= g(∇∂c ∂d , ∂b )g ba ,
κ
= g(∇∂c ∂e , ∂λ )g λκ ,
a
= g(∇∂κ ∂λ , ∂b )g ba .
Γ(m) cd
H (e) ce
H (m) κλ
Remark
(m)
(e)
(m)
推定量 T の推定多様体(推定量を S の最尤推定からの M への射影とみなしたと
きの、射影の逆像)に座標系 [v λ ] を導入し、M の座標系 [ua ] と合わせて [ua , v λ ] が S の座
標系を成すような状況を考えている。また、推定多様体と M との直交性(⇔ 一次漸近有効
性)を仮定している。
4