スパース推定における情報量規準

量子統計モデリングのための基盤構築
スパース推定における情報量規準
梅津 佑太 † 二宮 嘉行 ‡
†
‡
九州大学 大学院数理学府
九州大学 マス・フォア・インダストリ研究所
2015/11/13
本報告は “AIC for Non-concave Penalized Likelihood Method”
(Umezu & Ninomiya 2015: arXiv) の結果 +α である
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
1 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
2 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
3 / 39
問題意識
(おそらく) 物理的な問題
少ない標本から (解釈可能な) よりよい結果を得るために, “測定回数
の削減”・“効率の良い推定” をおこないたい
▶
効率の良い測定法:実験計画法, 能動学習
▶
精度の高い推定法:変数選択, スパース推定
統計的な問題
p 次元の説明変数のうち, 少数の有意な変数でモデリングしたい
→ オッカムの剃刀, ケチの原理, less is more
e.g., Mallow’s Cp , AIC
min ∥y − X β∥22 + 2σ 2 ∥β∥0
β∈Rp
パラメータ推定は 2p 個の組み合わせを探索する ℓ0 最適化問題
▶
▶
p が大きいと現実的な時間での計算困難が伴う →NP 困難
p ≈ n または p ≫ n だと通常の統計解析手法の実行は困難
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
4 / 39
スパース推定の恩恵
y =
梅津 佑太 (九大数理)
X
AIC for Sparse Estimation
β + ε
2015/11/13
5 / 39
スパース推定の恩恵
β
y =
X
+ ε
無駄な情報
0
パラメータ推定+変数選択=スパース推定!!
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
5 / 39
Bridge (ℓγ -) 正則化法:Frank & Friedman (1993)
yi :目的変数 & Xi :説明変数
argmin
β∈B
n
∑
ℓ(yi ; Xi β) + λn
i=1
p
∑
|βj |γ , γ > 0
j=1
ℓ:損失関数(ℓ2 損失, 対数尤度関数など, おおむね凸関数)
λn (> 0):チューニングパラメータ
∑p
γ
j=1 |βj | :Bridge 罰則
▶
▶
▶
▶
γ → 0 ⇒ NP 困難:Best subset selection
γ ∈ (0, 1) ⇒ 非凸最適化 & スパース解
γ = 1 ⇒ 凸最適化 & スパース解:Lasso (Tibshirani 1996)
γ = 2 ⇒ 凸最適化 & 非スパース解:Ridge (Hoerl & Kennard 1970)
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
6 / 39
余談:量子トモグラフィーにおけるスパース推定の例
argmin
ρ∈S
n
∑
(yi − Tr[Mi ρ])2 + λn ∥ρ∥γSγ , 0 < γ < 1
i=1
ρ ∈ S :密度行列, S = {ρ ∈ Rp×p ; Tr(ρ) = 1, ρ ⪰ 0}
λn (> 0):チューニングパラメータ
∑
∥ρ∥Sγ = ( pj=1 σj (ρ)γ )1/γ :Schatten-γ ノルム
▶
▶
ρ の特異値に対する Bridge 罰則
正確には quasi-norm:三角不等式の代わりに以下が成立
∥ρ + σ∥Sγ ≤ K (∥ρ∥Sγ + ∥σ∥Sγ ), K > 1
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
7 / 39
Bridge 推定量のスパース性
min
β∈B
n
∑
ℓ(yi ; Xi β) + λn
i=1
梅津 佑太 (九大数理)
p
∑
j=1
|βj | =
γ
min
β∈B;∥β∥γ ≤R
AIC for Sparse Estimation
n
∑
ℓ(yi ; Xi β)
i=1
2015/11/13
8 / 39
チューニングパラメータ選択の重要性
# of nonzero coefs
RSS
optimal
スパース性とモデルの当てはまりの良さのトレードオフ
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
9 / 39
チューニングパラメータの選択問題
計算機的手法
cross validation: Stone (1974)
stability selection: Meinshausen & Bühlmann (2010), . . .
▶
匠の技により, 高速に計算可能 (e.g., glmnet)
▶
通常は計算付加が高い
λn のオーダーに関する手法
Knight & Fu (2000); Radchenko (2005); Huang et al. (2008), . . .
▶
推定量が良い性質を持つためのオーダーの決定
√
(e.g., λn / n → 0 & λn /nγ/2 → ∞)
▶
λn を定数倍しても同じ性質を持つため, λn の選択にはあまり使えない
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
10 / 39
チューニングパラメータの選択問題
GIC 型の情報量規準に基づく選択法
Wang et al. (2009); Zhang et al. (2010); Fan & Tang (2013), . . .
▶
−2ℓ(β̂λ ) + κn ∥β̂λ ∥0 に基づく基準
▶
モデル選択の一致性を満たすような
κn のオーダーを決定
√
(e.g., κn → ∞ & κn / n → 0)
▶
κn を定数倍してもモデル選択の一致性は保たれる
AIC 型の情報量規準に基づく選択法 (Lasso に限った基準)
Efron et al. (2004); Zou et al. (2007)
▶
Stein’s identity を用いた Cp 型の情報量規準
▶
モデルの拡張が困難
Ninomiya & Kawano (2014)
▶
漸近理論に基づく情報量規準
▶
一致性すら成立しない設定
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
11 / 39
目標
Goal 1
Ninomiya & Kawano (2014) の結果を推定量の一致性を保証するよう拡張
できれば Oracle property などの良い性質も保証したい
お手軽に使える基準ならなお良し
Goal 2
Lasso 以外の罰則へ拡張
Bridge: Frank & Friedman (1993)
SCAD: Fan & Li (2001)
MCP: Zhang (2010)
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
12 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
13 / 39
指数型分布族
{
}
f (y ; θ) = exp y T θ − a(θ) + b(y )
θ (∈ Θ):自然パラメータ
Θ:自然パラメータ空間
▶
θ ∈ Θ◦ において E[y ] = a′ (θ), V[y ] = a′′ (θ)
V [y ] の正定値性を仮定
▶
− log f (y ; θ) は強凸 w.r.t. θ
正規分布, 二項分布, ポアソン分布, etc.
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
14 / 39
一般化線形モデル
yi ∈ Rr :独立な確率ベクトル
Xi ∈ X (⊂ Rr ×p ):説明変数行列(既知)
{
}
f (yi ; Xi β) = exp yiT Xi β − a(Xi β) + b(yi )
θ = X β :自然連結関数
β (∈ B):推定すべきパラメータ
B (⊂ Rp ):パラメータ空間
▶
B は開凸でパラメータの真値 β ∗ を含むと仮定
線形回帰, ロジスティック回帰, ポアソン回帰, etc.
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
15 / 39
説明変数に関する仮定
(C1) X はコンパクトであり, 任意の X ∈ X と β ∈ B に対して, X β ∈ Θ◦
X が発散するような漸近論は扱わない
(C2) X 上の不変分布が存在する.特に,
は正定値行列
∑n
i=1
a(Xi β)/n や
∑n
i=1
∑n
T ′′
i=1 Xi a (Xi β)Xi /n
→ J(β)
XiT a′ (Xi β)/n の極限の存在を保証
gi (β) = log f (yi ; Xi β) に対して次が成立 (cf. Fahrmeir & Kaufmann
1985; Ninomiya & Kawano 2014):
Lemma 1
(C1), (C2) のもと sn =
梅津 佑太 (九大数理)
∑n
d
′
∗ √
i=1 gi (β )/ n →
s ∼ N(0, J(β ∗ ))
AIC for Sparse Estimation
2015/11/13
16 / 39
最尤法
最尤法
Kullback-Leibler の意味で “真の分布” との距離が最も近い分布を推測
[
]
f (y ; X β ∗ )
E log
= E[g (β ∗ )] − E[g (β)] → minimize
f (y ; X β)
▶
第 1 項は真の分布にのみ依存する定数項
▶
第 2 項を最小化する β を推定
▶
しかしデータは有限
最尤推定量
1∑
gi (β)
n
n
β̂ = argmin −
β∈B
梅津 佑太 (九大数理)
i=1
AIC for Sparse Estimation
2015/11/13
17 / 39
Bridge 推定量の漸近的性質
∑
1∑
β̂λ = argmin −
gi (β) + λn
|βj |γ , 0 < γ < 1
n
β∈B
λn =
▶
▶
n
p
i=1
j=1
√ γ0 −2
n
λ, γ < γ0 ≤ 1
√
√ 2−γ
nλn = λ (γ0 = 1), → 0 (γ < γ0 < 1) & n
λn → ∞
λn → 0 より漸近的に罰則は消える
Lemma 2
p
(C1), (C2) のもと β̂λ → β ∗
Knight & Fu (2000) の定理 1 と同様の議論による
Radchenko (2005) の結果を GLM へ拡張することで,
(1)
(1)
β̂λ = (β̂λ,j )j∈{j;βj∗ =0} に対して P(β̂λ = 0) → 1 も示せる
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
18 / 39
Bridge 推定量の漸近的性質
Theorem 3
√ γ0 /γ (1)
n
β̂λ = op (1) が成立する.さらに,
√
(2)
(2)
0 < γ0 < 1 ⇒ n(β̂λ − β ∗(2) ) = J (22) (β ∗ )−1 sn + op (1)
√
(2)
(2)
γ0 = 1 ⇒ n(β̂λ − β ∗(2) ) = J (22) (β ∗ )−1 (sn − λη (2) ) + op (1)
(C1), (C2) のもと,
1
2
Hjort & Pollard (1993) の結果を非凸なランダム関数へ拡張する
この結果を用いることで P(Jˆ(2) = J (2) ) → 1 も示せる
Notation:
J (1) = {j; βj∗ = 0}, J (2) = {j; βj∗ ̸= 0} に対して,
s (k) = (sj )j∈J (k) , J (kl) (β ∗ ) = (J(β ∗ )ij )i∈J (k) ,j∈J (l) などと表す
η (2) = (γsgn(βj∗ )|βj∗ |γ−1 )j∈J (2)
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
19 / 39
Bridge 推定量の漸近的性質
Theorem 3
√ γ0 /γ (1)
n
β̂λ = op (1) が成立する.さらに,
√
(2)
(2)
0 < γ0 < 1 ⇒ n(β̂λ − β ∗(2) ) = J (22) (β ∗ )−1 sn + op (1)
√
(2)
(2)
γ0 = 1 ⇒ n(β̂λ − β ∗(2) ) = J (22) (β ∗ )−1 (sn − λη (2) ) + op (1)
3.5
2.0
2.5
0.3
3.0
γ0 = 1
γ0 = 0.6
1.0
1.5
0.2
0.0
0.5
0.1
2
0.0
1
0.4
(C1), (C2) のもと,
−4
梅津 佑太 (九大数理)
−2
0
2
4
−4
AIC for Sparse Estimation
−2
0
2
4
2015/11/13
19 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
20 / 39
情報量規準の目的
情報量規準の適用はその目的に依存するが, 気分的には次の形:
IC = −2
n
∑
log f (yi ; θ̂) + κn ∥θ̂∥0
i=1
= (goodness of fit) + (model complexity)
e.g., AIC (κn = 2): AICc (κn = n/(n − p − 1)): BIC, MDL (κn = log n)
予測のための情報量規準:e.g., KL 最小化
▶
AIC, TIC, AICc, GIC, . . .
事後密度最大化のための情報量規準:e.g., BF 最大化
▶
BIC, PIC, GBIC, . . .
データ圧縮のための情報量規準:e.g., 符号語長最小化
▶
MDL, DMS, . . .
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
21 / 39
情報量規準:AIC
Kullback-Leibler divergence(の 2 倍)
[
2Ẽ
n
∑
log
i=1
f (ỹi ; Xi β ∗ )
f (ỹi ; Xi β̂λ )
]
= 2Ẽ
[ n
∑
]
g̃i (β ∗ ) − 2Ẽ
i=1
−2
gi (β̂λ ) + 2E[zn ]; zn =
i=1
n
∑
]
g̃i (β̂λ )
i=1
第 2 項の不偏推定量
n
∑
[ n
∑
[
gi (β̂λ ) − Ẽ
i=1
d
zn → z limit に基づく AIC 型の情報量規準:−2
n
∑
]
g̃i (β̂λ )
i=1
n
∑
gi (β̂λ ) + 2E[z limit ]
i=1
Notation:
g̃i (·): yi のコピー ỹi に基づく対数尤度関数
Ẽ[·]: (ỹ1 , ỹ2 , . . . , ỹn ) に関する期待値
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
22 / 39
情報量規準:AIC
Kullback-Leibler divergence(の 2 倍)
2Ẽ
[ n
∑
log
i=1
f (ỹi ; Xi β ∗ )
f (ỹi ; Xi β̂λ )
]
[
= 2Ẽ
n
∑
]
[
g̃i (β ∗ ) −2Ẽ
i=1
−2
gi (β̂λ ) + 2E[zn ]; zn =
i=1
n
∑
]
g̃i (β̂λ )
i=1
第 2 項の不偏推定量
n
∑
n
∑
[
gi (β̂λ ) − Ẽ
i=1
d
zn → z limit に基づく AIC 型の情報量規準:−2
n
∑
]
g̃i (β̂λ )
i=1
n
∑
gi (β̂λ ) + 2E[z limit ]
i=1
Notation:
g̃i (·): yi のコピー ỹi に基づく対数尤度関数
Ẽ[·]: (ỹ1 , ỹ2 , . . . , ỹn ) に関する期待値
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
22 / 39
漸近バイアスの導出 (0 < γ0 < 1)
1
バイアス項 (E[zn ]) の書き換え
[ n
]
n {
} ∑
}
∑{
∗
∗
E[zn ] = E
gi (β̂λ ) − gi (β ) −
g̃i (β̂λ ) − g̃i (β )
i=1
2
i=1
期待値の中身の分布収束先とその期待値
n {
∑
}
gi (β̂λ ) − gi (β ∗ ) = sn(2)T J (22) (β ∗ )−1 sn(2) − sn(2)T J (22) (β ∗ )−1 sn(2) /2 + op (1)
i=1
→ s (2)T J (22) (β ∗ )−1 s (2) − s (2)T J (22) (β ∗ )−1 s (2) /2
d
n {
∑
}
g̃i (β̂λ ) − g̃i (β ∗ ) = s̃n(2)T J (22) (β ∗ )−1 sn(2) − sn(2)T J (22) (β ∗ )−1 sn(2) /2 + op (1)
i=1
→ s̃ (2)T J (22) (β ∗ )−1 s (2) − s (2)T J (22) (β ∗ )−1 s (2) /2
d
よって, s (2) , s̃ (2) ∼ N(0, J (22) (β ∗ )) & s (2) ⊥
⊥ s̃ (2) より
E[z limit ] = E[s (2)T J (22) (β ∗ )−1 s (2) − s̃ (2)T J (22) (β ∗ )−1 s (2) ] = |J (2) |
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
23 / 39
漸近バイアス
Theorem 4
(C1), (C2) のもと, 0 < γ0 ≤ 1 に対して E[z limit ] = |J (2) | が成立する
バイアスの増加分=バイアスの減少分
適当な条件の下で “期待値の収束”E[zn ] → E[z limit ] も示せる
提案:Bridge 推定に対する AIC
AICBridge
= −2
λ
n
∑
gi (β̂λ ) + 2|Jˆ(2) |
i=1
Jˆ(2) = {j; β̂λ,j ̸= 0}:アクティブセット
AICBridge
が最小となる λ を選択する
λ
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
24 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
25 / 39
数値実験:線形回帰
(β1∗ , β2∗ ) = (0.5, 2)
(p, k, n)
(8,2,50)
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
(8,2,100)
(8,2,150)
(8,1,100)
(8,3,100)
(12,3,100)
(16,4,100)
KL (sd)
0.676 (0.019)
0.679 (0.018)
0.670 (0.016)
0.672 (0.015)
0.666 (0.014)
0.666 (0.013)
0.687 (0.008)
0.687 (0.009)
0.655 (0.014)
0.659 (0.012)
0.662 (0.014)
0.665 (0.014)
0.652 (0.021)
0.652 (0.017)
FP
0.30
0.09
0.31
0.05
0.32
0.10
0.46
0.12
0.24
0.03
0.47
0.15
0.41
0.12
(β1∗ , β2∗ ) = (1, 2)
FN
1.58
1.77
1.31
1.61
1.24
1.45
0.75
0.81
1.86
2.34
1.91
2.38
3.03
3.28
KL (sd)
0.645 (0.026)
0.649 (0.022)
0.631 (0.018)
0.634 (0.018)
0.632 (0.012)
0.636 (0.014)
0.658 (0.017)
0.658 (0.016)
0.615 (0.020)
0.626 (0.019)
0.617 (0.021)
0.624 (0.018)
0.610 (0.024)
0.618 (0.021)
FP
0.30
0.11
0.28
0.07
0.40
0.04
0.75
0.13
0.24
0.04
0.46
0.06
0.69
0.12
FN
1.29
1.55
1.05
1.27
0.86
1.17
0.45
0.54
1.40
2.19
1.64
2.17
2.47
2.98
β ∗ = (β1∗ , . . . , β1∗ , β2∗ , . . . , β2∗ , 0, . . . , 0)
| {z } | {z } | {z }
k
k
p−2k
KL:KL divergence, FP = |{j; βj∗ = 0 ∧ β̂λ,j ̸= 0}|, FN = |{j; βj∗ ̸= 0 ∧ β̂λ,j = 0}|
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
26 / 39
数値実験:ロジスティック回帰
(β1∗ , β2∗ ) = (0.5, 2)
(p, k, n)
(8,2,50)
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
CV
AIC
(8,2,100)
(8,2,150)
(8,1,100)
(8,3,100)
(12,3,100)
(16,4,100)
KL (sd)
0.462 (0.061)
0.473 (0.153)
0.419 (0.044)
0.398 (0.050)
0.394 (0.024)
0.376 (0.018)
0.495 (0.029)
0.513 (0.033)
0.408 (0.047)
0.346 (0.042)
0.384 (0.031)
0.397 (0.134)
0.392 (0.048)
0.414 (0.122)
FP
0.01
0.33
0.01
0.31
0.00
0.43
0.00
0.61
0.00
0.22
0.01
0.75
0.01
1.19
(β1∗ , β2∗ ) = (1, 2)
FN
1.28
0.69
1.04
0.43
0.94
0.33
0.42
0.21
1.92
0.78
1.82
0.58
2.72
1.05
KL (sd)
0.406 (0.070)
0.417 (0.129)
0.348 (0.047)
0.307 (0.035)
0.307 (0.033)
0.271 (0.018)
0.411 (0.021)
0.423 (0.035)
0.348 (0.053)
0.272 (0.087)
0.376 (0.056)
0.346 (0.112)
0.407 (0.045)
0.379 (0.137)
FP
0.04
0.40
0.00
0.50
0.01
0.41
0.00
0.63
0.00
0.35
0.00
0.73
0.00
1.17
FN
1.21
0.40
0.92
0.19
0.67
0.11
0.22
0.02
1.74
0.32
1.68
0.35
2.66
0.60
β ∗ = (β1∗ , . . . , β1∗ , β2∗ , . . . , β2∗ , 0, . . . , 0)
| {z } | {z } | {z }
k
k
p−2k
KL:KL divergence, FP = |{j; βj∗ = 0 ∧ β̂λ,j ̸= 0}|, FN = |{j; βj∗ ̸= 0 ∧ β̂λ,j = 0}|
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
27 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
28 / 39
Lasso(ℓ1 -正則化法)
小さな zj を正確に 0 へ縮小
1
2
Lasso (Least Absolute Shrinkage and Selection Opleater): Tibshirani 1996
X T y = z, X T X = I のとき,
1
β̂λ = argmin ∥y − X β∥22 + λ∥β∥1
β∈Rp 2
1
⇒ β̂λ,j = argmin (zj − β)2 + λ|β| = sgn(zj ) max{|zj | − λ, 0}
β∈R 2
-1
-2
= I のときの OLS zj
に対して, 必ず min{|zj |, λ}
のバイアスをもつ
0
スパース ↔ 変数選択
X TX
-2
梅津 佑太 (九大数理)
AIC for Sparse Estimation
-1
0
1
2
2015/11/13
29 / 39
Lasso(ℓ1 -正則化法)
小さな zj を正確に 0 へ縮小
1
2
Lasso (Least Absolute Shrinkage and Selection Opleater): Tibshirani 1996
X T y = z, X T X = I のとき,
1
β̂λ = argmin ∥y − X β∥22 + λ∥β∥1
β∈Rp 2
1
⇒ β̂λ,j = argmin (zj − β)2 + λ|β| = sgn(zj ) max{|zj | − λ, 0}
β∈R 2
-1
-2
= I のときの OLS zj
に対して, 必ず min{|zj |, λ}
のバイアスをもつ
0
スパース ↔ 変数選択
X TX
-2
梅津 佑太 (九大数理)
AIC for Sparse Estimation
-1
0
1
2
2015/11/13
29 / 39
ℓ1 -型罰則
SCAD (Smoothly Clipped Absolute Deviction): Fan & Li (2001)
MCP (Minimax Concave Penalty): Zhang (2010)
0.5
-1.5
SCAD
MCP
-1.5
-1.0
-0.5
梅津 佑太 (九大数理)
0.0
0.5
1.0
1.5
SCAD
MCP
0.0
-1.0
0.1
-0.5
0.2
0.0
0.3
0.5
0.4
1.0
1.5
Lasso 推定量のバイアスを改善
-1.5
AIC for Sparse Estimation
-1.0
-0.5
0.0
0.5
1.0
2015/11/13
1.5
30 / 39
モデルと仮定
β̂λ = argmin −
β∈B
λn =
∑
1∑
gi (β) +
ηλn (βj )
n
n
p
i=1
j=1
√ γ0 −2
n
λ, 1 ≤ γ0 < 2
▶
√
nλn = λ (γ0 = 1), → ∞ (1 < γ0 < 2) & λn → 0
▶
cf. Bridge では γ < γ0 ≤ 1
(P1) ηλn (β) は原点でのみ微分不可能な Lipschitz 連続関数であり, β = 0
に関して対称かつ |β| に関して単調非減少
(P2) lim ηλn (β)/|β| = λn (1 + o(1)), lim ηλn (β) = 0
n→∞
β→0
(P3) ある τ > 0 が存在して, 任意の β ≥ τ λn に対して ηλ′ n (β) = 0
(P4) β ̸= 0 に対して lim ηλ′′n (β) = 0
n→∞
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
31 / 39
推定量の漸近分布
Theorem 5
(C1), (C2) および (P1) – (P4) のもと,
√ γ0
√
(2)
(2)
1 1 < γ0 < 2 ⇒
n β̂λ = op (1) & n(β̂λ − β ∗(2) ) = J (22)−1 sn + op (1)
√ (1)
(1)
2 γ0 = 1 ⇒
nβ̂λ = ûn + op (1) &
√
(2)
n(β̂λ − β ∗(2) ) = J (22)−1 (sn(2) − J (21) ûn(1) ) + op (1)
が成立.ただし,
J (1|2) = J (11) − J (12) J (22)−1 J (21) , sn(1|2) = sn(1) − J (12) J (22)−1 sn(2)
{
}
ûn(1) = argmin u (1)T J (1|2) u (1) /2 − u (1)T sn(1|2) + λ∥u (1) ∥1
u (1)
(1)
1 < γ0 < 2 ならば Bridge の場合と同様に P(β̂λ = 0) → 1 および
P(Jˆ(2) = J (2) ) → 1 も示せる
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
32 / 39
漸近バイアス
Theorem 6
(C1), (C2) および (P1) – (P4) のもと
1
1 < γ0 < 2 ⇒ E[z limit ] = |J (2) |
2
γ0 = 1 ⇒ E[z limit ] = |J (2) | + K
が成立.ただし,
s (1|2) = s (1) − J (12) J (22)−1 s (2) ,
{
}
û (1) = argmin u (1)T J (1|2) u (1) /2 − u (1)T s (1|2) + λ∥u (1) ∥1
u (1)
[
]
に対して K = E û (1)T s (1|2)
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
33 / 39
情報量規準
提案:ℓ1 -型正則化法に対する AIC
1
1 < γ0 < 2 のとき
AICℓλ1 -type
= −2
n
∑
gi (β̂λ ) + 2|Jˆ(2) |
i=1
2
γ0 = 1 のとき
AICℓλ1 -type
= −2
n
∑
gi (β̂λ ) + 2|Jˆ(2) | + 2K̂
i=1
Jˆ(2) = {j; β̂λ,j ̸= 0}:アクティブセット
[
]
K̂ :s ∼ N(0, J) に基づく K = E û (1)T s (1|2) の経験平均
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
34 / 39
目次
1
あらまし
2
モデルと推定量の漸近的性質
3
情報量規準
4
数値実験
5
罰則の拡張
6
まとめ・今後の課題
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
35 / 39
まとめ・今後の課題
Bridge, SCAD, MCP などの推定量の漸近分布の導出および AIC を最
小にするチューニングパラメータ選択の提案!
数値的には CV と同等もしくはよりよい結果が得られた(計算付加
も低い)!
▶
LAD, Cox 回帰, 行列分解などへのモデルの拡張
▶
n, p → ∞ の高次元枠組みにおける正当性
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
36 / 39
参考文献 I
Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004). Least angle regression,
The Annals of Statistics, 32, 407–499.
Fahrmeir, L. and Kaufmann, H. (1985). Consistency and asymptotic normality of the
maximum likelihood estimator in generalized linear models, The Annals of Statistics,
13, 342–368.
Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its
oracle properties, Journal of the American Statistical Association, 96, 1348–1360.
Fan, Y. and Tang, C. Y. (2013). Tuning parameter selection in high dimensional
penalized likelihood, Journal of the Royal Statistical Society: Series B, 75, 531–552.
Frank, L. E. and Friedman, J. H. (1993). A statistical view of some chemometrics
regression tools, Technometrics, 35, 109–135.
Hjort, N. L. and Pollard, D. (1993). Asymptotics for minimisers of convex processes,
arXiv preprint arXiv:1107.3806.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: Biased estimation for
nonorthogonal problems, Technometrics, 12, 55–67.
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
37 / 39
参考文献 II
Huang, J., Horowitz, J. L., and Ma, S. (2008). Asymptotic properties of bridge
estimators in sparse high-dimensional regression models, The Annals of Statistics, 36,
587–613.
Knight, K. and Fu, W. (2000). Asymptotics for lasso-type estimators, The Annals of
Statistics, 28, 1356–1378.
Meinshausen, N. and Bühlmann, P. (2010). Stability selection, Journal of the Royal
Statistical Society: Series B, 72, 417–473.
Ninomiya, Y. and Kawano, S. (2014). AIC for the LASSO in generalized linear models,
In ISM Research Memorandum, 1187.
Radchenko, P. (2005). Reweighting the lasso, In 2005 Proceedings of the American
Statistical Association [CD-ROM].
Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions,
Journal of the Royal Statistical Society: Series B, 36, 111–147.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, Journal of the
Royal Statistical Society: Series B, 58, 267–288.
Umezu, Y. and Ninomiya, Y. (2015). AIC for Non-concave Penalized Method, arXiv
preprint arXiv:1509.01688.
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
38 / 39
参考文献 III
Wang, H., Li, B., and Leng, C. (2009). Shrinkage tuning parameter selection with a
diverging number of parameters, Journal of the Royal Statistical Society: Series B,
71, 671–683.
Zhang, C.-H. (2010). Nearly unbiased variable selection under minimax concave penalty,
The Annals of Statistics, 38, 894–942.
Zhang, Y., Li, R., and Tsai, C.-L. (2010). Regularization parameter selections via
generalized information criterion, Journal of the American Statistical Association,
105, 312–323.
Zou, H., Hastie, T., and Tibshirani, R. (2007). On the “degrees of freedom” of the
lasso, The Annals of Statistics, 35, 2173–2192.
梅津 佑太 (九大数理)
AIC for Sparse Estimation
2015/11/13
39 / 39