ベイズ誤差 - Home Page of Math CM Nagoya Univ.

9/17 の内容
仮説の予測精度
— 統計的学習理論の基礎 —
• 仮説 h : X → {+1, −1} の予測誤差と学習誤差.
(以下,1[ · ] は定義関数)
• ベイズ誤差,ベイズルール
– 学習誤差 : !e(h) =
• 予測誤差の評価
– 予測誤差 :
– 仮説集合が有限集合のとき
– 仮説集合が無限集合のとき
∗ ラデマッハ複雑度
n
1"
1[ h(Xi) ̸= Yi ]
n i=1
e(h) = Pr(h(X) ̸= Y ) = E[1[h(X) ̸= Y ]]
(予測誤差は (X, Y ) の分布から定まる)
• SVM の統計的一致性
1/61
2/61
例:予測誤差の計算
• e(h) が小さな仮説 h がよい.
– 分布が未知:e(h) の厳密な値は計算不可
p(x, y) = p(x|y)p(y) とする
x ∈ R, y ∈ {1, −1},
⇒ !e(h) を小さくする h を選ぶ
0.4
根拠:各 h に対して !
e(h) −→ e(h), n → ∞, (大数の法則)
p
=⇒ [ e(h) を最小にする h ] ≃ [ e!(h) を最小にする h ]
• !e(h) の最小化は数値的に困難
h(x) = −1
h(x) = 1
e(h) = Pr(h(X) = −1, Y = 1)
+ Pr(h(X) = 1, Y = −1)
0.3
= Pr(h(X) = −1 | Y = 1) Pr(Y = 1)
0.2
– 計算しやすい他の方法が提案されている
−→ 代替損失 (ヒンジ損失など,後述)
+ Pr(h(X) = 1 | Y = −1) Pr(Y = −1)
p(x|y = 1)
p(x|y = −1)
= [■の面積] × Pr(Y = 1)
0.1
+ [■の面積] × Pr(Y = −1)
0.0
-4
3/61
-2
0
2
4
4/61
Bayes rule の導出
Bayes rule, Bayes error
定理 1. データの確率分布:p(x, y) = Pr(Y = y|x)p(x).
• Bayes rule:誤り確率を最小にする仮説
e(h0) =
inf
h:任意の仮説
e(h)
−→
h0 は Bayes rule
Bayes rule h0(x) =
• e(h0) を Bayes error (ベイズ誤差)という:予測精度の下限
#
+1,
−1,
p(x, +1) ≥ p(x, −1),
p(x, −1) > p(x, +1).
確率の大きなラベルを選ぶほうが,誤り確率が小さい.
• 学習の目標:学習データから Bayes rule h0 を推定.
1.0
p(y = 1|x)
note: p(x, +1) ≥ p(x, −1)
⇐⇒ Pr(Y = +1|x) ≥ Pr(Y = −1|x)
p(y|x)
0.8
p(y = −1|x)
0.6
0.4
0.2
h0(x)
0.0
-4
-2
0
2
4
6
x
5/61
任意の仮説 h : X → {+1, −1} に対して
e(h) = Pr(h(X) ̸= Y )
$
$
=
p(x, −1)dx +
h(x)=1
6/61
h0 の定義から以下の関係が成り立つことに注意:
h0(x) = 1 ⇐⇒ p(x, +1) ≥ p(x, −1)
p(x, +1)dx
(1)
h(x)=−1
h0(x) = −1 ⇐⇒ p(x, +1) < p(x, −1)
ここで積分範囲を Bayes rule h0(x) の値にしたがって分ける:
R++ := {x ∈ X | h(x) = +1, h0(x) = +1}
R+− := {x ∈ X | h(x) = +1, h0(x) = −1}
R−+ := {x ∈ X | h(x) = −1, h0(x) = +1}
R−− := {x ∈ X | h(x) = −1, h0(x) = −1}
7/61
8/61
(1) =
$
+
≥
$
+
=
$
R++
$
$
p(x, +1)dx +
R−+
R++
$
p(x, −1)dx +
p(x, −1)dx +
R−+
R+−
$
p(x, +1)dx
= e(h0)
Bayes rule :
R+−
$
Bayes error :
p(x, +1)dx
$
[証明終了]
h0(x) = arg max p(x, y) = arg max Pr(Y = y|x)
y∈Y
R−−
p(x, −1)dx +
{x:h0 (x)=+1}
確率:p(x, y) = Pr(Y = y|x)p(x), y ∈ Y = {1, 2, . . . , G}
p(x, +1)dx
R−−
$
p(x, −1)dx +
多値判別の Bayes rule
p(x, −1)dx
y∈Y
e(h0) = 1 − EX [ max Pr(Y = y|x) ]
y∈Y
p(x, +1)dx
{x:h0 (x)=−1}
9/61
推定された仮説の精度
10/61
例 1.
目標:推定された仮説の予測誤差を評価.
• データ (X1, Y1), . . . , (Xn, Yn) ∼i .i .d . P , ベイズルール h0(x).
2 値判別を考える.多値でも同様.
• 推定方法:
h∈A
2
e!(h1) = ,
8
h1
– 仮説集合:A = {h1, . . . , hM },
– 推定方法:学習誤差の最小化
!
h = arg min e!(h)
A = {h1, h2},
e!(h2) =
3
8
=⇒ !
h = h1
h2
|A| = M < ∞.
[ A のなかで e!(h) を最小にする仮説 ]
• 推定量 !
h の予測誤差 e(!
h) を評価.
note: e(!
h) はデータに依存するので確率変数.
11/61
12/61
仮説集合と Bayes rule
✓
✏
仮説集合 A = {h1, . . . , hM } で Bayes rule h0 を推定
• 事前知識・計算しやすさなどを考慮して A を設定する
• 一般に h0 ̸∈ A
✒
h0
任意の仮説
!
h
✑
• hA := arg min e(h)
h∈A
e(h0) ≤ e(hA) ≤ e(!
h), e!(!
h) ≤ e!(hA)
仮説集合 A
ベイズ誤差と比較:
e(!
h) − e(h0) =
≥
%
%
& %
&
e(!
h) − e(hA) + e(hA) − e(h0)
推定誤差
e(hA) − e(h0)
近似誤差
&
近似誤差
• 推定誤差 (≥ 0):観測データに依存.確率的に値をとる
!
h := arg minh∈A e!(h)
hA
推定方法の評価尺度
• 近似誤差 (≥ 0):仮説集合 A と Bayes rule h0 から定まる定数
• 一般に h0 ̸= hA
13/61
✓
仮説集合 A を用いる推定量の誤差評価
推定誤差の評価式
'
Pr e(!
h) < ε + e(hA)
(
14/61
✏
Hoeffding’s inequality
補題 1 (Hoeffding’s inequality).
≥ 1−δ
となるような ε と δ の関係を調べる.
ε > 0, δ ∈ (0, 1) は小さな値.
✒
✑
Pr(· · · ) はデータ (X1, Y1), . . . , (Xn, Yn) に関する確率
• δ が与えられたとき,ε が小さいほど予測精度が高い.
以下のように書き換えられる:
'
(
Pr e(!
h) ≥ ε + e(hA) ≤ δ
Z1, . . . , Zn ∼i .i .d . P, 0 ≤ Zi ≤ 1, µ = E[Zi]
' "
(
n
2
1
=⇒ Pr
Zi − µ ≥ ε ≤ e−2nε .
n i=1
' "
(
n
2
1
Pr
Zi − µ ≤ −ε
≤ e−2nε
n i=1
note: 大数の法則より
n
1"
p
Zi −→ µ.
n i=1
• Hoeffding 不等式から収束スピードが分かる.
• Chebyshev 不等式より良い収束レート:Z の有界性
15/61
16/61
補題 2.
以下の不等式が成り立つ:
'
(
'
(
'
(
ε
ε
!
!
!
Pr e(h) − e(hA) ≥ ε ≤ Pr e(h) − e!(h) ≥
+ Pr e!(hA) − e(hA) ≥
2
2
Proof.
n
• e!(h) − e(h) =
Hoeffding 不等式 で Zi = 1[ h(Xi) ̸= Yi ] とすると
'
(i)
e(!
h) − e(hA) = (e(!
h) − e!(!
h)) + (!
e(!
h) − e!(hA)) + (!
e(hA) − e(hA))
≤ (e(!
h) − e!(!
h)) + (!
e(hA) − e(hA))
したがって e(!
h) − e(hA) ≥ ε が成立するとき,以下のどちらかが
成立する:
(i) e(!
h) − e!(!
h) ≥ ε/2,
(ii) e!(hA) − e(hA) ≥ ε/2
!
17/61
したがって以下が成立:
'
(
!
Pr e(h) − e(hA) ≥ ε
'
(
'
(
!
!
≤ Pr e!(h) − e(h) ≥ ε/2 + Pr e!(hA) − e(hA) ≥ ε/2
≤ (|A| + 1)e−nε
2
1"
1[ h(Xi) ̸= Yi ] − E[ 1[h(X) ̸= Y ] ]
n i=1
(ii)
≤
(
2
Pr e!(hA) − e(hA) ≥ ε/2 ≤ e−2n(ε/2) ,
(
'
(
' )
*
!
!
Pr e(h) − e!(h) ≥ ε/2 ≤ Pr
e(h) − e!(h) ≥ ε/2}
"
h∈A
'
Pr e(h) − e!(h) ≥ ε/2
≤ |A|e−nε
2
/2
h∈A
.
note: 1[ !
h(Xi) ̸= Yi ], i = 1, . . . , n は独立でない
確率 1 − δ 以上の確率で
%
&
e(!
h) < e(h0) + e(hA) − e(h0) +
%
&
≤ e(h0) + e(hA) − e(h0) +
/2
(
近似誤差
+
+
2
|A| + 1
log
n
δ
2 log(|A| + 1)
+
n
推定誤差
18/61
+
2 log(1/δ)
n
• 近似誤差: bA := e(hA) − e(h0).
+
2 log(|A| + 1)
• 推定誤差: vA,n :=
.
n
= exp{−nε2/2 + log(|A| + 1)}.
ε > 0 に対して
e(!
h) ≥ ε + e(hA)
となる確率は exp{−nε2/2 + log(|A| + 1)} 以下.
δ = exp{−nε2/2 + log(|A| + 1)} として書き直すと・・・
19/61
20/61
複数の仮説集合 A1, A2, . . . , AK について次の包含関係を仮定:
♣ e(!
h) の上界 e(h0) + bA + vA,n が小さいほうがよい.
♣ 適切な仮説集合: min
A1 ⊂ A 2 ⊂ · · · ⊂ A K
k=1,...,K
bAk + vAk ,n を達成する Ak
2.0
以下が成立:
h∈AK
bA 1 ≥ bA 2 ≥ · · · ≥ bA K .
• 仮説集合:大
=⇒ 近似誤差:小,推定誤差:大.
• 和 bA + vA,n を小さくする
仮説集合を用いる.
• 推定誤差は増加:|A1| ≤ |A2| ≤ · · · ≤ |AK | より
0.5
h∈A2
0.0
h∈A1
prediction error
1.0
1.5
• 近似誤差は減少: min e(h) ≥ min e(h) ≥ · · · ≥ min e(h) より
bias+varialce
bias
variance
1e+01
1e+03
|H|
note: 上の考察は e(!
h) の確率的上界に基づいている.
!
期待値 E[e(h)] で考えても同様の結論が得られる
vA1,n ≤ vA2,n ≤ · · · ≤ vAK ,n.
21/61
22/61
仮説集合の複雑度
Rademacher 複雑度
+
参考文献:P. L. Bartlett,
2 log(|A| + 1)
n
−→ A の要素数が大きいほど,推定誤差が大きい.
• 仮説集合 A を用いたときの推定誤差:
1e+05
S. Mendelson, Rademacher and Gaussian
Complexities: Risk Bounds and Structural Results, JMLR, 2002.
Def 1. 関数集合 G ⊂ {g | g : Z → R} と S = {z1, . . . , zn} ⊂ Z に対
! S (G) を
して経験 Rademacher 複雑度 R
• A の要素数が ∞ のときは?
– 仮説集合の「本質的な複雑度」
– 複雑度と推定誤差との関連を調べる.
! S (G) = Eσ
R
,
n
1"
sup
σig(zi)
g∈G n i=1
-
と定義する.ここで σ1, . . . , σn は独立に確率分布 Pr(σi = +1) =
Pr(σi = −1) = 1/2 にしたがう確率変数,Eσ は σ1, . . . , σn に関す
る期待値を意味する.
また
23/61
! S (G)]
Rn(G) = ES [R
をラデマッハ複雑度とよぶ.
24/61
Rademacher 複雑度の解釈
Rademacher 複雑度の性質
以下は Rn(G) でも成立.
• ラベル σi を sign(g(xi)) で予測する.
! S (G1) ≤ R
! S (G2)
1. G1 ⊂ G2 =⇒ R
• ランダムに割り当てられるラベルに,
仮説集合 {sign(g(x))|g ∈ G} がどの程度対応できるか?
! S (cG) = |c|R
! S (G).
2. c ∈ R に対して R
ここで cG = {cg : g ∈ G}.
! S (G): G の「複雑度」
• R
! S (G) = R
! S (convG).
3. G の凸包を convG とすると,R
4. φ : R → R はリプシッツ定数 L のリプシッツ連続関数のとき,
! S (φ ◦ G) ≤ L R
! S (G).
R
ここで φ ◦ G = {φ ◦ g : g ∈ G}.
25/61
Proof. 1. は自明.
2. c = 0 なら自明.c ̸= 0 のとき
26/61
3. 以下の式を σ1, . . . , σn について期待値を取れば,所望の式が得ら
れます.
/
/
.
m
m
"
"
1
1
! S (cA) = Eσ sup
R
σicg(zi) = Eσ sup
σi|c|sign(c)g(zi)
g∈A m i=1
g∈A m i=1
.
/
m
1 "
= |c|Eσ sup
σisign(c)g(zi)
g∈A m i=1
.
/
m
1 "
= |c|Eσ sup
σig(zi)
g∈A m i=1
.
最後の行:σi と σi sign(c) はどちらも確率 1/2 で ±1 の値をとる
ので分布は同じ.
!
sup
n
"
g∈convG i=1
σig(xi) =
=
sup
sup
n
"
g1,...,gk ∈G a!
1 ,...,ak ≥0 i=1
ℓ aℓ =1
sup
sup
k
"
g1,...,gk ∈G a!
1 ,...,ak ≥0 ℓ=1
ℓ aℓ =1
=
sup
max
n
"
g1,...,gk ∈G ℓ=1,...,k i=1
n
"
= sup
g∈G i=1
σi
k
"
aℓgℓ(xi)
n
"
σigℓ(xi)
ℓ=1
aℓ
i=1
σigℓ(xi)
σig(xi).
4.結果は重要.証明:Foundations of Machine Learning, Lemma4.2.
27/61
28/61
例 2 (RKHS モデルの Rademacher 複雑度). カーネル k に対応する
RKHS を H とする.また H の部分集合 HB を
HB = {f ∈ H : ∥f ∥H ≤ B}
とし,有界性 sup k(x, x) ≤ a2 を仮定する.このとき以下が成立:
x∈X
aB
Rn(HB ) ≤ √
n
Proof.
! S (HB ) = Eσ
R
%
n
n
& 1 %
1&
0 "
1"
σif (xi) = Eσ sup f,
σik(·, xi)
n
n
∥f ∥H ≤B
∥f ∥H ≤B
i=1
i=1
sup
n
n
"
2 & B %2 "
22 &1/2
B %2
Eσ 2
σik(·, xi)2H ≤ Eσ 2
σik(·, xi)2H
n
n
i=1
i=1
'"
(1/2
%
&
B
=
k(xi, xj )Eσ σiσj
n i,j
=
B
=
n
'"
n
k(xi, xi)
i=1
(1/2
aB
≤√
n
!
29/61
30/61
補題 3 (マサールの補題). A ⊂ Rn, |A| < ∞ とし,r = maxx∈A ∥x∥2
とおく.このとき
,
3
n
"
r 2 log |A|
1
Eσ
sup
σi xi ≤
n x∈A
n
例 3 (有限仮説集合の Rademacher 複雑度). 仮説集合 H ⊂ {h : Z →
{+1, −1}} を有限集合とする.
A = {(h(x1), . . . , h(xn)) : h ∈ H} にマサールの補題を適用する
√
と,r = n となるので
i=1
が成立.(xi は x ∈ R の第 i 成分)
n
31/61
Rn(H) ≤
3
2n log |H|
=
n
+
2 log |H|
n
32/61
G = {(x, y) 3→ 1[h(x) ̸= y] : h ∈ H} の Rademacher 複雑度:
1[h(x) ̸= y] =
1 − yh(x)
より
2
,
例 4 (決定株 (decision stump)). 深さ 1 の決定木からなる仮説集合.
x = (x1, . . . , xn) 3−→ h(x; s, k, z) = s · sign(xk − z) ∈ {+1, −1},
n
"
パラメータ :
-
1
σi1[h(xi) ̸= yi]
h∈H n i=1
,
n
1
1"
(−yiσi)h(xi)
= Eσ sup
2
h∈H n i=1
+
log |H|
≤
2n
RS (G) = Eσ sup
s = ±1, k ∈ {1, . . . , n}, z ∈ R.
*
4
決定株の仮説集合 : G = h(x; s, k, z) | s = ±1, k = 1, . . . , d, z ∈ R
.
/ +
n
"
1
2 log(2(n + 1)d)
!
RS (G) = Eσ sup
σih(xi; s, k, z) ≤
n
n
s,k,z i=1
最後の不等式はマサールの補題.
(演習問題) 決定株 G に対して A = {(g(x1), . . . , g(xn)) : g ∈ G} と
すると |A| ≤ 2(n + 1)d が成立.
33/61
Rademacher 複雑度による推定誤差の評価
一様大数の法則
✓
34/61
✏
• G ⊂ {g : Z → [a, b]},
• Z に値をとる確率変数 Z1, . . . , Zn ∼i .i .d . P
1 − δ 以上の確率で以下が成立:
✒
+
5
5
n
"
5
5
1
log(2/δ)
sup 55E[g(Z)] −
g(Zi)55 ≤ 2Rn(G) + (b − a)
.
n
2n
g∈G
i=1
証明:Hoeffding’s を一般化した McDiarmid 不等式を使う.
補足:仮説集合 H ⊂ {h : Z → {+1, −1}},|H| < ∞ のとき,
1 − δ 以上の確率で以下が成立:
+
+
5
5
2
log
|H|
log(2/δ)
h)5 ≤
max 5e(h) − e(!
+
.
h∈H
n
2n
reference.
✑
• Bartlett, P. L., Mendelson, S., Rademacher and Gaussian Complexities:
Risk Bounds and Structural Results, Journal of Machine Learning
Research, 2002.
• Mohri, M. et al., Foundations of Machine Learning, The MIT Press,
2012. (Chap. 3)
• 金森敬文著, “統計的学習理論”(2015) の付録 A.
35/61
36/61
SVM の予測精度
• 仮定:
1. カーネル関数の有界性: supx∈X k(x, x) ≤ a2.
• i.i.d. データ (x1, y1), . . . , (xn, yn) ∈ X × {+1, −1}
2. f ∗ ∈ H が
• ヒンジ損失を ℓ(z) = max{1 − z, 0} とおく.
RKHS H を用いて判別関数を学習.
SVM :
min
f ∈H
n
1"
n i=1
ℓ(yif (xi)) + λn∥f ∥2H −→ f! ∈ H
inf
f :任意の
(可測な) 関数
E[ℓ(Y f (X))] を達成,すなわち
E[ℓ(Y f ∗(X))] =
(2)
inf
f :任意の
(可測な) 関数
E[ℓ(Y f (X))]
– 正則化パラメータ λn はデータ数に依存してよい.
– 簡単のため,バイアス項 b は付けない.
37/61
代替損失と予測誤差
38/61
代替損失の例:
サポートベクターマシン: L(u) = max{1 − u, 0}
2 値判別 y ∈ {+1, −1},仮説:h(x) = sign(f (x))
• 0-1 損失 1[u ≤ 0] の代わりに L(u) を使って推定.
ブースティング: L(u) = e−u
ロジスティック回帰: L(u) = log2(1 + e−u)
m
1 "
L(yif (xi)) [ +正則化項 ]
m i=1
5
0-1 マージン損失
ヒンジ損失
ロジスティック損失
マージン損失 φ(m)
4
• L(u) を 0-1 損失の代替損失 (surrogate loss) という.
• 代替損失最小化で Bayes rule を推定できるか?
指数損失
3
2
1
0
-4
-2
0
2
4
m
39/61
40/61
代替損失 L(u) は以下を満たすと仮定.
• L(u) = max{1 − u, 0}
1. 1[u ≤ 0] ≤ L(u), L(u) は R 上凸関数,
⇒
ΨL(s) = s, s ≥ 0
√
ΨL(s) = 1 − 1 − s2, s ≥ 0
6
7
1+s
1−s
• 一般に ΨL(s) = L(0) − inf
L(α) +
L(−α) , s ≥ 0.
α∈R
2
2
• L(u) = e−u
2. u = 0 で微分可能で L′(0) < 0
このとき判別関数 f : X → R に対して以下が成立:
ΨL ( e(sign ◦ f ) − e(h0) ) ≤ E[L(Y f (X))] − inf E[L(Y g(X))]
g
ここで ΨL は以下を満たす:
⇒
• 代替損失の理論:
Bartlett, P. L, et al., Convexity, Classification, and Risk Bounds,
(a) ΨL : R≥0 → R≥0 は L(·) から定まる凸関数
Journal of the American Statistical Association, 2006
(b) ΨL(0) = 0, z > 0 ⇒ ΨL(z) > 0.
(凸性と合わせると,端点で連続な狭義単調増加関数)
=⇒ 代替損失最小化を正当化
41/61
SVM の予測誤差の評価
補題:
√
SVM (2) に対して,データ数が n のとき ∥f!∥H ≤ 1/ λn となる.
証明:
n
n
1"
1"
λn∥f!∥2H ≤
ℓ(yif!(xi)) + λn∥f!∥2H ≤
ℓ(0) + λn∥0∥2H = 1.
n i=1
n i=1
√
よって ∥f!∥H ≤ 1/ λn.
42/61
8
3 9
Fn = f ∈ H : ∥f ∥H ≤ 1/ λn ,
*
4
An = (x, y) 3→ ℓ(yf (x)) : f ∈ Fn
ヒンジ損失 ℓ(z) = max{1 − z, 0} のリプシッツ定数は 1
なので以下が成立:
Rn(An) ≤ 1 · Rn(Fn) ≤ √
a
nλn
[ σi と yiσi が同じ分布にしたがうことも使う ]
43/61
44/61
ラデマッハ複雑度による推定誤差の評価式と以下の不等式より,
a
max ℓ(yf (x)) ≤ √ + 1
f ∈Fn
λn
x,y
(∥f ∥∞ と ∥f ∥H の関係)
Proof. f ∈ Fn に対して
sup |yf (x)| = sup |f (x)| = sup |⟨f, k(x, ·)⟩| ≤ ∥f ∥H sup
x,y
x
x
x
a
≤√ .
λn
3
k(x, x)
確率 1 − δ 以上で以下が成立:
5
5
n
"
5
5
1
sup 55E[ℓ(Y f (X))] −
ℓ(Yif (Xi))55
n i=1
f ∈Fn
+
log(2/δ)
≤ 2Rn(An) + max ℓ(yf (x)) ·
f ∈Fn
2n
x,y
'
(+
2a
a
log(2/δ)
≤√
+ √ +1
n
nλn
λn
√
√
ℓ(z) = max{1 − z, 0} より |z| ≤ a/ λn なら ℓ(z) ≤ a/ λn + 1.!
45/61
√
∥f ∗∥H ≤ 1/ λn となる n に対して,1 − δ 以上の確率で次が成立:
!
− E[ℓ(Y f ∗(x))] + E[ℓ(Y
f!(x))] + λn∥f!∥2H
!
≤ E[ℓ(Y f ∗(x))] + E[ℓ(Y f!(x))] − E[ℓ(Y
f!(x))]
!
− E[ℓ(Y f ∗(x))] + E[ℓ(Y
f ∗(x))] + λn∥f ∗∥2H
5
5
5
5
!
≤ E[ℓ(Y f ∗(X))] + 2 sup 5E[ℓ(Y f (X))] − E[ℓ(Y
f (X))]5
+
λn → 0, nλn → ∞ とすると,
p
E[ℓ(Y f!(x))] −→ E[ℓ(Y f ∗(X))]
!
E[ℓ(Y f!(x))] ≤ E[ℓ(Y f ∗(x))] + E[ℓ(Y f!(x))] − E[ℓ(Y
f!(x))]
λn∥f ∗∥2H
46/61
f ∈Fn
となることが分かる.
note: 上界のオーダを最小にする λn は λn = O(n−1/3).
このとき
E[ℓ(Y f!(x))] = E[ℓ(Y f ∗(X))] + Op(n−1/3).
代替損失の理論より以下が成立:
p
e(sign ◦ f!) −→ Bayes error
47/61
(n → ∞)
48/61
補題 4 (ヘフディングの補題 (Hoeffding’s lemma)). 確率変数 X が E[X] = 0, a ≤
X ≤ b を満たすとき,任意の t > 0 に対して
E[etX ] ≤ et
2
(a−b)2 /8
.
Proof. 区間 [a, b] 上で指数関数 etx を1次式で上からバウンドすると,
付録:確率不等式
etx ≤
x − a tb b − x ta
e +
e
b−a
b−a
となります.したがって a ≤ X ≤ b と E[X] = 0 を満たす確率変数に対して
E[etX ] ≤
−a tb
b ta
e +
e
b−a
b−a
49/61
が成り立ちます.ここで p =
となります.テイラーの定理より,0 ≤ v ≤ u となる v が存在して
−a
(0 ≤ p ≤ 1), u = t(b − a) とおくと
b−a
φ(u) = φ(0) + uφ′(0) +
b ta
−a tb
e +
e = pe(1−p)u + (1 − p)e−pu
b−a
b−a
となるので (3) が成り立ちます.
となります.以下で,0 ≤ p ≤ 1 と任意の u ≥ 0 に対して
pe(1−p)u + (1 − p)e−pu ≤ eu
2
/8
50/61
u2 ′′
u2
φ (v) ≤
2
8
!
(3)
となることを示します.φ(u) = log[pe(1−p)u + (1 − p)e−pu] とおくと φ(0) =
0, φ′(0) = 0,
1−p
1 − p + peu
1−p
=
1 − p + peu
φ′′(u) =
peu
1 − p + peu
'
(
1−p
1
· 1−
≤
1 − p + peu
4
·
51/61
52/61
補題 5 (ヘフディングの不等式). 確率変数 X1, . . . , Xn は独立に同一の分布にした
:n
がい,Xi は確率 1 で有界区間 [ai, bi] に値をとるとします.S = i=1 Xi とす
ると,任意の ε > 0 に対して
6
7
2ε2
Pr(S − E[S] ≥ ε) ≤ exp − :n
,
2
i=1 (bi − ai )
6
7
2ε2
Pr(S − E[S] ≤ −ε) ≤ exp − :n
2
i=1 (bi − ai )
0 を導入して上界を以下のように導出します.
Pr(S − E[S] ≥ ε) = Pr(et(S−E[S]) ≥ etε)
(マルコフの不等式)
≤ e−tεE[et(S−E[S])]
= e−tε
≤e
が成り立ちます.
n
;
E[et(Xi−E[Xi])]
i=1
!n
−tε t2
e
2
i=1 (bi −ai ) /8
.
(ヘフディングの補題)
上の不等式は任意の
t > 0 で成り立つので,上界が最小になるように t =
:n
4ε/ i=1(bi − ai)2 > 0 とおくと
n
"
*
4
Pr(S − E[S] ≥ ε) ≤ exp − 2ε2/
(bi − ai)2
i=1
が得られます.2 番目の不等式も同様に得られます.
!
Proof. マルコフの不等式とヘフディングの補題を使います.正値パラメータ t >
53/61
54/61
補題 6 (マサートの補題). A ⊂ Rm を有限集合とし,∥x∥ を x ∈ Rm の 2-ノルム
(ユークリッドノルム) として r = maxx∈A ∥x∥ とおきます.また σ1, . . . , σm を独
立に {+1, −1} 上の一様分布にしたがう確率変数とします.このとき
が成り立ちます.最後の等式は σ1, . . . , σm の独立性を用いました.ヘフディング
の補題 (補題 4) を用いると
Eσ
,
-
m
"
r
1
sup
σi xi ≤
m x∈A i=1
3
2 log |A|
m
より (4) は |A|et
数を t で割ると
が成立します.ここで xi は x ∈ Rm の第 i 成分を表します.
.
exp Eσ t sup
m
"
x∈A i=1
σi xi
/7
.
6
≤ Eσ exp t sup
≤
=
"
x∈A
.
m
"
x∈A i=1
6 "
m
Eσ exp t
m
";
x∈A i=1
i=1
σi xi
σi xi
7/
で上から抑えられます.このようにして得られる上界の対
となり,
3
2 log |A|
t=
r
7/
%
*
4&
Eσi exp tσixi
r /2
.
/
m
"
tr2 log |A|
Eσ sup
σi xi ≤
+
2
t
x∈A i=1
Proof. 任意の t > 0 に対して,指数関数の凸性とイェンセンの不等式より,
6
2 2
%
*
4&
2
2
Eσi exp tσixi ≤ et (2xi) /8
(4)
55/61
56/61
を代入して
/
.
m
"
3
σixi ≤ r 2 log |A|
Eσ sup
x∈A i=1
が得られます.両辺を m で割って所望の不等式が得られます.
!
次にマクダミッドの不等式を導出します.そのために,まずアズマの不等式を導
出します.
補題 7 (アズマの不等式 (Azuma’s inequality)). 確率変数 Xi, Zi, Vi, i = 1, . . . , n に
対して,Vi は X1, . . . , Xi の関数として表すことができ,E[Vi|X1, . . . , Xi−1] = 0
が成り立つとします.また Zi は X1, . . . , Xi−1 の関数として表すことができ,定
数 c1, . . . , cn が存在して Zi ≤ Vi ≤ Zi + ci が成り立つとします.このとき任意の
ε > 0 に対して
Pr
Pr
が成り立ちます.
57/61
>
?
Pr Sn ≥ ε ≤ e−tεE[etSn ]
= e−2ε
i=1
n
"
i=1
Vi ≥ ε
Vi ≤ −ε
=
=
6
2ε2
≤ exp − :n
2
i=1 ci
6
2ε2
≤ exp − :n
2
i=1 ci
7
,
7
:k
Proof. 部分和 i=1 Vi を Sk とおきます.ヘフディングの不等式の証明と同様に,
:n
正値パラメータ t を導入して上界を求めます.以下で t = 4ε/ i=1 c2i > 0 とお
58/61
|f (x1, . . . , xi−1, xi, xi+1, . . . , xn) − f (x1, . . . , xi−1, x′i, xi+1, . . . , xn)| ≤ ci,
= e−tεEX1,...,Xn−1 [etSn−1 EXn [etVn |X1, . . . , Xn−1]]
≤ e−tεet
<
n
"
補題 8 (マクダミッドの不等式). 集合 X に値をとる独立な確率変数を X1, . . . , Xn
とします.また関数 f : X n → R に対して定数 c1, . . . , cn が存在して
くと
≤ e−tεEX1,...,Xn−1 [etSn−1 ]et
<
2 2
cn /8
i = 1, . . . , n
(ヘフディングの補題)
2 !n
2
i=1 ci /8
が任意の x1, . . . , xn, x′i ∈ X に対して成り立つとします.このとき次式が成り立
ちます.
2 !n
/ i=1 c2i
となります.同様にして 2 番目の不等式が得られます.
!
6
>
?
2ε2
Pr f (X1, . . . , Xn) − E[f (X1, . . . , Xn)] ≥ ε ≤ exp − :n
7
2
i=1 ci
7
2
6
>
?
2ε
Pr f (X1, . . . , Xn) − E[f (X1, . . . , Xn)] ≤ −ε ≤ exp − :n
2
i=1 ci
,
.
Proof. f (X1, . . . , Xn) を f (S) と表します.また V1, . . . , Vn を
Vk = E[f (S)|X1, . . . , Xk ] − E[f (S)|X1, . . . , Xk−1]
59/61
60/61
と定義します.ここで V1 は E[f (S)|X1] − E[f (S)] を表します.以下で,この Vk
が補題 7 の仮定を満たすことを示します.定義から Vk は X1, . . . , Xk の関数して
表せます.また条件付き期待値の性質から E[Vk |X1, . . . , Xk−1] = 0 を満たしま
す.さらに関数 f に対する仮定より
sup E[f (S)|X1, . . . , Xk−1, x] − inf′ E[f (S)|X1, . . . , Xk−1, x′]
x
x
= sup {E[f (S)|X1, . . . , Xk−1, x] − E[f (S)|X1, . . . , Xk−1, x′]} ≤ ci
x,x′
となります.したがって
Zk = inf E[f (S)|X1, . . . , Xk−1, x] − E[f (S)|X1, . . . , Xk−1]
x
とすれば:
Xk , Vk , Zk , k = 1, . . . , n が補題 7 の仮定を満たすことが分かります.以
n
上より, i=1 Vi = f (S) − E[f (S)] に対するアズマの不等式から定理の主張が得
られます.
!
61/61