10/14 : 確率変数と確率分布,確率変数の和(期待値と分散)

コンピュータによる統計分析
2014 年度 美添泰人
10/14 : 確率変数と確率分布,確率変数の和(期待値と分散)
(Reading Assignment: 統計入門 V.3, V.4)
参考:統計学基礎 第 3 章
確率変数と確率分布
(1) 確率変数とは何か.ω ∈ Ω にある実数を対応させる関数 X(ω ) のこと.小文字 x を使うことも
ある.記号 X, x˜ を使って,確率変数と実数 x を区別することがある.
表記法:Pr{X(ω ) >
= 0} を Pr{X >
= 0} と略記する.Pr{x >
= 0} でも意味は明確.しかし,x を実
数とすると Pr{X >
= x} は理解できるが,Pr{x >
= x} は意味不明,そこで Pr{x˜ >
= x} と書く.
(2) 離散的な確率分布 p(x) とそのグラフ
(3) 例:サイコロの目の値,2 つのサイコロの目の和,3 つのサイコロの目の和は?
(4) 連続的な確率変数の場合,特定の値をとる確率 Pr(x = a) はいくらか?
{
}
.. f (x) h となる f (x).これも p(x)
(5) 連続的な確率変数の確率密度関数: Pr x − h2 < X < x + 2h =
と書くことがある.
(6) 連続的な確率変数 x の密度関数は,ヒストグラムで階級の幅を小さくした極限と考える.
(7) 分布関数 (distribution function) F(x) = Pr(X <
= x)
(8) 分布関数のグラフ(教科書の p. 122).離散形,連続形
期待値と分散
(1) 確率変数の期待値 (µ = E(x), expectation).離散形の場合 E(x) = ∑ xp(x) は賭けの問題として
意味を理解する.相対度数分布を確率分布と置き換えると,観測値の算術平均 x¯ と同じ意味を
持つ.
(2) 連続形の場合は E(x) =
(積分の意味).
∫ ∞
−∞
xp(x) dx と書く.ヒストグラムの極限に対応させて理解してよい
(3) 期待値の性質: E(a + x) = a + E(x), E(bx) = bE(x), E(a + bx) = a + bE(x)
(a, b は定数)
(4) ヒストグラムと期待値の対応:標本の大きさ n が大きくなると観測値から計算した x¯ は期待値
E(x) に近づく.後に示す大数の法則 (Law of Large Numbers: LLN)
(5) 確率変数 x の関数 y = g(x) も確率変数となる.x の確率分布 px (x) を用いて y の確率分布 py (y)
を導くことができる.これから y の期待値は E(y) = ∑ ypy (y) と求められる.
(6) 確率変数の分散 (variance): σ 2 = var(x) = E[(x − µ )2 ]
その他の話題
(1) チェビシェフの不等式:平均と分散を µ , σ 2 とする任意の確率分布に関する不等式(k, λ > 0
とする)
1
σ2
<
Pr{|x − µ | >
k}
= = k2 または Pr{|x − µ | >
= λσ} <
= λ2
(2) 確率変数の標準化:z = (x − µ )/σ .このとき E(z) = 0, var(z) = 1
(3) 確率変数の分位点:F(x) = q (0 < q < 1) となる x が q 分位点,または 100q%点である.
『統計学基礎』4 章 p. 19
1
コンピュータによる演習
(1) graphic windows の扱い:wingraph.R
(2) 図のファイル出力
(3) 乱数発生と確率的なシミュレーションの実行.一様分布 unif(0, 1). 一般に unif(a, b) を用いた
サイコロ投げ:dice.R (歪んだコイン)
(4) コイン投げ,10 回投げて表の出る度数と確率,実験回数を増やす. coins.R
(5) トランプカード,52 枚から元に戻さずに 13 枚を取る.cards.R
(6) ips の練習問題を用いた練習
2
コンピュータによる統計分析
2014 年度 美添泰人
やや高度な話題
興味のある受講生向け(試験問題の対象外)
参考:統計学基礎 第 3 章
(1) ∑ g(x)px (x) を計算すると,その結果は E(y) = ∑ ypy (y) と一致することが示せる.したがって
期待値を求めるだけなら確率分布 py (y) を求める必要はない.E[g(x)] = ∑ g(x)px (x) と定義し
[
]
ても良い.E(y) = E g(x) という性質は連続形でも成り立つ.
(2) 期待値の性質: E[ f (x) + g(x)] = E[ f (x)] + E[g(x)]
(3) 期待値の性質: f (x) <
= g(x) なら E[ f (x)] <
= E[g(x)]
(4) 分散 σ 2 = var(x) = E[(x − µ )2 ] の正確な理解は,E[g(x)] という定義による.
(5) ある事象(集合)を A とするとき,次の関数 IA (x) を A の特性関数 (characteristic function) ま
たは指標関数 (indicator function) と呼ぶ.
IA (x) = 1 (x ∈ A のとき),
IA (x) = 0 (x ̸∈ A のとき)
このとき,E[IA (x)] = Pr{x ∈ A} = Pr{A} となる.これから,確率は期待値の特別な場合とも考
えられる.
(6) マルコフの不等式:確率変数 x > 0 に対して A = {x : x >
= k} (k > 0) とおくと IA (x) <
= x/k (x > 0)
だから
( x ) E(x)
(
)
<
Pr{x >
k}
=
E
I
(x)
=
E
A
=
=
k
k
2 2
(7) チェビシェフの不等式:A = {x : |x − µ | >
= k} (k > 0) に対して g(x) = (x − µ ) /k とおくと
IA (x) <
= g(x) だから
var(x)
Pr{|x − µ | >
= k} = Pr{A} <
= E[g(x)] = k2
2
(8) チェビシェフの不等式:y = (x − µ )2 として A = {x : |x − µ | >
= k} = {y : y >
= k } (k > 0) とおく
2
2
と(マルコフの不等式から)Pr{|x − µ | >
= k} <
= E(y)/k = var(x)/k
(9) 高次の(原点まわりの)積率 µr′ = E(xr ) (r = 1, 2, · · · )
(10) 高次の(平均まわりの)積率 µr = E[(x − µ )r ] (r = 1, 2, · · · )
(11) モーメント問題:µr′ (r = 1, 2, · · · ) が与えられれば確率分布 p(x) が定まるか?
(12) 積率母関数 (mgf: moment generating function): m(t) = E(etx ).確率分布 p(x) が与えられると
m(t) が定まる(mgf が存在しない例もある).逆に m(t) が与えられると確率分布 p(x) を求め
ることができる.つまり,mgf が存在する場合には p(x) と m(t) は 1 対 1 に対応する.
3
コンピュータによる統計分析
2014 年度 美添泰人
当てはまりの尺度:R, r, R2 (= r2 ) について(補足:自習用)
統計入門 V.3
(1) 重回帰のモデル y = b0 + b1 x1 + b2 x2 + · · · + b p x p + 誤差 において,予測値(推定値)を yˆi =
b0 + b1 x1i + b2 x2i + · · · + b p x pi と表わす.ここで ei = yi − yˆi を残差とすると,最小二乗法では次
の性質が満たされる.
∑ ei = 0, ∑ ei x1i = 0,
··· ,
∑ ei x pi = 0
すなわち残差 ei は平均がゼロとなるだけでなく,説明変数 x1 , x2 , · · · , x p との共分散がゼロ(相
関係数もゼロ)となる.教科書の (4.20) で k 番目の式は b0 ∑ xki + b1 ∑ xki x1i + · · · + b p ∑ xki x pi =
∑ xki yi だから,これをまず
(
n
n
i=1
i=1
∑ xki yi − ∑
n
)
b0 xki + b1 xki x1i + · · · + b p xki x pi = ∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = 0
i=1
と書き変える.さらに変形を続けると次の結果が得られる.
n
n
i=1
i=1
∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = ∑ xki (yi − yˆi ) = ∑ xki ei = 0
(2) 前項の結果から ∑ ei yˆi = 0 が導かれる.
∑ ei yˆi = ∑ ei (b0 + b1 x1i + · · · + b p x pi ) = b0 ∑ ei + b1 ∑ ei x1i + · · · + b p ∑ ei x pi = 0
(3) x を知らないときの最適な予測(推定)は yˆi = y¯,そのときの誤差の大きさは ∑(yi − y)
¯2
(4) x を知ったときの最適な予測(推定)は yˆi ,誤差の大きさは ∑(yi − yˆi )2
(5) ここで
∑(yi − y)¯ 2 = ∑
[
]2
(yi − yˆi ) + (yˆi − y)
¯ = ∑(yi − yˆi )2 + ∑(yˆi − y)
¯ 2 = ∑ e2i + ∑(yˆi − y)
¯2
と分解できる.この分解では
∑(yi − yˆi )(yˆi − y)¯ = ∑ ei (yˆi − y)¯ = ∑ ei yˆi − ∑ ei y¯ = 0
を利用している.
(6) 決定係数 は R2 = ∑(yˆi − yˆi )2 / ∑(yˆi − y)
¯ 2 = 1 − ∑ e2 / ∑(yˆi − y)
¯ 2 と定義される.
2
定義から 0 <
= 1 である.(coefficient of determination)
=R <
(7) 観測値 y と予測値 yˆ の相関係数を重相関係数と呼び,記号 R で表す.multiple correlation coefficient. R = cor(y, y)
ˆ は 0 ≤ R ≤ 1 を満たす(最適な予測値を用いると cor(y, y)
ˆ >
= 0 となること
を,直感的にも確認する).
(8) 最小二乗法を用いた場合には,cor(y, y)
ˆ の 2 乗が,決定係数 R2 になる(他の推定法だと,cor(y, y)
ˆ
2
の 2 乗と R は一致するとは限らない).
(9) R2 は重回帰分析の場合に有効である.1 変数の回帰分析 y = a + bx の場合は,R = |r| と通常の
相関係数の絶対値となる.
4