10/14 : 確率変数と確率分布，確率変数の和（期待値と分散）

コンピュータによる統計分析
2014 年度美添泰人
10/14 : 確率変数と確率分布，確率変数の和（期待値と分散）
（Reading Assignment: 統計入門 V.3, V.4）
参考：統計学基礎第 3 章
確率変数と確率分布
(1) 確率変数とは何か．ω ∈ Ω にある実数を対応させる関数 X(ω ) のこと．小文字 x を使うことも
ある．記号 X, x˜ を使って，確率変数と実数 x を区別することがある．
表記法：Pr{X(ω ) >
= 0} を Pr{X >
= 0} と略記する．Pr{x >
= 0} でも意味は明確．しかし，x を実
数とすると Pr{X >
= x} は理解できるが，Pr{x >
= x} は意味不明，そこで Pr{x˜ >
= x} と書く．
(2) 離散的な確率分布 p(x) とそのグラフ
(3) 例：サイコロの目の値，2 つのサイコロの目の和，3 つのサイコロの目の和は?
(4) 連続的な確率変数の場合，特定の値をとる確率 Pr(x = a) はいくらか？
{
}
.. f (x) h となる f (x)．これも p(x)
(5) 連続的な確率変数の確率密度関数： Pr x − h2 < X < x + 2h =
と書くことがある．
(6) 連続的な確率変数 x の密度関数は，ヒストグラムで階級の幅を小さくした極限と考える．
(7) 分布関数 (distribution function) F(x) = Pr(X <
= x)
(8) 分布関数のグラフ（教科書の p. 122）．離散形，連続形
期待値と分散
(1) 確率変数の期待値 (µ = E(x), expectation)．離散形の場合 E(x) = ∑ xp(x) は賭けの問題として
意味を理解する．相対度数分布を確率分布と置き換えると，観測値の算術平均 x¯ と同じ意味を
持つ．
(2) 連続形の場合は E(x) =
（積分の意味）．
∫ ∞
−∞
xp(x) dx と書く．ヒストグラムの極限に対応させて理解してよい
(3) 期待値の性質: E(a + x) = a + E(x)， E(bx) = bE(x)， E(a + bx) = a + bE(x)
（a, b は定数）
(4) ヒストグラムと期待値の対応：標本の大きさ n が大きくなると観測値から計算した x¯ は期待値
E(x) に近づく．後に示す大数の法則 (Law of Large Numbers: LLN)
(5) 確率変数 x の関数 y = g(x) も確率変数となる．x の確率分布 px (x) を用いて y の確率分布 py (y)
を導くことができる．これから y の期待値は E(y) = ∑ ypy (y) と求められる．
(6) 確率変数の分散 (variance)： σ 2 = var(x) = E[(x − µ )2 ]
その他の話題
(1) チェビシェフの不等式：平均と分散を µ , σ 2 とする任意の確率分布に関する不等式（k, λ > 0
とする）
1
σ2
<
Pr{|x − µ | >
k}
= = k2 または Pr{|x − µ | >
= λσ} <
= λ2
(2) 確率変数の標準化：z = (x − µ )/σ ．このとき E(z) = 0, var(z) = 1
(3) 確率変数の分位点：F(x) = q (0 < q < 1) となる x が q 分位点，または 100q%点である．
『統計学基礎』4 章 p. 19
1
コンピュータによる演習
(1) graphic windows の扱い：wingraph.R
(2) 図のファイル出力
(3) 乱数発生と確率的なシミュレーションの実行．一様分布 unif(0, 1). 一般に unif(a, b) を用いた
サイコロ投げ：dice.R （歪んだコイン）
(4) コイン投げ，10 回投げて表の出る度数と確率，実験回数を増やす． coins.R
(5) トランプカード，52 枚から元に戻さずに 13 枚を取る．cards.R
(6) ips の練習問題を用いた練習
2
コンピュータによる統計分析
2014 年度美添泰人
やや高度な話題
興味のある受講生向け（試験問題の対象外）
参考：統計学基礎第 3 章
(1) ∑ g(x)px (x) を計算すると，その結果は E(y) = ∑ ypy (y) と一致することが示せる．したがって
期待値を求めるだけなら確率分布 py (y) を求める必要はない．E[g(x)] = ∑ g(x)px (x) と定義し
[
]
ても良い．E(y) = E g(x) という性質は連続形でも成り立つ．
(2) 期待値の性質: E[ f (x) + g(x)] = E[ f (x)] + E[g(x)]
(3) 期待値の性質: f (x) <
= g(x) なら E[ f (x)] <
= E[g(x)]
(4) 分散 σ 2 = var(x) = E[(x − µ )2 ] の正確な理解は，E[g(x)] という定義による．
(5) ある事象（集合）を A とするとき，次の関数 IA (x) を A の特性関数 (characteristic function) ま
たは指標関数 (indicator function) と呼ぶ．
IA (x) = 1 (x ∈ A のとき),
IA (x) = 0 (x ̸∈ A のとき)
このとき，E[IA (x)] = Pr{x ∈ A} = Pr{A} となる．これから，確率は期待値の特別な場合とも考
えられる．
(6) マルコフの不等式：確率変数 x > 0 に対して A = {x : x >
= k} (k > 0) とおくと IA (x) <
= x/k (x > 0)
だから
( x ) E(x)
(
)
<
Pr{x >
k}
=
E
I
(x)
=
E
A
=
=
k
k
2 2
(7) チェビシェフの不等式：A = {x : |x − µ | >
= k} (k > 0) に対して g(x) = (x − µ ) /k とおくと
IA (x) <
= g(x) だから
var(x)
Pr{|x − µ | >
= k} = Pr{A} <
= E[g(x)] = k2
2
(8) チェビシェフの不等式：y = (x − µ )2 として A = {x : |x − µ | >
= k} = {y : y >
= k } (k > 0) とおく
2
2
と（マルコフの不等式から）Pr{|x − µ | >
= k} <
= E(y)/k = var(x)/k
(9) 高次の（原点まわりの）積率 µr′ = E(xr ) (r = 1, 2, · · · )
(10) 高次の（平均まわりの）積率 µr = E[(x − µ )r ] (r = 1, 2, · · · )
(11) モーメント問題：µr′ (r = 1, 2, · · · ) が与えられれば確率分布 p(x) が定まるか？
(12) 積率母関数 (mgf: moment generating function): m(t) = E(etx )．確率分布 p(x) が与えられると
m(t) が定まる（mgf が存在しない例もある）．逆に m(t) が与えられると確率分布 p(x) を求め
ることができる．つまり，mgf が存在する場合には p(x) と m(t) は 1 対 1 に対応する．
3
コンピュータによる統計分析
2014 年度美添泰人
当てはまりの尺度：R, r, R2 (= r2 ) について（補足：自習用）
統計入門 V.3
(1) 重回帰のモデル y = b0 + b1 x1 + b2 x2 + · · · + b p x p + 誤差において，予測値（推定値）を yî =
b0 + b1 x1i + b2 x2i + · · · + b p x pi と表わす．ここで ei = yi − yî を残差とすると，最小二乗法では次
の性質が満たされる．
∑ ei = 0, ∑ ei x1i = 0,
··· ,
∑ ei x pi = 0
すなわち残差 ei は平均がゼロとなるだけでなく，説明変数 x1 , x2 , · · · , x p との共分散がゼロ（相
関係数もゼロ）となる．教科書の (4.20) で k 番目の式は b0 ∑ xki + b1 ∑ xki x1i + · · · + b p ∑ xki x pi =
∑ xki yi だから，これをまず
(
n
n
i=1
i=1
∑ xki yi − ∑
n
)
b0 xki + b1 xki x1i + · · · + b p xki x pi = ∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = 0
i=1
と書き変える．さらに変形を続けると次の結果が得られる．
n
n
i=1
i=1
∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = ∑ xki (yi − yî ) = ∑ xki ei = 0
(2) 前項の結果から ∑ ei yî = 0 が導かれる．
∑ ei yî = ∑ ei (b0 + b1 x1i + · · · + b p x pi ) = b0 ∑ ei + b1 ∑ ei x1i + · · · + b p ∑ ei x pi = 0
(3) x を知らないときの最適な予測（推定）は yî = y¯，そのときの誤差の大きさは ∑(yi − y)
¯2
(4) x を知ったときの最適な予測（推定）は yî ，誤差の大きさは ∑(yi − yî )2
(5) ここで
∑(yi − y)¯ 2 = ∑
[
]2
(yi − yî ) + (yî − y)
¯ = ∑(yi − yî )2 + ∑(yî − y)
¯ 2 = ∑ e2i + ∑(yî − y)
¯2
と分解できる．この分解では
∑(yi − yî )(yî − y)¯ = ∑ ei (yî − y)¯ = ∑ ei yî − ∑ ei y¯ = 0
を利用している．
(6) 決定係数は R2 = ∑(yî − yî )2 / ∑(yî − y)
¯ 2 = 1 − ∑ e2 / ∑(yî − y)
¯ 2 と定義される．
2
定義から 0 <
= 1 である．(coefficient of determination)
=R <
(7) 観測値 y と予測値 yˆ の相関係数を重相関係数と呼び，記号 R で表す．multiple correlation coefficient. R = cor(y, y)
ˆ は 0 ≤ R ≤ 1 を満たす（最適な予測値を用いると cor(y, y)
ˆ >
= 0 となること
を，直感的にも確認する）．
(8) 最小二乗法を用いた場合には，cor(y, y)
ˆ の 2 乗が，決定係数 R2 になる（他の推定法だと，cor(y, y)
ˆ
2
の 2 乗と R は一致するとは限らない）．
(9) R2 は重回帰分析の場合に有効である．1 変数の回帰分析 y = a + bx の場合は，R = |r| と通常の
相関係数の絶対値となる．
4

Download Report