コンピュータによる統計分析 2014 年度 美添泰人 10/14 : 確率変数と確率分布,確率変数の和(期待値と分散) (Reading Assignment: 統計入門 V.3, V.4) 参考:統計学基礎 第 3 章 確率変数と確率分布 (1) 確率変数とは何か.ω ∈ Ω にある実数を対応させる関数 X(ω ) のこと.小文字 x を使うことも ある.記号 X, x˜ を使って,確率変数と実数 x を区別することがある. 表記法:Pr{X(ω ) > = 0} を Pr{X > = 0} と略記する.Pr{x > = 0} でも意味は明確.しかし,x を実 数とすると Pr{X > = x} は理解できるが,Pr{x > = x} は意味不明,そこで Pr{x˜ > = x} と書く. (2) 離散的な確率分布 p(x) とそのグラフ (3) 例:サイコロの目の値,2 つのサイコロの目の和,3 つのサイコロの目の和は? (4) 連続的な確率変数の場合,特定の値をとる確率 Pr(x = a) はいくらか? { } .. f (x) h となる f (x).これも p(x) (5) 連続的な確率変数の確率密度関数: Pr x − h2 < X < x + 2h = と書くことがある. (6) 連続的な確率変数 x の密度関数は,ヒストグラムで階級の幅を小さくした極限と考える. (7) 分布関数 (distribution function) F(x) = Pr(X < = x) (8) 分布関数のグラフ(教科書の p. 122).離散形,連続形 期待値と分散 (1) 確率変数の期待値 (µ = E(x), expectation).離散形の場合 E(x) = ∑ xp(x) は賭けの問題として 意味を理解する.相対度数分布を確率分布と置き換えると,観測値の算術平均 x¯ と同じ意味を 持つ. (2) 連続形の場合は E(x) = (積分の意味). ∫ ∞ −∞ xp(x) dx と書く.ヒストグラムの極限に対応させて理解してよい (3) 期待値の性質: E(a + x) = a + E(x), E(bx) = bE(x), E(a + bx) = a + bE(x) (a, b は定数) (4) ヒストグラムと期待値の対応:標本の大きさ n が大きくなると観測値から計算した x¯ は期待値 E(x) に近づく.後に示す大数の法則 (Law of Large Numbers: LLN) (5) 確率変数 x の関数 y = g(x) も確率変数となる.x の確率分布 px (x) を用いて y の確率分布 py (y) を導くことができる.これから y の期待値は E(y) = ∑ ypy (y) と求められる. (6) 確率変数の分散 (variance): σ 2 = var(x) = E[(x − µ )2 ] その他の話題 (1) チェビシェフの不等式:平均と分散を µ , σ 2 とする任意の確率分布に関する不等式(k, λ > 0 とする) 1 σ2 < Pr{|x − µ | > k} = = k2 または Pr{|x − µ | > = λσ} < = λ2 (2) 確率変数の標準化:z = (x − µ )/σ .このとき E(z) = 0, var(z) = 1 (3) 確率変数の分位点:F(x) = q (0 < q < 1) となる x が q 分位点,または 100q%点である. 『統計学基礎』4 章 p. 19 1 コンピュータによる演習 (1) graphic windows の扱い:wingraph.R (2) 図のファイル出力 (3) 乱数発生と確率的なシミュレーションの実行.一様分布 unif(0, 1). 一般に unif(a, b) を用いた サイコロ投げ:dice.R (歪んだコイン) (4) コイン投げ,10 回投げて表の出る度数と確率,実験回数を増やす. coins.R (5) トランプカード,52 枚から元に戻さずに 13 枚を取る.cards.R (6) ips の練習問題を用いた練習 2 コンピュータによる統計分析 2014 年度 美添泰人 やや高度な話題 興味のある受講生向け(試験問題の対象外) 参考:統計学基礎 第 3 章 (1) ∑ g(x)px (x) を計算すると,その結果は E(y) = ∑ ypy (y) と一致することが示せる.したがって 期待値を求めるだけなら確率分布 py (y) を求める必要はない.E[g(x)] = ∑ g(x)px (x) と定義し [ ] ても良い.E(y) = E g(x) という性質は連続形でも成り立つ. (2) 期待値の性質: E[ f (x) + g(x)] = E[ f (x)] + E[g(x)] (3) 期待値の性質: f (x) < = g(x) なら E[ f (x)] < = E[g(x)] (4) 分散 σ 2 = var(x) = E[(x − µ )2 ] の正確な理解は,E[g(x)] という定義による. (5) ある事象(集合)を A とするとき,次の関数 IA (x) を A の特性関数 (characteristic function) ま たは指標関数 (indicator function) と呼ぶ. IA (x) = 1 (x ∈ A のとき), IA (x) = 0 (x ̸∈ A のとき) このとき,E[IA (x)] = Pr{x ∈ A} = Pr{A} となる.これから,確率は期待値の特別な場合とも考 えられる. (6) マルコフの不等式:確率変数 x > 0 に対して A = {x : x > = k} (k > 0) とおくと IA (x) < = x/k (x > 0) だから ( x ) E(x) ( ) < Pr{x > k} = E I (x) = E A = = k k 2 2 (7) チェビシェフの不等式:A = {x : |x − µ | > = k} (k > 0) に対して g(x) = (x − µ ) /k とおくと IA (x) < = g(x) だから var(x) Pr{|x − µ | > = k} = Pr{A} < = E[g(x)] = k2 2 (8) チェビシェフの不等式:y = (x − µ )2 として A = {x : |x − µ | > = k} = {y : y > = k } (k > 0) とおく 2 2 と(マルコフの不等式から)Pr{|x − µ | > = k} < = E(y)/k = var(x)/k (9) 高次の(原点まわりの)積率 µr′ = E(xr ) (r = 1, 2, · · · ) (10) 高次の(平均まわりの)積率 µr = E[(x − µ )r ] (r = 1, 2, · · · ) (11) モーメント問題:µr′ (r = 1, 2, · · · ) が与えられれば確率分布 p(x) が定まるか? (12) 積率母関数 (mgf: moment generating function): m(t) = E(etx ).確率分布 p(x) が与えられると m(t) が定まる(mgf が存在しない例もある).逆に m(t) が与えられると確率分布 p(x) を求め ることができる.つまり,mgf が存在する場合には p(x) と m(t) は 1 対 1 に対応する. 3 コンピュータによる統計分析 2014 年度 美添泰人 当てはまりの尺度:R, r, R2 (= r2 ) について(補足:自習用) 統計入門 V.3 (1) 重回帰のモデル y = b0 + b1 x1 + b2 x2 + · · · + b p x p + 誤差 において,予測値(推定値)を yˆi = b0 + b1 x1i + b2 x2i + · · · + b p x pi と表わす.ここで ei = yi − yˆi を残差とすると,最小二乗法では次 の性質が満たされる. ∑ ei = 0, ∑ ei x1i = 0, ··· , ∑ ei x pi = 0 すなわち残差 ei は平均がゼロとなるだけでなく,説明変数 x1 , x2 , · · · , x p との共分散がゼロ(相 関係数もゼロ)となる.教科書の (4.20) で k 番目の式は b0 ∑ xki + b1 ∑ xki x1i + · · · + b p ∑ xki x pi = ∑ xki yi だから,これをまず ( n n i=1 i=1 ∑ xki yi − ∑ n ) b0 xki + b1 xki x1i + · · · + b p xki x pi = ∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = 0 i=1 と書き変える.さらに変形を続けると次の結果が得られる. n n i=1 i=1 ∑ xki {yi − (b0 + b1 x1i + · · · + b p x pi )} = ∑ xki (yi − yˆi ) = ∑ xki ei = 0 (2) 前項の結果から ∑ ei yˆi = 0 が導かれる. ∑ ei yˆi = ∑ ei (b0 + b1 x1i + · · · + b p x pi ) = b0 ∑ ei + b1 ∑ ei x1i + · · · + b p ∑ ei x pi = 0 (3) x を知らないときの最適な予測(推定)は yˆi = y¯,そのときの誤差の大きさは ∑(yi − y) ¯2 (4) x を知ったときの最適な予測(推定)は yˆi ,誤差の大きさは ∑(yi − yˆi )2 (5) ここで ∑(yi − y)¯ 2 = ∑ [ ]2 (yi − yˆi ) + (yˆi − y) ¯ = ∑(yi − yˆi )2 + ∑(yˆi − y) ¯ 2 = ∑ e2i + ∑(yˆi − y) ¯2 と分解できる.この分解では ∑(yi − yˆi )(yˆi − y)¯ = ∑ ei (yˆi − y)¯ = ∑ ei yˆi − ∑ ei y¯ = 0 を利用している. (6) 決定係数 は R2 = ∑(yˆi − yˆi )2 / ∑(yˆi − y) ¯ 2 = 1 − ∑ e2 / ∑(yˆi − y) ¯ 2 と定義される. 2 定義から 0 < = 1 である.(coefficient of determination) =R < (7) 観測値 y と予測値 yˆ の相関係数を重相関係数と呼び,記号 R で表す.multiple correlation coefficient. R = cor(y, y) ˆ は 0 ≤ R ≤ 1 を満たす(最適な予測値を用いると cor(y, y) ˆ > = 0 となること を,直感的にも確認する). (8) 最小二乗法を用いた場合には,cor(y, y) ˆ の 2 乗が,決定係数 R2 になる(他の推定法だと,cor(y, y) ˆ 2 の 2 乗と R は一致するとは限らない). (9) R2 は重回帰分析の場合に有効である.1 変数の回帰分析 y = a + bx の場合は,R = |r| と通常の 相関係数の絶対値となる. 4
© Copyright 2024 Paperzz