コンピュータによる統計分析 2014 年度 美添泰人 10/28 : 正規分布,QQ plot (Reading Assignment: 統計入門 VI 章 4 節,VI 章 1 節; 余裕があれば 5 節も解説) 参考:統計学基礎 第 3 章 正規分布 (normal-ex1.R) (1) x1 , · · · , xn を無作為標本,すなわち,独立に同じ分布に従う確率変数とする(任意の分布).以下, xi の共通の期待値を µ ,分散を σ 2 とする.このとき和 S = ∑ni=1 xi の期待値と分散は E(S) = nµ , var(S) = nσ 2 となる.また標本平均 x¯ = S/n の期待値と分散は E(x) ¯ = σ 2 /n となる. ¯ = µ , var(x) (2) 二項分布で n が大きいときのグラフを見ると,次第に期待値を中心とする対称な美しい分布と なることがわかる. p の値を変化させると中心の位置が変わり,ちらばり(分散)が変化する が,基本的な形は似ている.歴史的にも,二項分布の極限として得られたものが正規分布であ る.(binom-ex1.R 参照.最後の部分が「中心極限定理」の特別な場合を表している図) (3) 正規分布は平均 µ と分散 σ 2(または標準偏差 σ )によって定められる.正規分布に従う確率 変数を x ∼ N(µ , σ 2 ) と表わす. (4) 極限だから,最も簡単な形になっている.µ = 0, σ = 1 という標準的な場合を考えると 0 を中心 とした対称な分布である.x = 0 で最大値を取る最も簡単な関数は −x2 だから, つねに p(x) > 0 2 とするために正の数 a を取って a−x に比例する p(x) が最も単純な形と考えることができる. 一般の a を選ぶ代わりに自然対数の底 e を選び,x2 /2 としたものが,正規分布の基本形であ √ 2 る: p(x) = ce−x /2 .ここで c = 1/ 2π は確率の合計を 1 とするための比例定数である. (5) とくに z ∼ N(0, 1) と表わされる確率分布を標準正規分布と呼ぶ.その確率密度関数を φ (z) と 書き,分布関数を Pr{Z < = z} = Φ(z) と表わすのが慣例である. (6) 一般の正規分布 x ∼ N(µ , σ 2 ) は標準正規分布から x = µ + σ z として定められる分布である.そ の期待値と分散は容易に求められる. E(x) = E(µ + σ z) = µ + σ E(z) = µ var(x) = var(µ + σ z) = σ 2 var(z) = σ 2 (7) µ と σ の値を変えて,正規分布の密度関数を描くことが望ましい.水平方向に µ だけ平行移 動して σ だけ拡大(面積を一定にするために縦方向には 1/σ だけ縮小)する.結果として, x ∼ N(µ , σ 2 ) の密度関数は,次のようになる. 1 (x− µ ) f (x) = φ σ σ (8) σ はちらばりの尺度を与えている.0.68, 0.95, 0.997 という数値を覚える.それぞれ x が µ の 周囲 µ ± σ , µ ± 2σ , µ ± 3σ の範囲に含まれる確率である. 多変量正規分布 (normal-dist1.R) (1) 2 変量正規分布(密度関数による定義は教科書参照) :(x1 , x2 ) ∼ N2 (2 変量正規分布)は,a1 , a2 を任意の定数としたとき,1 次式 ℓ = a1 x1 + a2 x2 が正規分布に従うような分布として特徴 づけることができる.3 変数以上の多変量正規分布も,同様にして任意の ai に対して 1 次式 n ℓ = ∑ ai xi が正規分布に従うような分布として定義される. i=1 1 (2) (逆の命題) :x1 , · · · xn が正規分布に従うとき,ある定数 c1 , . . . , cn の 1 次式 ℓ = n ∑ c j x j は正規 j=1 分布に従うことは定義から明らかである. (3) 任意の確率変数 xi (i = 1, · · · , n) が独立かつ同一の確率分布に従う場合(無作為標本 : random sample)を考える.期待値を E(x) = µ , 分散を var(x) = E[(x − µ )2 ] = σ 2 とするとき,確率変 数 xi (i = 1, · · · , n) の和 S = x1 + · · · + xn = ∑ni=1 xi の確率分布,あるいはその定数倍である標本 平均(確率変数 xi (i = 1, · · · , n) の平均)x¯ = S/n の確率分布を考えることが重要である. 中心極限定理 (CLT.R) (1) x¯ の期待値は E(x) ¯ = µ と n によらず一定だが,分散は var(x) ¯ = σ 2 /n と n が大きくなるにつれ √ て次第に小さくなる.そこで x¯ の代わりに n(x¯ − µ ) を考えると,その期待値は 0,分散は σ 2 √ と n によらず一定となる.ここで n → ∞ とすると, n(x¯ − µ ) の確率分布は正規分布 N(0, σ 2 ) に近づくことが証明できる.これは中心極限定理 (CLT: Central Limit Theorem) の最も簡単な 場合 (iid case) である.中心極限定理に関する実験:(CLT.R 参照) (2) 身長の分布や誤差の分布は,なぜ正規分布に近いか.CLT による理解 正規分布に関する補足 (1) x1 , · · · , xn が独立に正規分布 N(µi , σi2 ) に従うとき,その合計 S = ∑ xi は正規分布に従う.S の 期待値と分散は一般の場合に得られている: E(S) = ∑ µi , var(S) = ∑ σi2 (2) 特に x1 , · · · , xn が独立に同じ正規分布 N(µ , σ 2 ) に従うとき,すなわち正規分布からの無作為標 本のときは,標本平均 x¯ = S/n も厳密に正規分布に従う: x¯ ∼ N(µ , σ 2 /n) (3) x1 , · · · , xn が独立に同じ分布に従うものとする(正規分布とは限らないが無作為標本である). その期待値と分散を E(x) = µ , var(x) = σ 2 とするとき,標本平均 x¯ の分布は n が大きいとき 近似的に正規分布にしたがう:中心極限定理 (Central Limit Theorem) の応用 √ (4) 正確な表現は次のとおりである. n(x¯ − µ ) の期待値は 0,分散は σ 2 と一定である.そこで √ n → ∞ とすると, n(x¯ − µ ) の分布は正規分布 N(0, σ 2 ) に近づく.これを分布収束と呼び √ D n(x¯ − µ ) −→ N(0, σ 2 ) と表わす.現実的な意味は,ある程度大きな n に対して,近似的に x¯ ∼ N(µ , σ 2 /n) とみなせること. (5) 体重の分布は正規分布とはかなり違っている.しかし,10 人程度でも体重の合計は中心極限 定理によって正規分布で近似できるため,確率的な評価が可能となる. (6) 所得の分布は強い正の歪みを持つ.それでも n = 200 から n = 1000 程度の観測値があれば,そ の合計または算術平均の分布は正規分布で近似される. (7) 二項分布の正規近似:連続修正(半数補正)の効果:x ∼ B(n, p) のとき,µ = np, σ 2 = npq だ から,近似的に x ∼ N(np, npq) となる.しかし,x < = r (r は整数)となる確率は,正規分布で Pr{x < r} とするよりも Pr{x < r + 0.5} とする方が,良い近似を与える. その理由を図およびいくつかの数値例によって確認する. 2 コンピュータによる演習 R による中心極限定理の例示,QQ plot normal-ex1.R, qqplot.R, CLT.R,lognorm.R) (参考プログラム: (1) 観測の分布が正規分布に近いことを表現するグラフである Q-Q プロットを描く. qqplot 関数 (2) 二項分布の正規近似:連続修正(binom-ex2.R 参照). (3) 二項分布,一様分布,t 分布から抽出される標本について,中心極限定理が成立する様子を観 察する(CLT.R による). (4) 平均と標準偏差を変えながら,正規分布の密度関数をグラフに描く.平均と標準偏差は,それ ぞれ分布の位置とちらばりを表現していることを,グラフから確かめる.標準偏差を 2(k) 倍 すると密度関数の高さは 1/2(1/k) になることを確かめ,その理由を考える. (5) 次の問題で確率を求めよ. (6) 平均が 170cm,標準偏差が 10cm の母集団から無作為に選んだ人の身長が (a) 180cm 以上,(b) 160cm と 180cm の間,(c) 190cm 未満 (7) 試験の平均が 500 点,標準偏差が 80 点のとき,無作為に選んだ受験者の得点が (a) 660 点以 上,(b) 460 点と 540 点の間,(c) 420 点未満 3
© Copyright 2024 Paperzz