コンピュータによる統計分析 2014 年度美添泰人 10/28 : 正規分布，QQ plot （Reading Assignment: 統計入門 VI 章 4 節，VI 章 1 節; 余裕があれば 5 節も解説）参考：統計学基礎第 3 章正規分布 (normal-ex1.R) (1) x1 , · · · , xn を無作為標本，すなわち，独立に同じ分布に従う確率変数とする（任意の分布）．以下， xi の共通の期待値を µ ，分散を σ 2 とする．このとき和 S = ∑ni=1 xi の期待値と分散は E(S) = nµ , var(S) = nσ 2 となる．また標本平均 x¯ = S/n の期待値と分散は E(x) ¯ = σ 2 /n となる． ¯ = µ , var(x) (2) 二項分布で n が大きいときのグラフを見ると，次第に期待値を中心とする対称な美しい分布となることがわかる． p の値を変化させると中心の位置が変わり，ちらばり（分散）が変化するが，基本的な形は似ている．歴史的にも，二項分布の極限として得られたものが正規分布である．(binom-ex1.R 参照．最後の部分が「中心極限定理」の特別な場合を表している図） (3) 正規分布は平均 µ と分散 σ 2（または標準偏差 σ ）によって定められる．正規分布に従う確率変数を x ∼ N(µ , σ 2 ) と表わす． (4) 極限だから，最も簡単な形になっている．µ = 0, σ = 1 という標準的な場合を考えると 0 を中心とした対称な分布である．x = 0 で最大値を取る最も簡単な関数は −x2 だから, つねに p(x) > 0 2 とするために正の数 a を取って a−x に比例する p(x) が最も単純な形と考えることができる．一般の a を選ぶ代わりに自然対数の底 e を選び，x2 /2 としたものが，正規分布の基本形であ √ 2 る： p(x) = ce−x /2 ．ここで c = 1/ 2π は確率の合計を 1 とするための比例定数である． (5) とくに z ∼ N(0, 1) と表わされる確率分布を標準正規分布と呼ぶ．その確率密度関数を φ (z) と書き，分布関数を Pr{Z < = z} = Φ(z) と表わすのが慣例である． (6) 一般の正規分布 x ∼ N(µ , σ 2 ) は標準正規分布から x = µ + σ z として定められる分布である．その期待値と分散は容易に求められる． E(x) = E(µ + σ z) = µ + σ E(z) = µ var(x) = var(µ + σ z) = σ 2 var(z) = σ 2 (7) µ と σ の値を変えて，正規分布の密度関数を描くことが望ましい．水平方向に µ だけ平行移動して σ だけ拡大（面積を一定にするために縦方向には 1/σ だけ縮小）する．結果として， x ∼ N(µ , σ 2 ) の密度関数は，次のようになる． 1 (x− µ ) f (x) = φ σ σ (8) σ はちらばりの尺度を与えている．0.68, 0.95, 0.997 という数値を覚える．それぞれ x が µ の周囲 µ ± σ , µ ± 2σ , µ ± 3σ の範囲に含まれる確率である．多変量正規分布 (normal-dist1.R) (1) 2 変量正規分布（密度関数による定義は教科書参照）：(x1 , x2 ) ∼ N2 （2 変量正規分布）は，a1 , a2 を任意の定数としたとき，1 次式 ℓ = a1 x1 + a2 x2 が正規分布に従うような分布として特徴づけることができる．3 変数以上の多変量正規分布も，同様にして任意の ai に対して 1 次式 n ℓ = ∑ ai xi が正規分布に従うような分布として定義される． i=1 1 (2) （逆の命題）：x1 , · · · xn が正規分布に従うとき，ある定数 c1 , . . . , cn の 1 次式 ℓ = n ∑ c j x j は正規 j=1 分布に従うことは定義から明らかである． (3) 任意の確率変数 xi (i = 1, · · · , n) が独立かつ同一の確率分布に従う場合（無作為標本 : random sample）を考える．期待値を E(x) = µ , 分散を var(x) = E[(x − µ )2 ] = σ 2 とするとき，確率変数 xi (i = 1, · · · , n) の和 S = x1 + · · · + xn = ∑ni=1 xi の確率分布，あるいはその定数倍である標本平均（確率変数 xi (i = 1, · · · , n) の平均）x¯ = S/n の確率分布を考えることが重要である．中心極限定理 (CLT.R) (1) x¯ の期待値は E(x) ¯ = µ と n によらず一定だが，分散は var(x) ¯ = σ 2 /n と n が大きくなるにつれ √ て次第に小さくなる．そこで x¯ の代わりに n(x¯ − µ ) を考えると，その期待値は 0，分散は σ 2 √ と n によらず一定となる．ここで n → ∞ とすると， n(x¯ − µ ) の確率分布は正規分布 N(0, σ 2 ) に近づくことが証明できる．これは中心極限定理 (CLT: Central Limit Theorem) の最も簡単な場合 (iid case) である．中心極限定理に関する実験：(CLT.R 参照） (2) 身長の分布や誤差の分布は，なぜ正規分布に近いか．CLT による理解正規分布に関する補足 (1) x1 , · · · , xn が独立に正規分布 N(µi , σi2 ) に従うとき，その合計 S = ∑ xi は正規分布に従う．S の期待値と分散は一般の場合に得られている： E(S) = ∑ µi , var(S) = ∑ σi2 (2) 特に x1 , · · · , xn が独立に同じ正規分布 N(µ , σ 2 ) に従うとき，すなわち正規分布からの無作為標本のときは，標本平均 x¯ = S/n も厳密に正規分布に従う： x¯ ∼ N(µ , σ 2 /n) (3) x1 , · · · , xn が独立に同じ分布に従うものとする（正規分布とは限らないが無作為標本である）．その期待値と分散を E(x) = µ , var(x) = σ 2 とするとき，標本平均 x¯ の分布は n が大きいとき近似的に正規分布にしたがう：中心極限定理 (Central Limit Theorem) の応用 √ (4) 正確な表現は次のとおりである． n(x¯ − µ ) の期待値は 0，分散は σ 2 と一定である．そこで √ n → ∞ とすると， n(x¯ − µ ) の分布は正規分布 N(0, σ 2 ) に近づく．これを分布収束と呼び √ D n(x¯ − µ ) −→ N(0, σ 2 ) と表わす．現実的な意味は，ある程度大きな n に対して，近似的に x¯ ∼ N(µ , σ 2 /n) とみなせること． (5) 体重の分布は正規分布とはかなり違っている．しかし，10 人程度でも体重の合計は中心極限定理によって正規分布で近似できるため，確率的な評価が可能となる． (6) 所得の分布は強い正の歪みを持つ．それでも n = 200 から n = 1000 程度の観測値があれば，その合計または算術平均の分布は正規分布で近似される． (7) 二項分布の正規近似：連続修正（半数補正）の効果：x ∼ B(n, p) のとき，µ = np, σ 2 = npq だから，近似的に x ∼ N(np, npq) となる．しかし，x < = r （r は整数）となる確率は，正規分布で Pr{x < r} とするよりも Pr{x < r + 0.5} とする方が，良い近似を与える．その理由を図およびいくつかの数値例によって確認する． 2 コンピュータによる演習 R による中心極限定理の例示，QQ plot normal-ex1.R, qqplot.R, CLT.R,lognorm.R）（参考プログラム： (1) 観測の分布が正規分布に近いことを表現するグラフである Q-Q プロットを描く． qqplot 関数 (2) 二項分布の正規近似：連続修正（binom-ex2.R 参照）． (3) 二項分布，一様分布，t 分布から抽出される標本について，中心極限定理が成立する様子を観察する（CLT.R による）． (4) 平均と標準偏差を変えながら，正規分布の密度関数をグラフに描く．平均と標準偏差は，それぞれ分布の位置とちらばりを表現していることを，グラフから確かめる．標準偏差を 2(k) 倍すると密度関数の高さは 1/2(1/k) になることを確かめ，その理由を考える． (5) 次の問題で確率を求めよ． (6) 平均が 170cm，標準偏差が 10cm の母集団から無作為に選んだ人の身長が (a) 180cm 以上，(b) 160cm と 180cm の間，(c) 190cm 未満 (7) 試験の平均が 500 点，標準偏差が 80 点のとき，無作為に選んだ受験者の得点が (a) 660 点以上，(b) 460 点と 540 点の間，(c) 420 点未満 3