10/28 : 正規分布,QQ plot

コンピュータによる統計分析
2014 年度 美添泰人
10/28 : 正規分布,QQ plot
(Reading Assignment: 統計入門 VI 章 4 節,VI 章 1 節; 余裕があれば 5 節も解説)
参考:統計学基礎 第 3 章
正規分布
(normal-ex1.R)
(1) x1 , · · · , xn を無作為標本,すなわち,独立に同じ分布に従う確率変数とする(任意の分布).以下,
xi の共通の期待値を µ ,分散を σ 2 とする.このとき和 S = ∑ni=1 xi の期待値と分散は E(S) = nµ ,
var(S) = nσ 2 となる.また標本平均 x¯ = S/n の期待値と分散は E(x)
¯ = σ 2 /n となる.
¯ = µ , var(x)
(2) 二項分布で n が大きいときのグラフを見ると,次第に期待値を中心とする対称な美しい分布と
なることがわかる. p の値を変化させると中心の位置が変わり,ちらばり(分散)が変化する
が,基本的な形は似ている.歴史的にも,二項分布の極限として得られたものが正規分布であ
る.(binom-ex1.R 参照.最後の部分が「中心極限定理」の特別な場合を表している図)
(3) 正規分布は平均 µ と分散 σ 2(または標準偏差 σ )によって定められる.正規分布に従う確率
変数を x ∼ N(µ , σ 2 ) と表わす.
(4) 極限だから,最も簡単な形になっている.µ = 0, σ = 1 という標準的な場合を考えると 0 を中心
とした対称な分布である.x = 0 で最大値を取る最も簡単な関数は −x2 だから, つねに p(x) > 0
2
とするために正の数 a を取って a−x に比例する p(x) が最も単純な形と考えることができる.
一般の a を選ぶ代わりに自然対数の底 e を選び,x2 /2 としたものが,正規分布の基本形であ
√
2
る: p(x) = ce−x /2 .ここで c = 1/ 2π は確率の合計を 1 とするための比例定数である.
(5) とくに z ∼ N(0, 1) と表わされる確率分布を標準正規分布と呼ぶ.その確率密度関数を φ (z) と
書き,分布関数を Pr{Z <
= z} = Φ(z) と表わすのが慣例である.
(6) 一般の正規分布 x ∼ N(µ , σ 2 ) は標準正規分布から x = µ + σ z として定められる分布である.そ
の期待値と分散は容易に求められる.
E(x) = E(µ + σ z) = µ + σ E(z) = µ
var(x) = var(µ + σ z) = σ 2 var(z) = σ 2
(7) µ と σ の値を変えて,正規分布の密度関数を描くことが望ましい.水平方向に µ だけ平行移
動して σ だけ拡大(面積を一定にするために縦方向には 1/σ だけ縮小)する.結果として,
x ∼ N(µ , σ 2 ) の密度関数は,次のようになる.
1 (x− µ )
f (x) =
φ
σ
σ
(8) σ はちらばりの尺度を与えている.0.68, 0.95, 0.997 という数値を覚える.それぞれ x が µ の
周囲 µ ± σ , µ ± 2σ , µ ± 3σ の範囲に含まれる確率である.
多変量正規分布
(normal-dist1.R)
(1) 2 変量正規分布(密度関数による定義は教科書参照)
:(x1 , x2 ) ∼ N2 (2 変量正規分布)は,a1 ,
a2 を任意の定数としたとき,1 次式 ℓ = a1 x1 + a2 x2 が正規分布に従うような分布として特徴
づけることができる.3 変数以上の多変量正規分布も,同様にして任意の ai に対して 1 次式
n
ℓ = ∑ ai xi が正規分布に従うような分布として定義される.
i=1
1
(2) (逆の命題)
:x1 , · · · xn が正規分布に従うとき,ある定数 c1 , . . . , cn の 1 次式 ℓ =
n
∑ c j x j は正規
j=1
分布に従うことは定義から明らかである.
(3) 任意の確率変数 xi (i = 1, · · · , n) が独立かつ同一の確率分布に従う場合(無作為標本 : random
sample)を考える.期待値を E(x) = µ , 分散を var(x) = E[(x − µ )2 ] = σ 2 とするとき,確率変
数 xi (i = 1, · · · , n) の和 S = x1 + · · · + xn = ∑ni=1 xi の確率分布,あるいはその定数倍である標本
平均(確率変数 xi (i = 1, · · · , n) の平均)x¯ = S/n の確率分布を考えることが重要である.
中心極限定理
(CLT.R)
(1) x¯ の期待値は E(x)
¯ = µ と n によらず一定だが,分散は var(x)
¯ = σ 2 /n と n が大きくなるにつれ
√
て次第に小さくなる.そこで x¯ の代わりに n(x¯ − µ ) を考えると,その期待値は 0,分散は σ 2
√
と n によらず一定となる.ここで n → ∞ とすると, n(x¯ − µ ) の確率分布は正規分布 N(0, σ 2 )
に近づくことが証明できる.これは中心極限定理 (CLT: Central Limit Theorem) の最も簡単な
場合 (iid case) である.中心極限定理に関する実験:(CLT.R 参照)
(2) 身長の分布や誤差の分布は,なぜ正規分布に近いか.CLT による理解
正規分布に関する補足
(1) x1 , · · · , xn が独立に正規分布 N(µi , σi2 ) に従うとき,その合計 S = ∑ xi は正規分布に従う.S の
期待値と分散は一般の場合に得られている: E(S) = ∑ µi , var(S) = ∑ σi2
(2) 特に x1 , · · · , xn が独立に同じ正規分布 N(µ , σ 2 ) に従うとき,すなわち正規分布からの無作為標
本のときは,標本平均 x¯ = S/n も厳密に正規分布に従う: x¯ ∼ N(µ , σ 2 /n)
(3) x1 , · · · , xn が独立に同じ分布に従うものとする(正規分布とは限らないが無作為標本である).
その期待値と分散を E(x) = µ , var(x) = σ 2 とするとき,標本平均 x¯ の分布は n が大きいとき
近似的に正規分布にしたがう:中心極限定理 (Central Limit Theorem) の応用
√
(4) 正確な表現は次のとおりである. n(x¯ − µ ) の期待値は 0,分散は σ 2 と一定である.そこで
√
n → ∞ とすると, n(x¯ − µ ) の分布は正規分布 N(0, σ 2 ) に近づく.これを分布収束と呼び
√
D
n(x¯ − µ ) −→ N(0, σ 2 ) と表わす.現実的な意味は,ある程度大きな n に対して,近似的に
x¯ ∼ N(µ , σ 2 /n) とみなせること.
(5) 体重の分布は正規分布とはかなり違っている.しかし,10 人程度でも体重の合計は中心極限
定理によって正規分布で近似できるため,確率的な評価が可能となる.
(6) 所得の分布は強い正の歪みを持つ.それでも n = 200 から n = 1000 程度の観測値があれば,そ
の合計または算術平均の分布は正規分布で近似される.
(7) 二項分布の正規近似:連続修正(半数補正)の効果:x ∼ B(n, p) のとき,µ = np, σ 2 = npq だ
から,近似的に x ∼ N(np, npq) となる.しかし,x <
= r (r は整数)となる確率は,正規分布で
Pr{x < r} とするよりも Pr{x < r + 0.5} とする方が,良い近似を与える.
その理由を図およびいくつかの数値例によって確認する.
2
コンピュータによる演習 R による中心極限定理の例示,QQ plot
normal-ex1.R, qqplot.R, CLT.R,lognorm.R)
(参考プログラム:
(1) 観測の分布が正規分布に近いことを表現するグラフである Q-Q プロットを描く. qqplot 関数
(2) 二項分布の正規近似:連続修正(binom-ex2.R 参照).
(3) 二項分布,一様分布,t 分布から抽出される標本について,中心極限定理が成立する様子を観
察する(CLT.R による).
(4) 平均と標準偏差を変えながら,正規分布の密度関数をグラフに描く.平均と標準偏差は,それ
ぞれ分布の位置とちらばりを表現していることを,グラフから確かめる.標準偏差を 2(k) 倍
すると密度関数の高さは 1/2(1/k) になることを確かめ,その理由を考える.
(5) 次の問題で確率を求めよ.
(6) 平均が 170cm,標準偏差が 10cm の母集団から無作為に選んだ人の身長が (a) 180cm 以上,(b)
160cm と 180cm の間,(c) 190cm 未満
(7) 試験の平均が 500 点,標準偏差が 80 点のとき,無作為に選んだ受験者の得点が (a) 660 点以
上,(b) 460 点と 540 点の間,(c) 420 点未満
3