統計検定秋学期講習第 3 回資料 理論分布 2項分布: 成功と失敗という結果が起こる実験を独立に n 回繰り返して行ったときの成功の回数を表す変数を X で 表したときに、その変数 X がある具体的な値 k をとる確率は次の式で与えられる;(X のことを2項分布 に従う確率変数という) P ( X = k )= n C k p k (1 − p ) n − k ここで、 n C k は n 個の中から k 個を取り出す組み合わせの数。なお、上記のような2項分布に従う確率 変数の平均と分散は、それぞれ np と np(1-p)になる。 ポアソン分布: そう頻繁には起こらない現象を、長い期間観測して数え上げた数の分布のモデルとして、ポアソン分布 がある。ポアソン分布は、平均の値だけで分布が決まるという非常に単純な分布モデル。いま平均をµと し、その逆数をθ(=1/µ)とすると、 P( X = k ) = e −θ θk k! となる。ポアソン分布に従う確率変数の平均はµだが、分散もµ。 注:2 項分布の np を一定にして、n を無限大にしたときの極限分布がポアソン分布 関連分布:幾何分布(1 回成功するまでの回数の分布) 、負の 2 項分布(r 回成功するまでの回数の分布) 正規分布: 正規分布は対称な単峰な分布。正規分布は平均と分散(また は、標準偏差)が決まると完全に形が決まる。 平均 µ 、分散 σ の正規分布の曲線を表す関数は 0.4 2 f ( x) = 1 2 πσ 2 − e ( x−µ) 0.3 2 2σ2 0.2 0.1 ここで、π は円周率(=3.141...)、e は自然対数の底(=2.718...)。 このような正規分布を N ( µ , σ ) と表す。とくに、平均0、 2 分散1の正規分布を標準正規分布と呼ぶ。 0 -3 -2 -1 0 1 標準正規分布(平均 0,分散 1) 2 独立な正規分布の和の分布 正規分布に従う確率変数の和も、正規分布に従うことが知られている。同じ分布に従う独立な確率変 数の和の分布が元の分布になることを再生性と呼ぶが、正規分布は再生性を持つ分布である。また、正 規分布は、独立でない確率変数の和も正規分布になるという特徴を持っている。以下に 2 つの変数の和 の分布を示す。 X と Y が独立な場合の結果 X ~ N ( µ X , σ X2 ), Y ~ N ( µ y , σ y2 ) で、Z = X + Y のとき、 Z ~ N ( µ X + µ y , σ X2 + σ Y2 ) X と Y に相関(ρ)がある場合 X ~ N ( µ X , σ X2 ), Y ~ N ( µ y , σ y2 ) で、Z = X + Y のとき、 Z ~ N ( µ X + µ y , σ X2 + 2 ρσ X σ Y + σ Y2 ) なお、差の分布についても触れておきたい。独立な変数の差の分布は、和の場合と同じように正規分布 になる。差の平均は平均の差になるが、分散は 2 つの変数の分散の和になるので注意が必要である。 X と Y が独立な場合の差の分布 X ~ N ( µ X , σ X2 ), Y ~ N ( µ y , σ y2 ) で、Z = X − Y のとき、 Z ~ N ( µ X − µ y , σ X2 + σ Y2 ) X と Y に相関(ρ)がある場合の差の分布 X ~ N ( µ X , σ X2 ), Y ~ N ( µ y , σ y2 ) で、Z = X − Y のとき、 Z ~ N ( µ X − µ y , σ X2 − 2 ρσ X σ Y + σ Y2 ) 正規分布の数値表の使い方 正規分布に関する確率を求める場合、統計ソフトウェアや Excel を使えば簡単に計算できるが、統計 数値表を使うこともあり、ここではその使用方法を説明する。 上記は、正規分布表の一部である。この表から正規分布に従う確率変数 X について Pr(0<X<x)となる確 率を知ることができる。この表の表側で、x の小数点 1 ケタまでの数値を選び、表頭で小数点 2 ケタ目の 数値を選ぶ。その交差しているところの数値が Pr(0<X<x)になる。 たとえば、Pr(0<X<0.57)を求めてみよう。表側で 0.5 の行を選び、次に表頭の 0.07 の列を選び、その 交差する位置にある 0.2157 が求める確率となる。 では、数値表を使って具体的な確率を求めてみよう。いま、日本人の成人男子の身長の平均は 171.5cm で、標準偏差は 5.7cm である。いま身長が正規分布するとして、175.0cm を超える割合を求め てみよう。まず、175.0cm の値を基準化した値を求める。 175.0 − 171.5 = 0.614... 5.7 これから、求める確率は標準正規分布で 0.61 を超す確率を求めることになる。いま数値表から 0.61 に対 応する数値を確認すると 0.2291 である。この値は、0 から 0.61 の間の確率になる。求めるべき確率は 0.61 を超える確率である。よって、0 を超す確率の 0.5 から 0.2291 を引いた 0.2709 が求める確率とな り、日本人の成人男子で身長が 175.0cm を超す割合は約 27%であるといえる。 参考資料: 分布学習用 (JAVA applets):https://csi.rikkyo.ac.jp/statistical_learning/SitePages/Home.aspx#02 ベイズの定理: Pr( Ai | X = x) = Pr( Ai ) Pr( X = x | Ai ) Pr( A1 ) Pr( X = x | A1 ) + Pr( A2 ) Pr( X = x | A2 ) + + Pr( Aa ) Pr( X = x | Aa ) いま、a 種類の状態があり、各状態での X の確率が分かっているとします。これを、Pr(X=x|A)であらわ します。このときに、X の情報を使って、どのような状態にあるのかを確率的に評価するものである。こ の量を、上の式では Pr(A|X=x)と表しています。また、a 種類の状態のいずれかである確率を Pr(A)であ らわしている。 (1)集団検診の結果 集団の中である特定の病気にかかっている割合が 0.01 だとし、その病気の人を正しく診断できる確率 は 0.98、病気でない人を病気であると間違えて診断してしまう確率を 0.05 だとする。このときに、その 検診を受け病気であると診断されたときに、本当に病気である確率を求めてみる。 先の数式を利用する上で便利なように次のようにまとめておく; A1 : ある病気にかかっている Pr(A1)=0.01 A2 : ある病気にかかっていない Pr(A2)=0.99 X : 診断結果 (X=0;健康と診断、X=1;病気と診断) 病気の人が病気であると診断 Pr(X=1|A1) = 0.98 病気でない人が病気であると診断 P(X=1|A2) = 0.05 ここで、ベイズの定理により病気であると診断されたときに本当に病気であるという確率 Pr(A1|X=1) を計算する。 Pr( A1) Pr( X = 1 | A1) Pr( A1) Pr( X = 1 | A1) + Pr( A2) Pr( X = 1 | A2) = 0.01 × 0.98/ ( 0.01 × 0.98 + 0.99 × 0.05) = 0.165 Pr( A1 | X = 1) = という結果になる。
© Copyright 2024 Paperzz