分布について 1 度数分布、規格化、頻度分布、ヒストグラム 2 分布関数

分布について (J. Chiba) 2014.04.28
1
◆分布について◆
ここでは、分布についての基本的なことを学びます。本テキストでは、n 個のデータの集合を
{xi } (i = 1, · · · , n) と表すことにします((i = 1, · · · , n) を省略することもあります)。xi は測定
値、試験の成績、その他なんでも数値であればかまいません。
1 度数分布、規格化、頻度分布、ヒストグラム
100 個のデータ {xi } (i = 1, . . . , 100) があるとします。100 個の数値を羅列するだけでは、そ
のデータの持つ意味が良くイメージできません。m 個の小区間に分けて、それぞれの小区間に入
るデータの個数を示すと少しは理解が容易になります。k 番目の小区間に入ったデータの個数を
nk (k = 1, · · · , m) と書くことにします。これを度数分布と呼びます。
m
∑
nk = n
(1)
k=1
が成り立つのは明らかですね。
度数分布のそれぞれを全個数で割ったもの fk (=
m
∑
nk
n )(k
= 1, . . . , m) を頻度分布と呼びます。
fk = 1
(2)
k=1
が成り立つのも明らかですね。このように全体を 1 になるように処理することを一般的に規格化
(normalization)、あるいは規格化する、と言います。
度数分布や頻度分布を求める際の小区間のことをビン (bin) と呼んでいます。bin の適切な日本
語がないので、通常「ビン」とそのまま言います。(小区間あるいは区間と言うこともあります。た
だ、これらはあまりに一般的に使用される言葉なので、必ずしも適切とは言えません。)
度数分布や頻度分布を棒グラフで表したものをヒストグラム (histogram) と呼びます。
2 分布関数、確率分布
上記の例で、データと小区間(ビン)の個数が無限大の極限を考えると f (x) と関数にすること
ができます。f (x) の全領域での積分が 1 になるように規格化します。(すなわち、上記の例の頻度
分布の拡張です。
)このような f (x) のことを分布関数と言います。現実の世界では無限大のデータ
はあり得ないのですが、関数の方が数学的な取扱いが容易な場合が多いのでこのように表している
と考えてください。規格化されているので、確率分布と呼ばれることもあります。
分布について (J. Chiba) 2014.04.28
2
3 平均、標準偏差、中央値、最頻値、分布のモーメント
ヒストグラムや分布関数を見れば、どんな分布かをイメージすることができます。しかし、より
端的に代表的な数値で分布を表すことができます。例を挙げます。
最も代表的なものが、平均 (average or mean) です。x の平均を x̄ と表記し、平均するという操
作を ⟨x⟩ と表記することにします。素データ (xi 、俗にナマデータなどと言うこともあります)を
使って平均を求めるには、
n
∑
xi
i=1
n
∑
x̄ =
(3)
1
i=1
分布関数を使えば、
∫
x̄ =
xf (x)dx
(4)
となります。ヒストグラムから求める場合には、それぞれの小区間(ビン)の中央値を xk とす
ると、
m
∑
x̄ =
nk x k
k=1
m
∑
=
m
∑
fk xk
(5)
k=1
nk
k=1
となるのはすぐに分かると思います。ただし、ヒストグラムから求める場合には注意が必要です。
各ビン内で一様にデータが分布している時には素データから求めた平均値と同じになりますが、万
一偏った分布をしていると値が異なります。平均値に限らずビンの区切り方で様子が変わることを
ビン効果 (binning effect) と言います。ヒストグラムを用いてデータ解析を行う場合にはいつでも
注意を払う必要があります。
平均の計算の式が上記のように場合によって異なるので、平均操作を ⟨x⟩ と書いて代表させてい
ると考えてください。また、以下のテキストでは平均値 x̄ を µ と書くこともあります。
平均の次に重要なものは標準偏差 (standard deviation) です。標準偏差は通常 σ で表記します。
また、標準偏差の二乗 σ 2 を分散 (variance) と言います。標準偏差は次のように定義されます。
∫
σ = ⟨(x − x̄) ⟩ =
2
2
(x − x̄)2 f (x)dx
(6)
一般にはあまり使われませんが分布の n 次のモーメントも定義されています。
∫
n 次のモーメント = ⟨(x − x̄)n ⟩ =
(x − x̄)n f (x)dx
平均は 1 次のモーメントで、分散が 2 次のモーメントになります。
(7)
分布について (J. Chiba) 2014.04.28
3
分布を代表するほかの変数として、中央値 (median) と最頻値 (mode) があります。物理ではほ
とんど使われることはないのですが、教養として覚えておきましょう。中央値は、データを大小の
順に並べた時に丁度真ん中にある数値であり、最頻値は、ヒストグラムで最も高いビンの数値です。
4 二項分布
二項展開は知っていますね。以下の式で表現されます。
n
(a + b) =
n
∑
k n−k
n Ck a b
(8)
k=0
二項展開の式を利用しているのが二項分布 (binominal probability distribution) と呼ばれる分布
です。一回の試行 (trial) である現象が起こる確率を p とすると、n 回の試行でちょうど i 回だけ
その現象が発生する確率は次の式で与えられます。
P (i; n, p) = n Ci pi (1 − p)n−i
∑n
i=0
(9)
P (i; n, p) = 1、すなわち規格化されているのは、二項展開の式から明らかです。二項分布か
らガウス分布やポアソン分布を導くことができます。
二項分布の具体的な例をひとつだけ示します。さいころを 10 回振ったとします。各々の目が出
る確率は p =
1
6
ですから、3 回だけ 6 が出る確率を求めると P =
1 3 5 7
10 C3 ( 6 ) ( 6 )
になります。他
の例も考えてみなさい。
5 ガウス分布
ガウス分布 (Gaussian distribution) は正規分布 (Normal distribution) とも呼ばれ、最も「自然
な」分布です。ガウス分布の説明の前に、関連する 2 つの法則について書いておきます。大数の法
則 (law of large numbers) は、経験的確率、すなわち、試行を無限に繰り返した時に観測される確
率は理論的確率に限りなく近づくという法則です。大数の法則が平均値についての法則であるのに
対し、中心極限定理 (central limit theorem) は、分散を記述するもので、測定を限りなく繰り返せ
ば、その分布は限りなくガウス分布に近づく、というものです。
平均が µ、標準偏差が σ のガウス分布は次の分布関数で表わされます。
f (x) = √
(x − µ)2
1
exp(−
)
2σ 2
2πσ
(10)
最初に以下の 3 式が成り立つことを確認してください。
∫
∞
f (x)dx = 1 (規格化)
∫
xf (x)dx = µ (平均)
∫
∞
−∞
(11)
−∞
∞
(12)
−∞
(x − µ)2 f (x)dx = σ 2 (分散、標準偏差)
(13)
分布について (J. Chiba) 2014.04.28
4
「ガウス積分とガンマ関数」で学習したことを復習すれば簡単に計算できるはずです。ガウス分
布は、ガウス関数 (exp(−x2 )) を上記の 3 式が成り立つように変形したものである、と言うことが
できます。
さて、二項分布を使って、ガウス分布を導出できることを以下に示します。「真の値」X から微
小量 e だけ変化させる何らかの要因があり、(−e) だけ変化する確率と (+e) だけ変化する確率は
どちらも
1
2
とします。そのような要因が n 個あって、そのうちの r 個が (+e)、残りの (n − r) 個
が (−e) だけ変化すると全体の変化量 ϵ は ϵ = re − (n − r)e = (2r − n)e となります。ここで、
m = 2r − n とおくと、r = (n + m)/2 なので x = X + ϵ の測定値が得られる確率 Q は二項分布
より
Q(m; n) =
1
n!
2n [(n + m)/2]! [(n − m)/2]!
(14)
と求まります。ここで m が取りえる範囲は −n ∼ n です。
さて、n が無限に大きい時の Q(m; n) の値を計算するとどうなるでしょうか。スターリングの公
式(の両辺を対数にした)ln n! ≈
1
2
ln 2πn + n(ln n − 1) を使えば、比較的簡単に求めることがで
きます。授業でアウトラインを示しますが、一度は自分で計算してみましょう。スターリングの公
m
n
式に加えて、m が n に比べて非常に小さく
が微小量であるという仮定と、ln(1 + x) ≈ x (x が
微小量の時) の近似を使う必要があります。
計算の結果、以下の近似式が求まります。
(
Q(m; n) ≈
図1
2
πn
) 12
(
)
m2
exp −
2n
(15)
ガウス分布。(昨年度に皆さんがコンピュータ1の授業で学んだ gnuplot と latex を組み
合わせるとこのような図も比較的簡単に作ることができます。) 標準偏差 σ で区切ったそれぞ
れの区間にどれだけの確率で存在するかが示されています。
最後に確率分布 P (x; X, n) を求めます。P (x; X, n)dx を範囲 x ∼ x + ∆x に測定点がある確率
とすると、Q(m; n) を用いて
P (x; X, n)dx =
∑
Q(m; n)
(16)
分布について (J. Chiba) 2014.04.28
5
と表すことができます。右辺の和は測定点が x ∼ x + dx の間にある全てを足し合わせることを意
味します。測定点の間隔は 2e なので、和の個数は
(
P (x; X, n)dx ≈
2
πn
dx
2e
) 21
となります。従って
(
)
m2 dx
exp −
2n 2e
(17)
となり、測定値 x = X + ϵ = X + me の分布は、σ を σ 2 = ne2 と定義すると、以下のようにガウ
ス分布となります。
[
]
(x − X)2
1
exp −
P (x; X, n) ≈ √
2σ 2
2πσ
(18)
図に平均が 0.0 で標準偏差が 1.0、2.0 の 2 つのガウス分布を示しています。平均からのずれが
±1σ 以下の範囲に含まれる確率は 68.26% (約 3 分の 2)、±2σ 以下だと 95.44%、さらに ±3σ だ
と 99.74% となります。
0.45
0.4
0.4
0.35
0.35
σ = 1.0
0.3
0.3
0.25
0.25
0.2
0.2
μ=3
0.15
0.15
σ = 2.0
0.1
0.1
μ=5
0.05
0.05
0
0
-4 -3 -2 -1 0
図2
μ = 1.2
1
2
3
0
1
2
3
4
5
6
7
8
9 10 11 12
4
ガウス分布の例。平均 µ = 0 で、標準
図3
ポアソン分布の例。平均 µ が µ = 1.2、
偏差 σ が σ = 1 と σ = 2 の 2 つを示してい
µ = 3.0、µ = 5.0 の 3 つの場合について示し
ます。
ています。
6 ポアソン分布
ポアソン分布 (Poisson distribution) も、自然界によく現れる分布です。例えば、ランダムに発
生する事象 (event) の発生回数の分布はポアソン分布になります。人間社会の事象では、人間の恣
意が関与するために必ずしもポアソン分布になるとは限りません。自然界にはそのような恣意は働
きませんから、ポアソン分布になるわけです。
ランダムな現象として、粒子の寿命について考えます。ここで言う粒子とは、宇宙線中のミュー
粒子や放射性同位元素などを指します。これらの粒子はある「寿命」で崩壊します。例えば、ミュー
粒子は 2.2 マイクロ秒の寿命を持ちます。人間などの高等生物では老化現象があり「寿命を全うす
分布について (J. Chiba) 2014.04.28
6
る」などの言葉があるように、ランダムな現象ではありません。粒子の崩壊は完全にランダムな現
象です。そのような場合には、次の微分方程式が成り立ちます。
d
N (t) = −aN (t)
dt
(19)
N (t) は時刻 t における粒子の個数で、a は崩壊する割合を示します。この微分方程式は簡単に解く
ことができ、解は以下のようになります。
N (t) = N (0) exp(−at)
(20)
このような場合に、単位時間あたりの崩壊数の分布はポアソン分布になります。
ポアソン分布を書き表すと次の式になります。
P (n; µ) =
e−µ µn
n!
(21)
右にポアソン分布の例を示してあります。ほぼ平均にピークを持つ分布であり、左右非対称であ
ることがすぐに分かるでしょう。ガウス分布のように連続分布ではなく、0 以上の整数だけが変数
の分布です。このような分布を離散分布と呼びます。教科書などで時々「ポアソン分布は稀に発生
する事象の数の分布」である、という記述が見られますが、それは間違いであって、ランダムに発
生する事象であれば、頻繁であってもその回数分布はポアソン分布になります。
ガウス分布の場合と同様に、最初に以下の 3 式が成り立つか確認してみましょう。
∞
∑
P (i; µ) = 1 (規格化)
i=0
∞
∑
iP (i; µ) = µ (平均)
(22)
(23)
i=0
∞
∑
(i − µ)2 P (i; µ) = µ (分散)
(24)
i=0
無限和の計算練習になりと思いますので、上記の式を確認してみましょう。ここで注意を払って
欲しいのは、分散 (σ 2 ) が平均に等しい (σ 2 = µ)、ということです。
ポアソン分布もガウス分布と同様に二項分布から導くことができます。以下のその概略を示しま
す。例として、前述の粒子の崩壊を考えます。微小時間 ∆t 内に粒子が 1 個だけ崩壊する確率を p
とします。微小時間なので 2 個以上が崩壊する確率は 0 と考えて問題ありません。時間 t = n∆t
内で r 回崩壊する確率 P (r; n, p) は、
P (r; n, p) =
n!
pr (1 − p)n−r
r!(n − r)!
(25)
となります。µ = np と定義して、µ が有限のまま n を無限に大きくした極限を計算するとポアソ
ン分布になります。
P (r; µ) =
e−µ µr
r!
(26)
分布について (J. Chiba) 2014.04.28
7
0.1
棒グラフ・・ポアソン分布
実線・・・・・ガウス分布
0.09
0.08
μ = 20
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
図4
0
5
10
15
20
25
30
35
平均 µ = 20 のポアソン分布と平均 µ = 20、標準偏差 σ =
√
20 のガウス分布。良く一
致していることが分かりますね。
この式を導出する際には、スターリングの公式と ln(1 + x) ≈ x の近似を用いる必要があります。
授業でもやりますが、一度は自分で計算してみましょう。
実験などで事象 (event) を計測 (counting) して、N カウントになった時、誤差(現在は「不確か
√
さ」と言うことになっています)は ± N ですよ、と聞いたことがあると思います。これからの実
験でも良く使われるはずです。その説明として、「そのような計測では、カウント数はピークが N
で標準偏差が
√
N のガウス分布になります」と教科書にも書かれていることがありますが、それは
必ずしも正しくありません。正しくは、
「そのような計測では、カウント数は平均が N のポアソン
分布になります」と言わなければいけません。その理由は分かりますね。右図に、平均 µ が 20 の
ポアソン分布と、平均 µ が 20 で標準偏差が
√
20 のガウス分布を重ね書きしてあります。見て分
かるように非常に良く一致します。平均 µ が大きくなればなるほど違いはさらに小さくなります。