宝くじ結果

コンピュータ科学III
担当:武田敦志 <[email protected]‐gakuin.ac.jp>
http://takeda.cs.tohoku‐gakuin.ac.jp/comp3/
復習問題
下記の表に従って確率を求めよ
天気予報と実際の天気
天気予報
a : 晴の日
b : 曇の日
c : 雨の日
A : 晴の日
6日
3日
3日
B : 曇の日
0日
6日
0日
C : 雨の日
0日
3日
3日
実際の天気
(1) P( B ) = 0.25
(2) P( b ) = 0.5
(3) P(A|a) = 1.0
(4) P(A|c) = 0.5
page 2
今日の話
情報理論
情報量とエントロピー
エントロピー:事象の不確定さ
情報を得ることによりエントロピーは減少する
減少したエントロピー = 情報利得
単位は bit
冗長量
表現の情報量と本当の情報量の差分
データの圧縮技術:冗長量を少なくする技術
page 3
情報量とエントロピー(1)
不確定の度合い(エントロピー)
直感的には『予想不可能=不確定の度合いが大きい』
例えば、
6面サイコロを投げる
1~6のどの面が出るかは完全ランダム
宝くじを買う
ほとんど外れ。たまに当たる。
『宝くじ』の結果の方が予想しやすい
֜ 不確定の度合い:『6面サイコロ』>『宝くじ』
不確定の度合い = エントロピー という
page 4
情報量とエントロピー(2)
例:天気予報という情報
8月1日の仙台の天気は?
P(晴) = 1/2
P(曇) = 1/4 『晴』可能性が高いが
P(雨) = 1/4 『曇』『雨』かもしれない
情報 A:7月31日の天気予報
『8月1日は晴れ。降水確率0%』
8月1日の仙台の天気は?
P(晴|A) = 3/4
P(曇|A) = 3/16
P(雨|A) = 1/16
ほぼ確実に『晴』
『雨』の可能性は非常に少ない
page 5
情報量とエントロピー(3)
情報量
情報の量は数値で表現できる
֜ 単位は bit
ある事象が存在し、その発生確率が P ならば
この事象が発生することの情報量 I は
I = − log 2 P
となる
例:明日の天気予報の場合
P(晴) = 1/2
情報量 I(晴) = 1[bit]
P(曇) = 1/4
情報量 I(雨) = 2[bit]
P(雨) = 1/4
page 6
情報量とエントロピー(4)
平均情報量
情報量の高い情報は『めったに手に入らない』
֜ 通常は平均情報量で考える
n 個の事象が存在し、それぞれの発生確率が
P1, P2, P3, ... ,Pn
とすると、この平均情報量 I は
n
I = −∑ Pi log 2 Pi
1
となる
page 7
情報量とエントロピー(5)
エントロピー(不確定の度合い)
エントロピーも数値で表現できる
情報によってエントロピー減少する
n [bit] の情報で確定 = n [bit] のエントロピー
n 個の事象が存在し、それぞれの発生確率が
P1, P2, P3, ..., Pn
とすると、このエントロピー E は
n
E = −∑ Pi log 2 Pi
1
となる
page 8
情報量とエントロピー(6)
エントロピーの計算
例:明日の天気予報の場合
P(晴) = 1/2 ֜ I(晴) = 1.0
P(曇) = 1/4 ֜ I(曇) = 2.0
P(雨) = 1/4 ֜ I(雨) = 2.0
n
E = −∑ Pi log 2 Pi
1
= −0.5 log 2 0.5 − 0.25 log 2 0.25 − 0.25 log 2 0.25
= 1.5 [bit]
明日の天気を確定するためには 1.5 [bit] の情報が必要
page 9
演習問題(1)
次の事象のエントロピーを計算せよ
6面サイコロを1回振ったときに出る目の数
( log26 = 2.6 として計算すること)
6
1
1
E = −∑ log 2 = 2.6
6
1 6
8本の「くじ」から1本を引く時のエントロピー
ただし、入っている「くじ」は以下の8本とする
1本:A賞,1本:B賞,
2本:C賞,4本:はずれ
4 14
2 4
1 2
1 1
1
E = − log 2 − log − log 2 − log 2 =
= 1.75
8 8
8 8
8 8
8 8
8
page 10
情報利得 (1)
情報利得の計算
情報利得(取得した情報量)
= 情報取得前と取得後のエントロピーの差分
事象 S に関する情報 t が取得出来た場合の情報利得
事象:S = { s1, s2, s3, ... , sn }
情報取得前のエントロピー
n
E = −∑ P(s i ) log 2 P(s i )
i =1
情報取得後のエントロピー
n
E ' = −∑ P(s k | t ) log 2 P(s k | t )
k =1
情報利得
(取得した情報量)
G = E − E'
page 11
情報利得 (2)
情報利得の計算の例
8月1日の仙台の天気は?
P(晴) = 1/2
P(曇) = 1/4
P(雨) = 1/4
A:<天気予報>
8月1日の天気は『晴』
確率が変化する
P(晴|A) = 3/4
P(曇|A) = 3/16
P(雨|A) = 1/16
<天気予報>取得前
1 1
1
1
1 1
E = − log 2 − log 2 − log 2 = 1.5 [bit]
2
2 4
4 4
4
<天気予報>取得後
3
3 3
3 1
1
E = − log 2 − log 2 − log 2
≈ 1.0 [bit]
4
4 16
16 16
16
page 12
冗長量(1)
表現上の情報量と本当の情報量
表現上の情報量(データ量)
情報を記録・送信するために
必要な情報量
֜ ファイルの大きさなど
本当の情報量
情報を表現するために
必要な情報量
֜ 事象のエントロピー
表現上の情報量 ‫ ؤ‬本当の情報量
理論上は『本当の情報量』の長さで表現できる
表現上の情報量と本当の情報量の差分:冗長量
page 13
冗長量(2)
表現上の情報量と本当の情報量
事象:P(晴) = 1/2
P(曇) = 1/4
P(雨) = 1/4
情報:天気は晴です
表現上の情報量
6 [文字] × 24 [bit/文字] = 144 [bit]
本当の情報量
エントロピー = 1.5 [bit]
無駄な情報量
冗長量 = 144 - 1.5 = 142.5 [bit]
page 14
冗長量(3)
冗長量と圧縮技術
冗長量を少なくすると、表現のための情報量が減る
֜ データを記録・送信するための容量を少なくできる
83,680 [bit]
圧縮
冗長量の減少
27,056 [bit]
page 15
演習問題(2)
右図の8人の点数の集計結果について
次の問いに答えよ
(1) 情報量(エントロピー)を求めよ
⎛1
E = −⎜ log 2
⎝4
= 2.5 [bit]
1⎞
1⎞
⎛1
⎟ × 2 − ⎜ log 2 ⎟ × 4
4⎠
8⎠
⎝8
(2) これらの点数を 7[bit] のデータと
して表現した場合の、1個のデータ
に含まれる冗長量を求めよ
点数
データ表現
60
01111002
80
10100002
70
10001102
100
11001002
50
01100102
70
10001102
90
10110102
80
10100002
R = 7.0 − 2.5 = 4.5 [bit]
page 16
まとめ
今日のまとめ
情報量とエントロピー
エントロピー:事象の不確定さ
情報を得ることによりエントロピーは減少する
減少したエントロピー = 情報利得
単位は bit
冗長量
表現の情報量と本当の情報量の差分
データの圧縮技術:冗長量を少なくする技術
次回は、データの圧縮方法について
page 17