コンピュータ科学III 担当:武田敦志 <[email protected]‐gakuin.ac.jp> http://takeda.cs.tohoku‐gakuin.ac.jp/comp3/ 復習問題 下記の表に従って確率を求めよ 天気予報と実際の天気 天気予報 a : 晴の日 b : 曇の日 c : 雨の日 A : 晴の日 6日 3日 3日 B : 曇の日 0日 6日 0日 C : 雨の日 0日 3日 3日 実際の天気 (1) P( B ) = 0.25 (2) P( b ) = 0.5 (3) P(A|a) = 1.0 (4) P(A|c) = 0.5 page 2 今日の話 情報理論 情報量とエントロピー エントロピー:事象の不確定さ 情報を得ることによりエントロピーは減少する 減少したエントロピー = 情報利得 単位は bit 冗長量 表現の情報量と本当の情報量の差分 データの圧縮技術:冗長量を少なくする技術 page 3 情報量とエントロピー(1) 不確定の度合い(エントロピー) 直感的には『予想不可能=不確定の度合いが大きい』 例えば、 6面サイコロを投げる 1~6のどの面が出るかは完全ランダム 宝くじを買う ほとんど外れ。たまに当たる。 『宝くじ』の結果の方が予想しやすい ֜ 不確定の度合い:『6面サイコロ』>『宝くじ』 不確定の度合い = エントロピー という page 4 情報量とエントロピー(2) 例:天気予報という情報 8月1日の仙台の天気は? P(晴) = 1/2 P(曇) = 1/4 『晴』可能性が高いが P(雨) = 1/4 『曇』『雨』かもしれない 情報 A:7月31日の天気予報 『8月1日は晴れ。降水確率0%』 8月1日の仙台の天気は? P(晴|A) = 3/4 P(曇|A) = 3/16 P(雨|A) = 1/16 ほぼ確実に『晴』 『雨』の可能性は非常に少ない page 5 情報量とエントロピー(3) 情報量 情報の量は数値で表現できる ֜ 単位は bit ある事象が存在し、その発生確率が P ならば この事象が発生することの情報量 I は I = − log 2 P となる 例:明日の天気予報の場合 P(晴) = 1/2 情報量 I(晴) = 1[bit] P(曇) = 1/4 情報量 I(雨) = 2[bit] P(雨) = 1/4 page 6 情報量とエントロピー(4) 平均情報量 情報量の高い情報は『めったに手に入らない』 ֜ 通常は平均情報量で考える n 個の事象が存在し、それぞれの発生確率が P1, P2, P3, ... ,Pn とすると、この平均情報量 I は n I = −∑ Pi log 2 Pi 1 となる page 7 情報量とエントロピー(5) エントロピー(不確定の度合い) エントロピーも数値で表現できる 情報によってエントロピー減少する n [bit] の情報で確定 = n [bit] のエントロピー n 個の事象が存在し、それぞれの発生確率が P1, P2, P3, ..., Pn とすると、このエントロピー E は n E = −∑ Pi log 2 Pi 1 となる page 8 情報量とエントロピー(6) エントロピーの計算 例:明日の天気予報の場合 P(晴) = 1/2 ֜ I(晴) = 1.0 P(曇) = 1/4 ֜ I(曇) = 2.0 P(雨) = 1/4 ֜ I(雨) = 2.0 n E = −∑ Pi log 2 Pi 1 = −0.5 log 2 0.5 − 0.25 log 2 0.25 − 0.25 log 2 0.25 = 1.5 [bit] 明日の天気を確定するためには 1.5 [bit] の情報が必要 page 9 演習問題(1) 次の事象のエントロピーを計算せよ 6面サイコロを1回振ったときに出る目の数 ( log26 = 2.6 として計算すること) 6 1 1 E = −∑ log 2 = 2.6 6 1 6 8本の「くじ」から1本を引く時のエントロピー ただし、入っている「くじ」は以下の8本とする 1本:A賞,1本:B賞, 2本:C賞,4本:はずれ 4 14 2 4 1 2 1 1 1 E = − log 2 − log − log 2 − log 2 = = 1.75 8 8 8 8 8 8 8 8 8 page 10 情報利得 (1) 情報利得の計算 情報利得(取得した情報量) = 情報取得前と取得後のエントロピーの差分 事象 S に関する情報 t が取得出来た場合の情報利得 事象:S = { s1, s2, s3, ... , sn } 情報取得前のエントロピー n E = −∑ P(s i ) log 2 P(s i ) i =1 情報取得後のエントロピー n E ' = −∑ P(s k | t ) log 2 P(s k | t ) k =1 情報利得 (取得した情報量) G = E − E' page 11 情報利得 (2) 情報利得の計算の例 8月1日の仙台の天気は? P(晴) = 1/2 P(曇) = 1/4 P(雨) = 1/4 A:<天気予報> 8月1日の天気は『晴』 確率が変化する P(晴|A) = 3/4 P(曇|A) = 3/16 P(雨|A) = 1/16 <天気予報>取得前 1 1 1 1 1 1 E = − log 2 − log 2 − log 2 = 1.5 [bit] 2 2 4 4 4 4 <天気予報>取得後 3 3 3 3 1 1 E = − log 2 − log 2 − log 2 ≈ 1.0 [bit] 4 4 16 16 16 16 page 12 冗長量(1) 表現上の情報量と本当の情報量 表現上の情報量(データ量) 情報を記録・送信するために 必要な情報量 ֜ ファイルの大きさなど 本当の情報量 情報を表現するために 必要な情報量 ֜ 事象のエントロピー 表現上の情報量 ؤ本当の情報量 理論上は『本当の情報量』の長さで表現できる 表現上の情報量と本当の情報量の差分:冗長量 page 13 冗長量(2) 表現上の情報量と本当の情報量 事象:P(晴) = 1/2 P(曇) = 1/4 P(雨) = 1/4 情報:天気は晴です 表現上の情報量 6 [文字] × 24 [bit/文字] = 144 [bit] 本当の情報量 エントロピー = 1.5 [bit] 無駄な情報量 冗長量 = 144 - 1.5 = 142.5 [bit] page 14 冗長量(3) 冗長量と圧縮技術 冗長量を少なくすると、表現のための情報量が減る ֜ データを記録・送信するための容量を少なくできる 83,680 [bit] 圧縮 冗長量の減少 27,056 [bit] page 15 演習問題(2) 右図の8人の点数の集計結果について 次の問いに答えよ (1) 情報量(エントロピー)を求めよ ⎛1 E = −⎜ log 2 ⎝4 = 2.5 [bit] 1⎞ 1⎞ ⎛1 ⎟ × 2 − ⎜ log 2 ⎟ × 4 4⎠ 8⎠ ⎝8 (2) これらの点数を 7[bit] のデータと して表現した場合の、1個のデータ に含まれる冗長量を求めよ 点数 データ表現 60 01111002 80 10100002 70 10001102 100 11001002 50 01100102 70 10001102 90 10110102 80 10100002 R = 7.0 − 2.5 = 4.5 [bit] page 16 まとめ 今日のまとめ 情報量とエントロピー エントロピー:事象の不確定さ 情報を得ることによりエントロピーは減少する 減少したエントロピー = 情報利得 単位は bit 冗長量 表現の情報量と本当の情報量の差分 データの圧縮技術:冗長量を少なくする技術 次回は、データの圧縮方法について page 17
© Copyright 2024 Paperzz