¾ðÊóÍýÏÀ

情報理論
第6回
情報理論
1 / 31
1
情報源の符号化
符号の例
クラフトの不等式
平均符号語長の限界
情報源符号化定理
2
練習問題
情報理論
2 / 31
情報源符号
情報源符号
情報源アルファベット A の値をとる確率変数 X に対する情報源符号 C
を,A から 2 元アルファベット B の有限長系列の集合 B ∗ への写像と定
義する.
x の符号語 C(x):記号 x ∈ A に対応する系列のこと.
符号語長 ℓ(x):符号語 C(x) の長さ.
復号:符号語から元の記号を復元する操作.
この情報源符号のことを今後は「符号」と呼ぶ.
例:サイコロの出た目を表す確率変数を X とし,出た目を 3 ビットの 2
進数で以下の符号 C で表現すると,各符号語の長さは 3.
C(1) = 001, C(2) = 010, C(3) = 011
C(4) = 100, C(5) = 101, C(6) = 110
情報理論
3 / 31
平均符号語長
平均符号語長
A 上の確率分布 P によって定まる確率変数 X に対する符号 C の平均符
号語長 L(C) は以下で定義される.
∑
L(C) =
P (x)ℓ(x)
x∈A
ただし,ℓ(x) は記号 x の符号語長である.
例:A = {a, b, c} の値をとる確率変数 X が記号 x をとる確率 P (x) と対応
する符号語 C(x) が次の表であるとき,平均符号語長 L(C) = 1.7 である.
記号 x
生起確率 P (x)
符号語 C(x)
a
b
c
0.5
0.3
0.2
1
01
001
情報理論
4 / 31
平均符号語長
問
A = {a, b, c, d} の値をとる確率変数 X が記号 x をとる確率 P (x) と対応
する符号語 C(x) が次の表であるとき,平均符号語長を求めよ.
記号 x
生起確率 P (x)
符号語 C(x)
a
b
c
d
1/2
1/4
1/8
1/8
1
11
001
000
情報理論
5 / 31
非特異符号
非特異符号
異なる記号に異なる符号語が対応している符号を非特異符号という.
複数の記号が 1 つの符号に対応してしまうと復号できない.
符号の拡張
符号 C により記号列 x1 , x2 , · · · , xn に対する符号化を,以下で定義する.
C(x1 x2 · · · xn ) = C(x1 )C(x2 ) · · · C(xn )
例:アルファベット A = {a, b} に対する符号を C(a) = 1,C(b) = 01 と
定めたとき,
C(ab) = C(a)C(b) = 101, C(bab) = C(b)C(a)C(b) = 01101
となる.
情報理論
6 / 31
一意復号可能符号
一意復号可能符号
アルファベット A のすべての記号列 A∗ に対し,
(拡張により)異なる符
号語が割り当てられているとき,一意復号可能符号という.
例:アルファベット A = {a, b} に対する符号を C(a) = 1,C(b) = 01 と
定めたとき,A∗ の記号列はすべて異なる符号列に対応するので,この C
は一復号可能符号である.
情報理論
7 / 31
語頭符号(瞬時符号)
語頭符号(瞬時符号)
どの符号語も他の符号語の接頭部分と一致しない符号のことを語頭符号
または瞬時符号という.
注:接頭部分とは先頭文字から任意の文字までの部分文字列のこと.
例 1:アルファベット A = {a, b} に対する符号を C(a) = 1,C(b) = 01
と定めたとき,この符号 C は語頭符号(瞬時符号)である.
例 2:アルファベット A = {a, b, c, d} に対する符号を C(a) = 1,
C(b) = 001,C(c) = 010,C(d) = 011 と定めたとき,この符号 C は語頭
符号(瞬時符号)である.
瞬時符号は,ある記号の符号語が送られてくると,その時点で復号化で
きるため「自己区切り符号」ともよばれる.
情報理論
8 / 31
瞬時符号,一意復号可能符号,非特異符号
符号の包含関係:瞬時符号 ⊆ 一意復号可能符号 ⊆ 非特異符号
問
以下の符号 C1 から C4 は瞬時符号,一意復号可能符号,非特異符号のい
ずれに当てはまるか答えよ.最も適切なものを 1 つ答えること.
記号 x
a
b
c
d
符号 C1
0
0
1
01
符号 C2
0
1
00
10
情報理論
符号 C3
1
10
100
1000
符号 C4
1
001
010
011
9 / 31
符号の木
下図のように各記号に対する符号語は木で簡単に特徴付けられる.
各葉に各記号を割り当てる.
各記号の符号語は根からその葉に向かう順に枝のラベルをつなげた
もの.
C(a) = 1, C(b) = 001, C(c) = 010, C(d) = 011
0
1
0
a
1
根
内部節点
0
1
b c
d
1
葉
情報理論
10 / 31
クラフトの不等式
クラフトの不等式
瞬時符号が m 個の符号語をもち,それらの符号語長を ℓ1 , ℓ2 , · · · , ℓm とす
るとき,以下の不等式が成り立つ.
m
∑
2−ℓi ≤ 1
i=1
また,逆にこの不等式を満たす符号語長の順序対 (ℓ1 , ℓ2 , · · · , ℓm ) が与え
られると,これらの符号語長をもつ瞬時符号を作ることができる.
情報理論
11 / 31
クラフトの不等式
問
以下の 2 つの瞬時符号について,クラフトの等式を満たすことを確認
せよ.
記号 x
a
b
c
d
符号 C1
1
001
010
011
情報理論
符号 C2
0
10
110
111
12 / 31
クラフトの不等式の証明
【証明】まず,一般性を失うことなく,符号語が以下の不等式をみたす
としてよい.
ℓ1 ≤ ℓ2 ≤ · · · ≤ ℓm
与えられた瞬時符号に対応する符号木を T とする.木の高さは根を 0 と
すると,T の高さは ℓm となる.また,高さ ℓm に全て葉が存在する符号
木を T ′ とする.
(つまり,ℓ1 = ℓ2 = · · · = ℓm )
T0
T
情報理論
13 / 31
クラフトの不等式の証明
ここで,T ′ の高さ ℓm の葉の総数は 2ℓm より,以下が成り立つ.
′
L(T ) =
m
∑
2−ℓi = 2ℓm · 2−ℓm = 1
i=1
今,T は T ′ から以下の 2 つの操作を行うことで作成することができる.
(1) T ′ のある内部接点を葉に T の葉とし,それ以降を刈り取る.
(2) 高さ ℓm にある T ′ の葉を刈り取る.
T0
T
情報理論
14 / 31
クラフトの不等式の証明
L(T ) =
m
∑
2−ℓi の値を評価するために,各場合について L(T ′ ) からの増
i=1
減を考える.
(1) 高さ i に葉が作られるとすると,T ′ から刈り取られる高さ ℓm の葉の
個数が 2ℓm −ℓi となる.代わりに高さ i に葉が 1 枚増える.つまり,
増減は 1 · 2−ℓi − 2ℓm −ℓi · 2−ℓm = 0.
(2) 高さ ℓm にある T ′ の葉を刈り取るので,増減は刈り取られた葉の数
を s とすると,−s2−ℓm .
よって,以下よりクラフトの不等式が成り立つ.
L(T ) =
m
∑
2−ℓi ≤ L(T ′ ) = 1
i=1
逆の証明については,各符号長に対応した高さの節点を葉として,1 つの
符号を(上手く)割り当てれば構成できるので詳細は省略する.
情報理論
15 / 31
情報源符号化逆定理
情報源符号化逆定理
情報源アルファベット A の値を確率分布 P に従ってとる確率変数を X
とする.このとき,任意の瞬時符号 C の平均符号語長 L(C) とエントロ
ピー H(X) は以下の関係をみたす.
L(C) ≥ H(X)
等号成立は,すべての記号の生起確率が 2 のべき乗で表せるときのみ.
平均符号長はエントロピーよりも小さくできない!
情報理論
16 / 31
対数和不等式
対数和不等式
非負の数 p1 , p2 , · · · , pn と q1 , q2 , · · · , qn について,以下の不等式が成り
立つ.
)
n (
∑
pi
pi log
≥
qi
i=1
(
n
∑
n
∑
)
pi
log
i=1
pi
i=1
n
∑
qi
i=1
等号成立は,
p2
pn
p1
=
= ··· =
q1
q2
qn
のとき.なお,0 log
0
0
= 0,0 log p0 = 0,p log p0 = ∞ (p ≥ 0) とする.
情報理論
17 / 31
情報源符号化逆定理の証明
【証明】平均符号長とエントロピーの差を計算すると,
∑
∑
L(C) − H(X) =
P (x)ℓ(x) +
P (x) log P (x)
x∈A
=
∑
x∈A
P (x)(log 2
ℓ(x)
+ log P (x))
x∈A
=
∑
P (x) log
x∈A
P (x)
2−ℓ(x)
となる.
情報理論
18 / 31
情報源符号化逆定理の証明
【証明の続き】ここで,対数調和不等式をもちいると,
L(C) − H(X) =
∑
P (x) log
x∈A
(
≥
∑
)
P (x)
2−ℓ(x)
∑
P (x)
x∈A
P (x) log ∑
x∈A
2−ℓ(x)
x∈A
= log ∑
1
2−ℓ(x)
x∈A
情報理論
19 / 31
情報源符号化逆定理の証明
【証明の続き】ここで,瞬時符号がクラフトの式を満たすことから,
∑
2−ℓ(x) ≤ 1
x∈A
クラフトの不等式を用いると,
L(C) − H(X) ≥ log ∑
1
2−ℓ(x)
x∈A
≥ log
1
=0
1
これより,
L(C) ≥ H(X)
となり,情報源符号化逆定理が証明される.
情報理論
20 / 31
情報源符号化逆定理の証明
【証明の続き】また等号成立は,対数調和不等式の等号成立の条件より,
P (x)
= 定数
2−ℓ(x)
を満たし,かつクラフトの式の等号成立条件を満たすことなので,情報
源符号化逆定理の等号成立条件は,すべての x ∈ A について,
2−ℓ(x) = P (x)
を満たすときのみであることがわかる.
情報理論
21 / 31
平均符号語長
問
A = {a, b, c, d} の値をとる確率変数 X が記号 x をとる確率 P (x) と対応
する符号語 C(x) が次の表であるとき,この符号語が情報源符号化逆定理
を満たしていることを確かめよ.
記号 x
生起確率 P (x)
符号語 C(x)
a
b
c
d
1/2
1/4
1/8
1/8
1
11
001
000
情報理論
22 / 31
シャノン・ファノ符号
シャノン・ファノ符号
シャノン・ファノ符号とは,アルファベット A 内の任意の x に対して,符
号語長が x の生起確率 P (x) を用いて,以下で表される瞬時符号をいう.
ℓ(x) = ⌈− log P (x)⌉
⌈x⌉ で x の小数点以下を切り上げた値を表す.
シャノン・ファノ符号はクラフトの不等式を満たすので,瞬時符号とし
て構成可能である.
【証明】シャノン・ファノ符号 C は,任意の x ∈ A に対し,
⌈− log P (x)⌉ ≥ − log P (x) を満たすので,
∑
∑
∑
2log P (x)
2−⌈− log P (x)⌉ ≤
2−ℓ(x) =
x∈A
x∈A
x∈A
=
∑
P (x) = 1
x∈A
情報理論
23 / 31
シャノン・ファノ符号
問
A = {a, b, c, d, e} の値をとる確率変数 X が記号 x をとる確率 P (x) が次
の表で与えられるとき,これから構成されるシャノン・ファノ符号の平
均符号語長を求め,実際にシャノン・ファノ符号を構成せよ.
記号 x
生起確率 P (x)
a
b
c
d
e
1/3
1/5
1/5
2/15
2/15
log 3 = 1.585,log 5 = 2.322 である.
情報理論
24 / 31
情報源符号化定理
情報源符号化定理
情報源アルファベット A の値を確率分布 P に従ってとる確率変数を X
とする.このとき,平均符号語長を最小にする最良の瞬時符号 C ∗ の平均
符号語長 L(C) は以下を満たす.
H(X) ≤ L(C ∗ ) < H(X) + 1
等号成立は,すべての記号の生起確率が 2 のべき乗で表せるときのみ.
最良の瞬時符号の平均符号長はほぼエントロピーと同じである!
理想符号語長:− log P (x)
情報理論
25 / 31
情報源符号化定理
【証明】任意のアルファベット A における,シャノン・ファノ符号 C の
平均符号語長 L(C) は,
L(C) =
∑
P (x)ℓ(x)
x∈A
=
∑
P (x)⌈− log P (x)⌉
x∈A
となり,⌈− log P (x)⌉ < − log P (x) + 1 より,
L(C) <
∑
P (x)(− log P (x) + 1)
x∈A
= −
∑
P (x) log P (x) +
x∈A
∑
P (x)
x∈A
= H(X) + 1
となる.
情報理論
26 / 31
情報源符号化定理
【証明】ここで,任意のアルファベット A において,平均符号語長を最
小にする瞬時符号 C ∗ を考える.瞬時符号 C ∗ の平均符号語長 L(C ∗ ) は明
らかにシャノン・ファノ符号 C の平均符号語長 L(C) 以下となるので,
L(C ∗ ) ≤ L(C) < H(X) + 1
となる.また,情報源符号化逆定理より
H(X) ≤ L(C ∗ )
を満たすので,情報源符号化定理が証明される.
情報理論
27 / 31
練習問題
練習問題 1
アルファベット A = {a, b, c, d} に対する符号 C が下の表で与えられると
き,次のうち正しいものはどれか.
(a) C は非特異符号である.
(b) C は一意復号可能符号である.
(c) C は瞬時符号(語頭符号)である.
記号 x
符号語 C(x)
a
b
c
d
0
01
011
0111
情報理論
28 / 31
練習問題
練習問題 2
アルファベット A = {a, b, c, d, e} に対する符号 C1 ,C2 ,C3 ,C4 が下の
表で与えられるとき,次の問に答えよ.
(a) 一意復号可能符号はどれか.
(b) 語頭符号はどれか.
記号 x
a
b
c
d
e
C1 (x)
00
01
11
0
01
C2 (x)
00
01
100
101
111
情報理論
C3 (x)
0
10
110
1110
11110
C4 (x)
1
10
100
1000
10000
29 / 31
練習問題
練習問題 3
アルファベット A = {a, b, c, d} に対する符号 C が下の表で与えられると
き,次の問に答えよ.
(a) C は一意復号可能符号であるか.
(b) C はクラフトの不等式を満たすか.
(c) C の各符号語と同一の符号語長をもつ瞬時符号を作成せよ.
記号 x
符号語 C(x)
a
b
c
d
11
10
01
101
情報理論
30 / 31
練習問題
練習問題 4
アルファベット A = {a, b, c, d} 上の値を次の確率分布 P にしたがってと
る確率変数を X とする.
1
3
1
1
P (a) = , P (b) = , P (c) = , P (d) =
3
8
6
8
以下の問いに答えよ.
(a) 確率変数 X に対する,シャノン・ファノ符号を構成せよ.
(b) (a) で構成したシャノン・ファノ符号の平均符号長を求めよ.
情報理論
31 / 31