直交変換ベクトルの回転による符号化ゲインの最適化

直交変換ベクトルの回転による符号化ゲインの最適化
― 離散コサイン変換(DCT)との比較 ―
信州大学大学院 工学系研究科 情報工学専攻
05TA501H Abdullah Muhammad Tariq
このとき,符号化ゲイン Cg3 は次のように定義される.
1.はじめに
放送やインターネットには,音声や画像の信号を効
率よく圧縮する符号化方式が使われている.音声では
なおρは信号の自己相関係数で,通常 0.95 という値が
用いられる.
MP3,静止画像では JPEG,動画像では MPEG2 が有名であ
るが,すべて離散コサイン変換(DCT)[1]という直交変
換が使われている.この直交変換には,DCT のほかに,
離散サイン変換,スラント変換,アダマール変換,KL
変換,LOT(Lapped Orthogonal Transform)[2] などがあ
る.これらの直交変換は,互いに直交する単位ベクト
ルを原点を中心に回転させることにより,表現するこ
gi の式からわかるように,その値は,1 列(ai0 )と3
とができる.これを直交変換の「回転モデル」と呼ぶ
列(ai2 )を入れ替えても変わらない.すなわち,2列
ことにする.また,直交変換の圧縮率を評価する関数
(ai1 )を中心とした対称性がある.符号化ゲイン Cg3 も
[3]
には,符号化ゲイン やエントロピーがある.直交変
同じであり,この値が最大となるとき,ai0 = ai2 また
換に関する多くの論文で符号化ゲインが使われている
は ai0 = −ai2 が成立する.したがって,回転モデルの
ので,本研究でもそれを使用する.
初期値には,対角項が1の単位行列
I3 を用いるより,
この回転モデルを用いれば,適切な回転角を与える
図1のような対称性のある直交行列を用いた方が,回
ことにより,実係数をもつすべての直交変換を表わす
転パラメータの数が少なくなる.なお,この行列の 1
ことができる.そこで,回転モデルを使って直交変換
行と 2 行は偶対称,第 3 行は奇対称の成分である.
の符号化ゲインを最適化し,広く使われている DCT の
符号化ゲインと比較することにした.
2.研究の目的
本研究の目的は,以下の通りである.
(1) 3〜8次元の直交変換を回転モデルで表わし,シ
ミュレーションにより,符号化ゲインが最適とな
る直交変換を求める.
図1
3次元回転モデルの初期値
次に,図2に示すように,奇対称のベクトル(3
(2) 最適化の計算では,直交変換のすべての状態を,
行)を回転軸にして,偶対称のベクトル(1行,2
最小限のパラメータ(回転角)で表す必要がある.
行)を含む平面で回転操作を行う.このとき,回転
これらのパラメータと,その数を明らかにする.
のパラメータは1つであり,これをθとする.回転
(3) 回転モデルを用いて求めた符号化ゲインの最大値
角θを変化させて符号化ゲインの変化を計算すると,
と,DCT の符号化ゲインを比較し,その改善効果を
図3のようになる.これより,最適な回転角には 90°
明らかにする.
ずれた4つの値が存在することがわかる.
3.3次元の回転モデルとその最適化
はじめに最も単純な3次元の回転モデルを用いて,
符号化ゲインを最適化する方法について説明する.
3次元の直交変換を次の(3×3)の行列 R3 で表わす.
図2
3次元直交変換の回転モデル
図3
3次元直交変換における符号化ゲインの最適値
最適化した直交変換の直流成分を図4に示す.右の拡
図6
8次元回転モデルと DCT の交流成分の比較
大図からわかるように,中央の値がその両側に比べ少
し大きくなっている.符号化ゲインの最適値は 0.639
dB となり,DCT に比べ 0.013 dB 改善されている.
5.符号化ゲインの改善効果
表2に,3〜8次元の直交変換の最適値と DCT の符号
化ゲインを示す.次元が高くなるにつれ改善効果が大きく
なる傾向があるが,DCT との差は 0.02 dB 程度であり,
DCT は理想的な直交変換に近いことがわかった.
表2
3〜8 次元直交変換の符号化ゲイン最適値と
DCT との比較
図4
3次元回転モデルと DCT の直流成分の比較
4.4〜8次元直交変換の最適化
4〜8次元の直交変換について,符号化ゲインの
最適値を計算した.3〜8次元の偶対称と奇対称の
成分,回転パラメータの数を整理すると,表 1 のよ
うになる.
表 1 3〜8 次元のパラメータ数
6.まとめおよび今後の課題
一般的な直交変換を表現する回転モデルを用いて,
符号化ゲインの最適値を求め,離散コサイン変換(DCT)
と比較した.その結果,DCT が理想的な直交変換に近
い符号化ゲインをもつことがわかった.
一方,LOT(Lapped Orthogonal Transform)という直交変
換[2]が注目されている.これは,ブロック境界にまたがる直
交ベクトルを用いる変換であり,DCT より高い符号化ゲイン
高次元になると,パラメータの数が急激に増えるため,
が得られる.試しに DCT を基にして拡張した LOT の符号
計算量が膨大になる.このため,最初は回転角を粗く設定
化ゲインを求めたところ,DCT より約 0.4 dB 高い結果が出
して符号化ゲインの最大値を求め,徐々に回転角を細かく
た.今後の課題は LOT にこの回転モデルを導入して,符
設定して,最適値を計算した.
号化ゲインの上限を求めることである.
8次元で最適化した直交変換の直流成分(0次)を図
5に,交流成分(1〜7次)を図6に示す.直流成分の場合,
DCT に比べ,わずかではあるが中央が高くなっていること
がわかる.
参考文献
[1] N.Ahmed 他:
Discrete cosine transform,
IEEE Trans.
Comput., vol.C‑23, pp.90‑93, Jan. 1974.
[2] H.Malver 他: The LOT: transform coding without blocking
effects,
[3] 甲藤他:
IEEE Trans.ASSP,vol.37,pp.553‑559, 1989.
サブバンド符号化の特性評価とそのフィルタ係数
の最適化について,
信学技報, IE91‑10, May 1992.
[4] http://www.Stanford.edu/class/ee368b/Projects/dveiner/
node3.html
[5] http://laputa.cs.shinshu‑u.ac.jp/ yizawa/InfSys1/
advanced/dct/index.htm
図5
8次元回転モデルと DCT の直流成分の比較