オーディオ信号の時間的相似性を利用した高能率符号化に関する研究

05-01031
オーディオ信号の時間的相似性を利用した高能率符号化に関する研究
木幡
稔
千葉工業大学情報科学部教授
1 はじめに
近年のデジタル通信技術の向上は目覚しく，動画像，音声等，様々なものがインターネットや携帯電話
などで送受信されるようになった．近年は回線速度の向上は目覚しいものである．また，配信された音楽を
持ち歩くことができる携帯型オーディオプレーヤーなどが普及している．その多くが，CD を直接持ち歩くわ
けではなく，CD-R やメモリーカード，また，携帯型オーディオプレーヤーに内蔵されているハードディスク
に，MP3 や AAC などオーディオ圧縮技術を用いて保存される．
音楽情報であるオーディオ信号は，音声情報よりも帯域幅が広くビットレートが高い，つまり情報量が
大きい．たとえばオーディオ CD では，実に 1.5Mbps もの情報量を要する．そこで伝送効率を高めるために，
聴覚特性である最小可聴限やマスキング効果，ベクトル量子化などが利用されている．国際的には
ISO(International Standard Organization)によって MPEG(Moving Picture Experts Group)－Audio とい
う規格が標準化されており広帯域オーディオ信号の情報圧縮符号化についてさらに研究が進められている．
MPEG フォーマットはオーディオ CODEC の圧縮・再生品質に複数の Layer を設けており，高度の圧縮率と品質
を有することから，多くのユーザーが利用している．
こうした高能率オーディオ符号化方式の実用化が進んだにもかかわらず，オーディオデータの総量は依
然として膨大なものであり，ネットワークや携帯端末を介しての音楽配信といったアプリケーションが普及
するための障害となっている．このように，今日のネットワーク環境や，無線通信環境の狭域幅を考えた場
合，音楽配信を実用化するためにはオーディオ信号のさらなる情報圧縮が不可欠であると考えられる．
本研究ではオーディオ信号の時間的冗長性，すなわち，オーディオ信号の波形あるいは符号化パラメー
タを観測したとき，時間的に異なる部分のパラメータの時間変化パタンが類似しているという性質を利用し
て，従来の符号化方式よりもさらに高能率な符号化方式の実現を目指す．
2 LZ 符号化を用いた時間冗長性圧縮方法の原
2-1 LZ 符号化[1-3]
Lempel-Ziv(以下では LZ)符号化の基本処理は入力データ系列を，その系列の過去の部分との照合によって，
過去の状態から復元可能な部分列に分解することにある．この分解規則は増分分解法と呼ばれ，これを用い
たデータ圧縮方法は一般に LZ78 法とよばれる[3]．増分分解法は入力データ系列を(1)式に従い分解を行う．
⎧⎪ x
x nn(( jj)+1) −1 = ⎨ n ( r )
⎪⎩φa j
n ( r +1) −1
(1)式において
aj
(1 ≤ r ≤ j − 1)
(1)
x nm , (n < m) は入力データ系列の中の部分列を表す．（m，n はそれぞれ分系列の開始と終
了位置を示すポインタである．）また， n(j)は分割を行った結果生成された j 番目の部分列の先頭位置を表
n ( j +1) −1
すポインタとする． (1)式は，第 j 番目の部分列 x n ( j )
は最後の 1 文字 a j を除くと，過去に分解された部
分列の 1 つ，または空系列φに一致することを意味する．(1)式により分解された左辺の部分列は辞書に登録
される．
この分解方法により，入力データ系列は，辞書内の部分系列を示すインデックスとそれに付随する 1 文字
a j に変換される．但し，空系列φも辞書に含めてインデックスを付与しておくものとする．この 2 つのデー
タから，復号器は辞書中の部分系列と 1 文字分のデータを逐次連結していくことにより，元のデータ系列を
復元することができる．この増分分解法は，離散情報源に対しては有効であるが，音声信号の符号化パラメ
ータのような連続値をとるデータに適用するためには，何らかの工夫が必要となる．また，LZ 符号化は損失
575
のない情報圧縮法であるが，これを連続的なデータに適用するには，必然的に損失を伴う LZ 符号化(Lossy LZ)
となる．
2-2 連続情報源への拡張[4]
LZ 符号化を連続情報源に適用する最も簡便な方法は，ある閾値 TH を設け，部分系列同士の距離が TH 以下
のとき一致とみなすように，増分分解の規則における一致条件を変更することである．
式(1)と同様の表現を用い， x ∈ R が連続データを表すとすると，
dist ( x nn(( jj)+1) − 2 , x nn((rr)+1) −1 ) < TH
(2)
が一致条件となり，これが(1)式の１行目の式の成立条件となる．一致条件が成立しない場合には，入力
データ系列から一定長(MINSEGLEN)の系列を切り出して辞書に登録する．
x nn(( jj)) + MINSEGLEN → D
(3)
n ( r +1) −1
一致条件が成立した場合，(1)式と同じ方法で分解された系列 x n ( r )
a j を単に辞書登録するのみでは初期
に辞書登録された部分系列に性能が支配されることから(4)式により辞書内にすでに登録されている部分系
列 sr を加重平均により更新することにより，当該コードにマッチしたセグメント群の重心にコード sr が漸近
するようにする．
sr =
c r ⋅ s r + x nn(( jj)+1) − 2
cr + 1
(1 ≤ r ≤ M )
(4)
ここで， M は符号長サイズ， cr は辞書内のコード sr が時刻 n( j ) − 1 までにマッチした回数を表す．
離散データに対する LZ 符号化においては増分分解された部分系列をフレーズとよぶが，本稿においては，
これをセグメントとよぶことにする．上述した方法によって，得られたセグメントを符号化するためには，
辞書内のセグメントのインデックスと，これに付随する 1 個の連続値データを量子化したものを 2 つ組とし
て用意する必要がある．この付随する 1 個の連続値データを量子化するために必要なビット数を b，連続値
データ系列に含まれる総データの個数を N，分解により得られたセグメントの個数を M とすれば，データ 1
個当たりの平均ビットレート R は(5)式により与えられる．
∑ (⎡log
R=
M
j =1
2
( j + 1)⎤ + b )
N
(5)
従って，
圧縮率は R/b により得られる．
このように距離を定義し一致条件として閾値を用いることにより，
LZ 符号化を簡単に連続情報源に適用することができるが，研究代表者らの先行研究[4]において提案された
LZSQ2 というセグメント量子化法に見られるように，レート－歪特性はあまり良好なものが得られない．こ
の理由は，連続情報源を対象としているため，再学習などの歪を収束させる手段を利用しないと良好なレー
ト－歪特性が得られないことと，付随する 1 個の連続データを量子化して伝送する必要があるため，必然的
にレートを上昇させてしまうことにある．
以下では，この欠点を補い実用的なレート－歪特性を達成するために，LZ 符号化の特長であるユニバーサ
ル性を放棄し，反復学習により情報源の統計的性質を利用する方法を提案する．
2-3 再学習過程の導入
前述のように，増分分解法を連続情報源に拡張しただけの LZSQ は十分なレート－歪特性を達成できない．
そこで，一般に VQ 符号帳の学習方法として利用されている LBG 法や一般化 Lloyd-Max 法[5]のように，学習
データを繰り返し用い，量子化とセントロイド計算を交互に行う学習方法を導入する．これらの方法を直接
セグメント量子化のコードブック学習に適用した場合，初期コードブックが最終的な性能に及ぼす影響が大
きいことと，可変長のセグメント量子化を行う場合にセグメンテーションの方法が性能に影響を及ぼすこと
が問題となる．そこで，前節で述べた，連続情報源用の増分分解法を用いて作成されたコードブックを反復
学習法のための初期コードブックとして用いる方法を提案する．これにより，ランダムコードブックを初期
576
コードブックとする方法などと比較して，より最適なセントロイドに近い状態から学習を開始できるので，
ローカルミニマムに陥る問題を回避できる．また，初期コードを決めることにより，初回の量子化の過程で
は歪最小の基準によりセグメンテーションを実行することができ，学習開始時に入力系列をセグメンテーシ
ョンする方法を別途必要としない．この学習方法を図 1 に示す．
図 1 コードブック学習方法
図 1 に示すように，連続情報源に拡張された増分分解法により，初期セグメントコードが作成され，続い
て一般化 Lloyd-Max 法により歪が収束するまで反復的に再学習が行われる．再学習方法として一般化
r
Lloyd-Max 法を利用する場合，距離尺度としてフレーム単位での重みつき２乗距離を必要とする． xij をイン
r
デックス r に対応するコードセグメント s ij に量子化された入力系列の i 番目のフレームの j 次の要素とし，
wijr をそれに対応する重み係数としたとき， sijr の更新は(6)式により行われる．
sˆ =
r
ij
wijr xijr
wijr
(1 ≤ i ≤ n, 1 ≤ j ≤ p )
(6)
但し， p は 1 フレームの次元数， n はセグメント長である．
以下ではこの提案方式により作成されたコードブックを利用するセグメント量子化を LZSQ とよぶことに
する．
3.音声符号化への適用
3-1 LSP 量子化用 LZSQ について
この章では，前述した LZSQ をオーディオ信号に適用する前に，その基本性能を評価するために，音声符号
化パラメータの１つである LSP 係数の量子化に適用した結果について述べる．
まず，設計する量子化器の具体的な目標として，スペクトル歪が約 1dB 程度であることを設定する．これ
は実用的なコーデックにおいて透過的な音質を維持するために目安とされている値である．その条件の下で
他のコーデックで使用されている LSP 量子化器と性能の比較評価を行う．1dB 程度のスペクトル歪を達成す
るための問題として「次元の呪い」が生じる．すなわち，セグメント量子化は基本的に高次元の VQ と等価で
あるため，次元数の増加に伴い学習ベクトルの不足によるレート－歪特性の劣化が生じる．この問題を回避
する手段としては VQ を多段化する方法(MS-VQ)[6]やベクトルを分割して低次元化する方法(Split-VQ)[7]な
どが採られる．10 次の LSP 係数を量子化する予備的な実験により両者を比較した結果，２段の MS-VQ に比べ
(3:3:4)に分割した Split-VQ を用いた方が同じレートで 0.5dB 低い歪が得られたことから，次元分割型の
LZSQ を採用することにした．この方法を Split-LZSQ とよぶことにする．以下では，実験の結果得られた
Split-LZSQ の特性を示すとともに，その性能を評価する．
まず，レート－歪特性を図 2，及び図 3 に示す．
図 2 MELP 用 Split-LZSQ のレート－歪特性
図 3 G.729 用 Split-LZSQ のレート－歪特性
図 2 は米国国防総省で標準化された音声符号化方式の１つである MELP[8]用の Split-LZSQ の特性を，図 3
は ITU で標準化され第３世代携帯電話などで実用されている音声符号化方式の G.729[9]用の Split-LZSQ の
特性をそれぞれ示す．図では，213 通りの量子化器の特性のうち，レート・歪の積が小さいものを 300 個だけ
選んでプロットしている．また，歪の尺度としてはスペクトル歪を用いた．図 2，図 3 には比較のため，MELP
符号化に使用されているスカラ量子化 (25bit/frame) と G.729 符号化に使用されている 4 次の
MA-PVQ(18bit/frame)の特性を示してある．図 3 に示すように，MELP のスカラ量子化器と比べて同じスペク
トル歪が得られる Split-LZSQ のレートは約 16 bit/frame であり，フレームあたり 9bit の情報量の削減が可
577
能であることが分かる．主観評価により，合成音声を聴取する実験を行った結果においても，提案方式によ
り情報圧縮を行った後の合成音声は，この処理を行わないで合成した音声と同等の音質を有することが確認
されている．
以上のことから，提案方式である Split-LZSQ には十分な情報圧縮効果があることが確認された．
4.
オーディオ信号への適用
4-1 MP3 符号化と MDCT 係数
MP3 は正式には MPEG-1 Audio layer Ⅲとよばれ，MPEG により開発され ISO により策定されたオーディオ
符号化のための標準化方式であるである．ここで MP3 においてはデコーダの仕様のみが定められている．こ
れはデコーダでデコード可能であればエンコーダは自由に設計できるということである．これによりさまざ
まなエンコーダがいろいろな企業により開発されている．ここでは ISO の仕様書に参考として載せられた一
般的なエンコーダの構成について説明する．
MP3 では最小可聴限界とマスキング効果という人間の聴覚特性を利用することで人間の聴取できない音に
割り当てる情報量を削減することで高い圧縮率を実現している．
最小可聴限界とは静寂時に聞くことができる音圧(dB)の範囲のことである．人間の耳が小さな音でもよ
く聞こえるのは 2～5kHz の周波数帯域で，これよりも高い周波数や低い周波数になればなるほど聞こえにく
くなる．そのため，最小可聴限界を下回る音は，人間が感知できないのでデータを削除しても違和感はない．
マスキング効果とは近接する周波数領域に大きな成分がある場合，その近傍の最小可聴限界が上昇して小さ
な音成分が聴取できなくなることである．これを周波数マスキングという．また時間的に近接して２つの音
が呈示された場合にも同様の効果が現れる．（継時マスキング）
MP3 ではこれらの聴覚特性を情報圧縮に利用しており，一般的なエンコーダの処理をブロック図として示
すと図 4 のようになる．
図 4 MP3 エンコーダ
MP3 エンコーダの処理の中で中核を占めるのが MDCT ( Modified Discrete Cosine Transform : 変形離
散コサイン変換 )である．フィルタバンクにより 32 帯域に分割されたオーディオ信号は変形離散コサイン変
換で時間領域から周波数領域へと変換が行われる．その後心理聴覚モデル分析で判定された情報量が割り当
てられ，量子化される．
本研究では，MP3 における MDCT 係数の圧縮に Split－LZSQ を適用することを試みる．これは，MDCT 係数が
MP3 符号化において大きな情報量を占めることと，オーディオ信号の時間冗長性が物理的に最もよく反映さ
れたパラメータであると考えたからである．すなわち，MDCT 係数に提案方式である Split－LZSQ を適用する
ことにより，最も高い情報圧縮効果が得られると考えられる．
4-2 Split-LZSQ を用いたオーディオ信号の符号化
MP3 エンコーダから抽出した MDCT 係数を用いて前述のコードブック学習方法によりコードブックを学習さ
せ，これを用いて MDCT 係数を符号化し，さらに符号化後の MDCT 係数を用いてオーディオ信号を復号する方
法の概略を図 5 に示す．MP3 エンコーダとしてはフリーソフトである LAME[10]を用いた．コードブックサイ
ズ(セグメント数)は 1024，2048，4096 の 3 通りに設定し，ユークリッド距離で測った MDCT 係数 1 個あたり
のマッチング用の閾値を 0.000001 に設定して LZSQ のコードブック学習を行った．使用する音源は RWC 音楽
データベースの cla1-1.wav（ジャンル：クラシック）から 20 秒を抽出したものである．コードブックサイ
ズに対する量子化後の歪の値を図 6 に示す．図には MP3（LAME)の量子化歪も示してある．この結果より，コ
ードブックサイズとしては 4096 以上あれば，MP3 符号化と同等かそれ以下の歪に抑えられる，すなわち，MP3
程度の音質を実現できることが分かる．音質に関して客観評価法により評価を行った結果，提案方式の PEAQ
値が-0.51，MP3 符号化後の PEAQ 値が-0.87 であった．PEAQ 値は ITU により標準化されたオーディオ信号の
劣化を客観的に測定するための方法によって算出された客観評価値であり，0～-4 の値で表され，0 に近いほ
ど音質劣化が少ない．
図 5 Split-LZSQ による MDCT 係数の符号化
図６
Split-LZSQ による MDCT 係数量子化結果
578
次に，圧縮率を評価した結果について述べる．MP3 符号化では MDCT 係数以外にもサイド情報のためにビッ
トが割り当てられるが，ここではそれらが占める情報量が MDCT 係数に比べて小さいことから，単に，PCM で
の原音の情報量（1 サンプル 16 ビット×総サンプル数）に対する，MDCT 係数の量子化に要したビット数を百
分率で表したものを圧縮率と定義して，
提案方式と MP3 符号化とを比較することとした．結果を図 7 に示す．
図７
Split-LZSQ の圧縮率
図に示すように，提案方式の圧縮率は，MP3 符号化と同程度まで低減させることはできず，おおよそ 3 倍
程度の値となることが分かった．原因と改善策としては以下のようなことが考えられる．
・576 次元＝1 グラニュールの MDCT 係数を，シリアル信号と見なし，1 次元の信号として一括してコード
ブック学習を行ったため，サブバンド帯域ごとの特性や MDCT 係数の次数による特性の違いを反映することが
できなかったこと．
・MP3 符号化では，単に MDCT 係数を線形に量子化するのではなく，聴覚心理特性，エントロピーを考慮し
た符号化（ハフマン符号化）を行うことにより，徹底したビットレートの削減を行っている．（この部分が
MP3 符号化におけるビットレート削減の要であるとも言える．）それに対して，提案方式では，こうした処理
は導入していない．
現在のところ，圧縮率は 3 倍程度ではあるが，以上の要素を改良することにより，MP3 符号化を下回る圧
縮率を達成することは，十分に可能性があると考えられる．
5.
まとめ
本研究では，音声やオーディオ信号に代表される時系列信号に含まれる時間的冗長性を利用した情報圧縮
法を提案し，これを実際に音声信号やオーディオ信号に適用してその性能を評価した．提案方式である LZSQ
は非常に単純なアルゴリズムでありながら，LZ 符号化を基本としていることから，時系列信号のエントロピ
ーに漸近するビットレートにまで情報圧縮できる性能を有すると考えられる．このことは，本報告で述べた
ように，音声信号に提案方式を適用した場合に，既存の符号化方式を上回るレート・歪特性が得られている
ことからも，実験的にではあるが実証されたと言える．オーディオ信号への適用に関しては，歪に関しては
MP3 符号化と同等の値を達成することができたが，レートに関しては MP3 符号化には及ばなかった．オーデ
ィオ信号の符号化においては音声信号のように単純な適用方法ではなく，MP3 符号化における MDCT 係数の物
理的性質を考慮した上で，グラニュール内のデータを分割して処理し，さらに聴覚心理特性やハフマン符号
化を効果的に利用することが必要であり，今後の課題である．
【参考文献】
[1] J.Ziv, "Coding Theorems for Individual Sequences," IEEE Trans. IT, vol.24, no.4, pp.405-412,
July 1978.
[2] J.Ziv and A.Lempel, "A Universal Algorithm for Sequential Data Compression," IEEE Trans.
IT, vol.23, no.3, pp.337-343, May 1977.
[3] J.Ziv and A.Lempel, "Compression of Individual Sequences via Variable-Rate Coding," IEEE
Trans. IT, vol.24, no.5, pp.530-536, Sept. 1978.
[4] 木幡稔，三ﾂ屋郁哉，鈴木基之，牧野正三，”自己相似性を用いたセグメント量子化による音声符号化”，
信学論,vol. J85-D-II, No.7, pp.1166-1175, 2002.7.
[5] Y. Linde, A. Buzo, and R. M. Gray, “An algorithm for vector quantizer design,” IEEE Trans.
Communications, vol. COM-28, pp.84-95, 1980.
[6] W. P. LeBlanc, B. Bhattacharya, S. A. Mahmoud, and V. Cuperman, "Efficient Search and
Design Procedures for Robust Multi-Stage VQ of LPC Parameters for 4kb/s Speech Coding,"
IEEE Trans. SAP, vol.1, no.4, pp.373-385, Oct. 1993.
[7] K. P. Paliwal and B. S. Atal, "Efficient Vector Quantization of LPC Parameters at 24
Bits/Frame," IEEE Trans. SAP, vol.1, no.1, pp.3-14, Oct. 1993.
[8] A. V. McCree and J. C. DeMartin, "A 1.7 kb/s MELP Coder with Improved Analysis and
Quantization," Proc. IEEE Int. Conf. on Acoustics , Speech and Signal Processing, pp.593-596,
May 1998.
579
[9] Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear
Prediction (CS-ACELP), ITU-T Recommendation G.729, 1996.
[10] http://lame.sourceforge.net/index.php
Training sequence
Incremental Parsing
Generalized Lloyd-Max
Initialize.
Quantization
CODEBOOK
Centroid
Calc.
図 1 コードブック学習方法
図 2 MELP 用 Split-LZSQ のレート－歪特性
図 3 G.729 用 Split-LZSQ のレート－歪特性
580
ハイブリットフィルタバンク
オ
ー
デ
ィ
オ
入
力
サ
ブ
バ
ン
ド
フ
ィ
ル
タ
バ
ン
ク
適
応
ブ
ロ
ッ
ク
長
切
替
Ｍ
Ｄ
Ｃ
Ｔ
折
返
し
歪
削
減
バ
タ
フ
ラ
イ
繰返しループ
非
線
形
量
子
化
スケール
ファクタ
心理聴覚モデル分析
算出
図 4 MP3 エンコーダ
図 5 Split-LZSQ による MDCT 係数の符号化
図 6 Split-LZSQ による MDCT 係数量子化結果
581
ビ
ッ
ト
ス
ト
リ
ー
ム
生
成
ハ
フ
マ
ン
エ
ン
コ
ー
ド
サイド
情報
生成
図７
Split-LZSQ の圧縮率
〈発
題
名
A
New
Segment
Quantization
UsingLempel-Ziv Algorithm and Its
Application
to
Quantization
of
LineSpectral Frequencies
表
資
料〉
掲載誌・学会名等
IEEE
Transactions
on
Communications, Vol.55, No.4,
pp.661-664,
582
発表年月
April 2007

Download Report