PDF

1-P5-4
非負値行列分解と位相復元に基づくオーディオ符号化の多チャネル化∗
☆劉必翔 (筑波大),澤田宏 (日本電信電話 (株)),宮部滋樹,山田武志,牧野昭二 (筑波大)
1
はじめに
きることを確認した.
携帯型 MP3 プレイヤーまたは携帯電話による音楽
鑑賞や,ネットワーク通信による音楽および動画の配
信の普及により,オーディオ符号化の重要性はますま
す高まっている.オーディオ符号化技術は,信号の再
生品質を損ねない可逆圧縮であるロスレス符号化と,
非可逆圧縮であるがより低ビットレートの圧縮が可
能なロッシー符号化に大別される.通信・記憶容量が
限られたディジタルオーディオ再生においてより頻繁
に用いられるのは,ビットレートの面で有利な後者の
ロッシー符号化であり,目的に合わせてより多様な圧
縮技術や,さらなる圧縮の効率化が求められている.
MP3 などで実用化されている従来のロッシー符号化
の多くは,人間の聴覚で感知しにくい情報を削減す
ることにより低ビットレート化を実現しているが,長
年の研究の中で最適化が進み,すでにその改善は飽
和しているといえる.従って更なるオーディオ符号化
の発展のためには,全く新しい符号化の枠組が必要
であると考えられる.
近年,パワースペクトログラムの大域的な性質を分
析し,頻繁に繰り返されるスペクトルパターンを基底
分解の形で分析する非負値行列分解(NMF)[1] が注
目されており,ブラインド音源分離 (BSS) [2],多重
音解析 [3],音声認識のための特徴抽出 [4] など,様々
な音響信号処理への応用が研究されている.この枠
組は符号化においても有効であり,振幅スペクトル
に現れる繰り返しパターンの冗長性を NMF により
削減し [5],位相情報は低ビットレートに量子化して
Griffin-Lim 位相復元アルゴリズム [6] により量子化
誤差を低減する [7] 枠組が取り組まれている.また,
NMF で分解された基底は単一音源に起因する傾向が
あるという性質は BSS に利用されているが,文献 [5]
において指摘されているように,BSS を部分的に達
成する NMF の基底分解をオーディオ符号化に利用す
ることは,MPEG-SAOC [8] で実用化に向けて取り
組まれているような,ユーザがオブジェクトを操作可
能なオーディオ形態のための符号化のために非常に
有効である.
一方,オーディオ CD などの一般によく利用され
るオーディオ信号はステレオ形式であることが多い
ため,多チャネル信号を効率的に圧縮できる符号化
方式が望ましい.そこで本稿では,NMF と位相復元
に基づく符号化 [5, 7] を,効率的な多チャネル符号
化が実現できるものへと拡張する.まず,NMF によ
る基底分解に多チャネル NMF [2] を用いることによ
り,全てのチャネルを一つの基底分解で分析し,多
チャネルオーディオの振幅情報を,単一チャネルの場
合と同程度のビットレートに削減する.次に,多チャ
ネル NMF で符号化されるチャネル間位相差の情報
を利用して,チャネル間位相差を維持したまま単一
チャネルの位相を最適化して多チャネル位相復元を
行うための,Griffin-Lim アルゴリズムの多チャネル
拡張を提案する.実験により,多チャネルの NMF と
Griffin-Lim アルゴリズムに基づく提案手法は,従来
手法をチャネルごとに適用するよりも,高品質かつ低
ビットレートな多チャネルオーディオ符号化が実現で
2
問題設定
ここでは本稿の多チャネルオーディオ符号化の問題
設定を述べる.本稿の目的は以下の M チャネルオー
ディオ信号 xm (t) , m = 1, . . . , M の良い近似 ym (t)
を効率的に表現できるロッシー符号化を行うことで
ある.
ym (t) ≈ xm (t)
(1)
ここで t は時間サンプルを表す.本稿では,xm (t) の
短時間フーリエ変換 (STFT) 表現 xij,m を符号化に
より近似した信号 yij,m を,振幅と偏角を別々に符号
化した表現で求めることについて議論する.
yij,m = ȳij,m exp (ȷẙij,m )
(2)
ここで ȳij,m は yij,m の絶対値,ẙij,m は yij,m の偏角,
i = 1, . . . , I は周波数インデックス,
√j = 1, . . . , J は
フレームインデックスを表し,ȷ = −1 である.
複素スペクトログラム xij,m を表現するためには,
実部と虚部に分けて 2IJM の要素数の連続値実数が
必要になる.その近似表現 yij,m を振幅 ȳij,m と位相
ẙij,m に分けて表現すること自体は,信号表現の効率
化にはならず,それぞれ IJM だけの要素数の連続値
が必要になる.しかし振幅と位相は全く違う性質を
持つため,それぞれに効果的な符号化方法を使い分
けることにより,効率の高い信号符号化が達成できる
と考えられる.
3
NMF と位相復元を用いた符号化
従来手法である NMF を用いた振幅の符号化 [5] と
位相の符号化 [7] を概説し,これらを組み合わせてチャ
ネルごとに適用することについて議論する.Fig. 1
に,NMF による符号化の流れを示す.符号化器では,
時間領域のモノラル入力信号を時間周波数領域に変
換し,振幅スペクトログラムから NMF の推定モデル
に基づいて更新した基底パラメタとアクティベーショ
ンパラメタを量子化する.また,位相スペクトログ
ラムから各時間周波数スロットにおける位相を量子
化する.復号器では,量子化された符号から再構成
して得た基底とアクティベーションから振幅スペクト
ログラムを復元する.更に位相を符号から再構成し
て複素スペクトログラムを求め,Griffin-Lim アルゴ
リズムを用いて位相の量子化誤差を補償したのちに,
逆短時間フーリエ変換によってモノラル出力信号を
得る.多チャネル信号の符号化は,これをチャネルご
とに繰り返すことにより達成できる.
3.1 NMF を用いた振幅の符号化
Nikunen ら [5] が提案した NMF を用いた振幅スペ
クトログラムの符号化について述べる.NMF を用い
ることにより,チャネルごとに振幅スペクトル x̄ij,m
を以下のように非負係数の積和で表される ȳij,m によ
り近似する.
K
∑
x̄ij,m ≈ ȳij,m =
tik,m vkj,m
(3)
k=1
∗
Multi-channel extension of audio coding based on non-negative matrix factorization and phase restoration.
by Bixiang Liu(University of Tsukuba), Hiroshi SAWADA (NTT), Shigeki MIYABE,Takeshi YAMADA
and Shoji MAKINO (University of Tsukuba)
日本音響学会講演論文集
- 819 -
2014年3月
Monaural
input signal
(time domain)
STFT
Amplitude
spectrogram
Phase
spectrogram
Single - channel
NMF
とオーバーラップアッドによる逆短時間フーリ
エ変換 (ISTFT) に施して時間領域に戻し,更に
短時間フーリエ変換 (STFT) に施す.これによ
り得られる複素スペクトログラムは元の yij,m と
異なったものとなるが,その位相を新たな ẙij,m
とする.
ẙij,m ← arg [STFT [ISTFT [yij,m ]]] (5)
ここで arg [·] は引数の偏角を取り出す演算を表す.
3. 式 (4) により,Step. 2 で得られたスペクトログ
ラムの位相 ẙij,m を振幅スペクトル ȳij,m に与え,
複素スペクトログラム yij,m を求める.
4. Step. 2–3 を収束に十分な回数だけ繰り返す.
Parameter
quantization
Phase
quantization
Encoder
Monaural
output signal
(time domain)
Inverse
STFT
Phase
spectrogram Reconstruction of
quantized phase
Griffin - Lim algorithm
for
phase recovery
Amplitude
spectrogram
co hP
de as
e
co m
A
de p
lit
ud
e
Reconstruction
of quantized
NMF parameters
Decoder
Fig. 1 Block diagram of coding scheme based on
NMF.
ここで tik,m , vkj,m はそれぞれ基底,アクティベーショ
ンとよばれる非負係数で,基底 tik,m は K 個の代表
的なスペクトルパターンを表し,アクティベーショ
ン vkj,m によりフレーム毎に基底を別々に重みづけて
スペクトログラムを表現する.この近似表現は,ス
ペクトログラムが大域的に K 個のパターンのみの重
ね合わせでよく近似できるような,繰り返しの多い
信号に対して有効で,K ≪ I かつ K ≪ J という条
件でこれらの係数を求めることにより,要素数 IJM
の振幅スペクトル x̄ij,m を,はるかに小さい要素数
K (I + J) M のパラメタ tik,m , vkj,m で表すことがで
きる.このうち要素数が KIM である基底 tik,m は信
号全体の符号化を通して使用されるため,信号の時系
列を表現する際のヘッダ情報として符号化することに
なる.それに対してアクティベーション tik,m は,要
素数 KJM がフレーム数に依存し,信号の時系列を
表現するためにストリームとして扱うことになる.振
幅スペクトル x̄ij,m の要素数は IJM であり,K ≪ I
の条件で NMF を用いることにより,はるかに小さい
要素数 KJM のストリームに情報が縮約され,低ビッ
トレートで近似振幅スペクトログラム ȳij,m を符号化
することができる.
3.2 位相復元を用いた位相の量子化誤差低減
振幅スペクトル ȳij,m は,NMF を用いた大域的な
構造分析によって,大幅に要素数を削減したパラメタ
で表現できることについて述べた.しかし位相 ẙij,m
はフレームおよび周波数間の構造的な関係を仮定す
ることはできず,要素数を削減するのは困難である.
そのため信号長(フレーム数),周波数ビン数とチャ
ネル数の全てに比例する要素数 IJM の連続値である
位相を効率的に量子化するためには,非常に粗い精度
での量子化が必要になる.振幅スペクトルが得られた
条件では,STFT 分析と逆 STFT 分析の繰り返しを
用いた Griffin-Lim アルゴリズムにより,振幅との整
合性のとれた位相が推定できることが知られている.
しかし,このアルゴリズムでは自然な位相が得られる
ものの,符号化の目的である真の信号の近似とはな
らない.そこで,量子化して誤差を含んだ位相を初期
値として与え,Griffin-Lim アルゴリズムで修正する
ことにより,真値付近に収束する位相復元を行い,精
度の粗い量子化でも高い精度に復元する枠組みが提
案されている [7].アルゴリズムは以下のようになる.
1. 復元された振幅 ȳij,m に再構成した位相 ẙij,m を
与え,復号された近似複素スペクトログラム yij,m
を求める.
yij,m ← ȳij,m exp (ȷẙij,m )
(4)
2. 複素スペクトログラム yij,m を逆 FFT,合成窓
日本音響学会講演論文集
4
多チャネル NMF を用いた符号化
ここでは前節で述べた NMF と位相復元に基づく従
来の符号化手法を多チャネルに拡張し,全てのチャネ
ルの信号を単一チャネルのパラメタに縮約すること
による,効率的な多チャネルオーディオ符号化の枠組
を提案する.まずこの枠組で用いる多チャネル NMF
[2] について述べ,続いて効率的な多チャネル位相復
元を実現するための,Griffin-Lim アルゴリズムの多
チャネル拡張を提案する.
4.1 多チャネル NMF に基づく符号化のパラメタ
Ozerov and Fevotte [9] によって最初に提案された
多チャネル NMF は,マイクロホンアレーを用いた
BSS の振幅を NMF 基底により近似するものであり,
多くの BSS アルゴリズムで問題となるパーミュテー
ションが発生しない利点がある.Sawada et al.[2] は,
多チャネル NMF をチャネル間共分散行列の基底に
よる近似表現として再定式化した.特に多次元に拡
張した板倉-斉藤距離尺度を用いたものは,多変量複
素正規分布の最尤推定として自然な確率モデルで定
式化され,かつ高性能な BSS を達成できる.本稿で
は Sawada 法の共分散行列を近似する枠組を用いて,
NMF により振幅とチャネル間位相差の両方を符号化
するアルゴリズムを提案する.
Sawada 法では M チャネルの複素スペクトログラ
T
ム xij = [xij,1 , . . . , xij,M ] の直積 Xij = xij xH
ij を,
以下のように L 個の音源のパワーを表すための K 個
の基底の線形和で表した共分散行列 Yij として近似
する.
Xij ≈ Yij
( L
)
K
∑
∑
=
zlk Hil tik vkj
(6)
k=1
T
l=1
H
ここで {·} は転置,{·} は複素共役転置,0 ≤ zlk ≤
1 は第 k 番目の基底の第 l 番目の音源への所属を表す
係数,Hil は第 i 周波数における第 l 音源の空間相関
を表す非負定値行列,tik および vkj はそれぞれ NMF
の基底とアクティベーションに相当する非負係数であ
り,音源数 L は既知であるものとする.この定式化
は,各 l 番目の音源の周波数ビン i,フレーム j にお
ける共分散行列が,空間相関行列 Hil の基底とアク
ティベーションによる重み付けで表され,それらの和
が観測信号の共分散行列 Yij になるというモデル化
に相当する.
以上のように少ないパラメタに圧縮して表現され
る共分散行列 Yij から多チャネル複素スペクトログ
T
ラム xij の近似 yij = [yij,1 , . . . , yij,M ] を復元する
ためには,直積によって失われる 1 チャネルのみの
位相が必要となる.二乗誤差を基準とすると,最適
H
な復元信号 yij は,yij yij
が Yij の最も良い近似と
- 820 -
2014年3月
Table 1
Parameter
tik
vkj
zlk
Quantization of NMF parameters
Bit
16bit
16bit
16bit
Hil
(Re)
16bit
(Im)
Hil
16bit
Elements
IK
KJ
KL
M (M + 1)
IL×
2
M (M − 1)
IL×
2
Data
15390
45870
90
4617
1539
I: number of frequency bin.J: number of time frame.
K: number of basis.L: number of signal.M : number of
channel.
なる,Yij の第一主成分ベクトルである.しかし主成
分ベクトルには位相の任意性が残るため,主成分ベ
T
クトル ỹij = [ỹij,1 , . . . , ỹij,M ] を arg [ỹij,1 ] = 0 とな
るように求めた上で,第 1 チャネルの位相の近似値
ẙij,1 ≈ arg [xij,1 ] を用いることにより,
yij = ỹij exp (ȷẙij,1 )
(7)
のように信号復元を行うことができる.
以上より,多チャネル NMF を用いて多チャネル複
素スペクトログラム xij の近似 yij を表現するための
パラメタは,複素 NMF のパラメタと単一チャネルの
位相 ẙij,1 である.それらのうち,要素数がフレーム
数 J に比例するストリーム情報はアクティベーション
vkj と第 1 チャネルの位相 ẙij,1 のみである.単一チャ
ネル NMF に基づく符号化をチャネルごとに行う場合
は,ストリーム情報であるアクティベーション vkj,m
と位相 ẙij,m がチャネル m = 1, . . . , M ごとに必要に
なるのに対し,多チャネル NMF では全てのチャネル
を表現するためのストリーム情報が,単一チャネルの
場合と同等のパラメタ vkj , ẙij,1 に縮約される.した
がって,チャネルごとの NMF 符号化に比べてヘッダ
情報は要素数が少し大きくなるものの,ストリーム
情報の要素数が 1/M に減少し,全チャネルを符号化
するためのビットレートを大幅に削減することがで
きる.
4.2 パラメタの量子化
符号化の観点からは,聴感上の音質の劣化を抑え
ながらできるだけ少ないビット和の割り当てで量子
化することが求められる.したがって,パラメタ tik ,
vkj ,zlk ,Hil の量子化する方法を適切に定める必要
がある.
NMF パラメタの量子化では,観測 xij から推定さ
れたパラメタ tik ,vkj の最大値よりも 2 のべき乗が
大きな値を取るような最小のビット数を選択してパラ
メタを量子化する.他のパラメタ zlk ,Hil は,集合
{tik ,vkj } の最大値を基準として定めた同一のビット
数を用いて量子化する.そして,tik ,vkj ,zlk はそ
のまま量子化を行い,エルミート行列である Hil は,
(Re)
下三角要素の実部 Hil と,対角要素を除いた下三
(Im)
角要素の虚部 Hil に分解し,行列要素一つ一つに
ついてこのビット数での量子化を行う.
位相 ẙij,1 については,第 1 チャネルの位相 arg [xij,1 ]
が一様分布に従う情報源であるとみなすことができ
るため,任意のビット数を設定して,[−π, π] の範囲
の等間隔量子化を適用する.
各符号の伝送では,時間フレーム j によって変化し
ない基底パラメタ tik ,クラスタインデックス zlk ,音
源の空間相関行列 Hil はヘッダ部として伝送し,ア
クティベーションパラメタ vkj と位相 ẙij,1 はフレー
ム毎に量子化してストリーム部として伝送する.
日本音響学会講演論文集
Table 1 に多チャネル NMF のパラメタと位相の量
子化ビット割り当てと,ビット数の例を示す.I = 513,
J = 1529,K = 30,L = 3,M = 2,サンプリング
周波数 16 kHz でオーバーラップが 1/4 フレームとな
る分析でフレーム数が 62.5 という条件を例にとると,
ヘッダ情報を除いたストリームであるアクティベー
ション vkj と位相 ẙij,1 の符号化のビットレートは,約
286.5 kbps となる.
4.3 復号アルゴリズム
4.3.1 振幅・チャネル間位相差の再構成
復号器では,まず NMF パラメタの符号から,振幅
とチャネル間位相差を保持した複素スペクトログラ
ム ỹij を復元する.量子化された NMF パラメタの符
号 tik , vkj , zlk , Hil を再構成し,式 (4) を用いて各時
間周波数スロットの空間共分散行列の近似 Yij を復
元する.さらにその第一主成分ベクトル ỹij を,その
第一要素の位相が 0 となる形で求める.
多チャネル Griffin-Lim アルゴリズムによ
る信号復元
第 1 チャネルの位相 ẙij,1 は全ての時間周波数 i, j
に対して値を保持する必要があるため,低ビットレー
ト化のために量子化精度を低く設定する必要がる.そ
のため 4.3.1 で復元された位相は量子化誤差の影響を
強く受けてしまう.ここでは Sato et al. によって提
案された Griffin-Lim アルゴリズムによる位相の量子
化誤差低減 [7] を,チャネル間の位相差を固定した形
で多チャネルに拡張したものを提案する.アルゴリズ
ムは以下のようになる.
4.3.2
1. 復元された第一主成分ベクトル ỹij に,再構成し
たした第 1 チャネルの位相 ẙij,1 を与え,復号さ
れた近似複素スペクトログラム yij を求める.
yij ← ỹij exp (ȷẙij,1 )
(8)
2. 多チャネル複素スペクトログラム yij を ISTFT
に施して時間領域に戻し,再度 STFT 分析によ
り複素スペクトログラムに変換して yij を更新
する.更新により得られる yij は振幅と位相の
両方が元のものから変化するが,新たな yij へ
の ỹij の射影の位相を新たな第 1 チャネルの位
相 ẙij,1 とする.
yij ← STFT [ISTFT [yij ]]
(9)
[ H ]
ẙij,1 ← arg ỹij yij
(10)
3. 多チャネル振幅スペクトログラム yij に Step. 2
で得られた位相 ẙij,1 を式 (8) により与える.
4. Step. 2–3 を収束に十分な回数だけ繰り返す.
4.4 提案手法のアルゴリズムのまとめ
Fig 2 に,多チャネル NMF による符号化の流れを
示す.符号化器では,時間領域の多チャネル入力信号
を短時間フーリエ変換し,複素スペクトログラムを
多チャネル NMF 表現により要素数削減したのち,多
チャネル NMF モデルで規定したパラメタにより量子
化する.第 1 チャネルの位相はそのまま量子化する.
復号器では,NMF パラメタを再構成し,式 (6) の多
チャネル NMF モデルに従って共分散行列 Yij を復
元し,第一主成分ベクトル ỹij を求める.位相符号を
再構成し,多チャネル Griffin-Lim アルゴリズムによ
る位相復元を行って,逆短時間フーリエ変換により多
チャネル出力信号を得る.
- 821 -
2014年3月
Multichannel
input signal
(time domain)
Complex
spectrogram
STFT
Phase
spectrogram
Outer product
Variance covariance
matrix
PEAQ
Multi-channel
NMF
-3.5
-3.6
Parameter
quantization
Phase
quantization
GD
O
Encoder
Multichannel
output signal
(time domain)
-3.7
Phase
spectrogram
Inverse
STFT
Multichannel
Griffin-Lim algorithm for
phase recovery
Reconstruction
of
quantized phase
Principal
component
analysis
co
de
Ph
as
e
co
de
Variance covariance
matrix
A
m
pl
itu
de
Conventional
Reconstruction
of quantized
NMF parameters
-4
Fig. 2 Block diagram of coding scheme based on
Multichannel NMF.
245∘ 70∘ Room size: 4.45 ൈ 3.55 ൈ 2.5 m
Height of microphones and loudspeakers: 120 cm
5
)
it
b
(2
s
p
kb
2
.7
9
)
it
b
(3
s
p
kb
2
.6
2
1
)
it
b
(3
s
p
kb
3
.0
3
1
)
it
b
(4
s
p
kb
3
.8
5
1
)
it
b
(4
s
p
kb
4
.0
6
1
Fig. 4
6
Fig. 3
)
it
b
(2
s
p
kb
1
.4
9
)
it
b
(2
s
p
kb
2
.8
8
1
)
it
b
(5
s
p
kb
3
.8
8
1
)
it
b
(5
s
p
kb
3
.0
9
1
)
it
b
(6
s
p
kb
4
.2
2
2
)
it
b
(3
s
p
kb
2
.3
2
2
)
it
b
(6
s
p
kb
3
.5
2
2
)
it
b
(4
s
p
kb
3
.3
5
2
)
it
b
(7
s
p
kb
4
.4
5
2
)
it
b
(7
s
p
kb
5
.8
5
2
)
it
b
(8
s
p
kb
5
.6
8
2
)
it
b
(5
s
p
kb
4
.7
8
2
)
it
b
(8
s
p
kb
1
.0
9
2
)
it
b
(6
s
p
kb
5
.7
1
3
)
it
b
(7
s
p
kb
4
.0
5
3
)
it
b
(8
s
p
kb
5
.0
5
3
PEAQ ODG scores.
ビット数を用いた場合,多チャネル NMF を用いた提
案手法は,ビットレートがチャネルごとに符号化する
従来手法よりも低いにもかかわらず,高い ODG スコ
アとなっていることが確認できる.これにより,NMF
と位相復元を多チャネル化した提案手法が,NMF と
位相復元をチャネルごとに用いる提案手法よりも効
率的な多チャネル符号化を達成できることが確認さ
れた.
150∘ 120 cm
Microphones
4 cm apart
Conventional
-3.9
Decoder
Reverberation time
RT 200 ms
Proposed
-3.8
Environment of signal observation.
実験
本章では,チャネルごとに符号化する従来手法と,
全てのチャネルを同時に符号化する提案手法を実験
により比較評価する.
5.1 実験条件
提案手法を評価するために,ステレオのオーディオ
データを対象とする評価実験を行った.単一チャネル,
または多チャネルの NMF に基づき,対象のステレオ
信号を 7 種のビットレートで符号化して,PEAQ [10]
により客観音質評価した.NMF のパラメタの更新は
100 回とし,更新後のパラメタは 16 ビットで量子化し
た.NMF の距離尺度は,単一チャネルと多チャネル
のものの両方において板倉-斉藤距離を用いた.位相
は,ビット数 2, · · · , 8 で等間隔量子化し,Griffin-Lim
アルゴリズムの繰り返し回数は 200 回とした.符号
化の対象とするステレオ信号は,SiSEC 研究用音楽
データベース [11] から選んだ男性ボーカル,ドラム,
バイオリンの 3 つの音源を Fig. 3 に示す部屋で畳込
み混合し,16kHz にリサンプリングしたものを用い
た.短時間フーリエ変換の窓関数および,Griffin-Lim
手法における合成窓関数,分析窓関数はハニング窓
を用い,フレーム長は 1024,フレームシフト 256 サ
ンプルとした.なお,評価尺度である客観音質劣化度
Objective Difference Grade (ODG) スコアは,−4 か
ら 0 の範囲の値を取り,0 に近いほど音質の劣化が少
ない.
おわりに
本稿では,NMF と位相復元を用いたオーディオ符
号化の,NMF と位相復元の両方を多チャネル信号を
扱えるものに拡張し,より効率的に多チャネルオー
ディオ信号を符号化する手法を提案した.実験によ
り,提案手法は従来の NMF と位相復元に基づく符号
化をチャネルごとに余起用するよりも,低ビットレー
トかつ高品質に多チャネルオーディオ信号を符号化で
きることを確認した.
今後の課題は NMF に基づくオーディオ符号化の品
質を底上げすることである.現状のこの枠組は,MP3
などで実用化されている修正コサイン変換に基づく
符号化よりも品質が悪く,提案した多チャネル化も
また同様の問題点を抱えている.NMF を用いたオー
ディオ符号化の研究はまだ歴史が浅く,今後研究が進
んで改善されていくものと期待される.
参考文献
[1] Lee and Seung,Nature,401, 788-791,1999.
[2] Sawada et al.,IEEE Trans. ASLP, 21(5), 971982,2013.
[3] Nakano et al.,Proc.MLSP, 283-288, 2010.
[4] Schuller et al.,Proc. ICASSP, 4562-4565, 2010.
[5] Nikunen et al.,Proc. AES Conv., 8083, 2010.
[6] Griffin and Lim,IEEE Trans. ASSP,32(2),
236-243,1984.
[7] Sato et al., Proc. DAFx, 4 pages, 2012.
[8] Breebaart et al.,Proc. AES Conv., 124,2008.
[9] Ozerov and Fevotte, IEEE Trans. ASLP,18(3),
550-563,2010.
[10] ITU-R Recommendation BS.1387-1.
[11] Araki et al.,Proc. LVA/ICA, 414-422,2012.
5.2 実験結果
Fig. 4 にそれぞれのビットレートで符号化を行っ
て得られた ODG スコアを示す.位相量子化に同一の
日本音響学会講演論文集
- 822 -
2014年3月