Acoustic Echo Canceller White Paper

Acoustic Echo Canceller White Paper
Acoustic Echo Canceller
White Paper
June 2011
1. Introduction
カからエコーとして再生されることになる。これは音
音響エコー
響エコーと呼ばれ、会話の邪魔になるだけでなく、ハ
通信技術の発達に伴い、遠く離れた会議室同士を通信
ウリングの原因にもなりうる。遠隔会議を快適に行う
回線で接続した遠隔会議が日常的に行われている。
ためには、音響エコーを確実に抑圧する必要がある。
音響エコーキャンセラ
音響エコーを抑圧するには、例えば、Room Aの話者が
話しているときには Room Bのマイクロホンの信号レ
ベルを下げるというような対策をとればよく、これは
Fig.1
Teleconference
エコーサプレッサと呼ばれる。しかし、エコーサプレ
遠隔会議では、Fig.1のように通信回線を通して双方向
ッサはRoom AとRoom Bで同時に話したとき (ダブル
に音声がやり取りされる。Room Aの話者の音声は、通
トーク) に音声が途切れてしまう。そのため、発言内
信回線を通してRoom Bに送信され、スピーカから再生
容がうまく伝わらず、スムーズな会話を妨げる。この
されることでRoom BではRoom Aの話者の音声を聞く
問題を解決するために、1966 年に M. M. Sondhi [1][2]
ことができる。しかし、Room B内のマイクロホンにも
によりADF (Adaptive Digital Filter) を用いた音響エコ
Room Aの話者の音声が回りこみ、Room Aに送信され
ーキャンセラが考案された。しかし、ADFを用いた音
てしまう。そのため、Room Aでは話者の音声がスピー
響エコーキャンセラの実装には、高度な信号処理技術
1
Acoustic Echo Canceller White Paper
と高い演算能力を持つ信号処理デバイスが必要であ
3. Implementation
る 。 近 年 、 信 号 処 理 技 術 と DSP (Digital Signal
実際の遠隔会議では、マイクロホン信号には音響エコ
Processor) の発展により、高性能なエコーキャンセラ
ーだけでなく、暗騒音や近端話者音声などの外部雑音
d [n] が含まれている。外部雑音はフィルタの学習を妨
が実現できるようになった。
害し、フィルタの推定精度を低下させる。また、伝達
[k ] の時間変化や非線形性も推定精度を低下させ、
2. Adaptive Digital Filter
系g
ADFは、入出力信号をリアルタイムに分析して未知の
結果として残留エコーを増加させる。ADFの働きを補
伝達系を推定する学習型のディジタルフィルタであ
助するために、ADFの後段にエコーサプレッサを接続
る[3]。
し、残留エコーを抑圧している。(Fig.3)
x[n]
h[k ]
e[n]
Fig.2
−
g [k ]
~
y [n]
+
y[n]
d [n]
Acoustic Echo Canceller using ADF
Fig.3
Acoustic Echo Canceller
ADFを使った音響エコーキャンセラは Fig.2のように
Fig.3の音響エコーキャンセラを、オーディオ信号処理
構成される。ADFはフィルタ h
に特化したヤマハ製DSP YSS950 DAP1(32bit浮動小数
[k ] によりスピーカから
マイクロホンへの伝達系 g [k ] を模擬するために用い
られる。遠端からの入力信号 x[n] をフィルタ h[k ] に入
y [n]を得、これをマイクロホン
力して擬似エコー信号 ~
信号から差し引くことで音響エコー y[n ] を消去する。
音響エコー消去後の信号 e[n] は、遠端に送信されるだ
点)に実装した(Fig.4)。このDSPでは、サンプリング
レート 48kHzの高音質で高精度な音響エコーキャンセ
ラ処理が実行可能である。
けでなく、ADFの学習にも用いられる。ADFは誤差
e[n] を最適化するようにフィルタを学習するが、その
学習アルゴリズムは適応アルゴリズムと呼ばれ、多く
のアルゴリズムが存在する。アルゴリズムによって推
定精度、収束速度および演算処理量などが異なる。適
Fig.4
応アルゴリズムの中でも、NLMS (Normalized Least
Yamaha YSS950 DAP1
Mean Square) アルゴリズムがよく知られており、次式
4. Specification
に基づいてフィルタを更新する[3]。
hn+1 [k ] = hn [k ] −
μ
⋅ x[n − k ] ⋅ e[n]
σ x2
4.1.
Measurement
3章で実装した音響エコーキャンセラを、定員 180
名、残響時間約 1.0 秒の会議室で評価した(Fig.5)。
2
Acoustic Echo Canceller White Paper
遠隔会議システムは、フロントスピーカ(Yamaha
IF2108)とシーリングスピーカ、およびマイクロホン
(Shure SM93)を用いて構成した。スピーカからは、
遠端からの受信音声と、マイクロホン信号とをミッ
クスして再生した。マイクロホン信号にAEC処理を
施して遠端に送信する。音響エコーの大きさは、遠
端からの入力信号と音響エコーのレベル差で表し、
ERL (Echo Return Loss) と呼ばれる。ERLが大きい
ほど音響エコーが小さく、良好な設置条件であると
言える。遠隔会議システムではERL>10dBとなるよ
Fig.6
うに設置するのが望ましい。本評価では、極端に音
TCLw
響エコーが多い場合も想定し、ERLが-1.2dB、5.5dB、
11.5dBの条件で評価を行った。
ダブルトークにおける性能評価
Fig.7 は 、 ダ ブ ル ト ー ク に お け る エ コ ー 抑 圧 量
(TCLwdt)である。ダブルトークのときには両側の話
者が同時に発話しているため、シングルトークのと
きと比べると音響エコーは目立ちにくい。必要なエ
コー抑圧量はスピーカの再生音量や、マイク感度な
どの設定により異なるが、今回の測定条件において
Fig.5
は 15 ~ 25 dB程度以上が必要と推測される (ITU-T
Setup
シングルトーク (遠端話者のみが発話している状態)
Rec. P.340[8])。音響エコーが小さい(ERL=11.5dB)場
におけるエコー抑圧性能の評価には、CS 信号[4]を用
合、AECの設定が 1 でも十分なエコー抑圧性能が得
いてTCLw (weighted Terminal Coupling Loss) を測定し
られている。音響エコーが大きい(ERL= -1.2dB)場合
た[5]。ダブルトークにおける会話性能の評価には、
は、AECの設定を 2 以上にして音響エコーを抑圧す
CS 信 号 と AMFM 信 号 [4] を 用 い 、 エ コ ー 抑 圧 量
る必要がある。
(TCLwdt)と近端話者音声の挿入損失(AH,S,DT )を測定し
Fig.8は、ダブルトークにおける近端話者音声の挿入
た[6]。
損失 (AH,S,DT) である。挿入損失が大きいと、ダブ
ルトークのときに音声が途切れたり、音質変化が生
4.2.
Result
じたりする可能性が高くなる。ITU-T Rec. P.340[8]
シングルトークにおける性能評価
によると、3dB以下が推奨されている。音響エコー
Fig.6は、シングルトークにおけるエコー抑圧量
が大きい場合 (ERL= -1.2dB) でも、AECの設定を 2
(TCLw) である。ITU-T Rec. 341[7] によると、35dB
以下にすれば近端話者音声への影響を抑え、快適に
以上が推奨されているが、ERLの大きさによらず約
会話できる。
70dBという高いエコー抑圧性能が得られており、音
ダブルトークにおける性能評価の結果から、ERL が
響エコーを確実に除去できることがわかる。
小さい (音響エコーが多い) 場合には、エコー抑圧
3
Acoustic Echo Canceller White Paper
量と音声品質のトレードオフになることがある。し
ンセラを適切に設定することが望ましい。そうするこ
たがって、快適な会話を実現するためには、ERL が
とで、快適な遠隔会議を実現することができる。
十分大きく (音響エコーが少なく) なるように設定
6. Reference
することが望ましい。
[1] M. M. Sondhi, “Theory and Computer Simulation of
a Self-Adapting Echo Canceller”, J. Acoust. Soc. Am,
vol.40, Issue 5, p.1255, 1966.
[2] M. M. Sondhi, “An adaptive echo canceller”, Bell
System Technical Journal, vol.XLVI, no.3, pp.497–510,
March 1967.
[3] S. Haykin, “Adaptive Filter Theory”, 3rd Edition,
Prentice-Hall, 1996.
[4] ITU-T Recommendation P.501 (06/07), “Test signals
for use in telephonometry”
Fig.7
TCLwdt
[5] ITU-T Recommendation G.122 (03/93), “Influence of
national systems on stability and talker echo in
international connections”
[6] ITU-T
Recommendation
“Narrow-band
hands-free
P.1100
communication
(10/2008),
in
motor
vehicles”
[7] ITU-T
Recommendation
P.341
(06/2005),
“Transmission characteristics for wideband (150-7000 Hz)
digital hands-free telephony terminals”
[8] ITU-T
Recommendation
“Transmission
Fig.8
AH,S,DT
characteristics
P.340
and
(05/2000),
speech
quality
parameters of hands-free terminals”
5. Conclusion
評価結果より、音響エコーキャンセラを使うことで、
サウンド・IT 開発室
奥村 啓
サウンドネットワーク事業部
田中 良
PA 事業部 安藤 正宣
エコーを確実に抑圧しつつ、快適な会話が実現できる
ことがわかる。しかし、ERL が小さい (音響エコーが
多い) 場合には、ダブルトークにおいて音切れや音質
ヤマハ株式会社
変化などの問題が発生する可能性が高くなってしま
う。そのため、マイクロホンとスピーカを適切に設置
静岡県浜松市中区中沢町10-1
して音響エコーの発生を抑えた上で、音響エコーキャ
http://proaudio.yamaha.co.jp
4