Average-Voice-Based Speech Synthesis 平均声に基づく音声合成

Average-Voice-Based Speech Synthesis
平均声に基づく音声合成
山岸 順一
東京工業大学 大学院総合理工学研究科
物理情報システム創造専攻 小林隆夫研究室
2006年1月
論文発表会
本論文の構成
第1章 イントロダクション
第2章 隠れマルコフモデル(HMM)
第3章 HMMに基づく音声合成
第4章 共有決定木コンテキストクラスタリング
第5章 話者適応学習
第6章 隠れセミマルコフモデルに基づく
最尤線形回帰と話者適応学習
第7章 隠れセミマルコフモデルに基づく
話者適応アルゴリズムとMAP Modification
第8章 スタイルモデリング
第9章 まとめ
本日の発表内容
研究の背景と目的
HMMに基づく音声合成
共有決定木コンテキストクラスタリング
話者適応学習
隠れセミマルコフモデルに基づく
最尤線形回帰と話者適応学習
まとめと今後の展望
研究背景
現在の音声合成システム
録音編集方式 … 特定の発話内容の目的地や数字だけを入れ替える
例:駅の案内、高速道路の渋滞情報、カーナビ
品質は良いが、特定の文章のみ
テキスト音声合成方式 … 任意のテキストを読み上げるシステム
例:メール読み上げソフト、対話エージェントシステム、カーナビ
現在のテキスト音声合成システム (コーパスベース方式)
波形接続方式 … 音声を波形のレベルで処理し、単純に接続し合成
HMMに基づく音声合成方式 … 音声の特徴量を統計的に処理し、
フィルタで合成
研究背景2
波形接続合成方式
・音声素片を接続し、音声を合成
・大量の音声コーパスが必要 (数時間∼数十時間)
・高音質、自然性が高い
問題点
・話者が限定。通常は1∼数話者程度。
・発話スタイル(感情)が限定。通常はニュース風の読み上げ。
(話者や発話スタイルを増やすためにはそのコーパスが更に必要。
音声コーパスの作成は高コストを要する。)
研究背景3
HMMに基づく音声合成方式
・音声の特徴量をHMMにより統計的にモデル化&合成
特徴量:メルケプストラム(声質、音韻、声の大きさ)
基本周波数 (声の高さ、アクセント、抑揚)
音韻継続長 (声のリズム・テンポ)
・MLSA(Mel Log Spectral Approximation)フィルタで波形生成
デメリット
・ボコーダ音 (buzzy)
メリット
・コンパクトかつ非常に高速
・安定感
・モデルパラメータを適切に変換すれば、
合成音声の声質・韻律特徴を変換可能
研究目的
平均声に基づく音声合成
話者を所望の話者に容易に変換できる音声合成システム
HMM音声合成
+ 平均声モデル作成のための話者正規化技術
+ 平均声モデルを目標話者のごく少量の音声データをもとに
目標話者へ変換する話者適応技術
従来手法
従来の平均声に基づく音声合成 [田村ら 02]
・音韻継続長が極めて不自然
→ 音韻継続長の厳密な変換が必要
・基本周波数やスペクトルに不自然な箇所が存在
→ 初期モデルの話者正規化が必要
・品質が良くない
→ 適応アルゴリズムの改善が必要
研究対象と研究成果
話者正規化技術
話者適応技術
パラメータ共有
共有決定木コンテキスト
クラスタリング(STC)
スペクトル・F0・継続長の同時話者適応
隠れセミマルコフモデル(HSMM)に
基づく話者適応
パラメータ推定
話者適応学習(SAT)
話者適応の高精度化
構造的事後確立最大線形回帰 (SMAPLR)
MAP Modification
共有決定木
コンテキストクラスタリング
(STCアルゴリズム)
話者適応に適した
平均声モデルを作成するための
話者正規化クラスタリング手法
HMM
隠れマルコフモデル(HMM)
a11
a22
a33
aij
a12
1
b1(ot)
M1 , U1
2
b2(ot)
M 2 , U2
a23
3
:遷移確率
b (ot):出力確率
b3(ot)
M3 , U3
モデルパラメータ:遷移確率
出力確率密度関数(出力分布)
HMM音声合成システムの学習部
当該および前後の音韻環境(コンテキスト)を
考慮したコンテキスト依存HMMを学習
MULTI-SPEAKER
SPEECH DATABASE
Training
Speech Analysis
Mel-Cepstrum, logF0
/context1/
/context2/
...
Context Dependent HMMs
(Average Voice Model)
メルケプストラム部
: 正規分布
対数基本周波数/logF0部: 多空間上の正規分布 [益子ら 00]
学習時におけるコンテキストの利用
当該および前後の様々な音韻環境を
考慮したHMMの説明変数
コンテキスト:
コンテキスト依存ラベルの例
音素 モーラ
先行 当該
形態素
アクセント句
先行 当該 後続 先行 当該 後続
呼気段落
文長
先行 当該 後続
(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)
後続 ア ア
ク
セ
ン
ト
句
内
で
の
モ
|
ラ
位
置
ク
セ
ン
ト
型
と
モ
|
ラ
位
置
の
差
品 活 活 品活活
詞 用 用 詞用用
型形
型形
品活活
詞用用
型形
長アポ 長アア 長アポ
さク| さクク さク|
セズ
セセ
セズ
ンの
ンン
ンの
ト有
トト
ト有
型無
型句
型無
の
位
置
各コンテキスト毎にHMMを学習
(コンテキスト依存HMM)
長
さ
長
さ
呼
気
段
落
の
モ
|
ラ
位
置
長
さ
長
さ
HMM音声合成システムの適応部
スペクトル・基本周波数の同時話者適応
HMMの出力分布のパラメータを
目標話者の適応データをもとに変換
Average Voice Model
Speaker Adaptation
/a/
/i/
Adapted Model
ADAPTATION DATA
HMM音声合成システムの合成部
最尤基準に基づくパラメータ生成 [益子ら 96]
Adapted Model
Sentence HMM
PARAMETER GENERATION
c1 c2 p1 p2
F0
Mel-Cepstrum
Excitation
MLSA Filter
SYNTHESIZED SPEECH
TEXT
合成時におけるコンテキストの利用
入力テキストをコンテキスト依存ラベルに変換し、
対応するHMMをもとにパラメータ生成
コンテキスト依存ラベルの例
音素 モーラ
先行 当該
形態素
アクセント句
先行 当該 後続 先行 当該 後続
呼気段落
文長
先行 当該 後続
(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)
後続 ア ア
ク
セ
ン
ト
句
内
で
の
モ
|
ラ
位
置
ク
セ
ン
ト
型
と
モ
|
ラ
位
置
の
差
品 活 活 品活活
詞 用 用 詞用用
型形
型形
品活活
詞用用
型形
長アポ 長アア 長アポ
さク| さクク さク|
セズ
セセ
セズ
ンの
ンン
ンの
ト有
トト
ト有
型無
型句
型無
の
位
置
長
さ
長
さ
呼
気
段
落
の
モ
|
ラ
位
置
コンテキストの種類は膨大 (指数的組み合わせ)
・学習データに含まれていないコンテキストも存在
・データ量が十分ではないコンテキストも存在
長
さ
長
さ
決定木によるクラスタリング
コンテキストの種類は膨大
→決定木を用いた階層的クラスタリングにより
音韻・韻律的に似ているHMMの分布パラメータを共有
F0の決定木
no
有声音
yes
母音
無声化母音
no
yes
後続音素が
有声音
声門音
no
no
yes
no
yes
後ろからの
モーラ位置 =1
鼻音
yes
no
yes
no
yes
決定木の構築法1
記述長 (Description Length)
・全話者のコンテキストを
決定木によりクラスタリング
Yes
・ノードの分割基準 :
MDL (最小記述長) 基準
・リーフノードの集合 モデル
当該音素が有声?
S0
S1
+ K M log W + C
0型アクセント?
Yes
U の記述長
M
1X
D(U) =
m (K + K log(2) + log jm j)
2 m=1
No
No
S2
N1
S3 U
N2
N3
m ノード Sm に対するデータ量の期待値
K
ベクトル次元数
Clustering
m ノード Sm における共分散行列
W =
M
X
m=1
M =3
m
Context Dependent HMMs
決定木の構築法2
MDL基準に基づいた構築法
[K. Shinoda et al. 00]
・モデル U のノードSm を質問 q により
分割したモデル: U
y
n
y
0
U
n
Sm
U0
・分割前後の記述長の差
Smqy
b ) D(U)
b
m (q) = D(U
1
=
(mqy log jmq y j + mqn log jmqn j
2
m log jm j ) + K log W
記述長
0
b )を最小にするノード Sm0と質問 の組を選ぶ
q
・D(U
0
0
0
0
m0 (q ) < 0 ならばノード Sm0を質問 で分割
q
・ Smqn
b
D(U)
m(q)
第1項
b 0)
D(U
分割停止点
第2項
m0 (q 0 ) > 0 ならばノード分割終了
・ リーフノード数
決定木によるクラスタリングの問題点
a-b-a
a-a-b
b-b-a
話者1
b-a-a
b-a-b
話者2
決定木
先行がa?
y
a-b-a
話者1 a-a-b
n
質問リスト
先行が a?
先行が b?
後続が a?
b-b-a
b-a-a
b-a-a
学習話者のデータに含まれるコンテキストが話者により
大きく異なる場合、一部の話者のデータが欠けたノードが
構成されてしまう
共有決定木コンテキストクラスタリング(STC)
共有決定木コンテキストクラスタリング [J. Yamagishi et al. 03]
各学習話者のモデルに共通の決定木を構築し、
クラスタリングを行う
→全ノードが必ず全学習話者のデータを保持
・記述長を話者毎に計算
・全ての話者で分割できる質問のみ採用
話者1
y
a-b-a
a-a-b
a-b-a
a-a-b
b-b-a
先行がa?
n
b-b-a
(例)
b-a-a
b-a-b
話者2
y
先行がa?
n
b-a-a
b-a-b
は採用しない
質問「先行がa?」
分割できない
共有決定木の構築法
平均声モデルの作成
決定木のノード分割終了後、平均声モデルを作成
平均声モデルのガウス分布の平均、共分散を
各話者依存モデルから計算
PI
i=1 im im
m = PI
i=1 im
m =
PI
i=1
im >
im
im im +
PI
i=1 im
m >
m
y
n
S1
y
n
S2
1
S3
2
m ノード Smにおける平均声モデルの平均
m 〃 共分散
im ノード Smにおける話者依存モデル i の平均
im 〃 共分散
im 話者 のノード Sm データ量の期待値
i
Average Voice Model
実験条件
学習データ
話者
サンプリング周波数
フレーム周期
分析窓
ATR日本語音声データベース セットB
男性話者3名 女声話者3名
16kHz
5ms
25msブラックマン窓
特徴ベクトル
0∼24次のメルケプストラム
対数基本周波数および
2
それぞれのΔ、
Δ パラメータ
HMM
5状態 left-to-right モデル
音素数
42音素
(無音を含む)
記述長係数 c
0.4
学習データ
学習に用いた文章セット
女性話者
男性話者
文章数
FKN
FKS
FYM
MHO
MHT
MYI
50
A
B
C
D
E
F
100
A,B
B,C
C,D
D,E
E,F
F,G
150
A~C
B~D
C~E
D~F
E~G
F~H
200
A~D
B~E
C~F
D~G
E~H
F~I
250
A~E
B~F
C~G
D~H
E~I
A,F~I
300
A~F
B~G
C~H
D~I
A,E~I
A,B,F~I
*各文章セット(A∼I)は50文章
クラスタリングの改善結果
一部の話者のデータが欠けているリーフノード数(50文章)
従来法
(A)
スペクトル
状態数
419
37 ( 8%)
F0
1011
505 (50%)
提案法
(A)
状態数
14 ( 3%) 548
0 (0%)
(B)
197 (19%)
818
0 (0%)
(B)
0 (0%)
0 (0%)
(A):一部の話者のデータが欠けているリーフノード数と割合
(B):一人の話者のデータしかないリーフノード数と割合
具体例 -生成F0パターン-
Frequency [Hz]
「部屋一杯に煙草の濃霧が立ちこめ、
ゆるやかに動いている」
従来法
提案法
300
200
150
100
0
1
2
Time [s]
従来法の基本周波数が不自然に高い
3
4
STCアルゴリズムの主観評価試験
従来法との対比較による評価
被験者
成人男性13名
評価音声
53文章からランダムに8文章を選択
提示方法
防音室内での両耳受聴(ヘッドホン)
評価方法
対比較法
sentences per speaker
主観評価結果
50 15.9
84.1
従来法
100 17.1
82.9
提案法
150 18.3
81.7
200 30.0
70.0
250 17.5
82.5
300 27.2
72.8
0
20
40
60
score[%]
80
100
全ての文章数において大きな改善
従来法:決定木に基づくコンテキストクラスタリング
デモンストレーション(平均声)
発声内容
平均倍率を下げた形跡がある
発声内容
部屋一杯に煙草の濃霧が立ちこめ
ゆるやかに動いている
従来法(各50文章)
提案法(各50文章)
従来法(各50文章)
提案法(各50文章)
話者適応学習
(SATアルゴリズム)
話者適応に適した
平均声モデルを作成するための
話者正規化学習アルゴリズム
平均声モデル
平均声モデル
複数の話者の音声データを用いて学習を行った音響モデル
平均声モデルは標準的な音韻性をモデル化すべき
問題点
話者間には音響的な差異が存在 (e.g 男性のF0と女性のF0)
通常の学習アルゴリズムでは音韻性ではなく、
話者や性別の違いに大きく影響されたモデルが作成
/a/
Average Voice
Speaker 1
Speaker 2
logF0
話者正規化学習
話者正規化学習
話者間の音響的な差異を正規化しつつ、HMMの
モデルパラメータも同時に学習するアルゴリズム
Average Voice
/a/
Speaker 1
Speaker 2
logF0
話者適応学習 (Speaker Adaptive Training : SAT)
最尤線形回帰(MLLR)を利用した話者正規化学習アルゴリズム
[T. Anastasakos et al., ‘96]
出力分布(スペクトル,F0をモデル化)に存在する話者間の
音響的差異を正規化するため SATをHMM音声合成システムに導入
[J. Yamagishi et al. 03]
最尤線形回帰(MLLR)アルゴリズム
HMMに基づくMLLRアルゴリズム [C.J. Leggetter et al., ‘96]
^ m = W m = Am + b
W = [b A]
>
m = [1; >
]
m
W : 回帰行列
M m : 分布 m の平均ベクトル
Acoustic Space Dimension 2
平均ベクトルの適応
Average Voice
M1
W
Mˆ 1
M2
Mˆ 2
Speaker A
Acoustic Space Dimension 1
平均声モデルの出力分布の平均ベクトルを
アフィン変換し、目標話者のモデルを実現
話者適応学習(SAT)アルゴリズム
HMMに基づくSAT:フロー
Speaker 1
Speaker 2
学習話者の標準的な特徴を持つ
平均声モデルを想定
平均声モデルから各学習話者への
変換行列をMLLRにより求める
W1
W2
Average Voice Model
W3
Speaker 3
HMMに基づくMLLRを利用
出力分布の変換行列
W i を推定
MLLRの変換行列が正規化すべき
話者間の音響的差異を表すと仮定し
HMMのモデルパラメータ
を学習
このステップの繰り返し
話者適応学習の考察
話者に起因する特徴はすべて正規化されるのか?
→ No!
線形回帰で表せる特徴のみが正規化される。
話者性(話者に起因する特徴)が非線形ならば残る
→ 他の正規化手法と併用が望ましい。
STCと併用
話者性のみが正規化されるのか?
→ No!
線形回帰で表せる特徴はすべて正規化される。
音韻性も含まれた状態で正規化が行われる可能性。
○ 録音環境の違いが線形ならば、それの正規化にも利用可
SATとSTCによる平均声モデル学習
従来法
提案法
Context Dependent Model (SI)
Context Dependent Models (SD)
決定木に基づく
コンテキストクラスタリング
共有決定木
コンテキストクラスタリング
Tied Context Dependent Model (SI)
Tied Context Dependent Model (SI)
パラメータ再推定
話者適応学習
Average Voice Model
Average Voice Model
SI : 不特定話者モデル
SD : 特定話者モデル (学習話者毎)
SATとSTCの評価実験
話者適応後の音声の自然性の評価
Average Voice Model
(NONE、
SAT、STC、STC+SAT)
Speaker Adapted Model
Speaker Dependent Model
* 目標話者は学習話者に含まれていない
男女各3名
各話者異なる
150 文章で学習
目標話者
男性 MMY
女性 FTK
10 文章で適応
目標話者
男性 MMY
女性 FTK
450 文章で学習
SATとSTCの評価実験2
被験者
成人男性7名
評価音声
53文章からランダムに8文章を選択
提示方法
防音室内での両耳受聴(ヘッドホン)
評価方法
5段階の評価
5段階の評価
目標話者の分析合成音を基準に
各音声の話者性を以下のように判定
5
4
3
2
1
: 非常によく似ている
:
:
: : 似ていない
SATとSTCの評価結果2
男性 MMY
2.65
NONE
2.79
SAT
3.01
STC
3.52
STC+SAT
4.02
SD
1
NONE
2
3
5
女性 FTK
2.33
2.66
2.95
SAT
STC
3.43
STC+SAT
3.84
SD
1
4
2
3
4
Score
SD
: 目標話者モデル
5
デモンストレーション (男性MMY)
「切符を買うのは自動販売機からである」
分析合成音
従来法によるモデル (NONE)
SATのみを適用したモデル (SAT)
STCのみを適用したモデル (STC)
STCとSATを併用したモデル (STC+SAT)
目標話者モデル (SD)
HSMMに基づく
話者適応アルゴリズム
隠れセミマルコフモデルに基づく
スペクトル・F0・音韻継続長の
同時適応アルゴリズム
HMM
隠れマルコフモデル(HMM)
a11
a22
a33
aij
a12
1
b1(ot)
M1 , U1
2
b2(ot)
M 2 , U2
a23
3
:遷移確率
b (ot):出力確率
b3(ot)
M3 , U3
モデルパラメータ:遷移確率
出力確率密度関数(出力分布)
Hidden Semi-Markov Model
隠れマルコフモデル(HMM)
・状態継続長分布を明示的に含んでいない
→遷移確率やトレリスから計算可能。しかし近似精度は悪い
隠れセミマルコフモデル(HSMM) [J.D. Ferguson ‘80, S.E. Levinson ‘86]
p1(d )
p2(d )
p3(d )
1
2
3
b2(ot)
b3(ot)
b1(ot)
pi(d ):状態継続長確率
bi (ot):出力確率
・状態継続長分布を明示的に含んだHMM
→状態継続長分布をより厳密にモデル化可能
・通常のHMMと同様にモデル化可能
モデルパラメータ:出力確率密度関数(出力分布)
状態継続長確率密度関数(継続長分布)
HSMMによるモデル化
HSMMの状態 i
出力分布 : bi (ot ) N (i ; i )
2
p
(d)
N
(m
;
状態継続長分布: i
i
i)
状態
p3(d )
3
b3(o)
p2(d )
2
b2(o)
HSMM
b1(o)
1
p1(d )
d
t
継続長分布 出力分布
O = fo1 ; o2 ; ; oT g が与えられたもとで
td (i) … 観測系列 時刻 から に状態 に滞在する確率
i
td+1
t
N
t
X
Y
td (i) =
td (j)aji pi (d)
bi (os )t (i)
j=1
j6=i
s=td+1
time
EMアルゴリズムによる再推定
尤度関数
P (Oj) =
N X
t
X
td (i)
= (; ; m; 2 )
N :状態数
i=1 d=1
出力分布の再推定式
i =
T X
t
X
td (i)
t=1 d=1
t
X
os
s=td+1
T X
t
X
i =
T X
t
X
td (i)
t=1 d=1
d td (i)
t=1 d=1
t
X
(os i )(os i )>
s=td+1
T X
t
X
d td (i)
t=1 d=1
状態継続長分布の再推定式
m
i =
T X
t
X
td (i) d
t=1 d=1
T X
t
X
t=1 d=1
i2 =
td (i)
T X
t
X
td (i) (d mi )2
t=1 d=1
T X
t
X
t=1 d=1
td (i)
HSMMに基づく最尤線形回帰
[J. Yamagishi et. al. ‘04]
HSMMの状態 i
出力分布 : bi (ot ) N (i ; i )
2
p
(d)
N
(m
;
i
i)
状態継続長分布: i
>
i = [1; >
]
i
W :出力分布の回帰行列
状態継続長分布の線形回帰
i = [1; mi ]>
X :継続長分布の回帰行列
Acoustic Space Dimension 2
出力分布の線形回帰
例:出力分布の線形回帰
Average Voice Model
Speaker A
Acoustic Space Dimension 1
EMアルゴリズムによる再推定
HSMMに基づいたMLLR
[J. Yamagishi et. al. ‘04]
= W
;X
= argmax P (Oj; )
回帰行列の再推定式
(共有する分布の数:R)
= (W ; X)
W = fW i gN
i=1 X = fX i gi=1
決定木を利用した区分線形回帰
3
Threshold
1
2
Target Speaker’s Model
i = 1 i + 1
1
i = 2 i + 2
i = 3 i + 3
3
2
Average Voice Model
平均声モデルの分布を決定木をもとに
いくつかのクラスタにわけ、区分線形回帰により適応
隠れセミマルコフモデルに基づく適応学習
HSMMの適応学習
[J. Yamagishi et. al. ‘05]
従来の話者適応学習 (SAT)
HMMの出力分布(スペクトル,F0をモデル化)に
対してのみ適用可能
音韻継続長にも話者間の差異は存在
出力分布および状態継続長分布(音韻継続長をモデル化)を
同時に正規化するように適応学習アルゴリズムを拡張
p1(d )
p2(d )
p3(d )
1
2
3
b2(ot)
b3(ot)
b1(ot)
pi(d ):状態継続長確率
bi (ot):出力確率
HSMMの出力分布・継続長分布を同時にアフィン変換
するHSMMの最尤線形回帰(MLLR)アルゴリズムを利用
HSMMに基づく適応学習
[J. Yamagishi et. al. ‘05]
出力分布(スペクトル,F0をモデル化)かつ状態継続長分布
(音韻継続長をモデル化)の話者間の音響的差異を同時正規化
Speaker 1
Speaker 2
X1
W
X2
Average Voice Model
X3 W
Speaker 3
学習話者の標準的な特徴を持つ
平均声モデルを想定
平均声モデルから各学習話者への
変換行列をMLLRにより求める
W
HSMMに基づくMLLRを利用
出力・継続長分布の変換行列
W i ・ X i を推定
MLLRの変換行列が正規化すべき
話者間の音響的差異を表すと仮定し
HSMMのモデルパラメータ
を学習
このステップの繰り返し
実験条件
話者適応
平均声モデル
性別依存モデル
男性:5 名 女性:4名 各話者450文章
目標話者
男性話者 MTK & 女性話者FTK
0∼24次メルケプストラム
特徴ベクトル 対数基本周波数
Δ, Δ2パラメータ
HSMM
コンテキスト依存モデル
5状態,left-to-rightモデル, SAT+STC
単一ガウス分布,対角共分散行列
最大継続長値 :各状態の平均+3(標準偏差)
話者の分布
9.0
Average mora/sec
MHO
8.5
MSH
MYI
MMY
FKS
8.0
MHT
7.5
FYM
FKN
MTK
7.0
4.0
FTY
FTK
4.5
5.0
5.5
Average logarithm of F0
6.0
男性話者MTKと女性話者FTKを目標話者と設定
それ以外の話者を平均声モデル学習用の話者と設定
HSMMに基づくSATの効果
目標話者の適応データの尤度
Average log-Likelihood per frame
73
72
71
Both
Output
70
Duration
None
69
0
50
100
150 200 250 300
Number of Sentences
350
400
全特徴を同時正規化した場合が尤度がもっとも高い
→ 正規化が適切に行われている
450
平均声と話者適応後の音声の分布
Average mora/sec
9.0
8.5
Average Voice
(Male Speakers)
Average Voice
(Female Speakers)
8.0
7.5
MTK(MLLR)
MTK
7.0
4.0
FTK
FTK(MLLR)
4.5
5.0
5.5
Average logarithm of F0
6.0
目標話者と似た平均値(対数基本周波数&mora/sec)に
なっていることが確認できる
客観評価 特定話者方式との比較
対数基本周波数のRMSE
400
RMSE of logF0 [cent]
Average Voice
350
SD
MLLR
300
250
200
0
50
100
150 200 250 300
Number of Sentences
350
400
450
客観評価 特定話者方式との比較
メルケプストラム距離
Mel-cepstrum Distance [dB]
8
SD
MLLR
7
Average Voice
6
5
4
0
50
100
150 200 250 300
Number of Sentences
350
400
450
客観評価 特定話者方式との比較
音素継続長のRMSE
RMSE of Vowel Duration [frame]
11
SD
MLLR
10
9
8
Average Voice
7
6
5
4
0
50
100
150 200 250 300
Number of Sentences
350
400
450
主観評価試験1 各特徴量の変換の効果
被験者
成人男性8名
評価音声
53文章からランダムに5文章を選択
提示方法
防音室内での両耳受聴
CCRテスト
評価方法
目標話者の分析合成音声と比較し、
合成音声の話者性を以下の5段階で判定
「5:非常に良く似ている」
「4:似ている」
「3:違いはあるが似ている」
「2:似ていない」
「1:全く似ていない」
主観評価結果1 各特徴量の変換の効果
よく似ている 5
4
3.6
3.3
3
2 1.6
2.5
2.9
2.6
1.5
1.6
1.5
全く似ていない 1
Spectrum
F0
Duration
SD
SD
SD
Average Voice
Adaptation
主観評価試験2
話者適応後の音声の類似度の評価
被験者
8名
評価音声
53文章からランダムに4文章を選択
提示方法
防音室内での両耳受聴
評価方法
ABX法
(自然性が高い方を選択)
主観評価試験2 各特徴量の変換の効果
Spectrum
Spectrum
+F0
Spectrum
+F0
+Duration
0
10 20 30 40 50 60 70 80 90 100
Score (%)
スペクトル・F0・音韻継続長の同時変換が
重要であることが確認できる
デモンスレーション(男性話者MTK)
5
4
3.6
3.3
3
2 1.6
2.5
2.9
2.6
1.5
1.6
1.5
1
Spectrum
F0
SD
SD
Duration
SD
Average Voice
Adaptation
分析合成音声
デモンストレーション:様々な話者の音声
デモンストレーション:様々な話者の合成音声
(適応データ:50文章)
男性話者MHT ①
②
男性話者MYI
①
②
男性話者MMI ①
②
①
②
女性話者FTK
まとめ
まとめ
話者を所望の話者に容易に変換できる音声合成システムの
実現を目指し、 平均声を用いた音声合成方式を検討
平均声に用いた音声合成:
HMM音声合成
+ 平均声モデル作成のための話者正規化技術
+ 平均声モデルを目標話者のごく少量の音声データをもとに
目標話者へ変換する話者適応技術
話者正規化技術
パラメータ共有
共有決定木コンテキストクラスタリング(STC)
パラメータ推定
話者適応学習(SAT)
まとめ(続き)
まとめ(つづき)
話者適応技術
スペクトル・F0・継続長の同時話者適応
隠れセミマルコフモデル(HSMM)に基づく話者適応
話者適応の高精度化
構造的事後確立最大線形回帰 (SMAPLR)
MAP Modification
話者正規化技術は音声合成の品質を大きく改善
スペクトル・F0・音韻継続長の同時適応は重要
合成音声の品質は特定話者方式とほぼ同等
今後の課題
今後の課題
合成音声の品質の向上
オンライン学習
音声合成のパーソナライゼーション
話し言葉や方言への対応
本発表に関する論文リスト
ジャーナル論文
1. J. Yamagishi and T. Kobayashi, “Simultaneous Speaker Adaptation Algorithm of Spectrum,
Fundamental Frequency and Duration for HMM-based Speech Synthesis,” IEICE Trans.
Information and Systems. (in preparation)
2. J. Yamagishi, Y. Nakano, K. Ogata, J. Isogai, and T. Kobayashi, “A Unified Speech Synthesis
Method Using HSMM-Based Speaker Adaptation and MAP Modification”, IEICE Trans.
Information and Systems. (in preparation)
3. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Acoustic Modeling of Speaking
Styles and Emotional Expressions in HMM-based Speech Synthesis,” IEICE Trans. Information
and Systems, E88-D, vol.3, pp.503–509, March 2005.
4. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method of
Average Voice Model for HMM-based Speech Synthesis”, IEICE Trans. Fundamentals, E86-A,
no.8, pp.1956–1963, Aug. 2003.
5. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering
Technique for Average Voice Models”, IEICE Trans. Information and Systems, E86-D, no.3,
pp.534–542, March 2003
本発表に関する論文リスト (つづき)
査読付き国際会議
1. J. Yamagishi, K. Ogata, Y. Nakano, J. Isogai, and T. Kobayashi, “HSMM-based Model Adaptation
Algorithms for Average-Voice-based Speech Synthesis”, Proc. ICASSP 2006, May 2006 (submit).
2. J. Yamagishi, and T. Kobayashi, “Adaptive Training for Hidden Semi-Markov Model”, Proc. ICASSP 2005,
vol.I, pp.365–368, March 2005.
3. J. Yamagishi, T. Masuko, and T. Kobayashi, “MLLR Adaptation for Hidden Semi-Markov Model Based
Speech Synthesis”, Proc. ICSLP 2004, vo.II, pp.1213–1216, October 2004.
4. J. Yamagishi, M. Tachibana, T. Masuko, and T. Kobayashi, “Speaking Style Adaptation Using Context
Clustering Decision Tree for HMM-based Speech Synthesis”, Proc. ICASSP 2004 , vol.I, pp.5–8, May 2004.
5. J. Yamagishi, T. Masuko, and T. Kobayashi, “HMM-based Expressive Speech Synthesis – Towards TTS
with Arbitrary Speaking Styles and Emotions,” Special Workshop in Maui (SWIM) , January 2004.
6. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Modeling of Various Speaking Styles and Emotions
for HMM-based Speech Synthesis”, Proc. EUROSPEECH 2003, vol.III, pp.2461–2464, September 2003.
7. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method for Average Voice
Model Based on Shared Decision Tree Context Clustering and Speaker Adaptive Training”, Proc. ICASSP
2003, vol.I, pp.716–719, April 2003.
8. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for
Average Voice Model in HMM-based Speech Synthesis”, Proc. ICSLP 2002, vol.1, pp.133–136, September
2002.