Average-Voice-Based Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻 小林隆夫研究室 2006年1月 論文発表会 本論文の構成 第1章 イントロダクション 第2章 隠れマルコフモデル(HMM) 第3章 HMMに基づく音声合成 第4章 共有決定木コンテキストクラスタリング 第5章 話者適応学習 第6章 隠れセミマルコフモデルに基づく 最尤線形回帰と話者適応学習 第7章 隠れセミマルコフモデルに基づく 話者適応アルゴリズムとMAP Modification 第8章 スタイルモデリング 第9章 まとめ 本日の発表内容 研究の背景と目的 HMMに基づく音声合成 共有決定木コンテキストクラスタリング 話者適応学習 隠れセミマルコフモデルに基づく 最尤線形回帰と話者適応学習 まとめと今後の展望 研究背景 現在の音声合成システム 録音編集方式 … 特定の発話内容の目的地や数字だけを入れ替える 例:駅の案内、高速道路の渋滞情報、カーナビ 品質は良いが、特定の文章のみ テキスト音声合成方式 … 任意のテキストを読み上げるシステム 例:メール読み上げソフト、対話エージェントシステム、カーナビ 現在のテキスト音声合成システム (コーパスベース方式) 波形接続方式 … 音声を波形のレベルで処理し、単純に接続し合成 HMMに基づく音声合成方式 … 音声の特徴量を統計的に処理し、 フィルタで合成 研究背景2 波形接続合成方式 ・音声素片を接続し、音声を合成 ・大量の音声コーパスが必要 (数時間∼数十時間) ・高音質、自然性が高い 問題点 ・話者が限定。通常は1∼数話者程度。 ・発話スタイル(感情)が限定。通常はニュース風の読み上げ。 (話者や発話スタイルを増やすためにはそのコーパスが更に必要。 音声コーパスの作成は高コストを要する。) 研究背景3 HMMに基づく音声合成方式 ・音声の特徴量をHMMにより統計的にモデル化&合成 特徴量:メルケプストラム(声質、音韻、声の大きさ) 基本周波数 (声の高さ、アクセント、抑揚) 音韻継続長 (声のリズム・テンポ) ・MLSA(Mel Log Spectral Approximation)フィルタで波形生成 デメリット ・ボコーダ音 (buzzy) メリット ・コンパクトかつ非常に高速 ・安定感 ・モデルパラメータを適切に変換すれば、 合成音声の声質・韻律特徴を変換可能 研究目的 平均声に基づく音声合成 話者を所望の話者に容易に変換できる音声合成システム HMM音声合成 + 平均声モデル作成のための話者正規化技術 + 平均声モデルを目標話者のごく少量の音声データをもとに 目標話者へ変換する話者適応技術 従来手法 従来の平均声に基づく音声合成 [田村ら 02] ・音韻継続長が極めて不自然 → 音韻継続長の厳密な変換が必要 ・基本周波数やスペクトルに不自然な箇所が存在 → 初期モデルの話者正規化が必要 ・品質が良くない → 適応アルゴリズムの改善が必要 研究対象と研究成果 話者正規化技術 話者適応技術 パラメータ共有 共有決定木コンテキスト クラスタリング(STC) スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に 基づく話者適応 パラメータ推定 話者適応学習(SAT) 話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification 共有決定木 コンテキストクラスタリング (STCアルゴリズム) 話者適応に適した 平均声モデルを作成するための 話者正規化クラスタリング手法 HMM 隠れマルコフモデル(HMM) a11 a22 a33 aij a12 1 b1(ot) M1 , U1 2 b2(ot) M 2 , U2 a23 3 :遷移確率 b (ot):出力確率 b3(ot) M3 , U3 モデルパラメータ:遷移確率 出力確率密度関数(出力分布) HMM音声合成システムの学習部 当該および前後の音韻環境(コンテキスト)を 考慮したコンテキスト依存HMMを学習 MULTI-SPEAKER SPEECH DATABASE Training Speech Analysis Mel-Cepstrum, logF0 /context1/ /context2/ ... Context Dependent HMMs (Average Voice Model) メルケプストラム部 : 正規分布 対数基本周波数/logF0部: 多空間上の正規分布 [益子ら 00] 学習時におけるコンテキストの利用 当該および前後の様々な音韻環境を 考慮したHMMの説明変数 コンテキスト: コンテキスト依存ラベルの例 音素 モーラ 先行 当該 形態素 アクセント句 先行 当該 後続 先行 当該 後続 呼気段落 文長 先行 当該 後続 (a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50) 後続 ア ア ク セ ン ト 句 内 で の モ | ラ 位 置 ク セ ン ト 型 と モ | ラ 位 置 の 差 品 活 活 品活活 詞 用 用 詞用用 型形 型形 品活活 詞用用 型形 長アポ 長アア 長アポ さク| さクク さク| セズ セセ セズ ンの ンン ンの ト有 トト ト有 型無 型句 型無 の 位 置 各コンテキスト毎にHMMを学習 (コンテキスト依存HMM) 長 さ 長 さ 呼 気 段 落 の モ | ラ 位 置 長 さ 長 さ HMM音声合成システムの適応部 スペクトル・基本周波数の同時話者適応 HMMの出力分布のパラメータを 目標話者の適応データをもとに変換 Average Voice Model Speaker Adaptation /a/ /i/ Adapted Model ADAPTATION DATA HMM音声合成システムの合成部 最尤基準に基づくパラメータ生成 [益子ら 96] Adapted Model Sentence HMM PARAMETER GENERATION c1 c2 p1 p2 F0 Mel-Cepstrum Excitation MLSA Filter SYNTHESIZED SPEECH TEXT 合成時におけるコンテキストの利用 入力テキストをコンテキスト依存ラベルに変換し、 対応するHMMをもとにパラメータ生成 コンテキスト依存ラベルの例 音素 モーラ 先行 当該 形態素 アクセント句 先行 当該 後続 先行 当該 後続 呼気段落 文長 先行 当該 後続 (a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50) 後続 ア ア ク セ ン ト 句 内 で の モ | ラ 位 置 ク セ ン ト 型 と モ | ラ 位 置 の 差 品 活 活 品活活 詞 用 用 詞用用 型形 型形 品活活 詞用用 型形 長アポ 長アア 長アポ さク| さクク さク| セズ セセ セズ ンの ンン ンの ト有 トト ト有 型無 型句 型無 の 位 置 長 さ 長 さ 呼 気 段 落 の モ | ラ 位 置 コンテキストの種類は膨大 (指数的組み合わせ) ・学習データに含まれていないコンテキストも存在 ・データ量が十分ではないコンテキストも存在 長 さ 長 さ 決定木によるクラスタリング コンテキストの種類は膨大 →決定木を用いた階層的クラスタリングにより 音韻・韻律的に似ているHMMの分布パラメータを共有 F0の決定木 no 有声音 yes 母音 無声化母音 no yes 後続音素が 有声音 声門音 no no yes no yes 後ろからの モーラ位置 =1 鼻音 yes no yes no yes 決定木の構築法1 記述長 (Description Length) ・全話者のコンテキストを 決定木によりクラスタリング Yes ・ノードの分割基準 : MDL (最小記述長) 基準 ・リーフノードの集合 モデル 当該音素が有声? S0 S1 + K M log W + C 0型アクセント? Yes U の記述長 M 1X D(U) = m (K + K log(2) + log jm j) 2 m=1 No No S2 N1 S3 U N2 N3 m ノード Sm に対するデータ量の期待値 K ベクトル次元数 Clustering m ノード Sm における共分散行列 W = M X m=1 M =3 m Context Dependent HMMs 決定木の構築法2 MDL基準に基づいた構築法 [K. Shinoda et al. 00] ・モデル U のノードSm を質問 q により 分割したモデル: U y n y 0 U n Sm U0 ・分割前後の記述長の差 Smqy b ) D(U) b m (q) = D(U 1 = (mqy log jmq y j + mqn log jmqn j 2 m log jm j ) + K log W 記述長 0 b )を最小にするノード Sm0と質問 の組を選ぶ q ・D(U 0 0 0 0 m0 (q ) < 0 ならばノード Sm0を質問 で分割 q ・ Smqn b D(U) m(q) 第1項 b 0) D(U 分割停止点 第2項 m0 (q 0 ) > 0 ならばノード分割終了 ・ リーフノード数 決定木によるクラスタリングの問題点 a-b-a a-a-b b-b-a 話者1 b-a-a b-a-b 話者2 決定木 先行がa? y a-b-a 話者1 a-a-b n 質問リスト 先行が a? 先行が b? 後続が a? b-b-a b-a-a b-a-a 学習話者のデータに含まれるコンテキストが話者により 大きく異なる場合、一部の話者のデータが欠けたノードが 構成されてしまう 共有決定木コンテキストクラスタリング(STC) 共有決定木コンテキストクラスタリング [J. Yamagishi et al. 03] 各学習話者のモデルに共通の決定木を構築し、 クラスタリングを行う →全ノードが必ず全学習話者のデータを保持 ・記述長を話者毎に計算 ・全ての話者で分割できる質問のみ採用 話者1 y a-b-a a-a-b a-b-a a-a-b b-b-a 先行がa? n b-b-a (例) b-a-a b-a-b 話者2 y 先行がa? n b-a-a b-a-b は採用しない 質問「先行がa?」 分割できない 共有決定木の構築法 平均声モデルの作成 決定木のノード分割終了後、平均声モデルを作成 平均声モデルのガウス分布の平均、共分散を 各話者依存モデルから計算 PI i=1 im im m = PI i=1 im m = PI i=1 im > im im im + PI i=1 im m > m y n S1 y n S2 1 S3 2 m ノード Smにおける平均声モデルの平均 m 〃 共分散 im ノード Smにおける話者依存モデル i の平均 im 〃 共分散 im 話者 のノード Sm データ量の期待値 i Average Voice Model 実験条件 学習データ 話者 サンプリング周波数 フレーム周期 分析窓 ATR日本語音声データベース セットB 男性話者3名 女声話者3名 16kHz 5ms 25msブラックマン窓 特徴ベクトル 0∼24次のメルケプストラム 対数基本周波数および 2 それぞれのΔ、 Δ パラメータ HMM 5状態 left-to-right モデル 音素数 42音素 (無音を含む) 記述長係数 c 0.4 学習データ 学習に用いた文章セット 女性話者 男性話者 文章数 FKN FKS FYM MHO MHT MYI 50 A B C D E F 100 A,B B,C C,D D,E E,F F,G 150 A~C B~D C~E D~F E~G F~H 200 A~D B~E C~F D~G E~H F~I 250 A~E B~F C~G D~H E~I A,F~I 300 A~F B~G C~H D~I A,E~I A,B,F~I *各文章セット(A∼I)は50文章 クラスタリングの改善結果 一部の話者のデータが欠けているリーフノード数(50文章) 従来法 (A) スペクトル 状態数 419 37 ( 8%) F0 1011 505 (50%) 提案法 (A) 状態数 14 ( 3%) 548 0 (0%) (B) 197 (19%) 818 0 (0%) (B) 0 (0%) 0 (0%) (A):一部の話者のデータが欠けているリーフノード数と割合 (B):一人の話者のデータしかないリーフノード数と割合 具体例 -生成F0パターン- Frequency [Hz] 「部屋一杯に煙草の濃霧が立ちこめ、 ゆるやかに動いている」 従来法 提案法 300 200 150 100 0 1 2 Time [s] 従来法の基本周波数が不自然に高い 3 4 STCアルゴリズムの主観評価試験 従来法との対比較による評価 被験者 成人男性13名 評価音声 53文章からランダムに8文章を選択 提示方法 防音室内での両耳受聴(ヘッドホン) 評価方法 対比較法 sentences per speaker 主観評価結果 50 15.9 84.1 従来法 100 17.1 82.9 提案法 150 18.3 81.7 200 30.0 70.0 250 17.5 82.5 300 27.2 72.8 0 20 40 60 score[%] 80 100 全ての文章数において大きな改善 従来法:決定木に基づくコンテキストクラスタリング デモンストレーション(平均声) 発声内容 平均倍率を下げた形跡がある 発声内容 部屋一杯に煙草の濃霧が立ちこめ ゆるやかに動いている 従来法(各50文章) 提案法(各50文章) 従来法(各50文章) 提案法(各50文章) 話者適応学習 (SATアルゴリズム) 話者適応に適した 平均声モデルを作成するための 話者正規化学習アルゴリズム 平均声モデル 平均声モデル 複数の話者の音声データを用いて学習を行った音響モデル 平均声モデルは標準的な音韻性をモデル化すべき 問題点 話者間には音響的な差異が存在 (e.g 男性のF0と女性のF0) 通常の学習アルゴリズムでは音韻性ではなく、 話者や性別の違いに大きく影響されたモデルが作成 /a/ Average Voice Speaker 1 Speaker 2 logF0 話者正規化学習 話者正規化学習 話者間の音響的な差異を正規化しつつ、HMMの モデルパラメータも同時に学習するアルゴリズム Average Voice /a/ Speaker 1 Speaker 2 logF0 話者適応学習 (Speaker Adaptive Training : SAT) 最尤線形回帰(MLLR)を利用した話者正規化学習アルゴリズム [T. Anastasakos et al., ‘96] 出力分布(スペクトル,F0をモデル化)に存在する話者間の 音響的差異を正規化するため SATをHMM音声合成システムに導入 [J. Yamagishi et al. 03] 最尤線形回帰(MLLR)アルゴリズム HMMに基づくMLLRアルゴリズム [C.J. Leggetter et al., ‘96] ^ m = W m = Am + b W = [b A] > m = [1; > ] m W : 回帰行列 M m : 分布 m の平均ベクトル Acoustic Space Dimension 2 平均ベクトルの適応 Average Voice M1 W Mˆ 1 M2 Mˆ 2 Speaker A Acoustic Space Dimension 1 平均声モデルの出力分布の平均ベクトルを アフィン変換し、目標話者のモデルを実現 話者適応学習(SAT)アルゴリズム HMMに基づくSAT:フロー Speaker 1 Speaker 2 学習話者の標準的な特徴を持つ 平均声モデルを想定 平均声モデルから各学習話者への 変換行列をMLLRにより求める W1 W2 Average Voice Model W3 Speaker 3 HMMに基づくMLLRを利用 出力分布の変換行列 W i を推定 MLLRの変換行列が正規化すべき 話者間の音響的差異を表すと仮定し HMMのモデルパラメータ を学習 このステップの繰り返し 話者適応学習の考察 話者に起因する特徴はすべて正規化されるのか? → No! 線形回帰で表せる特徴のみが正規化される。 話者性(話者に起因する特徴)が非線形ならば残る → 他の正規化手法と併用が望ましい。 STCと併用 話者性のみが正規化されるのか? → No! 線形回帰で表せる特徴はすべて正規化される。 音韻性も含まれた状態で正規化が行われる可能性。 ○ 録音環境の違いが線形ならば、それの正規化にも利用可 SATとSTCによる平均声モデル学習 従来法 提案法 Context Dependent Model (SI) Context Dependent Models (SD) 決定木に基づく コンテキストクラスタリング 共有決定木 コンテキストクラスタリング Tied Context Dependent Model (SI) Tied Context Dependent Model (SI) パラメータ再推定 話者適応学習 Average Voice Model Average Voice Model SI : 不特定話者モデル SD : 特定話者モデル (学習話者毎) SATとSTCの評価実験 話者適応後の音声の自然性の評価 Average Voice Model (NONE、 SAT、STC、STC+SAT) Speaker Adapted Model Speaker Dependent Model * 目標話者は学習話者に含まれていない 男女各3名 各話者異なる 150 文章で学習 目標話者 男性 MMY 女性 FTK 10 文章で適応 目標話者 男性 MMY 女性 FTK 450 文章で学習 SATとSTCの評価実験2 被験者 成人男性7名 評価音声 53文章からランダムに8文章を選択 提示方法 防音室内での両耳受聴(ヘッドホン) 評価方法 5段階の評価 5段階の評価 目標話者の分析合成音を基準に 各音声の話者性を以下のように判定 5 4 3 2 1 : 非常によく似ている : : : : 似ていない SATとSTCの評価結果2 男性 MMY 2.65 NONE 2.79 SAT 3.01 STC 3.52 STC+SAT 4.02 SD 1 NONE 2 3 5 女性 FTK 2.33 2.66 2.95 SAT STC 3.43 STC+SAT 3.84 SD 1 4 2 3 4 Score SD : 目標話者モデル 5 デモンストレーション (男性MMY) 「切符を買うのは自動販売機からである」 分析合成音 従来法によるモデル (NONE) SATのみを適用したモデル (SAT) STCのみを適用したモデル (STC) STCとSATを併用したモデル (STC+SAT) 目標話者モデル (SD) HSMMに基づく 話者適応アルゴリズム 隠れセミマルコフモデルに基づく スペクトル・F0・音韻継続長の 同時適応アルゴリズム HMM 隠れマルコフモデル(HMM) a11 a22 a33 aij a12 1 b1(ot) M1 , U1 2 b2(ot) M 2 , U2 a23 3 :遷移確率 b (ot):出力確率 b3(ot) M3 , U3 モデルパラメータ:遷移確率 出力確率密度関数(出力分布) Hidden Semi-Markov Model 隠れマルコフモデル(HMM) ・状態継続長分布を明示的に含んでいない →遷移確率やトレリスから計算可能。しかし近似精度は悪い 隠れセミマルコフモデル(HSMM) [J.D. Ferguson ‘80, S.E. Levinson ‘86] p1(d ) p2(d ) p3(d ) 1 2 3 b2(ot) b3(ot) b1(ot) pi(d ):状態継続長確率 bi (ot):出力確率 ・状態継続長分布を明示的に含んだHMM →状態継続長分布をより厳密にモデル化可能 ・通常のHMMと同様にモデル化可能 モデルパラメータ:出力確率密度関数(出力分布) 状態継続長確率密度関数(継続長分布) HSMMによるモデル化 HSMMの状態 i 出力分布 : bi (ot ) N (i ; i ) 2 p (d) N (m ; 状態継続長分布: i i i) 状態 p3(d ) 3 b3(o) p2(d ) 2 b2(o) HSMM b1(o) 1 p1(d ) d t 継続長分布 出力分布 O = fo1 ; o2 ; ; oT g が与えられたもとで td (i) … 観測系列 時刻 から に状態 に滞在する確率 i td+1 t N t X Y td (i) = td (j)aji pi (d) bi (os )t (i) j=1 j6=i s=td+1 time EMアルゴリズムによる再推定 尤度関数 P (Oj) = N X t X td (i) = (; ; m; 2 ) N :状態数 i=1 d=1 出力分布の再推定式 i = T X t X td (i) t=1 d=1 t X os s=td+1 T X t X i = T X t X td (i) t=1 d=1 d td (i) t=1 d=1 t X (os i )(os i )> s=td+1 T X t X d td (i) t=1 d=1 状態継続長分布の再推定式 m i = T X t X td (i) d t=1 d=1 T X t X t=1 d=1 i2 = td (i) T X t X td (i) (d mi )2 t=1 d=1 T X t X t=1 d=1 td (i) HSMMに基づく最尤線形回帰 [J. Yamagishi et. al. ‘04] HSMMの状態 i 出力分布 : bi (ot ) N (i ; i ) 2 p (d) N (m ; i i) 状態継続長分布: i > i = [1; > ] i W :出力分布の回帰行列 状態継続長分布の線形回帰 i = [1; mi ]> X :継続長分布の回帰行列 Acoustic Space Dimension 2 出力分布の線形回帰 例:出力分布の線形回帰 Average Voice Model Speaker A Acoustic Space Dimension 1 EMアルゴリズムによる再推定 HSMMに基づいたMLLR [J. Yamagishi et. al. ‘04] = W ;X = argmax P (Oj; ) 回帰行列の再推定式 (共有する分布の数:R) = (W ; X) W = fW i gN i=1 X = fX i gi=1 決定木を利用した区分線形回帰 3 Threshold 1 2 Target Speaker’s Model i = 1 i + 1 1 i = 2 i + 2 i = 3 i + 3 3 2 Average Voice Model 平均声モデルの分布を決定木をもとに いくつかのクラスタにわけ、区分線形回帰により適応 隠れセミマルコフモデルに基づく適応学習 HSMMの適応学習 [J. Yamagishi et. al. ‘05] 従来の話者適応学習 (SAT) HMMの出力分布(スペクトル,F0をモデル化)に 対してのみ適用可能 音韻継続長にも話者間の差異は存在 出力分布および状態継続長分布(音韻継続長をモデル化)を 同時に正規化するように適応学習アルゴリズムを拡張 p1(d ) p2(d ) p3(d ) 1 2 3 b2(ot) b3(ot) b1(ot) pi(d ):状態継続長確率 bi (ot):出力確率 HSMMの出力分布・継続長分布を同時にアフィン変換 するHSMMの最尤線形回帰(MLLR)アルゴリズムを利用 HSMMに基づく適応学習 [J. Yamagishi et. al. ‘05] 出力分布(スペクトル,F0をモデル化)かつ状態継続長分布 (音韻継続長をモデル化)の話者間の音響的差異を同時正規化 Speaker 1 Speaker 2 X1 W X2 Average Voice Model X3 W Speaker 3 学習話者の標準的な特徴を持つ 平均声モデルを想定 平均声モデルから各学習話者への 変換行列をMLLRにより求める W HSMMに基づくMLLRを利用 出力・継続長分布の変換行列 W i ・ X i を推定 MLLRの変換行列が正規化すべき 話者間の音響的差異を表すと仮定し HSMMのモデルパラメータ を学習 このステップの繰り返し 実験条件 話者適応 平均声モデル 性別依存モデル 男性:5 名 女性:4名 各話者450文章 目標話者 男性話者 MTK & 女性話者FTK 0∼24次メルケプストラム 特徴ベクトル 対数基本周波数 Δ, Δ2パラメータ HSMM コンテキスト依存モデル 5状態,left-to-rightモデル, SAT+STC 単一ガウス分布,対角共分散行列 最大継続長値 :各状態の平均+3(標準偏差) 話者の分布 9.0 Average mora/sec MHO 8.5 MSH MYI MMY FKS 8.0 MHT 7.5 FYM FKN MTK 7.0 4.0 FTY FTK 4.5 5.0 5.5 Average logarithm of F0 6.0 男性話者MTKと女性話者FTKを目標話者と設定 それ以外の話者を平均声モデル学習用の話者と設定 HSMMに基づくSATの効果 目標話者の適応データの尤度 Average log-Likelihood per frame 73 72 71 Both Output 70 Duration None 69 0 50 100 150 200 250 300 Number of Sentences 350 400 全特徴を同時正規化した場合が尤度がもっとも高い → 正規化が適切に行われている 450 平均声と話者適応後の音声の分布 Average mora/sec 9.0 8.5 Average Voice (Male Speakers) Average Voice (Female Speakers) 8.0 7.5 MTK(MLLR) MTK 7.0 4.0 FTK FTK(MLLR) 4.5 5.0 5.5 Average logarithm of F0 6.0 目標話者と似た平均値(対数基本周波数&mora/sec)に なっていることが確認できる 客観評価 特定話者方式との比較 対数基本周波数のRMSE 400 RMSE of logF0 [cent] Average Voice 350 SD MLLR 300 250 200 0 50 100 150 200 250 300 Number of Sentences 350 400 450 客観評価 特定話者方式との比較 メルケプストラム距離 Mel-cepstrum Distance [dB] 8 SD MLLR 7 Average Voice 6 5 4 0 50 100 150 200 250 300 Number of Sentences 350 400 450 客観評価 特定話者方式との比較 音素継続長のRMSE RMSE of Vowel Duration [frame] 11 SD MLLR 10 9 8 Average Voice 7 6 5 4 0 50 100 150 200 250 300 Number of Sentences 350 400 450 主観評価試験1 各特徴量の変換の効果 被験者 成人男性8名 評価音声 53文章からランダムに5文章を選択 提示方法 防音室内での両耳受聴 CCRテスト 評価方法 目標話者の分析合成音声と比較し、 合成音声の話者性を以下の5段階で判定 「5:非常に良く似ている」 「4:似ている」 「3:違いはあるが似ている」 「2:似ていない」 「1:全く似ていない」 主観評価結果1 各特徴量の変換の効果 よく似ている 5 4 3.6 3.3 3 2 1.6 2.5 2.9 2.6 1.5 1.6 1.5 全く似ていない 1 Spectrum F0 Duration SD SD SD Average Voice Adaptation 主観評価試験2 話者適応後の音声の類似度の評価 被験者 8名 評価音声 53文章からランダムに4文章を選択 提示方法 防音室内での両耳受聴 評価方法 ABX法 (自然性が高い方を選択) 主観評価試験2 各特徴量の変換の効果 Spectrum Spectrum +F0 Spectrum +F0 +Duration 0 10 20 30 40 50 60 70 80 90 100 Score (%) スペクトル・F0・音韻継続長の同時変換が 重要であることが確認できる デモンスレーション(男性話者MTK) 5 4 3.6 3.3 3 2 1.6 2.5 2.9 2.6 1.5 1.6 1.5 1 Spectrum F0 SD SD Duration SD Average Voice Adaptation 分析合成音声 デモンストレーション:様々な話者の音声 デモンストレーション:様々な話者の合成音声 (適応データ:50文章) 男性話者MHT ① ② 男性話者MYI ① ② 男性話者MMI ① ② ① ② 女性話者FTK まとめ まとめ 話者を所望の話者に容易に変換できる音声合成システムの 実現を目指し、 平均声を用いた音声合成方式を検討 平均声に用いた音声合成: HMM音声合成 + 平均声モデル作成のための話者正規化技術 + 平均声モデルを目標話者のごく少量の音声データをもとに 目標話者へ変換する話者適応技術 話者正規化技術 パラメータ共有 共有決定木コンテキストクラスタリング(STC) パラメータ推定 話者適応学習(SAT) まとめ(続き) まとめ(つづき) 話者適応技術 スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に基づく話者適応 話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification 話者正規化技術は音声合成の品質を大きく改善 スペクトル・F0・音韻継続長の同時適応は重要 合成音声の品質は特定話者方式とほぼ同等 今後の課題 今後の課題 合成音声の品質の向上 オンライン学習 音声合成のパーソナライゼーション 話し言葉や方言への対応 本発表に関する論文リスト ジャーナル論文 1. J. Yamagishi and T. Kobayashi, “Simultaneous Speaker Adaptation Algorithm of Spectrum, Fundamental Frequency and Duration for HMM-based Speech Synthesis,” IEICE Trans. Information and Systems. (in preparation) 2. J. Yamagishi, Y. Nakano, K. Ogata, J. Isogai, and T. Kobayashi, “A Unified Speech Synthesis Method Using HSMM-Based Speaker Adaptation and MAP Modification”, IEICE Trans. Information and Systems. (in preparation) 3. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-based Speech Synthesis,” IEICE Trans. Information and Systems, E88-D, vol.3, pp.503–509, March 2005. 4. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method of Average Voice Model for HMM-based Speech Synthesis”, IEICE Trans. Fundamentals, E86-A, no.8, pp.1956–1963, Aug. 2003. 5. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Models”, IEICE Trans. Information and Systems, E86-D, no.3, pp.534–542, March 2003 本発表に関する論文リスト (つづき) 査読付き国際会議 1. J. Yamagishi, K. Ogata, Y. Nakano, J. Isogai, and T. Kobayashi, “HSMM-based Model Adaptation Algorithms for Average-Voice-based Speech Synthesis”, Proc. ICASSP 2006, May 2006 (submit). 2. J. Yamagishi, and T. Kobayashi, “Adaptive Training for Hidden Semi-Markov Model”, Proc. ICASSP 2005, vol.I, pp.365–368, March 2005. 3. J. Yamagishi, T. Masuko, and T. Kobayashi, “MLLR Adaptation for Hidden Semi-Markov Model Based Speech Synthesis”, Proc. ICSLP 2004, vo.II, pp.1213–1216, October 2004. 4. J. Yamagishi, M. Tachibana, T. Masuko, and T. Kobayashi, “Speaking Style Adaptation Using Context Clustering Decision Tree for HMM-based Speech Synthesis”, Proc. ICASSP 2004 , vol.I, pp.5–8, May 2004. 5. J. Yamagishi, T. Masuko, and T. Kobayashi, “HMM-based Expressive Speech Synthesis – Towards TTS with Arbitrary Speaking Styles and Emotions,” Special Workshop in Maui (SWIM) , January 2004. 6. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Modeling of Various Speaking Styles and Emotions for HMM-based Speech Synthesis”, Proc. EUROSPEECH 2003, vol.III, pp.2461–2464, September 2003. 7. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method for Average Voice Model Based on Shared Decision Tree Context Clustering and Speaker Adaptive Training”, Proc. ICASSP 2003, vol.I, pp.716–719, April 2003. 8. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Model in HMM-based Speech Synthesis”, Proc. ICSLP 2002, vol.1, pp.133–136, September 2002.
© Copyright 2024 Paperzz