言語モデルからの文生成による音声合成 コーパス用テキスト設計の検討

全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
言語モデルからの文生成による音声合成
コーパス用テキスト設計の検討
1,2
全 炳河,
1
徳田 恵一, 河井 恒
1 名古屋工業大学 ATR-SLT
2
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
2
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
背景
音声合成用コーパス用読み上げテキストの設計
– 少ない時間で実際の音声現象をできるだけカバー
– 大量のテキストから音韻・韻律を考慮して選択
– 母集団文章数増加 → 選択テキストの精度向上
– 収録したコーパスを広く配布
→ テキストの著作権が問題
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
目的
言語モデルより生成したテキストの利用
– 大量のテキストを用いて言語モデルを学習
→ 大量のテキストをコンパクトに表現
– 言語モデルよりテキストを生成
→ 生成したテキストは学習データをよく近似
– 生成したテキストを選択の母集団とする
– 著作権の問題をある程度解決
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
作成した言語モデル
• 使用したツールキット
– CMU-SLM-Toolkit
• 学習データ
– 日本経済新聞のテキスト 約854万文章
• 言語モデル
– 単語 4-gram
– 語彙数 5万(学習データ全体の語彙数 約24万)
– 未知N-gram確率 back-off スムージングで推定
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
単語N-gramモデルからのテキスト生成
テキスト生成の手順
1. テキストに始端記号及び終端記号を付加し学習
2. 始端記号を初期値とする
3. 言語モデルの確率に従い,次の単語を選択
4. 選択された記号が終端記号であれば終了
5. 3に戻る
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
テキスト抽出実験
• 言語モデルより約100万文生成
(例) 「同社は同日までに同社が開発した。」
「国際化し、生産を始める。」
「すでに、欧米中心主義を貫くことがない。」
• 抽出実験に用いるテキスト
– 重複及び学習データと一致するテキストを除去
– 生成したテキスト 641,287文章
– 学習に用いた文章より選択した 641,287文章
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
母集団とするテキストの比較
それぞれテキスト選択の母集団とした641,287文
生成した文章
学習データより
選択した文章
音節数
( [C]V* )
延べ
異なり
33,990,437
1,887
43,270,533
2,967
合成単位数
異なり
38,525
60,271
単語数
延べ
異なり
10,744,855
39,094
11,551,894
89,066
全体的に選択したテキストの方が良い → 語彙数の違いによる
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
テキスト抽出法
• 読み上げにくい文章を排除
– 句点で終了してない、読み上げ困難記号を含む
– 長さが10文字未満,75文字以上
生成したテキスト : 578,872文
選択したテキスト : 628,080文
• 音素環境及びF0・音素継続時間のカバレッジ
を考慮してテキスト選択 [河井ら;1998]
–
–
–
–
TTSを用いてF0、継続時間長を推定
合成単位・F0・継続時間長の出現頻度分布
カバレッジを最大化するテキストセットを選択
今回は200万文を用いて出現頻度分布を作成
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
抽出したテキストの比較
生成した文章より抽出
文章数
音節数 カバレッジ
100 13,937
200 26,486
500 62,326
1,000 113,886
2,000 205,263
5,000 417,847
64.7 %
74.4 %
84.2 %
89.4 %
93.0 %
95.7 %
学習データ中よりランダムに
選択した文章より抽出
文章数
音節数 カバレッジ
100 10,442
200 20,314
500 48,535
1,000 92,892
2,000 177,413
5,000 411,885
61.1 %
71.9 %
83.1 %
89.1 %
93.2 %
96.2 %
文章数 少 → 生成した文章より選択したテキストが広いカバレッジ
文章数 多 → 学習データ中より選択したテキストが広いカバレッジ 2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
まとめ
• 言語モデルよりテキストを生成
• 音声合成コーパス用テキストとして利用可能か検討
– 合成単位のバリエーションが言語モデルの語彙数に依存
– 文数が少ない場合、従来法より広いカバレッジ
– 文数が多い場合、従来法より小さいカバレッジ
→ 語彙数等を検討する必要あり
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会
全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」
今後の課題
• 読み易さの検討
– ランダム生成するため、脈絡のない文章が多い
– 発話者が読み難い文章の排除
• テキスト生成の効率化
– テキスト抽出時の選択基準を生成時に考慮
– 尤度最大化基準によるテキスト生成
2003年 3月18日 音声B 1-6-18
日本音響学会春季研究発表会