全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 言語モデルからの文生成による音声合成 コーパス用テキスト設計の検討 1,2 全 炳河, 1 徳田 恵一, 河井 恒 1 名古屋工業大学 ATR-SLT 2 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 2 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 背景 音声合成用コーパス用読み上げテキストの設計 – 少ない時間で実際の音声現象をできるだけカバー – 大量のテキストから音韻・韻律を考慮して選択 – 母集団文章数増加 → 選択テキストの精度向上 – 収録したコーパスを広く配布 → テキストの著作権が問題 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 目的 言語モデルより生成したテキストの利用 – 大量のテキストを用いて言語モデルを学習 → 大量のテキストをコンパクトに表現 – 言語モデルよりテキストを生成 → 生成したテキストは学習データをよく近似 – 生成したテキストを選択の母集団とする – 著作権の問題をある程度解決 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 作成した言語モデル • 使用したツールキット – CMU-SLM-Toolkit • 学習データ – 日本経済新聞のテキスト 約854万文章 • 言語モデル – 単語 4-gram – 語彙数 5万(学習データ全体の語彙数 約24万) – 未知N-gram確率 back-off スムージングで推定 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 単語N-gramモデルからのテキスト生成 テキスト生成の手順 1. テキストに始端記号及び終端記号を付加し学習 2. 始端記号を初期値とする 3. 言語モデルの確率に従い,次の単語を選択 4. 選択された記号が終端記号であれば終了 5. 3に戻る 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 テキスト抽出実験 • 言語モデルより約100万文生成 (例) 「同社は同日までに同社が開発した。」 「国際化し、生産を始める。」 「すでに、欧米中心主義を貫くことがない。」 • 抽出実験に用いるテキスト – 重複及び学習データと一致するテキストを除去 – 生成したテキスト 641,287文章 – 学習に用いた文章より選択した 641,287文章 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 母集団とするテキストの比較 それぞれテキスト選択の母集団とした641,287文 生成した文章 学習データより 選択した文章 音節数 ( [C]V* ) 延べ 異なり 33,990,437 1,887 43,270,533 2,967 合成単位数 異なり 38,525 60,271 単語数 延べ 異なり 10,744,855 39,094 11,551,894 89,066 全体的に選択したテキストの方が良い → 語彙数の違いによる 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 テキスト抽出法 • 読み上げにくい文章を排除 – 句点で終了してない、読み上げ困難記号を含む – 長さが10文字未満,75文字以上 生成したテキスト : 578,872文 選択したテキスト : 628,080文 • 音素環境及びF0・音素継続時間のカバレッジ を考慮してテキスト選択 [河井ら;1998] – – – – TTSを用いてF0、継続時間長を推定 合成単位・F0・継続時間長の出現頻度分布 カバレッジを最大化するテキストセットを選択 今回は200万文を用いて出現頻度分布を作成 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 抽出したテキストの比較 生成した文章より抽出 文章数 音節数 カバレッジ 100 13,937 200 26,486 500 62,326 1,000 113,886 2,000 205,263 5,000 417,847 64.7 % 74.4 % 84.2 % 89.4 % 93.0 % 95.7 % 学習データ中よりランダムに 選択した文章より抽出 文章数 音節数 カバレッジ 100 10,442 200 20,314 500 48,535 1,000 92,892 2,000 177,413 5,000 411,885 61.1 % 71.9 % 83.1 % 89.1 % 93.2 % 96.2 % 文章数 少 → 生成した文章より選択したテキストが広いカバレッジ 文章数 多 → 学習データ中より選択したテキストが広いカバレッジ 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 まとめ • 言語モデルよりテキストを生成 • 音声合成コーパス用テキストとして利用可能か検討 – 合成単位のバリエーションが言語モデルの語彙数に依存 – 文数が少ない場合、従来法より広いカバレッジ – 文数が多い場合、従来法より小さいカバレッジ → 語彙数等を検討する必要あり 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会 全,徳田,河井 「言語モデルからの文生成による音声合成コーパス用テキスト設計の検討」 今後の課題 • 読み易さの検討 – ランダム生成するため、脈絡のない文章が多い – 発話者が読み難い文章の排除 • テキスト生成の効率化 – テキスト抽出時の選択基準を生成時に考慮 – 尤度最大化基準によるテキスト生成 2003年 3月18日 音声B 1-6-18 日本音響学会春季研究発表会
© Copyright 2024 Paperzz