言語モデルからの文生成による音声合成コーパス用 テキスト設計の検討 *

言語モデルからの文生成による音声合成コーパス用
テキスト設計の検討 *
◎ 全 炳河 †‡
徳田 恵一 †
河井 恒 ‡
(名工大 † , ATR 音声言語コミュニケーション研究所 ‡ )
表 1.生成した文章と学習テキストより選択した文章の比較
はじめに
音声合成用のコーパスを設計する際, どのように読
み上げテキストを設計するかが大きな問題となる. 音
声データベースはできるだけ少ない時間で, 実際の音
声現象を可能な限りカバーするものが望ましい. これ
まで, 大量のテキストから音韻バランス [1], 音韻バラ
ンスと韻律バランス [2] を考慮し, エントロピー最適
化基準を用いて文章を選択する手法 [3] が提案されて
いる.
こうした手法を用いて選択した文章は, 必然的に母
集団とした大量のテキストに含まれる. しかし, 設計
したテキストを用いて音声コーパスを作成し, これを
広く配布しようとする場合, 用いたテキストの著作権
が問題となってくる. また, 母集団とするテキストの
量が増加すれば, 選択されるテキストの音韻・韻律バ
ランスが向上すると考えられるが, テキスト選択に要
する時間は非現実的なものとなってしまう.
そこで本稿では, 実在する大量のテキストから直接
選択するのではなく, テキストを言語モデルとして学
習した後, これより大量の文章を生成しテキスト選択
の際の母集団とする手法を提案する. 言語モデルは学
習に用いた大量のテキストのコンパクトな表現とみな
すことができ, 生成される文章は学習テキストを精度
良く近似できると考えられる. また, 学習データ中に
存在しないテキストを生成することも可能である. 本
稿では, 言語モデルより大量のテキストを生成し, これ
より選択したテキストが音声合成用コーパスとして利
用可能かを検討する.
1.
言語モデルからのテキスト生成
本研究では, 言語モデルとして n-gram モデルを用
いた. 学習テキストの各文章には始端記号と終端記号
を付加し, 学習を行う. 学習した n-gram モデルから文
章を生成する手順を以下に示す.
2.
Step. 0 初期値として学習の際用いた始端記号を与
える.
Step. 1 言語モデルの確率に従い, 直前の n − 1 個の
単語から次の単語をランダムに選択する.
Step. 2 終端記号が選択されるまで, Step. 1 を繰り
返す.
3.
実験
作成した言語モデル
本稿では, 日本経済新聞のテキスト (約 854 万文章)
を用いて, 単語 4-gram モデルを学習した. 言語モデル
の学習には CMU-SLM-Toolkit [4] を用いた. back-off
スムージングを行い, 未知 n-gram の値を推定した. 言
語モデルの語彙数は 5 万語である. 学習テキスト全体
3.1
音節数
合成単位数
単語数
延べ
異なり
異なり
延べ
異なり
生成した文章
選択した文章
33,990,437
1,887
38,525
10,744,855
39,094
43,270,533
2,967
60,271
11,551,894
89,066
で出現した語彙は約 24 万語で, 言語モデルの語彙カ
バー率は 21.0%である.
テキスト抽出実験
言語モデルより生成した文章が音声合成コーパス用
読み上げテキストとして利用可能か検討するため, テ
キスト抽出実験を行った.
学習した言語モデルより約 100 万文生成し, これを
用いて実験を行った. 文生成に要した時間は, 約 1 週
間である. 以下に, 生成された文の例を示す.
3.2
• 日経産業新聞の主要記事に加え、日本は四大会とも六
•
•
•
•
•
•
•
•
日のニューヨーク商品取引所法の改正で、九九年三月
期通期の経常利益は一三五円増配。
しかし、今年の年末には七百三十一日には一時七八〇
〇〇年末まで。
同社は同日までに同社が開発した。
重量鉄骨加工品の販売比率は七割減の八十九万八千ト
ン強の百八十四万八千六百円で同九千円、三年後の黒
字化を目指す。
企業に投資する場合、これまでの一年間に使う医療
情報システム、技術や企業間の人材交流を促進する狙
いだ。
同社はいえ、現在のメンバーは次の時代に入ってから
は、本体からスピンアウトしてくる。
国際化し、生産を始める。
営業利益は三十。
CMを流す。
• すでに、欧米中心主義を貫くことがない。
生成した文章より重複及び言語モデルの学習に用い
たテキストと一致するものを除いた, 641,287 文章を
実験に用いた. 比較のため, 言語モデルの学習に用い
たテキストよりランダムに選択した文章 641,287 文に
ついても実験を行った.
表 1 に, 生成した文章と選択した文章の音節数, 合成
単位数, 単語数 (記号・句読点除く) を示す. ここで, 音
節とは [C]V∗ の型式である. 但し, C は子音, V は母音
d を表し, [C] は C がない場合があり得ることを示し,
V∗ は一つ以上の母音の連鎖を表す. また, 合成単位は
前後の環境に依存した音節である. 選択した文章は生
成した文章と比較して, 音節数, 合成単位数, 単語数と
もに多く, 広いカバレッジを持つと思われる. 合成単
∗ Designing texts for speech synthesis corpus by sentence generation from language model
By Heiga Zen†‡ , Keiichi Tokuda† , and Hisashi Kawai‡ ( † Nagoya Institute of Technology, ‡ ATR-SLT )
表 2.生成した文章より抽出したテキストにおける文数と
音素数, カバレッジ
文数
音節数
カバレッジ
文数
音節数
カバレッジ
100
200
500
1,000
2,000
5,000
13,937
26,486
62,326
113,886
205,263
417,847
64.7 %
74.4 %
84.2 %
89.4 %
93.0 %
95.7 %
100
200
500
1,000
2,000
5,000
10,442
20,314
48,535
92,894
177,413
411,885
61.1 %
71.9 %
83.1 %
89.1 %
93.2 %
96.2 %
位数は, 単語内環境依存音節数と単語間環境依存音節
数のより決まり, また単語内環境依存音節数はテキス
トの語彙数 (表中の単語の異なり数に相当) により決
まる. ロバストな言語モデルを学習するには, ある程
度語彙数を制限する必要がある. このため, 生成した
文章では合成単位の異なり数が選択した文章と比較し
て少なくなっていると思われる. また, 音節数及び単
語数が生成した文章では減少していることから, 学習
に用いたテキストと比較して短い文章が生成されてい
ると思われる.
生成した文章及び選択した文章より, テキスト抽出
実験を行った. 合成単位及び F0 ・音素持続時間の組の
出現頻度, 文セットを構成する文の数, 及び文セットの
元となるテキストデータベースが与えられたときに,
音素環境及び F0 ・音素継続時間のカバレッジが準最
適になるような文セットを作成するアルゴリズム [2]
を用いて, テキストを選択した.
選択の際に用いる出現頻度分布は, 以下のようにし
て作成した. 言語モデルの学習に用いたテキスト中よ
り, 200 万文 (音素数 135,366,375) をランダムに選択
し, TTS を用いて形態素解析した. 更に音素記号及び
韻律記号の列に変換し, 合成単位列と F0 ・音素持続時
間を生成した. 次に合成単位及び各合成単位の F0 ・
音素持続時間の出現頻度を調べ, 出現頻度分布を得た.
得られた合成単位の異なり数は 93,280 であったが, 計
算時間短縮のため, 出現頻度上位 5053 位 (累積出現頻
度 96.8%) までの合成単位を採用した.
次に, 生成した文章及び選択した文章より, 読み上げ
にくいと思われる文を排除した. 排除の条件は, 次の 5
つである.
(1)
(2)
(3)
(4)
句点で終了していない.
読み上げ困難な記号を含む.
10 文字未満である.
75 文字以上である.
上 記 の 条 件 に 当 て は ま る 文 章 を 除 い た, 生 成 し た
文章及び学習テキストより選択した文章それぞれ
578,872 文 (音素数 30,117,565), 628,080 文 (音素数
43,056,984) をテキスト選択の母集団とした.
実験結果
生成した文章及び選択した文章より抽出したテキ
ストセットの音素数及び出現頻度分布にたいするカ
バレッジを表 2,3 に示す. 表より, 生成した文章と選
択した文章のカバレッジは, ほぼ同等の性能を持つこ
とが確認できる. 文数が少ない場合 (100 文から 1,000
文) では, 生成した文章から抽出したテキストが, 選択
3.3
表 3.選択した文章より抽出したテキストにおける文数と
音素数, カバレッジ
した文章から抽出したテキストと比較してより広いカ
バレッジを有している. 特に 100 文では, カバレッジ
に 3.6%もの開きがある. 文数が多くなるにつれその
差は縮まり, 2,000 文では逆転している. 生成した文章
中には一単語のみ異なる文章など, 音韻・韻律的に非
常に近い文章が大量に含まれていた. このため, 文数
が少ない場合は学習テキスト全体を良く近似した文章
が選ばれ, 広いカバレッジを持つテキストが抽出され
たと考えられる. しかし文数が増えるに従い, 音韻・韻
律的に既に選択した文章と非常に似通った文章の中か
らテキストを選択することになる. この問題は選択し
た文章の場合も生じるが, 生成した文章ではより顕著
に現れると考えられる.
4. まとめ
本稿では, 音声合成コーパス用読み上げテキストを
設計する際に, 言語モデルより生成した文章がテキス
ト選択の際の母集団として利用可能か検討を行った.
言語モデルより生成したテキストは, 学習に用いたテ
キストより選択した文章と比較して, 合成単位数や語
彙数が少ない傾向にあった. しかし, テキスト選択ア
ルゴリズムを用いて選択した文章の音素数やカバレッ
ジは, 生成したテキストと学習に用いたテキストに大
きな違いは存在しなかった. テキスト選択時の排除条
件 (文字数の制限など) をテキスト生成時に考慮する
ことにより, より適切な文章を効率良く生成できると
考えられる. 今後の検討課題としては, 設計したテキ
ストを用いたコーパス作成及びこれを用いた音声合成
があげられる.
謝辞
本研究は通信・放送機構の研究依託「大規模コーパ
スベース音声対話飜訳技術の研究開発」により実施し
たものである.
参考文献
[1] 阿部 匡伸, 匂坂 芳典, 梅田 哲夫, 桑原 尚夫, “研究用日本語音声
データベース利用解説書”, ATR 自動翻訳電話研究所テクニカ
ルレポート, TR-I-0166, 1990-9.
[2] 河井 恒, 樋口 宣男, 山本 誠一, “基本周波数及び音素持続時間長
を考慮した音声合成用波形素片データセットの作成”, 電子情報
通信学会論文誌 (D-II), vol.J82-D-II, (8), pp.1229–1238, August
1999.
[3] 磯 健一, 渡辺 隆夫, 桑原 尚夫, “音声データベース用文セットの
設計”, 音響学会講演論文集, 2-2-19, 1988-3.
[4] http://www.speech.cs.cmu.edu/SLM info.html.