∼テキスト音声合成技術とピッチパターン生成過程モデルの効果的利用∼

日本語音声教育のための韻律読み上げチュータの開発
∼テキスト音声合成技術とピッチパターン生成過程モデルの効果的利用∼
峯松信明・橋本浩弥・齋藤大輔(東大)・平野宏子(東京外大)
学習者が参照する読み情報と機械が参照する読み情報
機械が読んでいるテキストをより分かり易く可視化
日本語教育における読み指導とテキスト音声合成技術
ピッチパターンを滑らかに表示したい
学習者に対して行なわれる読み指導
無声・有声区間を区別せず,フレーズ単位で滑らかに描画したい
与えられたテキストをなるべく自然に読めるように
基本周波数(F0)パターン生成過程モデルの利用
母語話者のような発音を目指すことはまれ
音高制御を司る筋モデルから導出された,F0パターンの数式モデル
機械に対して行なわれる読み指導(=スパルタ発音指導?)
アクセント成分+フレーズ成分の足し合わせとして表現
与えられたテキストをなるべく自然に読めるように
F0モデルを用いて,教師が示したい「ピッチパターンイメージ」を描画
母語話者のように読めないと商品にならない
可視化した韻律情報に添って読み上げた音声を提供したい
学習者に呈示される読み情報 ∼これじゃ読めない!?∼
韻律シンボル付きテキスト(JEITAフォーマット)読み上げモジュール
仮名漢字混じり文+ルビ(読み仮名)
(株)KDDI研究所が提供する「N2」TTSライブラリの利用
複数の話者(男女)/話速制御可能
ピッチパターンが付与される場合もあるが,やはりそのテキストのみ
PHRASE COMMANDS
Ap
機械に呈示される読み情報 ∼読むために必要な全ての情報∼
Gp (t)
PHRASE
CONTROL
MECHANISM
t
任意の仮名漢字混じり文に対する音素表記+α
F0モデル
「は→わ」「へ→え」「えい→えー」など,より忠実な読み情報へ
Aa
無声化すべき母音(モーラ)を明示的に表示(→ %)
loge F0 (t)
loge Fb
t
FUNDAMENTAL
FREQUENCY
CONTOUR
Ga (t)
ACCENT
CONTROL
MECHANISM ACCENT
COMPONENTS
t
+
アクセント成分
PHRASE
COMPONENTS
loge Fb
ACCENT COMMANDS
フレーズ成分
=
音声CDが付与される場合もあるが,そのテキストの音声のみ
両者の足し合わせ
アクセント核の位置を明示的に表示(→ )
Figure 3: A functional model for the process of generating F0 contours.
アクセント句境界,イントネーション句境界の位置を明示的に表示
韻律読み上げチュータによる「読み」表示
For the rest of this paper we shall re-define an F contour to be
テキストの裏に隠れた(階層的)韻律情報を文字化してテキスト付与
the contour of the logarithm of F (t), viz. log F (t).
0
0
0
Based on these assumptions, a model is constructed for the
generation process of the F0 contours of utterances of Common
グリーンでございます。みなさま,本日はお忙しい中,お集まりくださいまして,ありがとうございます。Japanese, and is shown in Fig. 3.
In this model, the F0 contour can be expressed by
このような席で,日本語でお話しするのは初めてですので,失礼がありましたら,お許しください。
loge F0 (t) = loge Fb +
i=1
ぐり'ーんで/ございま'す%.みな'さま_ほ'んじつわ/
+
J
!
j=1
おいそがしーな'か_おあつまりくださいま'し%て_あり'がとーございます%.
Ga (t) =
"
Api Gp (t − T0i )
(1)
Aaj {Ga (t − T1j ) − Ga (t − T2j )}
Gp (t) =
このよ'ーな/せ'きで_にほんごで/おはなしする'のわ/はじ'めてですので_
し%つ'れーが/ありま'し%たら_おゆるし%くださ'い.
I
!
"
α2 t exp(−αt),
0,
t ≥ 0,
t < 0,
min[1 − (1 + βt) exp(−βt), γ],
0,
(2)
t ≥ 0,
t < 0.
By the technique of Analysis-by-Synthesis, it is possible
to decompose a given F0 contour into its constituents, i.e., the
phrase components and the accent components, and
estimate
他の文を使った可
the magnitude and timing of their underlying commands by deconvolution, as shown in Fig. 4.
視化+音声合成の
The two positive phrase commands correspond to the sub例はこちら。
ject phrase and the predicate phrase, respectively, while
the negative phrase command toward the end of the utterance corresponds to the utterance-final fall in F0 . The accent commands,
which are always positive in the case of Common Japanese, correspond to the prosodic words. The model-generated F0 contour is so close to the measured F0 contour that they are perceptually indistinguishable in synthetic speech.
Thus the model can predict and generate from a set of commands, not just a few points on the F0 contour such as its peaks
and valleys subjectively selected, but the entire contour. Moreover, the close agreement of the model’s output with the mea-
(3)
/ = ポーズ無しアクセント句境界,_ = ポーズ付きアクセント境界(イントネーション句境界)where Gp(t) represents the impulse response function of
the phrase control mechanism and Ga(t) represents the step response function of the accent control mechanism. The symbols
in these equations indicate
WAVEFORM
[Hz]
F0 (t)
240
180
FUNDAMENTAL
FREQUENCY 120
Aoi
aoinoewa
yamanouenoieni
aru.
Fb
60
韻律読み上げチュータ導入�の様々な効果
OJADの一機能として公開 → その直後からアクセス数激増
ICJLE2014(2014年8月)にて音声出力機能を一般公開
OJADへのアクセス数が劇的に増加
週
単
位
で
の
ア
ク
セ
ス
数
OJAD = Online Japanese Accent Dictionary
Fb :
I :
J :
Api :
Aaj :
T0i :
T1j :
T2j :
α :
β
γ
可視化(視覚的意識付け)による効果大
正直、イントネーションだけは直せない、これはしかたがないものだ、とずっと思っていました。しかし、直せるんですね!!!
OJADを使って、試してみたところ、学生の発音がきれいに直ってびっくりしました。まず、イントネーションカーブを載せた
日本語の質問リストを学生に配布し、学生同士で問答のやりとりをしてもらいました。次に、教室のスライドに大きくカーブを
映しました。最初に私が発音して、学生は教室のスライドに映ったカーブをみながらそれを聞きました。続いて、学生に、カー
ブをみながら発音してもらいました。やってみたら、びっくりです。劇的に良くなりました!!! みんなとても自然に発音してい
実際の学習効果を用いた Promotion Video
INTERSPEECH2013での展示用に作成したビデオ
北京での講習会(x3)に対する反響
OJAD講習会の実施の様子を伝えるビデオ(笈川ら作成)
PHRASE
COMPONENT
0.5
1.0
1.5
2.0
2.5
t
2.0
1.5
IINNTTEERROOPP22001155にて展示します!!!!
1.0
Ap
PHRASE
COMMAND
0.0
0.5
1.0
1.5
2.0
2.5
t
0.5
OJADを,Webシステムからスマホ・タブレットアプリへ
0.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
2.0
ACCENT
1.5
COMPONENT
1.0
t
ネットインフラ不要のアプリ開発に対する要望多数
0.0
0.5
1.0
1.5
2.0
2.5
0.0
0.5
1.0
1.5
TIME [s]
2.0
2.5
t
一研究室でのメンテナンスが困難に → ITベンチャーの協力必須
Parameters α and β are assumed to be constant at least within
an utterance, while the parameter γ is set equal to 0.9. A rapid
downfall of F0 , often observed at the end of a sentence and occasionally at a clause boundary, can be regarded as the response
of the phrase control mechanism to a negative impulse for resetting the phrase component.
現場教師からの嬉しい報告(北米より)
て、信じられませんでした!!!ビデオに撮ればよかったー!!!と後悔しています。カーブを視覚化するという効果は絶大ですね。
baseline value of fundamental frequency,
number of phrase commands,
number of accent commands,
magnitude of the ith phrase command,
amplitude of the jth accent command,
timing of the ith phrase command,
onset of the jth accent command,
end of the jth accent command,
natural angular frequency of the phrase control
mechanism,
: natural angular frequency of the accent control
mechanism,
: relative ceiling level of accent components.
0.0
Aa
ACCENT
COMMAND
0.5
0.0
t
Figure 4: Analysis-by-Synthesis of an F0 contour of the
Japanese declarative sentence: Aoi aoinoewa yamanouenoieni
aru. The figure illustrates the optimum decomposition of a given
F0 contour into the phrase and accent components, and also
shows the underlying commands for these components.
INTEROP2015展示に向けた準備をしています
ITベンチャーに対して魅力ある
プレゼンをする必要があります
多くのユーザの存在を示すこと
が単価削減に繋がります!!
講習会の様子,教室での利用の
様子など,OJAD活用の様子を
写真・動画で募集しています
OJADアプリに対する要望についても受け付けています
OJAD講習会では,様々な要望が示されます
連絡先メアド
読み上げチュータの「ローマ字表記」のサポート
「フレーズ単位での読み上げ」のサポート
単語検索機能における,名詞+助詞(=文節)の導入
OJAD講習会参加者による講習会独自開催&教材開発
などなど → IT-ベンチャーに対して要望を示すチャンスです!!
OJADメンバーによる全世界での講習会開催(60回以上)
参加者による自主的な講習会開催へ(Indonesia, Ukraine)
AJALTが開発する教科書のピッチパターン描画を担当
各地のコンテストにて,参加者の愛用ツールに
モスクワでのスピーチコンテスト優勝
中国大会の選抜者による日本国内の本戦にて,参加者愛用のツールに
OJAD(の4機能)の体験デモページはこちら
クリック(PC)orタップ(tablet)だけで全機能を体験
謝辞 ∼ユーザの皆様へ∼
OJADは現場教師からの助言によって現在に至っています。
ここに感謝申し上げますと共に,今後とも宜しくお願い申し上げます。