定番の音声合成方式 「テキスト読み上げ」のメカニズム

第
7章
データをつないで言葉を表現!
アクセントや息継ぎも加えてナチュラルに
定番の音声合成方式
「テキスト読み上げ」のメカニズム
高橋 隆雄,山崎 信英
ここでは,音声合成の基本方式である録音編集方式とテ
品質,動作環境も異なります.自動車がエンジンの種類や
キスト読み上げ方式(TTS)の仕組みを解説します.
駆動方式,ボディ形状などのさまざまな観点から分類され
るように,音声合成技術も,一元的に分類することはでき
(編集部)
ません.実際の音声合成システムは,複数の技術が絡み合っ
て構成されているので,着目する視点によって異なる分類
方法があります.そこで,基本的な音声合成の処理として
二つの音声合成方式
録音編集方式とテキスト読み上げ方式の二つを紹介します.
かつて,コンピュータを「しゃべらせる」ことは一種の憧
音声合成の仕組みを理解すれば,その違いをいっそう理解
れでした.パソコンがまだ 8 ビットで,せいぜいビープ音
できると思います.
程度しか出ないころであっても,パソコンにしゃべらせよ
● 方式 1:テキストを入力するだけで自然な文章を
うという試みはさまざまな方法で行われてきました.近頃
しゃべる「テキスト読み上げ方式(TTS)」
のパソコンは,音声や音楽,動画をも再生できるような処
昨今では,文章を読み上げさせ,なるべく自然な発音に
理速度を持ったため,パソコンでの音声合成はそれほど難
しようという技術がさらに進歩してきています.これはテ
しいものではなくなりました.
キスト・トゥ・スピーチ(Text To Speech)と呼ばれ,略
最近になって音声合成の機能はパソコンの枠を超え,今
して TTS ともいわれます.TTS はテキストを入力すると,
やマイコンでも十分に扱えるようになってきています.こ
ソフトウェアで音声を読み上げて出力します.パソコン上
れは図 1 に示すように,マイコンの性能が上がったことと,
でアナウンスを作成したり,あるいは Web コンテンツなど
コンパクトな音声合成処理アルゴリズムが普及してきたこ
のテキストを読み上げたりするのに使われています.極端
とによります.
な例としてはテレビのナレー ショ ンをすべてこの TTS に
● 録音編集方式とテキスト読み上げ方式がある
よって生成している場合もあります.
音声合成の方式にはさまざまなものがあります.各社か
このような技術は昨今のパソコンやスマートフォンなど
らいろいろな音声合成システムが出されていますが,合成
で使われることが多くなっており,メールや Web ページを
パソコンのCPUの
処理速度が向上したため,
高音質になった
音声合成アルゴリズムと
マイコンの処理速度が向上した
ため,十分使えるようになった
8ビット・パソコン
最近のパソコン
ワンチップ・マイコン
ビープ音
音声,音楽や動画
音のかけらを
つないだそこそこの音
図 1 ワンチップ・マイコンでもそれなりにちゃんとしゃべれる
マイコンの性能が上がり,コンパクトな音声合成処理アルゴリズムが普及してきたことで音声合
成をマイコンでも扱えるようになった
Oct. 2012
写真 1 テキストをシリアルで受信すると
音声に変換する IC「ATU3011F4-PU」
ATU3011F4-PU,Text to Speech,音節,音素,波形合成
89