音声翻訳システムにおける同時性と汎用性の改善

音声翻訳システムにおける同時性と汎用性の改善
音声翻訳システムにおける
同時性と汎用性の改善
奈良先端科学技術大学院大学
情報科学研究科
助教グラム・ニュービッグ
1
音声翻訳システムにおける同時性と汎用性の改善
背景
2
音声翻訳システムにおける同時性と汎用性の改善
音声翻訳システム
●
ある言語の音声から違う言語の音声へ翻訳
音声認識
こんにちは、駅はどこですか？
機械翻訳
Hello, where is the station?
音声合成
3
音声翻訳システムにおける同時性と汎用性の改善
遅延の問題
●
従来のシステムは 1 文の入力が終わるまで翻訳しない！
遅延
音声認識
こんにちは、駅はどこですか？
機械翻訳
Hello, where is the station?
音声合成
4
音声翻訳システムにおける同時性と汎用性の改善
本技術の目標：遅延の低減
●
1 文が完全に終わる前に適切なタイミングで翻訳開始
遅延：減少
音声認識
こんにちは、駅は
翻訳
翻訳
Hello,
合成
どこですか？
翻訳
the station where is it?
合成
合成
5
音声翻訳システムにおける同時性と汎用性の改善
想定される用途
●
●
講演やニュースの
リアルタイム通訳
音声翻訳を通した
会話・ミーティングの効率化
6
音声翻訳システムにおける同時性と汎用性の改善
従来技術：構文解析と手書きルール
[Ryu+ 04]
●
英日翻訳で、「倒置」現象に着目した手書きルール
subj
I went
prep
prep
to the park with your brother
「前置詞句が終わったら翻訳開始！」
翻訳
翻訳
私は公園に行きました
あなたの弟と
●
問題：両言語に精通した言語学者がルールを作成
●
問題：漸進的な構文解析という高度な解析技術が必要
7
音声翻訳システムにおける同時性と汎用性の改善
従来技術：音声のポーズ情報を利用
[Bangalore+ 12]
●
発話中のポーズに基づく翻訳タイミングの決定
音声認識
こんにちは、
駅はどこですか？
●
問題：言語的な知識を用いないため精度低減
●
問題：息継ぎの少ない人、言いよどみの多い人に不向き
8
音声翻訳システムにおける同時性と汎用性の改善
本技術
●
統計的機械翻訳で用いられる翻訳モデルに着目
●
●
●
●
＋データから自動構築可能
＋言語情報を利用
＋翻訳と同じ情報を利用するため相性が良い
具体的には
●
●
●
「フレーズ」と呼ばれる、翻訳に用いる単語列の区切
りで翻訳開始
「並べ替え確率」で同時性と精度のバランスを調整
「言語モデル適応」を行い、精度の低下を防ぐ
9
音声翻訳システムにおける同時性と汎用性の改善
フレーズベース
統計的機械翻訳（ SMT ）
●
文を翻訳可能な小さい塊に分けて、並べ替える
Today I will give a lecture on machine translation .
Today
I will give
今日は、を行います
Today
今日は、
a lecture on
の講義
machine translation
機械翻訳
machine translation
機械翻訳
a lecture on
の講義
I will give
を行います
.
。
.
。
今日は、機械翻訳の講義を行います。
●
翻訳モデル・並べ替えモデル・言語モデルをテキスト10
から統計的に学習
音声翻訳システムにおける同時性と汎用性の改善
単語の対応付け
●
文内の単語対応を発見
太郎が花子を訪問した。
太郎が花子を訪問した。
taro visited hanako .
taro visited hanako .
●
確率モデルによる自動学習が主流
日本語
日本語
日本語
日本語
日本語
日本語
日本語
日本語
日本語
日本語
日本語
日本語
English
English
English
English
English
English
English
English
English
English
English
English
P( 花子 |hanako) = 0.99
P( 太郎 |taro) = 0.97
P(visited| 訪問 ) = 0.46
P(visited| した ) = 0.04
P( 花子 |taro) = 0.0001
11
音声翻訳システムにおける同時性と汎用性の改善
フレーズ抽出
●
アライメントに基づいてフレーズを列挙
ホ
テ　受
ルの付
the
hotel
front
desk
ホテルの → hotel
ホテルの → the hotel
受付 → front desk
ホテルの受付 → hotel front desk
ホテルの受付 → the hotel front desk
音声翻訳システムにおける同時性と汎用性の改善
並べ替えモデル
●
単語の並べ替え方を確率的に表し、精度向上に貢献
●
現在の単語と次の単語の順番は 4 種類に分類：
順：順番は同じ
背の高い男
太郎を訪問した
the tall man
visited Taro
不連続（右）：
●
逆順：順番は逆
不連続（左）：
私は太郎を訪問した
背の高い男を訪問した
I visited Taro
visited the tall man
「順」と「不連続 ( 右 ) 」の確率の和は「右確率」
音声翻訳システムにおける同時性と汎用性の改善
言語モデル
●
目的言語側の各文に確率を与える
E1: Taro visited Hanako
P(E1)
E2: the Taro visited the Hanako
LM
E3: Taro visited the black paper
●
P(E2)
P(E3)
良い言語モデル：流暢性の高い文に高い確率を
P(E1) > P(E2)
P(E1) > P(E3)
音声翻訳システムにおける同時性と汎用性の改善
提案手法
音声翻訳システムにおける同時性と汎用性の改善
提案手法 1 ：
フレーズを用いた訳出タイミング決定
●
認識された単語を 1 語ずつ入力
●
単語列が翻訳モデルに存在する限り翻訳しない
翻訳モデル
hello→ こんにちは
where is→ どこですか
where→ どこ
the→ その
入力文字列
hello where
is the
“hello”
“hello where”
モデルに存在存在しない
↓
↓
保留
出力
“hello”
the station→ 駅
“where is” “where is the”
モデルに存在存在しない
↓
↓
保留
出力
“where is”
station
“the station”
発話終了
↓
出力
“the station”
音声翻訳システムにおける同時性と汎用性の改善
手法１の問題点
●
翻訳精度の低下につながる場合も
通常のフレーズベース翻訳
hello
where is
the station
こんにちは
駅　は
どこ　ですか
hello
where is
the station
こんにちは
どこですか
手法１を用いた場合
駅
は
音声翻訳システムにおける同時性と汎用性の改善
提案手法２：
右確率を用いた訳出タイミングの調整
●
まず、手法 1 を用いて訳出タイミングを仮確定
●
フレーズの右確率が閾値を上回った場合のみ本確定
例 ( 閾値 = 0.8):
hello where
“hello”
モデルに存在
↓
保留
●
is
the
station
“hello where”
“where is” “where is the”
“the station”
存在しない
モデルに存在存在しない
発話終了
↓
↓
↓
↓
“hello” を選択
保留 “where is” を選択
出力
↓
↓
“where is
右確率 0.9 > 0.8
右確率 0.6 < 0.8 the station”
↓
↓
出力 “ hello”
出力しない
閾値が 1.0 の場合は文ごと、 0.0 の場合はフレーズごと
音声翻訳システムにおける同時性と汎用性の改善
手法 2 の問題
●
言語モデルは基本、文ごとに学習される
●
●
文より短い単位の翻訳に向かない
例：文末表現を置く強い傾向
hello
where is
こんにちは。どこですか？
the station
駅です。
音声翻訳システムにおける同時性と汎用性の改善
提案技術 3 ：
言語モデルの適応
●
言語モデルを学習する前に、提案技術２を言語モデル
学習データに適応
従来の言語モデル学習
こんにちは、駅はどこですか。
どうやって行けますか？
文分割
こんにちは、
駅は
どこですか。
どうやって
行けますか？
言語モデル
学習
文ごとの
言語モデル
提案手法
言語モデル
学習
句ごとの
言語モデル
音声翻訳システムにおける同時性と汎用性の改善
実験的評価
●
４通りの実験的評価：
●
●
●
●
●
２通りの評価項目：
●
●
●
日英旅行対話文 (ja-en)
日英 11 単語以上の旅行対話文 (ja-en 11+)
英日旅行対話文 (en-ja)
仏英ニュース文 (fr-en)
精度 :BLEU ( 参照は ja-en,en-ja で 14 文 , fr-en で 1 文 )
遅延 : 秒
右確率は様々な閾値で足切り
音声翻訳システムにおける同時性と汎用性の改善
精度 (BLEU)
評価結果 1 ：
全ての設定において遅延が減少
80
70
60
50
40
30
20
10
0
t=1
t=0
0
en-ja
ja-en
ja-en (11+)
fr-en
2
4
6
8
10
12
14
遅延 ( 秒 )
[Ryu+ 04] の研究と違い多くの言語で容易に適応可能 !
音声翻訳システムにおける同時性と汎用性の改善
評価結果 2 ：
ポーズ情報を用いた場合より速い訳出
50
精度 (BLEU)
45
40
35
本技術
30
25
20
ポーズ
同等の精度で２０％速度向上！
1
1.5
2
2.5
3
3.5
4
遅延 ( 秒 )
[Bangalore+ 12] より速い訳出が可能！
4.5
音声翻訳システムにおける同時性と汎用性の改善
まとめ
音声翻訳システムにおける同時性と汎用性の改善
まとめ
●
並び替えを考慮したの提案
●
●
●
翻訳モデルに含まれるフレーズで自動学習
並べ替えの確率を考慮
利点
●
●
シンプルかつ言語非依存
精度・遅延のバランスを調整
音声翻訳システムにおける同時性と汎用性の改善
実用化に向けた課題
●
現在自動音声翻訳のデモが行えるレベルまで開発済み
●
現状でもすぐに既存の翻訳システムに適応可能な精度
●
単語１語１語をリアルタイムで書き起こす音声認識と
合わせた実験は今後の課題
音声翻訳システムにおける同時性と汎用性の改善
企業への期待
●
●
音声翻訳技術を持つ企業との共同研究を希望
以下の商品を開発中、もしくは展開を考えている企業
には、本技術の導入が有効と思われる
●
●
●
テレビやテレビ関連の通信機器
携帯電話・スマートフォーン
会議や通信関係のソフトウェア
音声翻訳システムにおける同時性と汎用性の改善
本技術に関する知的財産権
●
発明の名称：テキストデータ分割装置、テキストデータ
分割方法、テキストデータ分割プログラム
及び翻訳装置
●
出願番号：特願 2013-97857
●
出願人
●
：奈良先端科学技術大学院大学
発明者：藤田　朋希、グラム　ニュービッグ、
サクリアニ　サクティ、戸田　智基、
中村　哲
音声翻訳システムにおける同時性と汎用性の改善
産学連携の経歴
●
2009-2010 年 : 教育測定研究所と共同研究実施
●
2011 年 :
パナソニックと共同研究実施
●
2012 年 ~:
日本電気、情報通信研究機構
と共同研究実施
●
2013 年 ~:
日本電信電話と共同研究実施
音声翻訳システムにおける同時性と汎用性の改善
お問い合わせ先
奈良先端科学技術大学院大学
産官学連携コーディネーター　那脇　勝
ＴＥＬ０７４３－７２－５９３０
ＦＡＸ０７４３－７２－５０１５
e-mail
[email protected]

Download Report