コーパスに基づく機械翻訳における対訳コーパスの有効利 用に関する研究

博士 (情 報科 学)
寺島
涼
学 位 論文 題 名
コ ーパスに 基づく機 械翻訳における対訳コーパスの有効利
用に関 する研究
学位論 文内容の要旨
近年 , 非 常 に 多 くの 機 械 翻 訳シ ステム を利用 する ことが 可能と なって いる ,しか し現状 では. f
.分
な 翻 訳 品質 を ユ ー ザ に提 供 す る に は至 っ て い な い .古 く か ら 研 究さ れ て き た 解析 型 機 械 翻 訳手 法 で
は , 人 手で あ ら か じ め文 法 規 則 や 変換 規 則 な ど を 記述 し,そ れら の規則 に基づ いて解 析的に 翻訳 を行
う , 解 析型 機 械 翻 訳 手法 は 多 様 な 言語 現 象 を 規 則 とし て記述 する ことが 困難で あるこ と,ま た規 則の
追 加な ど の 改良 に よ り。 新たな 誤翻訳が 生まれる とぃう副 作用の問 題がある.
ニの よ う な 問 題 を解 決 す る た めに , 現 在 で は, コ ーパ スに 基づく 機械翻 訳手法 の研 究が盛 んに行 わ
れ て い る. コ ー パ ス に基 づ く 機 械 翻訳 手 法 は , 対 訳文 の集合 であ る対訳 コーパ スに基 づき翻 訳知 識を
構 築 し ,そ れ ら を 利 用し て 翻 訳 を 行う , 翻 訳 知 識 を構 築する ため には, 対訳文 の原言 語文と 目的 言語
文 間 に おけ る , 部 分 的な 対 応 関 係 を決 定 す る こ と が有 効 で あ る .
コー バ ス に 基 づ く機 械 翻 訳 手 法は , 用 例 ベ ース の 機 械 翻 訳手 法 と 統 計 的 機械 翻 訳 手 法 に大 き く 分
類 す る こと が で き る .用 例 べ ー ス 翻訳 で は , 静 的 な言 語知識 であ る、品 詞情報 及び構 文情報 を用 いる
こ と で ,対 訳 文 に お ける 部 分 対 応 を利 用 す る . っ まり ,対訳 コー パスを 翻訳知 識とし て利用 する ため
に は , 対訳 コ ー パ ス にお け る 原 言 語と 目 的 言 語 そ れぞ れに対 する 解析ツ ールが 必要で ある. よっ て.
解 析 ツ ール が 十 分 で ない 言 語 に 適 用す る ニ と は 困 難で ある, また ,統計 翻訳は ,大規 模な対 訳コ ーパ
ス よ り ,統 計 情 報 に 基づ き , 統 計 的言 語 モ デ ル と ,部 分対応 の集 合であ る統計 的翻訳 モデル を構 築す
る . し かし , 統 計 翻 訳は , 大 規 模 な対 訳 コ ー パ ス の使 用を前 提と してい るため 、デー タスパ ース であ
る 場 合 や, 少 量 の 対 訳コ ー パ ス に おい て は , 効 率 よく 部分対 応を 決定す ること が困難 となり .そ の結
果 , 翻 訳精 度 の 低 下 を招 く .
著者 は デ ー タ ス パー ス 及 び 量 が十 分 で な い 対訳 コ ー パ ス にお い て 、 解 析 ツー ル に 強 く 依存 せ ず に
翻 訳 知 識を 向 上 さ せ るた め に は , 対訳 コ ー パ ス を より 効 率 的 に 利用 す る 必 要 があ る と 考 え た, そ こ
で , 本 研究 で は , 省 略可 能 情 報 を 用い た 部 分 対 応 学習 の提案 と。 対訳文 一般化 による 翻訳ル ール を導
入 し た 統計 翻 訳 の 提 案を 行 っ た .
省略 可 能 情 報 を 用い た 部 分 対 応学 習 は , 対 訳文 中 の 句 に 相当 す る 部 分 対 応を 効 率 よ く 決定 す る た
め の 学 習手 法 で あ る .本 手 法 は , 対訳 文 中 の 省 略 可能 な部分 に着 目する ことに より. 対訳知 識で ある
抽 出 ル ール を 自 動 獲 得す る . 獲 得 され た 抽 出 ル ー ルは ,対訳 文中 の句に 相当す る部分 の探索 範囲 を限
定 す る ため の 情 報 を 有し て い る . この 抽 出 ル ← ル を様 々な対 訳文 に適用 するこ とによ り,対 訳文 中の
句 レ ベ ルの 部分対 応を効 率よく 決定で きる .その 結果, 解析ツ ール に強く 依存す る’こ となく 、多 言語
へ の 適 用が 可 能 と な ると 考 え ら れ る. 著 者 は , 省 略可 能情報 を用 いた部 分対応 学習を ,学習 型機 械翻
訳 に 適 用し た . 本 論 文で 用 い る 学 習型 機 械 翻 訳 は ,対 訳コー パス より帰 納的学 習に基 づき翻 訳ル ール
― 748―
を 自 動獲 得 し 、 そ れら を 用 い て 翻訳 を 行う. 学習型 機械 翻訳に 本手法 を適用 する ことで ,学習 能カの
向 上 の観 点 よ り , 本手 法 の 有 効 性の 検 証 を 行 っ た. 本 予 法 を 学習 型 機 械 翻 訳に 適 用す ること で翻訳
ル ー ルの 効 率 的 な 獲得 が 可 能 と なり , 人手に よる評 価に おいて 翻訳精 度が向 上し た,更 に,様 々な自
動 評 価手 法 を 用 い た場 合 に お い ても , それら のスコ アの 向上が 確認さ れた. また ,対訳 文中の 効率的
な 部 分対 応 決 定 の 観点 で の 検 証 を彳 了 った結 果,本 手法 は低頻 度の部 分対応 を効 率よく 決定で きるこ
と が 明ら か と な っ た, ニ れ ら の 結果 よ り,本 手法が 対訳 コーパ スに基 づく学 習型 機械翻 訳に有 効であ
るこ とが確 認され た.
対 訳 文 一 般 化 によ る 翻 訳 ル ール を 導入 した 統計翻 訳は, フレー ズベー ス統 計翻訳 に対し ,文の 形を
有 す る翻 訳 ル ー ル を組 み 合 わ せ た手 法 である .従来 のフ レーズ ベース 統計翻 訳は ,対訳 コーパ スより
構 築 され た 翻 訳 知 識で あ る 。 統 計的 言 語モデ ルと統 計的 翻訳モ デル( フレー ズテ ーブル )を用 いて翻
訳 を 行う , フ レ ー ズテ ー プ ル に よる フ レーズ 翻訳と ,言 語モデ ルによ るフレ ーズ 翻訳の 並び替 えによ
り . 翻訳 文 を 生 成 する た め , 翻 訳文 を 生成す るとい う点 におい ては非 常に頑 健性 が高い .しか しなが
ら . それ ぞ れ の 翻 訳知 識 は 文 の 形を 保 持して はいな いた め,不 自然な 翻訳文 を生 成する ことが ある.
そ ニ で. 本 手 法 で は、 フ レ ー ズ ベー ス 統計翻 訳に対 し, 文の形 を保持 した翻 訳ル ールを 組み合 わせる
こと で.こ の問題 の解決 を図 った. 本手法 を用い た翻 訳シス テムで は,翻 訳対象 文が 入カさ れると,対
訳 コ ーパ ス に 含 ま れる そ れ ぞ れ の対 訳 文と翻 訳対象 文に おける 差異・ 共通部 分を 決定す る.次 に,翻
訳 対 象文 に 対 し 差 異・ 共 通 部 分 を有 す る 対 訳 文 を選 択 し , 単 語の 共 起 頻 度 に基 づ く統 計情報 を用い
て . 選択 さ れ た 対 訳文 に お け る 部分 対 応を決 定する .対 訳文よ り,決 定され た部 分対応 を一般 化する
ニ と で翻 訳 ル ー ル を自 動 獲 得 す る. 以 上より ,解析 ツー ルに強 く依存 するこ とな く,対 訳コー パスを
よ り 効率 的 に 活 用 する こ と が 可 能と な り,翻 訳対象 文に 適した 翻訳ル ールを 獲得 するこ とがで きる.
性 能 評価 実 験 の 結 果, フ レ ー ズ ベー ス 統計翻 訳に対 して ,対訳 文一般 化によ る翻 訳ルー ルを導 入する
こ と で 、 人 手 に よ る 評 価 , 様 々 な 自 動 評 価 , そ れ ぞ れ に お い て 翻 訳 精 度 の 向 上 が 確 認 され た ,
ニの ように .本 論文で 著者は ,対訳 コーパ スを より有 効利用 するこ とで ,翻訳 知識の 向上を 図った.
本 論 文で 提 案 を 行 った , 省 略 可 能情 報 を用い た部分 対応 学習, 対訳文 一般化 によ る翻訳 ルール を導入
し た 統計 翻 訳 , そ れぞ れ の 手 法 にお い て,解 析ツー ルを 新たに 使用す ること なく ,対訳 コーパ スの有
効 利 用に 基 き . 翻 訳知 識 の 向 上 を実 現 した. これら の手 法は, 特定の 言語に 強く 依存し ない手 法であ
る た め. 様 々 な 言 語ヘ 適 用 す る こと が 可能で あると 考え られる .今後 は,様 々な コーパ スを利 用した
実 験 を 通 じ て . 多 言 語 翻 訳 の 実 現 へ 向 けた 取 り 組み が 必 要で あ る と考 え ら れる ,
― 749
学 位論文審査の要旨
主査
副査
副査
教 授荒 木 健治
教 授山 本 強
教 授 長 谷山 美 紀
学 位 論 文題 名
コーノヾスに基づく機械翻訳における対訳コーパスの有効利
用に関する研究
近 年, 非 常に 多く の 機械 翻訳 シ ステ ムを 利 用す るこ と が可 能と な って いる . しか し現 状では、十分な
翻 訳品 質 をユ ーザ に 提供 する に は至 って い をい .古 く から 研究 さ れて きた 解 析型 機械 翻訳手法では,
人 手で あ らか じめ 文 法規 則や 変 換規 則を ど を記 述し , それ らの 規 則に 基づ ぃ て解 析的 に翻訳を行う.
解 析 型 機 械 翻 訳 手 法 は 多 様 を 言 語現 象 を規 則と し て記 述す る こと が困 難 であ るこ と ,ま た規 則 の追
加 を ど の 改 良 に よ り , 新 た な誤 翻訳 が生 まれ ると いう副 作用 の問 題が ある .
この よ うを 問題 を 解決 する た めに ,現 在 では ,コ ー パス に基 づ く機 械翻 訳 手法 の研 究が惑んに行わ
れ てい る ,コ ーパ ス に基 づく 機 械翻 訳手 法 は, 対訳 文 の集 合で あ る対 訳コ ー パス に基 づき翻訳知識を
構 築し , それ らを 利 用し て翻 訳 を行 う, 翻 訳知 識を 構 築す るた め には ,対 訳 文の 原言 語文と目的言語
文 間に お ける ,. 部 分的 な対 応 関係 を決 定 する こと が 有効 であ る .
コ ー パ ス に 基 づ く 機 械 翻 訳 手 法は , 用例 ベー ス の機 械翻 訳 手法 と統 計 的機 械翻 訳 手法 に大 き く分
類 する こ とが でき る .用 例ベ ー ス翻 訳で は ,静 的な 言 語知 識で あ る, 品詞 情 報及 び構 文情報を用いる
こ とで , 対訳 文に お ける 部分 対 応を 利用 す る, っま り ,対 訳コ ー パス を翻 訳 知識 とし て利用するため
に は, 対 訳コ ーパ ス にお ける 原 言語 と目 的 言語 それ ぞ れに 対す る 解析 ツー ル が必 要で ある.よって.
解 析ツ ー ルが 十分 で をい 言語 に 適用 する こ とは 困難 で ある ,ま た ,統 計翻 訳 は, 大規 模な対訳コーパ
ス より , 統計 情報 に 基づ き, 統 計的 言語 モ デル と, 部 分対 応の 集 合で ある 統 計的 翻訳 モデルを構築す
る .し か し, 統計 翻 訳は ,大 規 模な 対訳 コ ーパ スの 使 用を 前提 と して いる た め, デー タスパースであ
る 場合 や ,少 量の 対 訳コ ーパ ス にお いて は ,効 率よ く 部分 対応 を 決定 する こ とが 困難 とをり,その結
果 ,翻 訳 精度 の低 下 を招 く,
著 者 は デ ータ ス′ Sース 及 び量 が十 分 でな い対 訳 コー パス に おい て, 解 析ツ ール に 強く 依存 せ ずに
翻 訳 知 識 を 向 上 さ せ る た め に は ,対 訳 コー パス を より 効率 的 に利 用す る 必要 があ る と考 えた . そこ
で ,本 研 究で は, 省 略可 能情 報 を用 いた 部 分対 応学 習 の提 案と , 対訳 文一 般 化に よる 翻訳ルールを導
入 した 統 計翻 訳の 提 案を 行っ た .
省 略 可 能 情 報 を 用 い た 部 分 対 応学 習 は, 対訳 文 中の 句に 相 当す る部 分 対応 を効 率 よく 決定 す るた
め の学 習 手法 であ る .本 手法 は ,対 訳文 中 の省 略可 能 な部 分に 着 目す るこ と によ り, 対訳知識である
抽 出ル ー ルを 自動 獲 得す る. 獲 得さ れた 抽 出ル ール は ,対 訳文 中 の句 に相 当 する 部分 の探索範囲を限
定 する た めの 情報 を 有し てい る .こ の抽 出 ルー ルを 様 々を 対訳 文 に適 用す る こと によ り,対訳文中の
旬 レベ ル の部 分対 応 を効 率よ く 決定 でき る ,そ の結 果 ,解 析ツ ー ルに 強く 依 存す るこ とをく,多言語
へ の適 用 が可 能と を ると 考え ら れる .著 者 は, 省略 可 能情 報を 用 いた 部分 対 応学 習を ,学習型機械翻
― 750―
訳 に 適 用 した . 本論 文で用 いる学 習型 機械翻 訳は, 対訳コ ーパス より 帰納的 学習に 基づき 翻訳 ルール
を 自 動 獲 得し , それ らを用 いて翻 訳を 行う. 学習型 機械翻 訳に本 手法 を適用 するこ とで, 学習 能カの
向 上 の 観 点よ り , 本 手 法 の有 効 性 の 検 証を 行 っ た . 本手 法 を学 習型 機械翻 訳に適 用する こと で翻訳
ル ー ル の 効率 的 な獲 得が可 能とを り, 人手に よる評 価にお いて翻 訳精 度が向 上した .更に ,様 々を自
動 評 価 手 法を 用 いた 場合に おいて も, それら のスコ アの向 上が確 認さ れた. また, 対訳文 中の 効率的
を 部 分 対 応決 定 の 観 点 で の検 証 を 行 っ た結 果 , 本 手 法は 低 頻度 の部 分対応 を効率 よく決 定で きるこ
と が 明 ら かと を った .これ らの結 果よ り,本 手法が 対訳コ ーパス に基 づく学 習型機 械翻訳 に有 効であ
る ことが 確認さ れた .
対 訳 文一 般 化 による 翻訳ル ール を導入 した統 計翻訳 は, フレー ズベー ス統計 翻訳に 対し ,文の 形を
有 す る 翻 訳ル ー ルを 組み合 わせた 手法 である ,従来 のフレ ーズベ ース 統計翻 訳は, 対訳コ ーパ スより
構 築 さ れ た翻 訳 知識 である ,統計 的言 語モデ ルと統 計的翻 訳モデ ル( フレー ズテー ブル) を用 いて翻
訳 を 行 う .フ レ ーズ テーブ ルによ るフ レーズ 翻訳と ,言語 モデル によ るフレ ーズ翻 訳の並 び替 えによ
り , 翻 訳 文を 生 成す るため ,翻訳 文を 生成す るとい う点に おいて は非 常に頑 健性が 高い. しか しをが
ら . そ れ ぞれ の 翻訳 知識は 文の形 を保 持して はいを いため ,不自 然を 翻訳文 を生成 するこ とが ある.
そ こ で , 本手 法 では ,フレ ーズベ ース 統計翻 訳に対 し,文 の形を 保持 した翻 訳ルー ルを組 み合 わせる
こ とで. この問 題の 解決を 図った .本手 法を用 いた 翻訳シ ステム では, 翻訳対象文が入カされると,対
訳 コ ー パ スに 含 まれ るそれ ぞれの 対訳 文と翻 訳対象 文にお ける差 異・ 共通部 分を決 定する ,次 に,翻
訳 対 象 文 に対 し 差 異 ・ 共 通部 分 を 有 す る対 訳 文 を 選 択し , 単語 の共 起頻度 に基づ く統計 情報 を用い
て , 選 択 され た 対訳 文にお ける部 分対 応を決 定する .対訳 文より ,決 定され た部分 対応を 一般 化する
こ と で 翻 訳ル ー ルを 自動獲 得する ,以 上より ,解析 ツール に強く 依存 するこ とをく ,対訳 コー パスを
よ り 効 率 的に 活 用す ること が可能 とを り,翻 訳対象 文に適 した翻 訳ル ールを 獲得す ること がで きる.
性 能 評 価 実験 の 結果 ,フレ ーズベ ース 統計翻 訳に対 して, 対訳文 一般 化によ る翻訳 ルール を導 入する
こ と で , 人 手 に よ る 評 価 , 様 々 な 自 動 評 価 , そ れ ぞ れ に おい て 翻 訳 精 度の 向 上 が 確 認さ れ た .
こ のよう に, 本論文 で著者 は,対 訳コ ーパス をより 有効利 用する こと で,翻訳知識の向上を図った.
本 論 文 で 提案 を 行っ た,省 略可能 情報 を用い た部分 対応学 習,対 訳文 一般化 による 翻訳ル ール を導入
し た 統 計 翻訳 , それ ぞれの 手法に おい て,解 析ツー ルを新 たに使 用す ること をく, 対訳コ ーパ スの有
効 利 用 に 基づ き ,翻 訳知識 の向上 を実 現した .これ らの手 法は, 特定 の言語 に強く 依存し 誼い 手法で
あ る た め .様 々 極言 語へ適 用する こと が可能 である と考え られる ,今 後は, 様々を コーパ スを 利用し
た 実 験 を通 じ て ,多 言 語 翻訳 の 実 現ヘ 向け た取り組 みが必要 である と考えら れる,
こ れを要 する に,著 者は, 機械翻 訳に ついて ,翻訳 知識の 向上に 関す る新知見を得たものであり,自
然 言 語 処 理工 学 にお ける機 械翻訳 技術 の発展 に貢献 すると ころ大 をる ものが ある, よって 著者 は,北
海 道大学 博士( 情報 科学) の学位 を授与 される 資格 あるも のと認 める.
― 751−