修士論文 機械翻訳における前処理の適用とその効果 指導教官 石田 亨 教授 京都大学大学院情報学研究科 修士課程社会情報学専攻 後藤 正浩 平成 24 年 2 月 8 日 i 機械翻訳における前処理の適用とその効果 後藤 正浩 内容梗概 昨今のインターネット技術の著しい発展により,世界中の国や地域に点在す る多種多彩なコンテンツへのアクセスが容易になるとともに,それに伴う母国 語以外の多くの言語に触れる機会も増加してきていることから,翻訳というタ スクが非常に重要になってきている.しかしその一方で,翻訳品質の向上が思 うように進んでおらず,言語という障壁に国際化の流れを鈍化されようとして いる.これらを解消する試みとして,多言語コミュニケーションツールと共同 翻訳プロトコルを用いた手法がある.これは,当該ツールに組み込まれた機械 翻訳を利用するとともに,当該プロトコルでユーザ同士の対話を制御すること により,より正確な翻訳を獲得する試みである.しかし,当該手法はユーザが 少なくとも二人以上いなければ,正確な翻訳を即時的に獲得することができな いなど,翻訳機会が保証されないという問題を有している. そこで本研究では,それらの諸条件に左右されない既存の機械翻訳システム の翻訳品質の向上が期待される原言語文の前処理手法を提案する.通常,機械 翻訳システムの翻訳品質を向上させるには,機械翻訳システムの性能そのもの を向上させることが本質的であるが,そのためには翻訳対象の言語ペアについ ての大量且つ良質な言語資源が必要になるなどの多くの課題を抱えており,コ ストや即時性の面からその実現可能性は決して高くはない.一方,提案する前 処理手法の適用を考えた場合,既存の機械翻訳システムには手を加えず,機械 翻訳システムが処理しやすいような形式に原言語文のみを加工するため,翻訳 品質の向上が比較的容易に行えると考える. 機械翻訳における前処理の研究はこれまでに多く行われているが,それらの 多くが長文の分割処理や一部の表現の加工など個別の研究にとどまっており,そ れらの手法を組み合わせた際の影響や精度などは未知数であり,また適用範囲 も限定的である.そこで本研究では,長文の分割処理や一部の表現の加工を行 うのではなく,テキスト要約を用いて原言語文内の一部の情報を落とし,文を 簡素化することで原言語文の解析精度を向上させ,翻訳品質の向上を試みる. 本研究で取り組む課題を以下に示す. 原言語文の文構造の簡素化による翻訳品質の向上 ii 機械翻訳システムの翻訳品質の低下を招いている主な原因として,原言語文 の解析処理の失敗が挙げられる.これは原言語文が長文である場合,解析すべ き文節数が増えるとともに,文構造が複雑になり,各種解析器から受けるノイ ズが増加する傾向にあるためである.そこで本論文では,原言語文にテキスト 要約を適用し,原言語文内の一部の情報を落とすことによって,文構造の簡素 化を行い,原言語文の翻訳品質の向上を試みる. サービスとして機能するための要件の洗い出し テキスト要約した翻訳文を提示するだけでは,生成される翻訳がテキスト要 約技術の性能のみに依存することになるため,その性能を補完するとともに,そ れによる相乗効果を創出するための要件を実験結果より洗い出す. 本研究での貢献を以下に示す. 前処理へのテキスト要約適用の有効性の検証 機械翻訳システムにおける前処理へのテキスト要約の適用により,一定の条 件下において翻訳品質の向上が確認されたとともに,翻訳方式などが異なる機 械翻訳システムにおいても翻訳品質の向上が確認されたことから,提案手法の 有効性と併せて汎用性も示すことができた. 更なる利便性と翻訳品質の向上が見込めるサービスの提供の提案 一定の有効性が検証されたテキスト要約を利用した機械翻訳の更なる利便性 と翻訳品質の向上が見込めるサービスの提供とその提示方法を提案した. iii Effects of Applying Preprocessing on Machine Translation Masahiro GOTO Abstract The chance to touch a foreign language is being increased by remarkable development of these days’ internet technology.Therefore translation is becoming very important, but improvement of the translation quality isn’t developed so that I may think. So improvement of the translation quality of the machine translation system of existence proposes the preprocessing technique of the expected field linguistic sentence by this research.Not to make an improvement on a machine translation system of existence and to process only a field linguistic sentence into the form a machine translation system is easy to treat with which, the preprocessing method to propose thinks you can improve the translation quality relatively easily. Preprocessing is studied so far much in machine translation , but those much is stopping at processing of split application of a long article and a certain expression in an individual study, and the influence and the precision when combining those methods, are unknown quantity. To use a preprocessing method is caught as the risk which causes a decline of the translation quality, certain information in the field linguistic sentence is dropped using a conventional field text summary, not to translate all information of a linguistic sentence, the analysis precision of the field linguistic sentence is improved by simplifying a sentence and improvement of the translation quality is tried so to translate all information of a field linguistic sentence by this research. Solved problems by this research are as follows. Improvement of the translation quality by the simplification of the sentence structure of the original Failure of analysis processing of a field linguistic sentence can be named as the main cause which causes a decline of the translation quality of the machine translation system.When a field linguistic sentence is a long passage, this is iv increasing as well as to tend to increase in the noise with the to be complicatedly and to be popular from an analysis container variously sentence structure, is here.So the sentence structure is simplified and improvement of the translation quality of the field linguistic sentence is tried by applying a text summary to a field linguistic sentence by book thesis and dropping certain information in the field linguistic sentence. Requirements definition in order to function as a service A text summarized translation sentence, as much as it’s shown, for, for generated translation to depend on only the performance of the text summary technology, its performance is complemented as well as the important matter to create multiplier effect by that is dug up more than an experimental result. The contributions of this research are as follows. Verification of the validity of the text summary application to preprocessing Because the improvement of the translation quality was confirmed by application of a text summary to preprocessing in a machine translation system in the fixed condition bottom as well as the improvement of the translation quality was also confirmed in a machine translation system that a translation system is different, it was also possible to merge with the validity of the proposition technique and indicate a generality. Proposal of service for improvement of the translation quality The fixed validity proposed further advantage convenience of machine translation which used an inspected text summary, an offer of the service which can expect improvement of the translation quality and the presentation method. 機械翻訳における前処理の適用とその効果 目次 第1章 はじめに 1 第2章 機械翻訳システムの概要 4 2.1 これまでの機械翻訳の変遷 . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 機械翻訳を利用した翻訳文の獲得手段 . . . . . . . . . . . . . . . . . . 4 2.2.1 機械翻訳のみを利用する . . . . . . . . . . . . . . . . . . . . . . 5 2.2.2 機械翻訳を利用し,その後人手による修正 . . . . . . . . . 5 2.2.3 機械翻訳を用い,合意形成を図る . . . . . . . . . . . . . . . . 5 2.2.4 本論文の対象領域 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 機械翻訳の品質が低下する要因 . . . . . . . . . . . . . . . . . . . . . . . 7 2.3.1 翻訳過程から考えられる要因 . . . . . . . . . . . . . . . . . . . 7 2.3.2 翻訳方式から考えられる要因 . . . . . . . . . . . . . . . . . . . 8 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 2.4 第3章 3.1 3.2 3.3 第4章 機械翻訳システムの翻訳品質 12 現行の機械翻訳システムの品質(予備実験) . . . . . . . . . . . . . 12 3.1.1 短文と長文の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.2 単文及び重文,複文の比較 . . . . . . . . . . . . . . . . . . . . 14 翻訳品質向上へのアプローチ . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.1 機械翻訳システムが対象文書に適合する . . . . . . . . . . . 16 3.2.2 対象文書が機械翻訳システムに適合する . . . . . . . . . . . 18 3.2.3 本論文における最適な解決手法 . . . . . . . . . . . . . . . . . 20 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 前処理へのテキスト要約適用の提案 23 4.1 機械翻訳における前処理の概要 . . . . . . . . . . . . . . . . . . . . . . . 23 4.2 関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2.1 前処理の効果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2.2 前処理手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3 既存の前処理の問題点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.4 前処理へのテキスト要約の適用 . . . . . . . . . . . . . . . . . . . . . . . 27 4.4.1 概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.4.2 関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.4.3 テキスト要約手法について . . . . . . . . . . . . . . . . . . . . 28 4.5 本論文で用いる要約手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.6 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 第5章 5.1 5.2 5.3 第6章 実験及び評価,考察 32 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.1.1 実験手順 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.1.2 評価基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.1 前処理適用による品質に対する効果 . . . . . . . . . . . . . . 33 5.2.2 効果の平均値による比較 . . . . . . . . . . . . . . . . . . . . . . 36 5.2.3 文ごとによる比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.4 評価値の低い翻訳例の考察 . . . . . . . . . . . . . . . . . . . . 40 5.2.5 翻訳品質の改善に関する考察 . . . . . . . . . . . . . . . . . . . 43 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 サービス化に向けて 47 6.1 言語グリッド . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.2 サービス概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.3 言語グリッド上における構成図 . . . . . . . . . . . . . . . . . . . . . . . 48 6.4 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 第7章 おわりに 52 謝辞 54 参考文献 55 第1章 はじめに 昨今のインターネット技術の著しい発展により,世界中の国や地域に点在す る多種多彩なコンテンツへのアクセスが容易になり,それに伴う母国語以外の 多くの言語に触れる機会が増加してきている.また文部科学省が主導する国際 化拠点整備事業や観光立国を標榜する観光庁主導による種々の施策など国を上 げた積極的な国際化の取り組みにより,留学生や観光客の数も年々増加傾向に あることから,翻訳というタスクの重要性が非常に高くなってきている.しか しその一方で,コスト面の問題からか多言語サイトの整備が思うように進んで おらず,また当該留学生や当該観光客に対する日本人とのサービス格差の是正 の急先鋒と目されている機械翻訳システムも十分な翻訳品質を提供していると は言いがたく,言語という障壁に国際化の流れを鈍化されようとしている. これらを解消する試みとして,多言語コミュニケーションツールと共同翻訳 プロトコルを用いた手法がある.これは,当該ツールに組み込まれた機械翻訳 を利用するとともに,当該プロトコルでユーザ同士の対話を制御し, 合意形成 を図ることにより,正確な翻訳を獲得する試みである.より正確な翻訳を得ら れる可能性がある一方で,当該手法はユーザが少なくとも 2 人以上いなければ, 翻訳を即時的に獲得することができないなど,翻訳機会が保証されないという 課題を有している. また,翻訳機会の確実性と翻訳品質の高さの双方を求めるユーザに対し,京 都大学情報学研究科では,特定のコミュニティ内で利用される用語や言い回し の翻訳に対し,高い翻訳品質を提供する「京大翻訳!」1) の運用を開始してい る.しかし,対訳による強制置換であるため,文脈などを考慮した適切な訳語 選択ができないため,現行の機械翻訳システムの性能自体に頼らざるを得ない 部分が多いのが現状である. そこで本論文では,それらの諸条件に左右されることのない既存の機械翻訳 システムの翻訳品質の向上が期待される原言語文の前処理手法を提案する.通 常,機械翻訳システムの翻訳品質を向上させるには,機械翻訳システムの性能 そのものを向上させることが本質的であるが,そのためには翻訳対象の言語ペ アについての大量且つ良質な言語資源が必要になるなどの多くの課題を抱えて おり,コストや即時性の面からその実現可能性は決して高くはない.一方,提 1) http://www.s-coop.net/smarttrans.html 1 案する前処理手法の適用を考えた場合,既存の機械翻訳システムには手を加え ず,機械翻訳システムが処理しやすいような形式に原言語文のみを加工するた め,コスト面や即時性の面からその実現可能性は高い.また,種々ある翻訳方 式に共通する問題点が,原言語文の文長の長さや文構造の複雑さによる原言語 文の解析誤りであることから,それらを解消するように原言語文を加工するこ とで,翻訳品質の向上が比較的容易に行えると考える. 機械翻訳における前処理の研究はこれまでに多く行われているが,それらの 多くが長文の分割処理や一部の表現の加工など個別の研究にとどまっており,そ れらの手法を組み合わせた際の影響や加工の精度などは未知数であり,また適 用範囲も限定的である.加えてユーザが行う前処理の前後の加工履歴を学習し て加工規則を獲得し原言語文に適用する研究も幾つか報告されているが,獲得 できる加工規則は,前処理を行うユーザの加工に対するスキルなどに大きく依 存するのが現状である.さらに根本的な問題として,機械翻訳システムがアッ プデートした際は,これら既存の前処理は処理そのものに意味がなくなってし まうだけでなく,前処理を行う必要の無くなった文に対しても前処理を適用し てしまう可能性があるため,翻訳品質を低下させてしまうという本末転倒の結 果を招きかねないという可能性も孕んでいる. そこで本論文では,原言語文の全ての情報を翻訳するために前処理手法を多 用することを翻訳品質の低下を招くリスクとして捉え,従来の原言語文内のす べての情報対象とするのではなく,テキスト要約を用いて原言語文内の一部の 情報を落とし,文を簡素化することで原言語文の解析精度を向上させ,翻訳品 質の向上を試みた.またテキスト要約は前処理としてだけでなく,本来の要約 という機能も果すため,機械翻訳システムがアップデートし,前処理の必要が なくなった際も,要約文翻訳サービスとしての機能を果すものと考える. 本論文では,以下のような構成で議論を進めていく. 第 2 章において,機械翻訳システムの特徴や現状について触れ,翻訳品質の 低下を招く要因について複数の角度から整理する. 第 3 章では,前章で改善の指摘を行った原言語文が現行の機械翻訳システム においてどのような挙動を示すかを予備実験を兼ねて確認するとともに,それ らと翻訳品質の向上に関する既存の研究との関連について述べ,本章で指摘し た改善点との整合性や実現可能性,適用によって期待される効果などの観点か ら適切な解決手法について述べる. 2 第 4 章では,機械翻訳システムの翻訳品質を向上させる手法として前処理に 焦点を当て,その概要や必要性,既存研究などについて触れ,現行の機械翻訳 システムにおける効果について検証する.また,前処理手法として新たにテキ スト要約の適用を提案し,本研究で採用する前処理手法について述べる. 第 5 章では,機械翻訳システムの前処理におけるテキスト要約の有効性につ いて,様々な評価基準から検証する. 第 6 では,その有効性が検証されたテキスト要約を利用した機械翻訳の更な る利便性と翻訳品質の向上が見込めるサービスの提供とその提示方法について 述べる. 最後に 7 章で本論文のまとめを行う. 3 第2章 機械翻訳システムの概要 本章では,機械翻訳システムの特徴や現状について触れ,翻訳品質の低下を 招く要因について複数の角度から整理する. 2.1 これまでの機械翻訳の変遷 機械翻訳の研究の歴史は古く,1940 年代後半にその実現可能性が示されてい る [1].それ以降, 「機械翻訳には多義性解消などの高度な知識処理が不可欠であ る」という意見が出され, 「機械翻訳は不可能である」と考えられるようになり, 一度停滞期を迎えるものの,現在でも多くの機械翻訳システムで採用されてい るルールベース方式の翻訳の登場を皮切りに,アナロジーに基づく用例ベース 方式の翻訳 [2] や大量の言語資源から統計的に学習する統計方式の翻訳 [3] など 次々と新しい翻訳方式が登場し,精力的に研究が行われている. しかしながら,現時点ではまだ高品質な機械翻訳システムは実現されておら ず,今後も研究する余地が多く残されている分野でもある. また,その利用機会についても,現在,機械翻訳サービスとしてインターネッ ト上のポータルサイトを中心に複数公開されており,いつでもどこでも誰しも が簡単に利用することができるようになっている.また,文章や Web ページを 翻訳することができるサービスに加え,画像認識技術や音声認識技術などと融 合したサービスも精力的に展開されてきており,最近では,NTT ドコモがリア ルタイム自動音声翻訳サービスの提供に乗り出す1) など,言語という障壁を越 え,新たな異文化コラボレーションの可能性を創造する急先鋒として,機械翻 訳は大いに期待されている. 2.2 機械翻訳を利用した翻訳文の獲得手段 機械翻訳を利用した翻訳文の獲得方法としては,機械翻訳が出力する翻訳を そのまま利用する方法,機械翻訳が出力する翻訳を参考に人手で修正する方法, 機械翻訳を利用した対話のなかで合意形成を図りながら獲得する手段の 3 つに 大別できる. 以下,それぞれについて,特徴や関連する研究について述べる. 1) http://sankei.jp.msn.com/economy/news/111104/its11110416430000-n1.html 4 2.2.1 機械翻訳のみを利用する この方法は,利用者自らの責任のもと,性能的限界を承知の上で機械翻訳を 利用し,機械翻訳が出力する翻訳を加工すること無くそのまま利用するもので ある. しかし,翻訳の依頼先が後述する他の方法とは異なり,人間ではなく機械で あるため,翻訳の品質をバックエンドで稼働する機械翻訳システム自体の性能 に依存することになる. また,利便性は高いものの利用できる多くの機械翻訳サービスは特定のドメ インに特化しない汎用的な目的を想定していることもあり,機械翻訳の品質は 高くないのが現状である. 2.2.2 機械翻訳を利用し,その後人手による修正 この方法は,機械翻訳が出力する翻訳をそのまま利用するのではなく,出力 した翻訳を人出によって加工修正することで,翻訳を獲得する手方法である. 関連する研究としては,Lin ら [4] が提案するローカリゼーションに機械翻訳 を介在させ,コストや工数を削減する利用法がある.この手法は,通常コスト が高いとされる翻訳精度の高いローカリゼーションにおいて,機械翻訳の結果 をモノリンガルが修正し,その結果をバイリンガルがチェックするというプロ セスで翻訳を行うというもので,バイリンガルのみが翻訳を行うというプロセ スでの翻訳に比べ,低いコストで同水準の精度の翻訳を行うことが出来るとい うものである. しかしこの手段は,目的語に関する言語的な知識が必須であり,また翻訳者 へ依頼する場合も,コストが必要になるため,一定の社会的責任を負う外部へ の発信や公の文書の翻訳を目的とした場合は,非常に有効な手段であるが,手 軽に利用できない. 2.2.3 機械翻訳を用い,合意形成を図る この方法は,機械翻訳を利用した多言語コミュニケーションツールを用いた もので,当該ツールを利用し,利用者同士テキスト情報をやり取りすることで, 翻訳を獲得することができる. また,対話が機械翻訳の性能や利用者のスキルに依存するため,認識の齟齬 が生じ,それが解消されないまま継続されることで,予期せぬ弊害が生じかね ないことがあるが,それを防ぐ試みとして,共同翻訳プロトコルを利用 [5] する ものがある.これは,会話のプロトコルを限定することで共通基盤の形成を促 5 すというアプローチをとるもので,これにより当該課題を解消し,正確な翻訳 を獲得することが可能になる. しかし,当該手法はユーザが少なくとも 2 人以上いなければ,正確な翻訳を 即時的に獲得することができないなど,翻訳機会が保証されないという問題も ある. 2.2.4 本論文の対象領域 上記で挙げた機械翻訳による翻訳文の獲得手段別の特徴を,以下の表 1 に示す. 機械翻訳が出力する翻訳をそのまま利用する手段,機械翻訳が出力する翻訳 を参考に人手で修正する手段,機械翻訳を利用した合意形成を図る手段と,そ れぞれ一長一短あり,利便性の高さではそのまま利用する方法が,また,翻訳 品質では人手が介在させる手段が,コストパフォーマンスでは対話の中で合意 形成を図る手段が優れている. しかし,工学的なアプローチを用いた改善を考えると,人間が介在する翻訳 機会を新たに創出するのは困難であるし,翻訳者を利用したコストを 0 にする こともやはり困難である. 一方,機械翻訳が出力する翻訳をそのまま利用する方法に対する翻訳品質の 向上を考えた際,工学的なアプローチは可能であるし,その利用形態の特性から 利用者の翻訳品質の機械翻訳に対する依存度の高さなどから非常に有効である. 以上のことから,機械翻訳システムが出力する翻訳の品質改善を行うことと する. 表 1: 獲得手段別の特徴一覧 翻訳品質 機械翻訳が出⼒する 翻訳をそのまま利⽤す 低い る手段 機械翻訳が出⼒する 翻訳を参考に人手で 非常に高い 修正する手段 機械翻訳を利⽤した 高い 対話による手段 翻訳機会 コスト 利⽤者のスキル 利⽤するシステム 利⽤者数 ポータルサイトの 原言語及び機械翻訳に関 ポータルサイトなどが提 保証される サービスを利⽤ する知識は必須ではない 供す翻訳サービスが主 1人 すれば不要 無料の翻訳サービス, 保証されない場合 翻訳者に依頼す 目的言語及び機械翻訳 翻訳メモリなどを統合し 1⼈〜 (ツールも含む)が必須 もある る場合は必要 た翻訳ソフト 目的言語に関する知識は 必須ではないが,機械翻訳 多言語コミュニケーション 保証されない 不要 (ツールも含む)に関する ツール 2⼈〜 知識が必須 6 2.3 2.3.1 機械翻訳の品質が低下する要因 翻訳過程から考えられる要因 翻訳過程における各フェーズの構造を以下に示す. システムに入力された原言語文は,形態素解析器によって単語区切りと品詞 解析が行われる.英語の場合は単語区切りがスペースで自明であるため,品詞 解析が主な問題となるが,日本語は単語区切りが自明ではないため,形態素解 析が必要になる. また,形態素解析は,複数の区切り方があるものや,未知語などに対しては 解析の精度が非常に悪くなる. 形態素解析器は様々あるが,公開されているものの代表例として,京都大学の 黒橋・河原研究室で開発された形態素解析システム JUMAN[6] がある.JUMAN は益岡・田窪文法をもとに,EDR 日本語単語辞書,独自の連語辞書などを用い て形態素区切りと品詞同定を行うシステムで,新聞記事ドメインで約 99%の精 度を誇る. 次に,形態素解析器によって解析された形態素列は,依存構造解析器によっ て構文・格解析が行われる.英語の場合は,係る方向が後ろとは限らないので, 関係ラベルが必要になる. 依存構造解析器にも様々あるが,公開されているものの代表例として,京都 大学の黒橋・河原研究室で開発された構文解析システム KNP[6] がある.KNP は日本語文節に関する詳細な文法に基づき,類似性に基づく並列構造解析等に よって文節間の係り受け構造を一意に決定するシステムで,新聞記事ドメイン で約 90%の精度を誇る. 最後に,意味解析が行われ,語義が付与される. 以上のことを整理してみると,依存構造解析と意味解析における精度が品質の 低下の要因になっている可能性が高い.依存構造解析については一見,約 90%の 精度というと高いように感じるが,この精度は新聞記事という記述のスタイル が概ね統一的なドメインに対してであり,また文節間の係り受けの精度である ため,一文単位の精度ではない.また,その具体的な精度が公表されていない意 味解析の精度についても同様に,品質の低下の要因になっている可能性が高い. したがって,文節を多く含む文や係り受けが曖昧な文,多義性を有する単語 を含む文に対する,構文解析及び意味解析の精度の向上が必要であることがわ 7 かる. 意味構造 意味トランスファ 意味構造 意味解析 生成 構文構造 構文トランスファ 構文構造 構文解析 生成 単語列 直接変換 単語列 形態素・品詞解析 原言語文 目的言語文 図 1: 機械翻訳の翻訳フェーズ 2.3.2 翻訳方式から考えられる要因 機械翻訳の翻訳方式としては,ルールベース方式,用例ベース方式,統計ベー ス方式の 3 つに大別できる.以下,3 つの翻訳方式について,基本的な考え方や 利点,欠点などについて示し,整理する. ルールベース方式 ルールベース方式の翻訳は,原言語文の言語の文法的な要 素を解析し,言語間の変換を行った後,目的語文の言語で言語生成を行うこと で翻訳を行う手法である. また,ルールベース方式の一つであるトランスファ方式は,原言語文に対し て形態素解析,構文解析,意味解析などの各種解析処理を行い,原言語に依存 した構造を作り,それを目的言語に依存する構造へトランスファし,目的言語 構造から目的言語文を生成することで翻訳を行う方式である.言語ごとの違い に細かく対応できるが,言語ごとに変換規則を記述する必要があるという欠点 があるためスケーラビリティに乏しい. 用例ベース方式 用例ベース方式の翻訳は, 「ある文と似た文は同じように翻訳 されることが多い」との基本原理に基づき,入力文を幾つかの部分に分解し,そ の部分ごとに類似した用例を用いて翻訳を行い,それらを組み合わせることで 8 翻訳を行う手法である. 対訳データを用い,それらが内部でアラインメントされている必要があると いう点は統計ベース翻訳と共通であるが,統計ベース方式の翻訳が文を単語に 分解し,できるだけ頻度の高いものの組合せを優先しようとしているのに対し, 用例ベース翻訳は,できるだけ大きな用例の組合せを優先しようとする点が異 なる点である. 統計ベース方式 統計ベース翻訳とは,大量の対訳に関して単語や句の対応や 並びなどに関して統計的な学習を行い,そこから得られた統計量をもとに確率 的に翻訳を行う手法である. 対訳辞書や言語知識が不要である一方で,計算量が多く,対訳が増加するに つれて訳語の曖昧性が増えるという問題がある. 翻訳方式別の課題 上記で挙げた翻訳方式別の特徴を,以下の表 2 に示す. 3 つの翻訳方式ともに一長一短あるため,特に翻訳品質に直結するものにつ いてのみ焦点を当てる. まず,ルールベース方式については,形態素解析や構文解析などの各種解析 器からのノイズの影響を受ける.従って,各解析フェーズの精度を向上する必 要があることがわかる.加えて,記述できる変換規則に限界があるため,限ら れた規則内で変換できるようにする必要がある. 続いて,用例ベース方式についても,ルールベース方式と同様,形態素解析 や構文解析などの各種解析器からのノイズの影響を受けるため,各解析フェー ズの精度を向上する必要がある. 最後に,統計ベース方式については,単語や句などの対応や並びなどの組合 せなどが多い場合,並び替え誤りが生じる場合があるため,単語や句の並び替 え誤りに対する対応が必要である. 以上のことと,前節の機械翻訳の翻訳過程で言及した各フェーズにおける解 析精度を踏まえると,構文解析器のノイズの影響を受けやすく,また単語や句 の並び替えが多い,文長の長い文や係り受けの曖昧な文に対する対応が理論上 必要になることがわかる. 2.4 まとめ 本章では,機械翻訳システムの現状や特徴について触れ,本論文で対象にす る領域や各々の翻訳方式に共通する問題点などについて述べた. 9 表 2: 翻訳方式別の特徴一覧 基本的な考え方 利点 欠点 原言語文の言語の ・全ての言語現象を逐一書き下 文法的な要素を解 ・⼤規模な対訳が不要である すことは不可能である 析し,言語間の変 ・メンテナンスや多言語化への対 ルールベース翻訳 換を⾏った後,目的 ・⾔語学的な知⾒や知識を融 応が難しい 合させやすい 語文の言語で言語 ・形態素や構文など各種解析器 ⽣成を⾏うことで翻 のノイズの影響を受けやすい 訳を⾏う ・スケールアウトに優れている ⼊⼒⽂を幾つかの部 ・対訳コーパスを用いることによ ・ドメイン別の対訳が必要 分に分解し,その部 り開発の負担が軽減できる ・形態素や構文の解析器,用 分ごとに類似した用 ・対訳コーパスに現れない事 例誤りなどのノイズの影響を受け ⽤例ベース翻訳 例を⽤いて翻訳を⾏ 例にも柔軟に対応できる やすい い,それらを組み合 ・小規模な対訳データからでも,・カバー率を向上させるためには, わせることで翻訳を 安定した翻訳を得ることができ ⽤例をある程度抽象化して整理 しておく必要がある ⾏う る ⼤量の対訳に関して 単語や句の対応や ・変換規則などに対するメンテ ・⼤規模かつ良質な対訳からの 学習が必要 並びなどに関して統 ナンスが不要である 統計ベース翻訳 計的な学習を⾏い,・特定のドメインに対して高品 ・⽂法構造が異なる⾔語間では そこから得られた統 質な翻訳が可能である 品質が悪い ・単語や句の並べ替え誤り 計量をもとに確率的 に翻訳を⾏う 10 本論文の対象領域として,工学的アプローチの可否の観点から,機械翻訳の 出力する翻訳品質を向上させることを対象領域とすることを述べた. また各々の翻訳方式を包含する改善点として,構文解析器のノイズの影響を 受けやすく,また単語や句の並び替えが多い,文長の長い文や係り受けの曖昧 な文に対する解析精度の向上が理論上必要であることを指摘した. 次章では,本章で改善の指摘を行った文長の長い文や係り受けの曖昧な文が 現行の機械翻訳システムにおいてどのような翻訳を出力するか,またそれらの 文に対して現行の機械翻訳システムがどのような対応をとっているかを,予備 実験を兼ねてその挙動から確認し,同じく紹介する翻訳品質の向上に関する既 存の研究との関連について述べ,それらの文に対する現行の機械翻訳システム の挙動との整合性や実現可能性,適用による効果の大きさなどの観点から適切 な解決手法について述べる. 11 第3章 機械翻訳システムの翻訳品質 本章では,前章で改善の指摘を行った文長の長い文や係り受けの曖昧な文が 現行の機械翻訳システムにおいてどのような挙動を示すかを予備実験を兼ねて 確認するとともに,それらと翻訳品質の向上に関する既存の研究との関連につ いて述べ,本章で指摘した改善点との整合性や実現可能性,適用によって期待 される効果などの観点から適切な解決手法について述べる. 3.1 現行の機械翻訳システムの品質(予備実験) 本節では,前章で改善の指摘を行った文長の長い文や係り受けの曖昧な文が 現行の機械翻訳システムにおいてどのような挙動を示すかを予備実験を兼ねて 確認し,本論文における対象文章を精査する. 文長の長さにおいては,その機械翻訳のしにくさを黒橋ら [7] が報告してお り,その報告内容によると,50 文字以上の文の解析非常に困難であり,80 文字 以上の文については解析がほとんど失敗すると指摘している.したがって,本 節においても,その文長を短文及び長文の基準とし,挙動を確認する.また 50 文字以上ないし 80 文字以上の文例から単文を見つけるのは困難であるため,文 の複雑さについては考慮しないこととする. 一方,係り受けの曖昧な文に関しては,1 つの文の中に節が 2 つ以上有り,そ れらが並立している文である重文と,1 つの文の中に節が 2 つ以上有り,その 1 成分の中に節が含まれている文である複文がそれに該当すると白井ら [8] が報告 しているため,本節においても,重文及び複文に対する挙動を単文の挙動と比 較しながら確認する. なお,特定の機械翻訳システムや翻訳方式に依存する挙動により,機械翻訳 システムの翻訳品質を断定しないために,ルールベース方式である京大翻訳! 1) ,統計ベース方式である Google 翻訳2) とそれぞれ翻訳方式の異なる 3 つシス テムで,また利用する文のドメインは,書き言葉の代表格としてだけではなく, 自然言語のコーパスとして最もよく利用されている新聞記事を用い,また文例 は,読売新聞社が提供している新聞記事データベース「読売新聞:ヨミダス歴 1) 2) http://www.s-coop.net/smarttrans.html http://translate.google.co.jp/ 12 史館」1) 内の日英対訳記事を利用する. 3.1.1 短文と長文の比較 以下に,30 文字程度の短文と 50 文字程度の長文,80 文字以上の長文を機械 翻訳した例を示す. 例を見ると,文長が長くなるに従い,翻訳の品質が低下しているがわかる.ま た,例に示した長文以外の長文も同様の挙動を示した. 原言語文: 宮崎県での「口蹄疫」の広がりが,全国に不安を引き起こしている. 対訳: The spread of foot-and-mouth disease in Miyazaki Prefecture is triggering fear across the country. 京大翻訳!: An expanse in " Foot-and-Mouth Disease" in Miyazaki-ken has caused anxiety to the whole country. Google翻訳: In Miyazaki Prefecture, "Foot and Mouth Disease" is spreading, causing unrest in the country. 図 2: 短文(30 文字程度)の翻訳例 原言語文: 不良債権処理を含めた構造改⾰を断⾏しようとする⼩泉⾸相の決意に,ブッシュ⼤統領が最⼤ 級の賛意を示した. 対訳: U. S. President George Bush gave his whole-hearted support to Prime Minister Junichiro Koizumi's determination to carry out structural reforms that include the disposal of nonperforming loans. 京大翻訳!: Busch President showed maximum agreement in a decision of the Koizumi prime minister who tries to carry structural reforms including disposal of nonperforming loans out. Google翻訳: The prime minister's determination to reform the structure, including trying to bad-loan disposal, showed Bush's approval is the largest. 図 3: 長文(50 文字程度)の翻訳例 1) https://database.yomiuri.co.jp/rekishikan/ 13 原言語文: 政府はこれまで,日本は国際法上,主権国家として集団的自衛権を有しているが,同権利の ⾏使は国際紛争の解決⼿段としての武⼒⾏使を放棄した憲法第9条で禁⽌されている,と主 張し続けてきた. 対訳: The government has maintained that Japan, as a sovereign state, has the right of collective self-defense under international law, but that the exercise of that right is not permissible under Article 9 of the Constitution, which renounces the use of force as means of settling international disputes. 京大翻訳!: A government keeps insisting Japan possesses right of collective selfdefense as on the international law and sovereign nation up to now, but that use of the said right is prohibited by Constitutional Law 9th article which gave up the use of force as a solution method of an international dispute. Google翻訳: The government so far, Japan has international law, but has the right to collective self-defense as a sovereign state, the same exercise of rights is prohibited by Article 9 renounces the use of force as a means of solving international disputes which has continued to argue. 図 4: 長文(80 文字以上)の翻訳例 3.1.2 単文及び重文,複文の比較 以下に,単文と重文.複文を機械翻訳した例を示す. 例を見ると,文構造が複雑になるに従い,翻訳の品質が低下しているがわか る.また,例に示した以外の重文,複文も同様の挙動を示した. 原言語文: ICチップの暗号化されたデータの偽造は不可能とされている. 対訳: Data encrypted in IC chips are said to be impossible to counterfeit. 京大翻訳!: It's said that the counterfeiting of coded data of an IC chip is impossible. Google翻訳: Counterfeit encrypted data of the IC chip is impossible. 図 5: 単文の翻訳例 3.2 翻訳品質向上へのアプローチ 本節では,前節で示したような翻訳品質を向上させるためのアプローチを述 べる.翻訳品質向上へのアプローチとしては,機械翻訳システムが対象とする 14 原言語文: 三菱重⼯業は主に⾼速炉を,仏アレバは使⽤済み核燃料の再処理施設を受け持つ予定だ. 対訳: Mitsubishi Heavy Industries Ltd. will mainly work on fast reactors, and France's Areva will work on facilities to reprocess spent nuclear fuel. 京大翻訳!: Mitsubishi Heavy Industries is high-speed mainly, vessel , France AREBA is planning to take charge of reprocessing plant in used nuclear fuel . Google翻訳: MHI is primarily a fast reactor, the French Areva plans responsible for reprocessing spent nuclear fuel. 図 6: 重文の翻訳例 原言語文: 鳩山由紀夫首相は,埋め⽴ては極⼒,避けるべきだという議論が政府の中に出てきていると語っ た. 対訳: Prime Minister Yukio Hatoyama said opinion was emerging within the government that land reclamation should be avoided as much as possible. 京大翻訳!: Prime Minister Yukio Hatoyama told that the argument which should be avoided to the utmost had come out in the government for reclamation. Google翻訳: Prime Minister Yukio Hatoyama, the landfill as possible, come out and said that the debate should be avoided in the government. 図 7: 複文の翻訳例 15 文書に適合するアプローチと対象とする文書が機械翻訳システムに適合するア プローチの 2 つに大別できる.本節では,それぞれの方向からの翻訳品質向上 へのアプローチを述べる. 3.2.1 機械翻訳システムが対象文書に適合する 翻訳方式の組合せ 機械翻訳システムそのものの性能の向上と同義であるが, 翻訳方式を組み合わせることで翻訳品質の向上を試みるハイブリッド方式の翻 訳がある.その中でも特に有効とされているのが,統計ベース方式とルールベー ス方式との組合せである. これは,統計ベース方式が文法構造が類似している言語間での翻訳品質が高 いという長所を活かすとともに,文法構造が大きく異なる言語間での翻訳品質 が悪いという短所を同時に補えるという特徴を有しており,文法構造が大きく 異なる言語間でもある程度の翻訳品質を保証するルールベース方式で翻訳を行っ た後,統計ベース方式で同一言語内での翻訳を行うことにより,翻訳品質を向 上させようとする手法である. これに該当する研究としては,L.Dugast ら [9] の研究があり,ルールベース 方式のみや統計ベース方式のみで翻訳を行ったときに比べ,翻訳の品質を示す BLEU スコアが向上したと報告している. 定型・用例対訳型翻訳 定型・用例対訳型翻訳とは,あらかじめ正確に翻訳され た多言語の対訳を利用する翻訳手法で,対訳内の一部が変数になっており,当 該箇所を適宜変更し,翻訳できるものもある. その有する性格から,生命や健康など極めて高い翻訳品質が要求されるドメ インには極めて有効的であるが,あらかじめ用意できる定型文及び用例には限り があるため,システムを供給する側が想定していないようなものには対応できな いという欠点がある.また,定型文や用例対訳はそのシステムのインタフェース に依存する傾向が高く,頻繁なアップデートへの追従が難しいのも欠点である. 以下に,提携型翻訳を採用した多言語防災情報システム [10] と用例対訳型翻 訳を採用した多言語医療問診システム [11] の翻訳過程を示す. ドメイン特化型翻訳 対象とする文章のドメインを限定的にすることで,そこ で現れる文の型が自然に限られるようにするとともに,対象ドメインに関する 言語的な知識や資源を集約させることで,翻訳の品質を向上させる手法である. 旅行会話に関するドメインでは高い翻訳品質を提供できるとされており,情 16 翻 訳 図 8: 定型翻訳例(多言語防災情報翻訳システム)[10] 翻訳 図 9: 用例対訳翻訳例(多言語医療問診システム(エムキューブ)[11]) 17 報通信研究機構が開発した旅行用テキスト翻訳システム1) では,通じる訳が約 8 割という,既存のシステムの約 6 割強を上回る翻訳品質を提供できると報告し ている. 辞書連携翻訳 辞書連携翻訳 [12] とは,機械翻訳システムが正しく翻訳できな い専門用語や未知語などを予め対訳辞書として登録しておき,翻訳を行う際に その対訳辞書を用いて,当該単語を置換することで正しい翻訳を得ようとする 翻訳である.その例を以下に示す. 以下の翻訳例 1 を見ると,そのコミュニティに特化した固有名詞であるブッ クセンタールネや一般的な辞書に登録されていない地名である百万遍が通常の 機械翻訳では正しく翻訳できないのに対し,辞書連携を行うと,それぞれ The Co-op Book Center Renais,Hyakumanben と意図した通り正しく翻訳できる. しかし,翻訳例 2 を見ると,都市である Seoul が音楽のジャンルの soul music に誤って翻訳がなされている.これは,辞書を連携することで辞書登録されて いる対訳が強制的に置換されるためで,コミュニティ内で限定的に使用するに しても,語義の曖昧性が解消できない場合もある. 原言語文: 1.ブックセンタールネは,百万遍をさがったところにありますよ. 2.ソウルは韓国の首都です. 辞書連携無し(上),辞書連携有り(下) 1.Bukkusenta-rune is in the palce in which it fell one million. 1.The Co-op Book Center Renais is at the place where I went down Hyakumanben. 2.Seoul is the capital of South Korea . 2.Soul music is the capital of South Korea . 図 10: 辞書連携例 3.2.2 対象文書が機械翻訳システムに適合する 制限言語 制限言語は,機械における可読性を向上させるために,使用可能な 語彙,一文の長さ,語法などに制限を加えた言語体系のことで,これらを使用 して原言語文を作成することで,翻訳品質の向上を図る手法である. これにより,自然言語が有する曖昧性を解消であるため,翻訳品質が上がる 1) http://www2.nict.go.jp/pub/whatsnew/press/h22/100414/100414.html 18 と考えられており,また米ゼロックス社の複写機の取扱説明書の翻訳に制限言 語を使用した試み [13] が報告されており,使用できる単語を限定し,また単語 の意味や用法も一意に決め,文体についても一定の形式に制限することで,英 語からフランス語,イタリア語,スペイン語への翻訳はほとんど後処理の必要 のない品質の翻訳結果を得られている. しかし,翻訳品質の向上が見込める一方で,制限言語は執筆者の自由な発想 を妨げかねないほか,それらの言語体系を使うためのトレーニングや機械を使 うために人間が擦り寄るという心理的負担もある. 前処理 前処理は,機械翻訳システムが翻訳しにくい原言語文を翻訳しやすい 形式に加工する手法である.以下にその例を示す. 前処理無し(上),前処理有り(下) 原言語文: 彼の説明は分かりにくいものがある. 彼の説明は分かりにくい. 前処理無し(上),前処理有り(下) 京大翻訳!: There is something incomprehensible for his explanation. His explanation is incomprehensible. Google翻訳: He explained there is confusing. His explanation is confusing. 図 11: 前処理例 この例では,文としての意味を変えずに表現を変えたものを機械翻訳にかけ たものであるが,少し情報を落とすだけで,翻訳品質が向上している. また,前処理の対象となる原言語文は,文法が正しくない非文を除き,ある 程度統一的な形式であることから,前処理を工学的に適用することは容易であ ると考える.加えて,前処理を機械翻訳システムの外部処理とすることで,開 発や管理が容易になるため,その実現可能性も高いと言える. 後処理 後処理は,翻訳に失敗した結果を正しい翻訳に訂正する手法である. しかし,文法など文として正しいことを前提に前処理を行うのと同様,後処 理を行う際もそれらが正しいことが前提であるが,翻訳結果によっては,訳語 選択などの誤りがあり,文意が全くわからない場合や構文構造のほとんどが崩 れている場合などがあるため,後処理を工学的に適用するのは困難であると考 19 える. また,機械翻訳の翻訳結果が文法的に正しいとしても,例えば,以下に示す 日英翻訳のような“ 単数や複数の概念 ”や“ 冠詞の概念 ”など,日本語に無い 情報を後処理として翻訳結果である英文に付与する程度で,大幅な翻訳品質の 向上は見込めないものと考える. 以下にその例を示す. 原言語文: 彼は離島での実験を終えて,研究室に戻った. 後処理無し(上),後処理有り(下) 京大翻訳!: He has finished an experiment at a solitary island and has returned to laboratory . He has finished experiments at a solitary island and has returned to laboratory . Google翻訳: He finished an experiment on a remote island, and returned to the laboratory. He finished experiments on a remote island, and returned to the laboratory. 図 12: 後処理例 3.2.3 本論文における最適な解決手法 上記で挙げた翻訳品質向上へのアプローチを,以下の表 3 及び表 4 に示す. ともに一長一短あるため,本章で確認した挙動との整合性や実現可能性,適 用によって期待される効果について焦点を当てる. 表 3 を見ると,翻訳品質と入力文の自由度に対する制約及び対象ドメインの 限定に反比例しているのがわかる.本論文では,特定のドメインに依存せずに 翻訳品質の向上を試みるため,制約が少なく,また対象とするドメインを限定 しないアプローチを適格とみなす.したがって,機械翻訳システム側からのア プローチとしては翻訳方式の組合せが適格である. また表 4 についても表 3 と同様の理由で,より高品質な翻訳品質が期待でき る前処理が適格である. そこで,本論文では,翻訳方式の組合せと前処理との優劣の比較であるが,導 入コスト及び汎用性が優れている前処理が,本章で確認した挙動との整合性や 実現可能性,適用によって期待される効果の観点から最適であると考え,前処 20 理によって既存の機械翻訳システムの性能を引き出すことによって翻訳品質の 改善を行う. 表 3: 機械翻訳システムが対象文書に適合するアプローチ 導入コスト 翻訳品質 新たな言語資源 向上する が必要になる 定型⽂及び⽤例 対訳,新たなイ 定型・⽤例対訳型翻訳 極めて向上する ンタフェースの設 計が必要 ドメインに特化し ドメイン特化型翻訳 向上する た設計が必要 ドメインに必要な 向上する 辞書連携翻訳 対訳が必要 翻訳方式の組合せ ⼊⼒⽂の⾃由度 対象ドメイン 特に制限はない 特化していない 用意されたものし か使用できない, 特化している もしくは極端に制 限される 特に制限はない 特化している 特に制限はない ある程度特化している 表 4: 対象文書が機械翻訳システムに迎合するアプローチ 導入コスト 制限言語 前処理 後処理 3.3 特に必要はな い 前処理⽤のシ ステムが必要 後処理⽤のシ ステムが必要 翻訳品質 ⼊⼒⽂の⾃由度 対象ドメイン 極めて向上する 極端に制限される ある程度特化している 向上する 制限されない 特化していない ほとんど変わらな 制限されない い 特化していない まとめ 本章では,現行の機械翻訳システムにおける文長の長い文や係り受けの曖昧 な文の挙動を確認するとともに,既存の研究との関連について触れ,実現可能 性の観点から適切な課題解決手法について述べた. 現行の機械翻訳システムの挙動から,前章で指摘した原言語文が長文である もの及び文構造が複雑なものに対する翻訳品質が他の文に比べ,劣ることが確 認された. 21 また,それらを解消する様々な手法のうち,実現可能性の観点や確認された 課題への整合性,予想される効果から,原言語文の前処理が有効的であると判 断した. 次章では,機械翻訳システムの翻訳品質を向上させる手法として前処理に焦 点を当て,新たな前処理手法としてテキスト要約技術の適用を提案し,本研究 で採用する前処理手法について工学的要件とともに述べる. 22 第4章 前処理へのテキスト要約適用の提案 本章では,機械翻訳システムの翻訳品質を向上させる手法として前処理に焦 点を当て,その概要や必要性,既存研究などについて触れ,現行の機械翻訳シ ステムにおける効果について検証する.また,前処理手法として新たにテキス ト要約の適用を提案し,本研究で採用する前処理手法について述べる. 4.1 機械翻訳における前処理の概要 前節で述べたように,機械翻訳における前処理は,対象文書を機械翻訳シス テムに適合させることによって翻訳品質を向上させる手法の 1 つであり,原言 語文が有する曖昧性や多様性を事前に吸収することで,限られた言語資源や規 則での処理が可能となり,それにより構文解析や意味解析の精度の向上を図っ ている.つまり前処理は,機械翻訳システムの現状の性能の上限を上げるので はなく,現状の性能の上限まで利用できるようにすることで,翻訳品質の向上 を図る手法である. また前処理は,原言語文の表現や記述のスタイルに曖昧性や多様性がある時 だけでなく,以下の表に示すような言語に依存する特徴を解消する際にも用い られることがある. また,インターネットコムとメディアインタラクティブ(アイリサーチ)が 行った「翻訳サイトに関する調査」1) によると,翻訳サイトで長文を翻訳をする 際,1000 人中 531 人が「長文でもそのまま翻訳する」,374 人が「文節ごとに いくつかに分けて翻訳する」,95 人が「単語など 1-2 語ごとに翻訳する」と回 答しており,約半数の人が原言語文に対し,何らかの前処理を行なっているこ とがわかる. しかしながら,このような前処理を行うには,原言語文及び機械翻訳のスキ ルが必要不可欠であり,原言語文に関する言語的知識を有していない外国籍の 方は前処理すら行えない状況にある.加えて,経験則的に前処理を行うことで, 均質的な翻訳を提供できないだけでなく,妥当性のない前処理による副作用を 引き起こす可能性も有している. また,翻訳の品質について高いと回答した利用者層についても, 「長文でもそ のまま翻訳する」人では 37.1%, 「文節ごとにいくつかに分けて翻訳する」人で 1) http://japan.internet.com/research/20100616/1.html 23 は 47.3%, 「単語など 1-2 語ごとに翻訳する」人では 67.4%と,局所的に翻訳を 行なっていることからも,前後の文節や単語の翻訳誤りの影響を受けないよう な仕組みを潜在的に欲していることがわかる. 単語など1- その他, 2ごとに翻 1.70% 訳する, 8.90% 文節ごとに 幾つか分け ⻑⽂でもそ る, する, て翻訳す のまま翻訳 27.50% 61.90% 図 13: 翻訳サイトで長文を翻訳をする際の利用者の振る舞い 単語など1-2語ごとに翻訳する 文節ごとにいくつかに分けて翻訳する ⻑⽂でもそのまま翻訳する 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 図 14: 翻訳の品質について高いと回答した利用者層 24 表 5: 言語に依存する特徴(日英) 日本語 表現の曖昧さ 略語の扱い ⽂⻑ 英語 曖昧で明言を避ける 直接的,断定的な表現 省略語(主語などの省略)が多い 省略語が少ない ⻑くなりがち 比較的簡潔 無生物主語の扱い 無生物主語は主語になりにくい 趣旨の位置 文の最後 文法制約の厳しさ 緩い(語順の⾃由度は⾼い) (語順の⾃由度) 4.2 4.2.1 無生物でも主語になれる 文の最初 厳しい(語順の⾃由度は低 い) 関連研究 前処理の効果 機械翻訳における前処理の効果の有無については,池原ら [14] が検証してい る.池原らは一度機械翻訳して生成された翻訳文を,秀訳,可訳,惜訳,駄訳 の 4 段階で評価し,下位 2 段階に評価されたものを対象に前処理を行なってい る.その効果については,原言語文の前編集による効果も,機械翻訳システム のチューンナップによる効果もほぼ同等であったと報告しており,翻訳品質の 向上が比較的容易に行えることがわかる. しかしながら,下位 2 段階に評価された文を秀訳まで向上させるためには,機 械翻訳システムをチューンナップするほうが効果が大きいと報告している.ま た,惜訳に比較し,駄訳の改良は効果が少ないことも報告しており,構文解析 の失敗を回避する点では前処理は効果的だが,英文生成段階の問題(表現の適 切性の向上)の点では効果が薄いことがわかる. 4.2.2 前処理手法 書き換えからみた前処理 書き換えから見た前処理としては,語彙的言い換え と構文的言い換えの 2 つに大別され,語彙的言い換えは,難解または曖昧であ る名詞を同義語に,構文的言い換えは,意味を変えずに文の構造を言い換える 手法で,文分割や態の変換などがこれに該当する.以下にその例を示す. 未だに前処理としては効果的である手法がある一方で,以下に示すように, 25 神田ら [15] による連帯節主節化に伴う分割や接続詞補完処理のような,現時点 における機械翻訳システムにおいては既に不要となった前処理もある.また, この前処理はその精度についても,実用精度 76.63%,適合率 63.05%,再現率 54.37%と高いものとは言えず,適用が不要であるばかりか,翻訳品質の低下す ら招いてしまう可能性も有していることから,適用に対する工夫が必要になる. 原言語文: 情報化に向けての前向きな意⾒が多くを占めていますが,情報格差などの不安もみられます. 言い換え文: 情報化に向けての前向きな意⾒が多くを占めています.しかし,情報格差などの不安もみられます. 京大翻訳!: A positive opinion for information -ization occupies much, but anxiety of the information differential is also seen. A positive opinion for information -ization occupies much.But anxiety of the information differential is also seen. Google翻訳: Has accounted for more positive views toward information technology, such as the digital divide is also seen unrest. Accounted for more positive views toward information technology. However, information gaps, such as anxiety can be seen. 図 15: 構文的言い換え例(連帯節主節化) 方式からみた前処理手法 手法から見た前処理としては,ルールベース方式に 基づくもの,統計ベース方式に基づくものの 2 つに大別される. ルールベース方式に基づくものについては,大量かつ良質な言語資源を必要 とせずに翻訳品質を向上させられることから,前述した神田ら [15] をはじめと する既存の前処理の多くがこの方式を採用している.しかしながら,全ての言 語現象を記述することは不可能であるため,スケーラビリティに乏しく,また 機械翻訳システムのアップデートへの対応が柔軟に行うことができない.加え て,それらの個々の手法を組み合わせた際の影響や加工の精度なども未知数で あるという問題も抱えている. 統計ベース方式に基づくものについては,機械翻訳システムの性質や言語学 的な知識を利用した前処理規則を作成する必要がないため,スケーラビリティ に優れている.また南條ら [16] がこの方式を採用しているが,学習データの確保 やその妥当性に改善の余地を残しており,実用的な前処理手法とは言いがたい. また上記以外のものとしては,山口 [17] らの前処理前後の文から前処理規則を 26 獲得する手法や,翻訳スキルが十分でない方による下訳と,翻訳スキルが高い 方が下訳を修正した修正訳を対応付けて前処理規則を獲得する阿部川ら [18] の 手法がある.前者は,より人間が行う前処理に近い規則を獲得できる一方で,獲 得できる規則が前処理を行う利用者のスキルに依存することが挙げられ,また 獲得した規則の妥当性やメンテナンスに関する課題もいくつか抱えている.ま た後者は,学習データの質は非常に高いものの,コストが高く,また獲得した 前処理が機械翻訳システムに最適であるかどうかは保証されていない. 4.3 既存の前処理の問題点 機械翻訳における前処理の研究はこれまでに多く行われているが,それらの 多くが長文の分割処理や一部の表現の加工など個別の研究にとどまっており,そ れらの手法を組み合わせた際の影響や前処理の精度などは未知数である. また,利用者が行う前処理の前後の加工履歴を学習して加工規則を獲得し,原 言語文に適用する研究も幾つか報告されているが,獲得できる加工規則は,前 処理を行う利用者の加工に対するスキルなどに大きく依存するものであり,ま た獲得した加工規則の妥当性も検証しきれていないのが現状である. さらに,前小節で検証した通り,既存の前処理手法の幾つかは,既に現行の 機械翻訳システムの性能では不要なものになっている.そのため,機械翻訳シ ステムがアップデートした際は,これら既存の前処理は処理そのものに意味が なくなってしまうだけでなく,前処理を行う必要の無くなった文に対しても前 処理を適用してしまう可能性があるため,翻訳品質を低下させてしまうという 本末転倒の結果を招きかねないという問題もある. 加えて,原言語文内の全ての情報を高精度に翻訳するために,確実な前処理 を保証しないこれらの手法を多用することで,翻訳品質が前処理を行う前に比 べ,低下する可能性も孕んでいる. 4.4 4.4.1 前処理へのテキスト要約の適用 概要 前節で示した既存の前処理手法の問題点を踏まえ,本論文では,原言語文の 全ての情報を翻訳するために前処理手法を多用することを翻訳品質の低下を招 くリスクとして捉え,従来の原言語文内のすべての情報対象とするのではなく, テキスト要約を用いて原言語文内の一部の情報を削除し,文の長さや文構造の 27 複雑さ,曖昧性を有する単語を解消することで原言語文の解析精度を向上させ, 翻訳品質の向上を試みる. 4.4.2 関連研究 関連研究としては,文分割を行うことによって,一時的に文を簡素化し,翻 訳後,分割前の文脈情報を用いて再結合する手法 [19] がある.文法誤りや並べ 替え誤りが半減するなど,効果はあったと報告しているが,分割の精度や再結 合時の文脈情報の正しさなどについては言及していない. 4.4.3 テキスト要約手法について テキスト要約手法は,重要文抽出型と文短縮(圧縮)型の 2 つに大別できる [20].以下,それぞれについて述べる. 重要文抽出型 この要約手法は単数または複数の文書内から,tf-idf などで算出 された重要度や手掛かり語などの特徴量を用いて重要な文を特定・抽出するこ とで,文書内の文量を削減する手法である. しかし,この手法は原言語文から重要であると判断された文を加工せずに抽 出する手法であるため,人間への提示という点では良いが,機械における文書 解析精度を向上させることはできない. 文短縮(圧縮) 重要文抽出による要約手法が文を抽出することで文書内の文 量を削減するのに対し,文短縮(圧縮)による要約手法は一文ごとに重要でな い箇所を削ることにより(あるいは,重要な箇所を抽出することにより),文 量を削減する手法である.そのため,加工の如何によっては人間への提示とい う本来有する要約としてだけでなく,Filippova ら [17] の報告より,機械におけ る文書解析精度の向上も期待することができる.以下,この手法に関連する既 存の研究を機械翻訳の品質向上の可能性や実現可能性の観点から示す. 大森ら [21] は,複数且つ同ドメインの Web ページが利用できることを前提に, tf-idf を用いて算出した重要度をもとに依存構造木の枝を刈り取ることで文短縮 を行なっている.しかし,上述の前提は常にあるわけではなく,また人間が要 約する際に重要度以外に考慮している点を反映していないため,重要な情報も 削除する可能性が高い.したがって,機械翻訳の品質が向上する可能性は高い ものの,情報としての価値が無くなる可能性がある. また牧野ら [22] は, 「新幹線要約」と呼ばれるディジタルサイネージ用に加工 された文を用例とし,類似する構造を持つ用例の文節を置換することで要約を 行なっている.しかし, 「新幹線要約」は一般的な文書のスタイルとは異なるた 28 め,要素合成原理を利用しているルールベース方式の翻訳や用例ベース方式の 翻訳では,以下に示すように,時制などを考慮した正しい翻訳ができない. 要約文: 昨年の国内⾃動⾞市場は,普通乗⽤⾞の売上が3割増加. 京大翻訳!: The sales of the ordinary car increase a car market in last year 30 percent. Google翻訳: Last year, domestic car market, sales of passenger cars increased by 30%. 図 16: 新幹線要約の翻訳例 また掘ら [23] は,音声情報をテキストに書き下したものに対して,文短縮を 行なっている.この手法は,単語重要度を最大に且つ日本語として自然な部分 単語列を動的計画法にて解く手法であるが,要約用の言語モデルの学習に新聞 記事テキストを用いている.これは音声情報に対して新聞記事テキストが簡潔 であることに着目したものであるが,本論文では新聞記事を対象としているた め,それに対応する言語モデルを学習できるコーパスが無いため実現は難しい. また平尾ら [24] は掘らと同様,依存構造木の刈り込みによる文短縮ではなく, 文を単語列とみなし,単語の選択により文短縮を行なっているが,構文情報を 利用していないため,非文を防ぐための素性が不十分である可能性が高い.し たがって,機械による再処理に必要な文法性が保証されないため,機械翻訳の 品質が低下する可能性がある. また上記のように一般的な文書を対象としていない文短縮手法 [25] がある.こ れは検索された Web ページが適切かどうかを利用者に判断させる情報である, スニペット(概要文)を作成する手法である.この手法は,一般的な文書を対 象とする文圧縮手法に比べ,高い圧縮率に対しても概要文としての機能を果す ことができるが,クエリベースであるため,機械翻訳における翻訳品質が向上 するかは不明である. 4.5 本論文で用いる要約手法 前節で示したとおり,既存研究のいずれも人間への理解を考慮した,もしく は人手で作成したリファレンスに対して再現性の高い要約文の生成を目的とし たもので,要約文を機械翻訳にかけるといった機械による再処理を目的として 29 はいない. したがって,本論文では,下記に示すように人間による要約手法及び人間へ の理解を考慮し,なおかつ,依存構造解析器に誤りがない限り機械における処 理誤りの可能性を排除できる依存構造木の葉を削除することで文短縮を行う. 以下に示す図は, 「かねており報道がありましたが, 『京』に魅せられたバフェット がまもなく関西国際空港に到着します」という文を依存構造解析器 CaboCha[26] を用いて文節間の依存構造を解析した後,依存構造木として表したものである. 手順としては,主語を先導する「は」,必須格「ガ」 「ヲ」 「ニ」,所有格「ノ」 を持つ葉を重要とし,それ以外を指定した要約率(総文字数に対する残存文字 数)まで,最低階層且つ右側に位置する葉を刈り取りとるアプローチを取る.刈 り取ることにより,指定する要約率を超える場合は,情報の喪失による影響を 考慮し,その葉は刈り取ららないこととする.また,重要とした葉以外を刈り 取ることで指定した要約率に達しない場合は,重要とした葉も刈り取ることと する. また,連体修飾節や二重修飾を不要な語とし,それを刈り取る手法がある中 で,主語を先導する「は」,必須格「ガ」 「ヲ」 「ニ」,所有格「ノ」を持つ葉を 重要としたのは,主語等を省略すると,照応解析の行わない機械翻訳システム では,意味の通らない文に翻訳されてしまう,つまり翻訳品質が悪くなること を重要視したためである. また,本論文では原言語文に対してテキスト要約を適用することにより,機 械翻訳システムが出力する翻訳の品質にどのような影響を及ぼすかを示すこと が目的であり,新たな文短縮手法を提案するものではない.そのため削除する 部分木の優先順位を決めたり,単語列処理に新たな素性を組み入れたりといっ たそれ自体が研究テーマになることは行わないこととする.加えて,本手法が 機械翻訳への前処理としての最適な文短縮手法ではない可能性があること,ま た文短縮手法の上限で無いことも補足しておく. 4.6 まとめ 本章では,前章で確認された機械翻訳システムの翻訳品質の低下を招く原因 に対する解決策として,原言語文の前処理に焦点を当て,関連論文で報告され ている課題から新たに前処理としてテキスト要約を適用することを提案した. これは従来法の原言語文内の全ての情報を何らかの前処理を施すことで翻訳 30 到着します. バフェットが ありましたが, かねてより 報道が まもなく 関⻄国際空港に 魅せられた 『京』に 図 17: 依存構造木の例 するという発想に基づくものではなく,寧ろ原言語文内の全ての情報を翻訳す るために前処理を多用することを翻訳品質の低下を招くリスクとして捉え,テ キスト要約により原言語文内の情報の一部を削除するという逆転の発想に基づ くものである. これにより,原言語分内の一部の情報を喪失することになるが,文長の長さ 並びに文構造の複雑さの解消が可能となった. 次章では,提案した機械翻訳システムの前処理へのテキスト要約適用の有効 性について,様々な評価基準から検証する. 31 第5章 実験及び評価,考察 本章では,機械翻訳システムの前処理におけるテキスト要約の有効性につい て,様々な評価基準から検証する. 5.1 5.1.1 実験方法 実験手順 毎日新聞のデータベースからヘッドラインを除く第一文(80 文字以上)をラ ンダムに抜粋した全 20 文(下記図参照)に対し,文短縮手法により,80%,60%, 40%,の 3 段階の要約率にて要約する. 表 6: 原言語文として使用した記事データ 文字数 文節数 平均値 101.4 19.1 最小値 80 16 最大値 131 25 これら原文 1 文に対して,原文を含めた 4 通りの文を Google 翻訳,京大翻訳! で生成された翻訳文に対し,バイリンガル 2 名による主観評価を行った. 5.1.2 評価基準 本論文では,複数の正解対訳を用いていないため,自動評価手法ではなく,下 記に示す,人手による主観にて評価した. 評価基準は以下に示す通り,原言語文(要約文)の情報がどの程度含まれる かを示す適切性(adequacy)を, 5: All of the information 4: Most of the information 3: Much of the information 2: Little information 1: None of it の 5 段階で,また,母国語とする人にとってどの程度自然かを示す指標であ る流暢さ(fluency)を, 5: Perfect 32 4: Good 3: Non-native 2: Disfluent 1: Incomprehensible の 5 段階で,また,評価した. なお,評価値は 2 名のバイリンガルの平均値を採用する. 5.2 5.2.1 評価 前処理適用による品質に対する効果 以下に,Google 翻訳,京大翻訳!で原言語文及び要約文を翻訳した結果の評 価値を機械翻訳システム別に,流暢さ,適切性に分けて示す. これらの結果より,要約率が上昇するに従い,Google 翻訳,京大翻訳!の流 暢さ,適切性ともに半数近くの原言語文で,品質が 0.5 から 1.0 ポイント程度向 上しているとともに,向上率については,流暢さよりも適切性のほうが,大き いこともわかる.これは,前処理として要約を適用することにより,文長や文 構造が平易になったためであると考えられる. 表 7: Google 翻訳における前処理適用の効果(適切性) 適切性 1 1.5 2 2.5 3 3.5 4 4.5 5 合計 原言語文 10% 45% 30% 10% 5% 0% 0% 0% 0% 100% 80% 60% 40% 15% 15% 10% 35% 25% 25% 25% 5% 25% 20% 45% 10% 0% 5% 10% 0% 0% 10% 5% 5% 10% 0% 0% 0% 0% 0% 0% 100% 100% 100% また,Google 翻訳,京大翻訳!ともに,流暢さ,適切性が 4 若しくは 5 まで 向上しているものもある.以下に,その高評価を得た文を示す.この文を見る と,要約文が人手によるものと遜色の無い要約文を生成していたことが高評価 を得た理由であると考えられる.つまり,高品質な要約文を生成することが出 33 表 8: Google 翻訳における前処理適用の効果(流暢さ) 流暢さ 原言語文 80% 60% 40% 1 30% 25% 20% 15% 1.5 55% 45% 20% 20% 2 15% 20% 35% 50% 2.5 0% 5% 15% 0% 3 0% 5% 10% 15% 3.5 0% 0% 0% 0% 4 0% 0% 0% 0% 4.5 0% 0% 0% 0% 5 0% 0% 0% 0% 合計 100% 100% 100% 100% 表 9: 京大翻訳!における前処理適用の効果(適切性) 適切性 1 1.5 2 2.5 3 3.5 4 4.5 5 合計 原言語文 5% 20% 40% 10% 20% 5% 0% 0% 0% 100% 80% 60% 40% 5% 5% 0% 15% 20% 20% 40% 25% 20% 20% 25% 20% 15% 20% 20% 5% 0% 10% 0% 0% 5% 5% 0% 10% 0% 5% 5% 100% 100% 100% 表 10: 京大翻訳!における前処理適用の効果(流暢さ) 流暢さ 原言語文 80% 60% 40% 1 10% 10% 5% 5% 1.5 40% 40% 35% 20% 2 35% 25% 20% 25% 2.5 10% 10% 35% 30% 3 0% 10% 0% 0% 3.5 5% 5% 0% 10% 4 0% 0% 0% 5% 4.5 0% 0% 0% 0% 5 0% 0% 5% 5% 合計 100% 100% 100% 100% 34 原言語文(80文字): 財務省は3⽇、国⺠が所得の中から税⾦と社会保険料をどれだけ払っているかを⽰す「国⺠負 担率」が、12年度は前年度⽐0.2ポイント低下し39.9%になると発表した。 機械翻訳文(京大翻訳!):流暢さ:2,適切性:2 The Department of the Treasury announced year-on-year comparison fell 0.2 points in fiscal year 12, and that the "national contribution percentage" which indicates how long the people were paying a tax and the social insurance premiums from the inside of the income on the 3rd was 39.9%. 要約⽂(要約率40%): 財務省は「国⺠負担率」が、12年度は39.9%になると発表した。 機械翻訳文(京大翻訳!):適切性:5,流暢さ:5 The Department of the Treasury announced that "the national contribution percentage" was 39.9% in fiscal year 12. 図 18: スコアの高い翻訳例 来れば,従来研究で報告されている,前処理により各解析器からのノイズを防 ぐ以上の効果を示すこともあることがわかる. 35 5.2.2 効果の平均値による比較 以下に,原文と各要約率で要約した文を翻訳した文を,機械翻訳別に要約率 に対する流暢さと適切性の平均を示す.また,併せて以下にそれぞれのスコア の頻度分布を示す. 3 2.5 さ 暢 流 2 google翻訳 京大翻訳! 1.5 1 20% 40% 60% 80% 要約率 100% 図 19: 機械翻訳システム別の要約率に対する流暢さの平均 2.9 2.7 2.5 性2.3 切2.1 適 google翻訳 京大翻訳! 1.9 1.7 1.5 20% 40% 60% 80% 要約率 100% 図 20: 機械翻訳システム別の要約率に対する適切性の平均 36 表 11: Google 翻訳における要約率別の流暢さと適切性 流暢さ 適切性 100% 1.425 1.7 80% 1.6 1.875 60% 1.875 2.1 40% 1.95 2.275 表 12: 京大翻訳!における要約率別の流暢さと適切性 流暢さ 適切性 100% 1.725 2.175 80% 1.9 2.25 37 60% 2.1 2.375 40% 2.6 2.75 25 20 15 度 頻10 100% 80% 60% 40% 5 0 5 4 3 2 1 スコア 図 21: Google 翻訳における流暢さのスコア分布 25 20 15 度 頻10 100% 80% 60% 40% 5 0 5 4 3 2 1 スコア 図 22: Google 翻訳における適切性のスコア分布 これらが示すように,Google 翻訳,京大翻訳!ともに要約の適用により,流 暢さ,適切性がともに向上している.これは,その翻訳方式に依らず,前処理 として要約を用いることが有効である,つまり汎用性を有しているということ を示すものである. 38 25 20 15 度 頻10 100% 80% 60% 40% 5 0 5 4 3 2 1 スコア 図 23: 京大翻訳!における流暢さのスコア分布 25 20 15 度 頻10 100% 80% 60% 40% 5 0 5 4 3 2 1 スコア 図 24: 京大翻訳!における適切性のスコア分布 39 5.2.3 文ごとによる比較 以下に,使用した原文及び要約文を翻訳した際に,最も高い評価を得た要約 率及び最も低い評価を得た要約率を文ごとに示す. これらが示すように,文ごとによって,品質の高い翻訳を得られる要約率が 異なっていることがわかる.要約技術の品質が十分でない現在, したがって,翻訳サービスの一つとして要約を提供する場合,要約率を可変で きるようにすることにより,現行の要約技術での品質を補うことも可能である. 100 80 率 60 約 要 40 流暢さ 適切性 20 0 1 2 3 4 5 6 7 8 9 1011121314151617181920 文番号 図 25: google 翻訳において最も高い評価を得た要約率(全 20 文別) 5.2.4 評価値の低い翻訳例の考察 以下に示すように,評価値の高い要約文(原言語文)と比べ,文としての流 暢さ,意味としての適切性が低く,また文としても不適切であるため,翻訳品 質が低くなったと予想される. 40 100 80 率 60 約 要 40 流暢さ 適切性 20 0 1 2 3 4 5 6 7 8 9 1011121314151617181920 文番号 図 26: google 翻訳において最も低い評価を得た要約率(全 20 文別) 100 80 率 60 約 要 40 流暢さ 適切性 20 0 1 2 3 4 5 6 7 8 9 1011121314151617181920 文番号 図 27: 京大翻訳!において最も高い評価を得た要約率(全 20 文別) 41 100 80 率 60 約 要 40 流暢さ 適切性 20 0 1 2 3 4 5 6 7 8 9 1011121314151617181920 文番号 図 28: 京大翻訳!において最も低い評価を得た要約率(全 20 文別) 原言語文(113文字): スウェーデンでの性犯罪容疑で逮捕され、保釈中の内部告発ウェブサイト「ウィキリークス」創設者 ジュリアン・アサンジ容疑者(40)について、スウェーデンへの引き渡しの是非を判断する審理が 2日、英最高裁で2日間の日程を終えて結審した。 機械翻訳文(京大翻訳!):流暢さ:1,適切性:1 The trial which judges right or wrong of a delivery to Sweden by a sexual criminal count in Sweden about the whistle blower website "WIKIRIKUSU" founder Julian ASANJI suspect who is arrested and bails out (40) finished a schedule for 2 days by a British Areopagus on the 2nd, and was concluded. 要約⽂(要約率60%): スウェーデンでの性犯罪容疑で逮捕され、「ウィキリークス」創設者ジュリアン・アサンジ容疑者 (40)について、是非を判断する審理が2⽇間の⽇程を終えて結審した。 機械翻訳文(京大翻訳!):適切性:5,流暢さ:5 The Department of the Treasury announced that "the national contribution percentage" was 39.9% in fiscal year 12. 図 29: スコアの低い翻訳例 42 また,以下に示す翻訳例では, 「米」を「アメリカ」と機械翻訳が文意とは異 なる翻訳をしてしまったことで,翻訳品質が悪くなっている.この形式の翻訳 誤りについては, 「産米」とそれの対訳を予め辞書に登録しておくことで,翻訳 時に「産米」がそれの対訳に強制置換されるため,文意通りの翻訳が生成され るため,要約の適用は有効であると考えられる.しかしながら,以下の翻訳例 要約⽂(要約率40%): 福島県は11年産⽶の全⼾検査を終え、⼀部農家のコメから当たり超える放射性セシウムを検 出したと発表した。 機械翻訳⽂(京⼤翻訳!):流暢さ:1,適切性:1 It was announced Fukushima Prefecture finished whole farmer examination in America made in 11, and that detected radioactive cesium which is bruised and exceeds in rice of a part farmer. 図 30: 辞書連携によりスコアの向上が見込める翻訳例 では,要約文(原言語文)の文としての流暢さ,意味としての適切性がともに 高いにも関わらず,スコアが低い翻訳文を生成している.これは,現行の機械 翻訳システムの性能が低いため,翻訳ができないためであると考えられる.こ のような原言語文に対して翻訳品質を高めるためには,前処理として要約では なく,文の表現を変える書き換えが必要になると思われる. 5.2.5 翻訳品質の改善に関する考察 以下に示すように,多くの文において,テキスト自動要約を適用することに よって,翻訳品質が改善している一方で,いくつかの文においては,翻訳品質 が改悪している.従って,更なる翻訳品質の向上を図るためには,本研究で採 用した文短縮手法以外の手法を用いるか,その他の前処理を適用する必要があ ると考えられる. 43 原言語文(112文字): NHKと⽇本⺠間放送連盟でつくるジャパンコンソーシアム(JC)は3⽇、14年のソチ冬 季五輪と16年のリオデジャネイロ夏季五輪の放映権料について、国際オリンピック委員会(I OC)と2大会で計360億円で契約合意したと発表した。 機械翻訳文(Google翻訳):流暢さ:1,適切性:1 (JC) is 3 days, for the broadcast rights fee Summer Olympics Winter Olympics in Sochi and Rio de Janeiro 16 years of 14 years, 360 billion in two competitions and the International Olympic Committee (IOC) made in Japan Consortium NHK and Nihonminkanhosorenmei announced that it had agreed to contract with circles. 要約⽂(要約率60%): ジャパンコンソーシアム(JC)は3⽇、14年のソチ冬季五輪と16年のリオデジャネイロ 夏季五輪の放映権料について、契約合意したと発表した。 機械翻訳文(Google翻訳):適切性:1,流暢さ:1 (JC) is 3 days, gave a presentation on the Summer Olympic Games broadcast rights fee of Rio de Janeiro 16 years and 14 years of Sochi Winter Olympics, Japan has agreed consortium agreement. 図 31: 現行の機械翻訳システムでは適切に翻訳できないと思われる翻訳例 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 0 2 0 2 3 0 0 2 5 0 7 2 0 2 0 12 1 15 1 合計 0 0 0 2 0 2 2 21 14 15 16 40 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 0 0 0 0 3 0 0 0 3 1 4 2 0 0 0 11 5 16 1 合計 0 0 0 0 0 0 3 17 17 23 20 40 図 32: Google 翻訳における適切性と流暢さ(要約率 80%) 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 1 1 1 1 4 3 0 1 0 6 2 9 2 0 0 0 9 5 14 1 合計 0 0 0 2 1 2 5 21 7 15 13 40 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 0 0 0 0 3 0 0 0 7 2 9 2 0 0 0 5 12 17 1 合計 0 0 0 0 0 0 5 17 9 23 14 40 図 33: Google 翻訳における適切性と流暢さ(要約率 60%) 44 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 1 5 1 7 3 0 1 0 2 5 8 2 0 1 1 9 3 14 1 合計 0 0 0 2 0 2 5 21 6 15 11 40 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 0 0 1 1 3 0 0 0 4 1 5 2 0 0 0 9 15 24 1 合計 0 0 0 0 0 0 4 17 6 23 10 40 図 34: Google 翻訳における適切性と流暢さ(要約率 40%) 前後 5 4 3 2 1 合計 5 0 0 1 1 1 3 4 0 1 1 0 0 2 3 0 3 3 2 0 8 2 0 1 4 10 4 19 1 0 0 0 1 7 8 合計 0 5 9 14 12 40 前後 5 4 3 2 1 合計 5 0 0 0 0 0 0 4 0 0 1 2 0 3 3 0 1 2 2 1 6 2 0 0 5 9 2 16 1 合計 0 0 0 1 0 8 1 14 14 17 15 40 図 35: 京大翻訳!における適切性と流暢さ(要約率 80%) 前後 5 4 3 2 1 合計 5 0 0 1 1 0 2 4 0 0 0 0 0 0 3 0 0 3 4 1 8 2 0 1 3 8 8 20 1 合計 0 0 0 1 1 8 1 14 8 17 10 40 前後 5 4 3 2 1 合計 5 0 1 0 1 0 2 4 0 0 0 1 0 1 3 0 1 5 3 2 11 2 0 3 4 6 7 20 1 0 0 0 3 3 6 合計 0 5 9 14 12 40 図 36: 京大翻訳!における適切性と流暢さ(要約率 60%) 前後 5 4 3 2 1 合計 5 0 1 0 3 2 6 4 0 1 2 2 0 5 3 0 1 3 3 3 10 2 0 2 2 2 5 11 1 0 0 2 4 2 8 合計 0 5 9 14 12 40 前後 5 4 3 2 1 合計 5 0 0 1 1 0 2 4 0 0 1 2 2 5 3 0 0 3 4 1 8 2 0 1 3 6 7 17 1 0 0 0 1 7 8 図 37: 京大翻訳!における適切性と流暢さ(要約率 40%) 45 合計 0 1 8 14 17 40 5.3 まとめ 本章では,提案した機械翻訳システムの前処理へのテキスト要約適用の有効 性について,様々な評価基準を設け,検証した. それにより,本実験による条件下で翻訳品質の向上が確認されたとともに,翻 訳方式などが異なる様々な機械翻訳システムにおいても翻訳品質の向上が確認 されたことから,提案手法の有効性はもとより,汎用性も有していることを示 した. 次章では,その有効性が検証されたテキスト要約を利用した機械翻訳の更な る利便性と翻訳品質の向上を目指し,新たなサービスの提供とその効果につい て述べる. 46 第6章 サービス化に向けて 本章では,前章においてその有効性が検証されたテキスト要約を利用した機 械翻訳の更なる利便性と翻訳品質の向上が期待されるサービスの提供方法とそ の提示方法について述べる. 6.1 言語グリッド 昨今の著しい技術発展により,インターネットを介して機械翻訳器や多言語 辞書などをはじめとする多種多彩な言語資源が提供されている.しかしながら, 大規模且つ良質な言語資源を所有している多くの機関が商用としてサービスの 提供を行なっているためか,その契約に関する手続きの煩雑さやライセンスな どの権利的な問題や,各言語資源が提供するインタフェースが標準化されてい ないなどの技術的な問題が発生しているなど,利用状況に合わせたサービスの 開発に困難を期しているという問題もある.それゆえ,上述した権利的な問題 や技術的な問題を一元的かつ統一的に管理運営するサービス基盤の登場を望む 声が多く上がっていた. そこで提唱されたのが,言語グリッドと呼ばれる多言語サービス基盤である. 言語グリッドは,各言語資源に関するライセンスを一元的に管理する仕組みを 設けることで,言語資源の利用に際する契約やライセンスなどの問題の解消を, また言語資源のインターフェースを統一する仕組みを設けることで,利用状況 に合わせたサービスの開発を支援しており,その革新的なサービス基盤ゆえ,言 語グリッドは大小種別問わず世界中の様々な組織で利用されるまでに成長して きている. また,言語グリッドの提供するサービスの利便性の向上を目標に,言語グリッ ドを利用した多言語サービス支援ツールである言語グリッド Toolbox が,言語 グリッドを研究・開発する独立行政法人情報通信研究機構により公開されてい る.言語グリッド Toolbox は,テキスト翻訳機能や対訳辞書作成機能などの基 本的な機能をはじめ,母国語での多言語コミュニケーションを可能とする多言 語掲示板などのコミュニティ用機能も具備している.また言語グリッド Toolbox はその有している性格より,世界中の研究・開発者による活発な機能の追加や拡 張などを期待し,オープンソースとして公開している.そのため,インターネッ ト技術の発展や言語資源の新たな獲得に伴う持続的な発展が期待されている. 47 そこで本論文では,これらがもたらす恩恵を最大限享受するために,言語グ リッド語グリッドが提供する言語サービスと言語グリッド Toolbox を利用する テキスト要約を利用した機械翻訳の更なる利便性と翻訳品質の向上を目標とし たサービスの提供と提示方法を提案する. 6.2 サービス概要 本論文では,テキスト要約を利用した翻訳が適格と思われるテキスト翻訳と Web ページ翻訳の 2 サービスを提案する. まず,テキスト翻訳については,自動生成した要約文が人間が行った要約と 比較して,文法性及び意味の正確性が劣ることが確認されたため,原言語文の 要約文を表示するウィンドウを設け,原言語文と原言語文を要約したものを併 記させた.これにより,テキスト自動要約機能による要約の生成失敗を補完で きるものと考える. 加えて,要約率に応じて翻訳の品質が変化するため,要約率を可変できるよ うなメニューを設けた.これにより,品質の高い翻訳が得られるものと考える. また,現行のテキスト要約サービスはニュース記事要約を対象としたもので あるため,文法制約を著しく逸脱したものや口語調のようなものについては,機 械翻訳のような通常の自然言語処理を対象とする言語サービスと同様,思うよ うな結果は得られないことが懸念事項として考えられる. Web 翻訳サービスについても同様な理由から,原言語文を翻訳したものと, 要約文を翻訳したものとを併記し,また要約率を可変できるメニューも併せて 設けた. また,双方のサービスともに新たな言語サービスであるテキスト自動要約が 入手及び利用可能後,即稼働できることを意識し,現在稼働中の京大翻訳!及 び Google Chrome Extension のポップアップ翻訳のデザインを踏襲した. 以下に,提案する 2 サービスのサービスイン時のインタフェースを示す. 6.3 言語グリッド上における構成図 本論文では,上述のサービスを言語グリッドと言語グリッド Toolbox 上で開 発・サービスインすることを提案する. 以下の図に示すように,言語グリッドは P2P グリッド基盤,言語資源,言語 サービス,異文化コラボレーションツールの4つのサービス階層から構成され 48 図 38: テキスト翻訳 49 Translation from Langrid (Japanese -> English) Summary(40%): To secure safety, Cabinet Office the Nuclear Safety Commission gathered the proposal asked from a power company. Full: For Cabinet Office the Nuclear Safety Commission to secure safety of nuclear reactor , when nuclear power plant was attacked by tsunami beyond assumption on the 3rd, water resistance reinforcement of a building and equipment gathered the proposal which asks a country and a power company to take protection step manifoldly. 図 39: Web ページ翻訳 ている. まず最も計算機に近い階層である P2P グリッド基盤階層は,インターネット 上の複数のサーバを連携させ,言語資源,計算資源へのアクセスを可能にする ための階層であり,また言語資源階層は,言語資源を標準インタフェースを持 つ Web サービスとして提供するための階層である.言語サービス階層は,複数 の言語資源をワークフローを用いて連携させる階層で,本論文で提案するテキ スト要約翻訳がこの層に該当する.最後に最もユーザに近い買いそうである異 文化コラボレーションツール階層は,支援サービスを利用し,多言語環境でコ ミュニケーションを支援する階層で,言語グリッド Toolbox はこの階層に該当 する. 言語グリッド Toolbox は,オープンソースの CMS である XOOPSCube をベー スに開発されており,XOOPS のモジュールを開発することにより,用途に合わ せたサービスを開発できるという特徴を有している.本論文においてもその特 徴を活かし,テキスト要約用のモジュールを言語グリッド Toolbox 上に配備す ることで実現することとする.これにより,辞書連携などの既存のサービスも 容易に連携させることができる.また Web 翻訳サービスとしては,現在京大翻 50 訳!において提供中のポップアップ翻訳のように Google Chrome の Extension としての提供を提案する. 言語グリッドToolbox 異⽂化コラボレーションツール 折り 返し 翻訳 言い言語サービス 専門 … 換え 翻訳 機械 翻訳 形態 概念 素解 言語資源 … 辞書 析 テキ スト 要約 係り 受け 解析 Text Translation Module Language Resource Creation Module Text Summarization Module … Language Grid Access API Language Resource Management API Text Summarization API … XOOPS Core P2Pグリッド基盤 図 40: 言語グリッド上における構成図 6.4 まとめ 本章では,その有効性が検証されたテキスト要約を利用した機械翻訳の更な る利便性と翻訳品質の向上が期待される,テキスト翻訳と Web 翻訳サービスの 提供とその提示方法を提案した. テキスト翻訳,Web 翻訳ともに,要約文が人間が行った要約と比較して,文 法性及び意味の正確性が劣ることから,原言語文と原言語文を要約したものを 併記させるようにした.これにより,テキスト自動要約機能による要約の生成 失敗を補完できるものと考える. また,これらのサービスの開発及びサービスインは言語グリッド及び言語グ リッド Toolbox 上で行うこととした.これにより,辞書連携などの既存のサー ビスも容易に利用することができるなど,更なる翻訳精度の向上が期待される. 次章では,本論文におけるまとめを行う. 51 第7章 おわりに 本論文では,現行の機械翻訳システムにおける原言語文の前処理による効果 を,提案手法であるテキスト要約を適用する手法の双方から,機械翻訳システ ムの挙動並びに生成された翻訳結果に対する人間の理解度についての考察を行 なってきた. 機械翻訳のみを利用して翻訳文を獲得する手段の問題点として,ユーザの機 械翻訳システムの性能に対する依存度の高さを指摘し,また各々の翻訳方式に 共通する問題点として,原言語文の文長の長さ及び文構造の複雑さについて指 摘した.加えて,これらの問題点が翻訳品質の低下を招く根本原因になってい ることを,機械翻訳システムの翻訳過程と併せて述べた. また,現行の機械翻訳システムに潜む課題が前述した原言語文の文長の長さ 及び文構造の複雑さであることをその挙動から確認し,併せて,それらの解決手 法として言語資源の拡充による機械翻訳システム自体の性能の向上や原言語文 において使用できる言語や文法に制限を設ける手法などを紹介し,実現可能性 の観点や指摘した問題点に即する解決手法として,原言語文の前処理を挙げた. 機械翻訳システムにおける原言語文の前処理について,その位置づけを示す とともに,調査会社の調査結果を引用し,その必要性を示した.また関連研究 の発表年次の古さから,現行の機械翻訳システムでそれらの効果について検証 し,その効果の程度や精度の低さから,従来とは一線を画す前処理手法として テキスト要約の適用を提案した.これは従来法の原言語文内の全ての情報を何 らかの前処理を施すことで翻訳するという発想に基づくものではなく,寧ろ原 言語文内の全ての情報を翻訳するために前処理を多用することを翻訳品質の低 下を招くリスクとして捉え,テキスト要約により原言語文内の情報の一部を削 除するという逆転の発想に基づくものである.これにより,一定の条件下で,文 長の長さ並びに文構造の複雑さの解消が可能となった. またテキスト要約された原言語文が機械翻訳システムにおいて有効性につい て,比較検討を行った.それにより,一定の条件下で翻訳品質が向上したとと もに,翻訳方式などが異なる様々な機械翻訳システムにおいても翻訳品質の向 上が確認されたことから,提案手法の有効性はもとより,汎用性も有している ことを示すことができた. また,その有効性が検証されたテキスト要約を利用した機械翻訳の更なる利 52 便性と翻訳品質の向上が見込めるサービスの提供とその提示方法を提案した. 言語グリッド Toolbox 上にテキスト要約モジュールを配備することにより,辞 書連携などの既存のサービスも容易に利用することができるなど,更なる翻訳 精度の向上が見込めるとともに,現在京都大学において提供中のポップアップ 翻訳のような Google Chrome の Extension として提供することで,更なる利便 性の向上も期待される. 上述した通り,本論文にて提案した手法は今後,実用レベルの翻訳品質を掲 げ,台頭してくるであろう新たな翻訳方式へのつなぎとしての役割だけでなく, 必要な情報をより正確に獲得するという従来とは一線を画す新たな翻訳サービ スとしての発展が期待される. 53 謝辞 ご多忙であるにもかかわらず,快くアドバイザをお引受け下さるとともに,所 属研究室では得られない視座からの大変有益なご助言をご提示してくださった, 馬強准教授,竹村匡正講師に深甚の謝意を表します. 加えて,教員の松原繁夫准教授,David KINNY 特定准教授,稲葉利江子特 定講師,服部宏充助教,中島悠特定助教,林冬惠特定助教,コーディネータの 久保田庸子さま,小杉照美さま,事務補佐員の岩間陽子さまをはじめとする石 田・松原研究室の皆さまにも感謝します.また,稲葉利江子特定講師には,深 夜帯にも関わらずご相談に乗ってくださったこと,林冬惠特定助教,Ari 先輩に は多くの時間を要する依頼にも関わらず,快くお引受けくださったこと,感謝 いたします. 最後に,ご多忙の中,大変貴重なお時間を割きご指導して下さった石田亨教 授に,心よりの感謝を申し上げます. 54 参考文献 [1] 長尾真: 機械翻訳はどこまで可能か (New science age (16)), 岩波書店 (1986). [2] Nagao, M.: A framework of a mechanical translation between Japanese and English by analogy principle, In International NATO Symposium on Artifical Human Intelligence (1981). [3] Brown, P. F., Pietra, V. J. D., Pietra, S. A. D. and Mercer, R. L.: The Mathematics of Statistical Machine. Translation: Parameter Estimation, Association for Computational Linguistics, Vol. 19, No. 2, pp. 263–312 (1993). [4] Donghui, L., Murakami, Y., Ishida, T. and Tanaka, M.: Composing Human and Machine Translation Services: Language Grid for Improving Localization Processes, 7th International Conference on Language Resources and Evaluation (LREC 2010), pp. 500–506 (2010). [5] Morita, D. and Ishida, T.: Collaborative Translation by Monolinguals with Machine Translators, Proceedings of ACM Conference on Intelligent User Interface (IUI’09), pp. 361–365 (2009). [6] 黒橋禎夫, 河原大輔: 京都大学自然言語処理ツール, 情報処理学会研究報告. 自然言語処理研究会報告 2000, Vol. 53, p. 91 (2000). [7] 黒橋禎夫, 長尾真: 長い日本語文における並列構造の推定, 情報処理学会論 文誌, Vol. 33, No. 8, pp. 1022–1031 (1992). [8] 白井諭, 池原悟, 横尾昭男, 木村淳子: 階層的認識構造に着目した日本語従 属節間の係り受け解析の方法とその精度, 情報処理学会論文誌, Vol. 36, No. 10, pp. 2353–2361 (1995). [9] Dugast, L., Senellart, J. and Koehn, P.: Statistical postediting on SYSTRAN ’s rule-based translation system, in Second Workshop on SMT, 2007 , pp. 179–182 (2007). [10] 宮尾克: 多言語防災情報翻訳システムについて, 名古屋大学情報連携基盤 センターニュース, Vol. 4, No. 3 (2005). [11] 宮部真衣, 吉野孝, 重野亜久里: 外国人患者のための用例対訳を用いた多言 語医療受付支援システムの構築, 電子情報通信学会論文誌. D, 情報・シス テム, No. 6, pp. 708–718 (2009). 55 [12] 重信智宏, 藤原義功, 村上陽平, 吉野孝, 石田亨: ドメイン指向翻訳を備え た言語グリッドコミュニケーションツール, 情報処理学会第 69 回全国大会 (2007). [13] 長尾真: 機械翻訳文の質の評価と言語の制限, 情報処理, Vol. 26, No. 10, pp. 1197–1202 (1985). [14] 池原悟, 白井諭, 小見佳恵: 日英機械翻訳における原文前編集の内容と効果 について, 全国大会講演論文集 第 49 回平成 6 年後期, Vol. 3, pp. 241–242 (1994). [15] Filippova, K. and Strube, M.: Dependency tree based sentence compression, In International Natural Language Generation Conference(INLG’08), pp. 25–32 (2008). [16] 南條浩輝, 吉見毅彦, 岡田真也: 機械翻訳のための統計的手法に基づく前編 集, 情報処理学会研究報告. 自然言語処理研究会報告, Vol. 191, No. 1, pp. 1–6 (2009). [17] 山口昌也, 乾伸雄, 小谷善行, 西村恕彦: 前編集結果を利用した前編集自動 化規則の獲得, 情報処理学会論文誌, Vol. 39, No. 1, pp. 17–28 (1998). [18] 阿辺川武, 影浦峡: 下訳と修正訳を用いた訳文修正パターンの発見, 言語処 理学会第 13 回年次大会論文集, pp. 919–922 (2007). [19] Poornima, C., Dhanalakshmi, V., Anand, K. M. and Soman, K. P.: Rule based Sentence Simplification for English to Tamil Machine Translation System, International Journal of Computer Applications, Vol. 25, No. 8, pp. 38–42 (2011). [20] 奥村学, 難波英嗣: テキスト自動要約, オーム社出版局 (2006). [21] 大森岳史, 増田英孝, 中川裕志: Web 新聞記事の要約とその携帯端末向け 記事による評価, 情報処理学会研究報告. 自然言語処理研究会報告 2003, Vol. 4, pp. 1–8 (2003). [22] 牧野恵, 池田諭史, 山本和英: 類似用例文の部分的置換による文短縮, 情報処 理学会研究報告. 自然言語処理研究会報告 2006, Vol. 53, pp. 21–28 (2006). [23] 堀智織, 古井貞煕: 単語抽出による音声要約文生成法とその評価, 電子情報 通信学会論文誌. D-II, 情報・システム, II-パターン処理, No. 2, pp. 200–209 (2002). [24] 平尾努, 鈴木潤, 磯崎秀樹: 構文情報に依存しない文短縮手法, 情報処理学 56 会論文誌, Vol. 2, No. 1, pp. 1–9 (2009). [25] 長谷川隆明, 西川仁, 今村賢治, 菊井玄一郎, 奥村学: 携帯端末のための Web ページからの概要文生成, 人工知能学会論文誌, Vol. 25, No. 1, pp. 133–143 (2010). [26] 工藤拓, 松本裕治: チャンキングの段階適用による日本語係り受け解析, Vol. 43, No. 6, pp. 1834–1842 (2002). [27] 三原宏一朗, 境智史, Heeryon, C., 石田亨: 多言語コミュニケーションのた めのチャットツールの開発, 電子情報通信学会技術研究報告. AI, 人工知能 と知識処理, Vol. 108, No. 441, pp. 79–84 (2009). [28] Ishida, T.: Language grid: An infrastructure for intercultural collaboration, IEEE/IPSJ Symposium on Applications and the Internet (SAINT 2006), pp. 96–100 (2006). [29] 神田慎哉, 藤田篤, 乾健太郎: 連用節主節化に関する規則の追試と洗練, 第 15 回人工知能学会全国大会 (2001). 57
© Copyright 2025 Paperzz