専門用語の対訳表現抽出 岡山大学大学院 竹内孔 竹内孔一 専門用語の翻訳 フランス語 ラ 語 agent cytotoxique g y q mutation délétère 英語 cytotoxic agent deleterious mutation gène de susceptibilité susceptibility gene 日本語 細胞毒性剤 有害突然変異 感受性遺伝子 なかなか訳がみつからない! 2 専門用語の訳の必要性 翻訳者支援 翻訳学部・学校 多言語社会であるヨ ロッパで活発 多言語社会であるヨーロッパで活発 状況 翻訳者は専門家ではない 既にある事例を基に探す 既 ある事例を基 探す => 翻訳中に知らない語に出会ってから調べ始める 3 専門用語対訳抽出の難しさ 言語対の問題 日英は豊富だがその他の言語対は少ない Wikiの多言語 英辞郎 W bli もなかなか良いが.. Wikiの多言語, 英辞郎, Weblio もなかなか良いが 専門用語は増えつづける 「豚インフルエンザ」(swine flu) など新語 「豚インフルエンザ」(swine flu) など新語 ファッションの分野や新しい分野 4 アプロ チ(1/2) アプローチ(1/2) 大量の(専門)文書を利用 対訳文の利用 対訳新聞記事(Daily Yomiuri 読売新聞) 特許翻訳文書 Î 分野と量が限定される comparable corpora comparable corpora 分野が同じ文書 Web上の文書を利用することで大量に収集 フランスを中心に発展(Daille フランスを中心に発展( ll and Emmanuel 2005) d l ) 辞書そのものを利用 要素のグラフを利用(Sato, et al. 2013) 要素のグラフを利用(S t t l 2013) 5 アプロ チ(2/2) アプローチ(2/2) Webと辞書を利用する (Robitaille et al. 06) 用語 => 辞書で候補生成 => Webで確認 Comparable corporaから抽出 C bl から抽出 Context Vector (Dejean et al. 02, Daille et al. 10) 対象の前後の単語からContext(文脈)を構築 Context Vector同士を利用して翻訳対を探す 今のところ標準的なやり方 辞書から取り出す(Graph base法) 未知の要素の組み合わせから抽出 (Sato et al. 10) (Sato et al 10) 仮説: 専門用語はお互い関係し合っている 6 工夫のポイント 各言語での専門用語の候補抽出 各言語 専門用語 候補抽出 1単語の専門用語より複合語の方が多い 60% 〜 70%程度は複合語 (Daille and Morin 05) 複合語の専門用語は関係している ベロ毒素,ボツリヌス毒素..鳥インフル,馬インフル Î構成要素の組み合わせをうまく使う (Jacquemin 2001) 対訳抽出 翻訳を探す基礎となる辞書に載ってない対応をどう 取り出すか? 7 各アプローチについて 8 要素構成法 辞書を使って過剰生成 Source (英語) cytotoxic Target (日本語) agent 職員,調査官,工作員 調査官 工作員 細胞毒性の 職員 細胞毒性 化学,物質,病原体 障害性の 主体 媒介 作用因子 主体,媒介,作用因子 動作主 辞書を利用して構成要素 の訳の可能性を出す 細胞毒性 障害性 X 職員 調査官 工作員 化学 作用因子 媒介 .. Web文書で確認 9 Context Vector法 Context Vector法 辞書に無い語を前後の文脈で補完 Source 同じ分野 専門文書 Target 専門文書 専門用語抽出 用語候補 Context Vector Similarity Vector Similarity Vector 用語候補 辞書 Context と Similarity Vector Context Vector で補完して探す 10 Graph Base 法 Graph Base 法 対訳用語辞書から新たな用語を生成 対訳用語辞書 新 な用語を 成 複合語の専門用語を対象 Source Target 同じ分野 対訳用語リスト 専門文書 要素分解して 2部グラフを作成 生成した語 の確からしさ 有用な候補を グラフクラスタリング の結果から抽出 11 まとめ 専門用語の対訳抽出法 Comparable Corporaを利用したアプローチ 要素構成法 Context Vector法 辞書を利用したアプローチ 辞書を利用したアプ チ Bipartite graph法 (岡山大院生発表) 現状 日英仏を中心に対訳用語抽出法の検討 12 参考文献 B. Daille and E. Morin. French‐English Terminology Extraction from Comparable Corpora Proceedings of IJCNLP 2005 Comparable Corpora, Proceedings of IJCNLP 2005. H. D ́ejean and E. Gaussier, : Une nouvelle approche `a l’extraction de lexiques bilingues `a partir de corpus comparables. L i Lexicometrica, Alignement t i Ali t lexical dans l i ld l les corpus multilingues ltili 2002 2002. X. Robitaille, Y. Sasaki, M. Tonoike, S. Sato and T. Utsuro. Compiling French‐Japanese Terminologies from the Web, Proceedings EACL 2006. 2006 K. Sato, K. Takeuchi and K. Kageura, Terminology‐driven Augmentation of Bilingual Terminologies, Proceedings of the XIV M hi T Machine Translation Summit 2013. l i S i 2013 C. Jacquemin. Spotting and Discovering Terms through Natural Language Processing, MIT Press 2001. 13
© Copyright 2024 Paperzz