その1 - 岡山大学 工学部

専門用語の対訳表現抽出
岡山大学大学院 竹内孔
竹内孔一
専門用語の翻訳
フランス語
ラ
語
agent cytotoxique
g
y
q
mutation délétère
英語
cytotoxic agent
deleterious mutation
gène de susceptibilité susceptibility gene
日本語
細胞毒性剤
有害突然変異
感受性遺伝子
なかなか訳がみつからない!
2
専門用語の訳の必要性
„翻訳者支援
„翻訳学部・学校
„多言語社会であるヨ ロッパで活発
„多言語社会であるヨーロッパで活発
„状況
„翻訳者は専門家ではない
„既にある事例を基に探す
既 ある事例を基 探す
=> 翻訳中に知らない語に出会ってから調べ始める
3
専門用語対訳抽出の難しさ
„言語対の問題
„日英は豊富だがその他の言語対は少ない
„Wikiの多言語 英辞郎 W bli もなかなか良いが..
„Wikiの多言語, 英辞郎, Weblio
もなかなか良いが
„専門用語は増えつづける
„「豚インフルエンザ」(swine flu) など新語
„「豚インフルエンザ」(swine
flu) など新語
„ファッションの分野や新しい分野
4
アプロ チ(1/2)
アプローチ(1/2)
„ 大量の(専門)文書を利用
„ 対訳文の利用
„対訳新聞記事(Daily Yomiuri 読売新聞)
„特許翻訳文書
Î 分野と量が限定される
„ comparable corpora comparable corpora
„分野が同じ文書
„Web上の文書を利用することで大量に収集
„フランスを中心に発展(Daille
フランスを中心に発展( ll and Emmanuel 2005)
d
l
)
„ 辞書そのものを利用
„ 要素のグラフを利用(Sato, et al. 2013)
要素のグラフを利用(S t t l 2013)
5
アプロ チ(2/2)
アプローチ(2/2)
„ Webと辞書を利用する (Robitaille et al. 06)
„ 用語 => 辞書で候補生成 => Webで確認
„ Comparable corporaから抽出
C
bl
から抽出
„ Context Vector (Dejean et al. 02, Daille et al. 10) „ 対象の前後の単語からContext(文脈)を構築
„ Context Vector同士を利用して翻訳対を探す
„ 今のところ標準的なやり方
„ 辞書から取り出す(Graph base法)
„ 未知の要素の組み合わせから抽出 (Sato et al. 10)
(Sato et al 10)
„ 仮説: 専門用語はお互い関係し合っている
6
工夫のポイント
„ 各言語での専門用語の候補抽出
各言語
専門用語 候補抽出
„ 1単語の専門用語より複合語の方が多い
„60% 〜 70%程度は複合語 (Daille and Morin 05)
„ 複合語の専門用語は関係している
„ベロ毒素,ボツリヌス毒素..鳥インフル,馬インフル
Î構成要素の組み合わせをうまく使う (Jacquemin 2001)
„ 対訳抽出
„ 翻訳を探す基礎となる辞書に載ってない対応をどう
取り出すか?
7
各アプローチについて
8
要素構成法
„辞書を使って過剰生成
Source (英語)
cytotoxic
Target (日本語)
agent
職員,調査官,工作員
調査官 工作員
細胞毒性の 職員
細胞毒性
化学,物質,病原体
障害性の
主体 媒介 作用因子
主体,媒介,作用因子
動作主
辞書を利用して構成要素
の訳の可能性を出す
細胞毒性
障害性
X
職員
調査官
工作員
化学
作用因子
媒介
..
Web文書で確認
9
Context Vector法
Context Vector法
„辞書に無い語を前後の文脈で補完
Source
同じ分野
専門文書
Target
専門文書
専門用語抽出
用語候補
Context Vector
Similarity Vector
Similarity Vector
用語候補
辞書
Context と
Similarity Vector
Context Vector で補完して探す
10
Graph Base 法
Graph Base 法
„ 対訳用語辞書から新たな用語を生成
対訳用語辞書
新 な用語を 成
„ 複合語の専門用語を対象
Source
Target
同じ分野
対訳用語リスト
専門文書
要素分解して
2部グラフを作成
生成した語
の確からしさ
有用な候補を
グラフクラスタリング
の結果から抽出
11
まとめ
„専門用語の対訳抽出法
„Comparable Corporaを利用したアプローチ
„要素構成法
„Context Vector法
„辞書を利用したアプローチ
辞書を利用したアプ
チ
„Bipartite graph法 (岡山大院生発表)
„現状
„日英仏を中心に対訳用語抽出法の検討
12
参考文献
„ B. Daille and E. Morin. French‐English Terminology Extraction from Comparable Corpora Proceedings of IJCNLP 2005
Comparable Corpora, Proceedings of IJCNLP 2005. „ H. D ́ejean and E. Gaussier, : Une nouvelle approche `a l’extraction
de lexiques bilingues `a partir de corpus comparables. L i
Lexicometrica, Alignement
t i Ali
t lexical dans
l i ld
l
les corpus multilingues
ltili
2002
2002.
„ X. Robitaille, Y. Sasaki, M. Tonoike, S. Sato and T. Utsuro. Compiling French‐Japanese Terminologies from the Web, Proceedings EACL 2006.
2006
„ K. Sato, K. Takeuchi and K. Kageura, Terminology‐driven Augmentation of Bilingual Terminologies, Proceedings of the XIV M hi T
Machine Translation Summit 2013. l i S
i 2013
„ C. Jacquemin. Spotting and Discovering Terms through Natural Language Processing, MIT Press 2001. 13