講演会資料、九大12.05.13 .pptx

 日本語計算機処理のための
大規模日本語複単語表現辞書の開発
- 第59回電気科学技術奨励賞 ‒
首藤公昭
福岡大学大学院工学研究科
情報・制御システム工学専攻
1
目次
1. 研究の背景
KT‐1とその後
近年のNLPでの本研究と関連した動き
世界のMWE研究
日本語MWE処理の現状
2.  首藤が行なった日本のMWE研究
PHASE1:機能語性MWEの収集と拡張文節構造モデルの提案
PHASE2:概念語性MWEの収集と日本語複単語表現辞書:
JDMWEの開発
3. JDMWEの統計的性質 4. JDMWEのフォーマットと登録情報
5. 網羅性
6. むすび
2
1.研究の背景
自然言語をコンピュータで自由に扱うことはコンピュータ誕生以来の人類の夢 →→→ 計算言語学(CL)、自然言語処理(NLP)、言語工学(LE)分野の誕生
1945年頃 英国で露英機械翻訳研究の開始
・・・・・
1954年 米国ジョージタウン大学、IBMの翻訳実験
・・・・・
1960年 日本初の翻訳実験機 ・九州大学 のKyushu Translator 1 - 日独英の相互翻訳 -栗原研+田町研+大野教授
1954∼1955頃から構想された トランジスタ式のコンピュータ 翻訳実験用計算機「KT-1」.docx 古瀬 1992 ワープロ発明者の知られざる末路 新潮45
・電気試験所 やまと(1959?) -英日翻訳
・・・・・
1966年 ALPAC report
・・・・・
1979年 日本初の商用ワープロ機 JW-10
・・・・・
1982∼1985年 科学技術庁 Muプロジェクト
・・・・・
1984年 日本初のPCによる商用翻訳システム ブラビス・マイクロパック
・・・・・・・・
3
KT‐1のあと
(故)栗原俊彦先生の研究室では、 ①言語を工学の目でゼロから捉えなおす必要がある(辞書、文法の重要性)
②日本語入力をどうするかが問題
③「意味」の取り扱いが不可欠、等々 という認識
① ⇒ 日本語の分析・各種辞書開発プロジェクト ② ⇒ 1964から仮名漢字変換の研究 日本語ワープロの先駆 栗原俊彦、黒崎悦明、小西彬允 1966 カナ漢字変換について(第1報) 昭和40年電気四学会九州支部連合大会論文集 栗原俊彦、黒崎悦明 1967 仮名文の漢字混じり文への変換について 九州大学工学集報、39 ③ ⇒ a. 係り受け+意味的基本構文+シソラスによる文解析の枠組み = NLPにおける格フレームの考え方
b. 概念の連結構造、言語と思考のシミュレーション構想(3∼4歳児の
知能を実現するという目標)
栗原俊彦 1973 自然言語の機械処理 情報処理、 14‐4
古瀬 1992 ワープロ発明者の知られざる末路 新潮45
(故)田町常夫先生の研究室でも、
田町 1968 機械翻訳の現状 エレクトロニクス 5月号
石原ほか 1974 D-Treeモデルとそれに基づく英日機械翻訳のための言語分析について 電子通信学会論文誌 57D-2
岡田ほか 1976 図形の意味解釈とその自然後記述-要素的図形認識と構造分析 電子通信学会論文誌 59D-5
田町ほか 1987 自然言語処理への挑戦-現状と課題- 電子情報通信学会誌 70-4
4
⇒ a. の格フレームとシソラスを用いた機械翻訳の枠組みを提案
首藤. 1973 専門分野を対象にした日英機械翻訳について 情報処理、14-9 -----------------------------------------------
しかし、意味のルール化の困難さを認識
①構成性原理に乗らない表現(イディオム性、非構成性表現)
②単語間の結合の強い表現(決まり文句的表現)
など、語の特異的用法への本格的アプローチの必要性、表層から得ら
れる情報の最大限の利用の必要性を強く認識
→ これら特異表現の収集・整理作業の開始 (1967∼1968年)
5
いっぽう、近年のNLPでの関連した動き
○I.A. Sag , T. Baldwin et al. 2002. Multiword Expressions: A Pain in the Neck for NLP , CICLING2002. ・ It is widely recognized that deep analysis must come to grips with two key problems, if
linguistically precise NLP is to become a reality. The first of these is disambiguation. .........
The second key problem‒ the problem of multiword expressions ‒ is underappreciated in
the field at large.
・ We define multiword expressions (MWEs) very roughly as idiosyncratic interpretations
that cross word boundaries (spaces) ・ In WordNet 1.7 (Fellbaum 1999), for example, 41% of the entries are multiword. → MWE(複単語表現)の重要性を世界が認識、ACL annual workshop on MWE
世界のMWE研究
(Gross 1986) フランス語 複合副詞、複合動詞は単独副詞、単独動詞のそれぞれ3.3倍、1.7倍ある
(Jackendoff 1997) 英語 MWEレキシコンは単語レキシコンとほぼ同サイズであろう
(Uchiyama et al. 2003) 日本語 VV型複合動詞は動詞の44%を占める
(田辺ほか 2006) 日本語 日常使われる機能語性表現(token) の42%はMWE
・・・
(Villavicencio 2004) 英語MWE辞書の構成法を考察
(Gralinski et al. 2010) ポーランド語MWE辞書の記述法を考察
(Gross 1986) フランス語 動詞型12,000MWE辞書
(Kuiper et al. 2003) 英語 13.000イディオム辞書
6
(Baptista et al. 2004) ポルトガル語 3,500動詞型MWE辞書
(Gregorie 2007) オランダ語 5,000MWE辞書
(Laporte et al. 2008) フランス語 6,800副詞性MWE辞書
(Wang et al. 2010)中国語 38,000イディオム(基本14,000)辞書とその一応用
(首藤ほか 1979) 日本語 2,500機能語性MWE辞書 (首藤ほか 1989) 日本語 20,000概念語性MWE辞書
(松吉ほか 2007) 日本語 16,770(基本341)機能語性MWE辞書
・・・
(Pantel et al. 2001) 中国語 複合名詞の抽出
(Piao et al. 2005) 英語 MWE抽出
(Fazly et al. 2006, Bannerd 2007) 英語 VN型イディオム抽出
(Bandyopadhyay 2010)ベンガリ語複合動詞抽出
(Gurruttxaga et al. 2011) バスク語NV型MWE抽出
・・・ (Pecina 2008, Hoang et al. 2009) MWEの統計的抽出と用いる相関尺度のなじみ
・・・
(Caseli et al. 2009)英語/ポルトガル語コーパスを用いた抽出
(Zarreβet al.2009)ドイツ語/英語コーパスを用いた抽出
(Sinha 2009)ヒンズー語/英語コーパスを用いた抽出
・・・
・MWE現象は広範なため、一部だけを捉える研究が多い
A. Joshi 2010 Multi-Word Expressions as Discourse Relation Markers (DRMs) Invited Talk , MWE workshop ACL
・MWEの統計的抽出手法では十分な再現率の達成が困難。
さらに、既存の慣用句事典等では評価の基準集合とならないから、
再現率の計算自体に無理がある。
7
いっぽう、機械翻訳の世界でもフレーズを扱う研究が盛ん
1984 A Framework of a Mechanical Translation between Japanese and English by Analogy Principle in A.
Elithorn et al. (eds.) : Artificial and Human Intelligence
・荒牧ほか 2005 確率的用例ベース翻訳の実現 言語処理学会第11回年次大会
などの用例ベース翻訳(EBMT)、
○ F. J. Och et al. 2000. Improved Statistical Alignment Models Proceedings of the 38th Annual Meeting, ACL
・P. Koehn et al. 2007 Moses: Open Source Toolkit for Statistical Machine Translation Proceedings of the 45th Annual Meeting of ACL
などのフレーズベース統計翻訳(PBSMT)の研究
○ David Chiang 2005. A Hierarchical Phrase-Based Model for Statistical Machine Translation
th
Proceedings of the 43 Annual Meeting ACL, Best Paper の様なフレーズの「構造」を考慮する階層的 フレーズベース統計翻訳研究、
・A. Lopez 2007 Hierarchical Phrase-based Translation with suffix Array Proceedings of Joint Conf. of EMNLP and CNLL
・ M. Galley et al. 2010 Accurate Non-Hierarchical Phrase-Based Translation , NAACL
の様な不連続フレーズベース翻訳(ギャップ(内部修飾可能性)を持つフレーズを扱う)研究も出ている。
しかし、統計翻訳ではギャップをもつ構造付きのフレーズの扱いは容易ではない
ルールベース翻訳、用例ベース翻訳でも現状ではMWEへの対応が不十分
8
日本語MWE処理の現状
市販のよく知られた日英翻訳ソフト3種
(最新バージョン)を
走らせてみると・・・
機能語性MWE
「物価が下がる嫌いがある。」--助述表現
A社 There is a tendency for prices to fall. B社 There is a tendency on which prices fall. C社 There is a dislike by which prices go down. 「他社を利することにしかならない/ではないですか。」
A社 Is there nothing without only becoming benefiting the other company? B社 Is it [shikanaranaidehana] in profit [surukoto] as for others? C社 Will you take advantage of an other company? 「彼はその成功をテコに躍進した。」---関係表現
A社 He made a great leap the success with the lever. B社 He progressed making springboard the success. C社 He progressed using the success as a leverage. 慣用句MWE
「彼は頭に来る」 A社 He comes to the head. B社 He comes to the head. C社 He gets mad. 「彼はそのように上司の提灯を持った。」
A社 He had a boss's paper lantern such. B社 He had superior's lantern like that. C社 He had boss's paper lantern this. 9
「彼は帰らぬ人となった。」
A社 He became a dead person. B社 He became a person who did not return. C社 He was the person who doesn't return. 「要らざる世話を焼く」
A社 The care which is not needed is burned. B社 The care not needed is burnt. C社 The unwanted favours I don't need is given. 「その言葉が口を衝いて出た。」
A社 The language poked the mouth and came out. B社 The word stabbed the mouth and it went out. C社 The word has thrust at the mouth and has gone out. 「彼の言葉にはかどがあった。」
A社 There was a corner in his words. B社 There was a suspicion in his word. C社 His word had a corner. 「彼はまだ西も東も分からない」
A社 He understands neither the west nor the east yet. B社 He has understood neither the west nor the east yet. C社 Nishi doesn't also know the east yet for him. 10
「彼は引くに引けない」
A社 He cannot pull to pull. B社 He ..pull.. is not closed. C社 He, it's pulled, it can't be pulled. 「彼はそれを聞いて目を回した」
A社 He heard it and turned eyes. B社 He turned his eyes hearing it. C社 He heard that and fainted away. 副詞性MWE
「その舌の根も乾かぬうちに嘘をついた。」
A社 The lie was told before the root of the tongue also got dry. B社 It had told a lie before the root of the tongue dried, too. C社 While the nature of the tongue isn't also dried, I have lain. 「彼はそれからそれへと要求を出した。」
A社 He gave the demand from it to it. B社 He lodged it and the demand from it. C社 He pressed his demand to that after that. 「彼は足を地に付けて生活したい」
A社 He wants to attach a leg to the ground and live. B社 He wants to live putting up the foot to ground. C社 He'd like to put a foot on the place and live. 11
「私は何とは無しにそれを見た」
A社 I regarded it as what nothing. B社 [Shinisore]..it was.. was seen very much.. me. C社 What did I judge that as to do nothing? 「彼は大きな顔をして彼女に会った」
A社 He wore the big face and met her. B社 He had a big face and met her. C社 He had a big face and met her. オノマトペ
「彼はケンもホロロに断った」
A社 He also refused Ken to ホロロ. B社 His ..Ken..[hororo].. cut off. C社 He refused HORORO Ken, too. 「彼はケンモホロロに断った」
A社 He refused ケンモホロロ. B社 He ..[kenmohororo].. cut off. C社 He refused Ken Moho Rollo.. 「兵士はバタバタと倒れた」 A社 The soldier fell with butter butter. B社 The soldier fell noisily. C社 A soldier fell down one after another. 「彼女はウットリと彼を見た」
A社 She looked at ウットリ and him.. B社 She saw [uttori] and him. C社 She saw him fascinatedly. 12
連体詞性MWE
「彼は思いもつかない結論を出した。」
A社 He drew the conclusion on which a thought is not put, either. B社 He put out the conclusion to which the desire did not attach either. C社 He made the decision that expectation doesn't also stick. 連結詞、文接続詞、文副詞性MWE
「正直な話、彼はバカだ」
A社 The honest talk and he are foolish. B社 An honest story and he are foolish. C社 The fact that they're honest and he are stupid. 「云うに事欠いて、彼はそんな事を云った。」
A社 It did not have enough to say and he said such a thing. B社 It lacked saying, and he said such a thing. C社 I say, he lacked, and said such thing. 「すまないが、醤油を取ってくれ。」
A社 Take soy sauce, although it does not end. B社 Please take the soy sauce though it is sorry. C社 I don't finish, but please pass me the soy sauce. 慣用的比喩MWE
「それは顎が落ちそうに美味しい」
A社 It is delicious lip-smacking good. B社 It seems to drop the mandible and is delicious. C社 A jaw seems to fall and that's good. 「彼は飛び上がらんばかりに驚いた』 A社 He was surprised that it does not only fly up. B社 He was about to fly up and was surprised. C社 He, they're almost jumping, I was surprised. 等々
13
2.
日本語のMWE研究
首藤が行なった
1968年頃よりイディオム性表現、決まり文句的表現の網羅的な収集・整理作業開始∼2010
年頃ほぼ完成
14
PHASE1 機能語性MWEの収集・整理
⇒ 日本語機能語性MWE辞書:JDMWE_Functional 4,000表現 機能語性MWE辞書
+文節構造の機械処理向けモデル化:拡張文節モデルの提案
首藤ほか 1979 日本語の機械処理のための文節構造モデル 電子通信学会論文誌, 62-D-12 Shudo et al.. 1980 Morphological Aspect of Japanese Language Processing Proceedings of 8th COLING, ja.wikipedia.org/wiki/形態素解析
通常の文節
「大学/に おける 研究/の ため/の 予算/を 米国/を 手本/に
拡充 し/て
みる 必要/が
ある/か/も しれ/ない の/です」
拡張文節
「大学/における 研究/のための 予算/を 拡充/し/てみる/必要がある/かもしれない/のです」
米国/を手本に
15
文の形態・構文構造の単純化と意味構造への近接化
16
このモデルを使った機械翻訳実験 一種のフレーズベース翻訳
首藤ほか 1977
日英機械翻訳のための述部処理システム 電子通信学会論文誌、J60-D,10
17
PHASE2 概念語性MWEの収集・整理
⇒ 日本語複単語表現辞書:JDMWE V1.0
首藤ほか
異なりで 107,000表現
2010 日本語の複単語表現辞書:JDMWE 、自然言語処理, 17-5 Shudo et al. 2011 A Comprehensive Dictionary of Multiword Expressions ,
Proceedings of the 49th Annual Meeting of ACL
= 日本語慣用句機械辞書 JDMWE_Idioms 3,700
+
+
+
+
+
+
+
+
+
日本語動詞性複単語表現辞書(含 LVC, SVC) JDMWE_Verbals 47,000
日本語形容詞性複単語表現辞書 JDMWE_Adjectivals 5,000
日本語形容動詞性複単語表現辞書 JDMWE_AdjectiVerbals 4,500
日本語副詞性複単語表現辞書 JDMWE_Adverbials 15,000
日本語連体詞性複単語表現辞書 JDMWE_Adnominals 8,000
日本語連結詞性複単語表現辞書 JDMWE_DiscourseConnectives 1,100
日本語名詞性複単語表現辞書 JDMWE_Nominals 18,000
日本語四字熟語機械辞書 JDMWE_FourCharaWords (500)
日本語格言・諺・故事成句・常套句機械辞書 JDMWE_ProverbClicheOldSayngSetExpressions 2,500
+ 日本語オノマトペ表現機械辞書 JDMWE_Onomatopoeics 12,000
+ 日本語慣用的比喩(直喩・隠喩・換喩・張喩)表現機械辞書 JDMWE_Metaphorics (20,000)
+ 日本語慣用的挨拶・応答・呼びかけ・独言表現辞書
JDMWE_GreetingResponseCallSoliloquies 450
+ 日本語クランベリー型表現辞書 JDMWE_CranberryExps 50
* 専門性の強い表現、「です」、「ます」表現、固有表現、数量表現、時空位置表現は対象外
18
3.JDMWEの統計的性質 NpV-trigram の場合
NpV-trigrams in JDMWE were compared with those in Google s Web N-gram Data:
LDC2009T08, generated from 2*1010 Web sentences by Google Inc.
How was V selected for Np to make NpV-trigram?
47.2% (4,983) of Np-bigrams (10,548) are followed by verbs which are most frequent in the
Google corpus.
14.0% are followed by second most frequent verbs. 7.5% are followed by third most frequent verbs, and so on.
The higher transition probability pf(V| Np) V has, the more likely it was chosen for the NpV-trigram.
100
Constituent Ratio (%)
90
80
(b)
70
60
50
40
30
20
(a)
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
Rank
19
How was Np selected to make NpV-trigram?
After arranging (Np) s of NpV trigrams (110,822) in Google corpus in ascending
order of the normalized entropy,
Hf(V|Np) =− ( pf(V|Np) log pf(V|Np)) / log N, we divided them into 20 intervals.
22.8% =(1,262/ 5,542) 100 of Np s in the least entropy interval are selected for
JDMWE, 22.5% are selected in the second least interval, 20.5% are selected in the third least interval, and so on. The larger entropy Hf(V| Np) Np-bigram has, the less likely it was adopted as a prefix of NpV-trigram.
20
4. JDMWEのフォーマットと登録情報
21
4.1 平仮名ベタ見出し(A欄)
4.2 構成単語間の境界(B欄)
4.3 漢字、片仮名などの異表記(C欄) 4.4 文法的な機能と種別(D欄)
4.5 表現の構文構造(E欄)
4.6 文頭側条件(F欄)
4.7 文末側条件(G欄)
4.8 派生情報(H欄)
22
5. 網羅性
日刊の新聞記事中、10文に7か所程度に採録MWE表現(概念語性)が現れる。
首藤ほか 2010 日本語の複単語表現辞書: JDMWE 自然言語処理、17-5, 23
6.むすび
○JDMWEの位置付け
1.広範な自然言語現象に対応するNLPのための単語に次ぐ第二の言語資源 (本格的
句レキシコンに基づくNLPへのパラダイムシフトを支える)
このときの問題点:
①句数の爆発を抑えながら、どう有効なレキシコンを作るか
②句をいつも単語的にカプセル化するのではなく、必要に応じて柔軟な句、
ギャップを持つ句として取り扱うことが不可欠
2. ①に対して、人の持つ N-gram言語モデル (1<N<19) の有用な上澄み部分だけ
を掬い取ることでレキシコンの爆発を抑え、
②に対して、詳細な構文構造と内部修飾可能性を個別的にE欄に記載
3.Kenneth Church の問い: K. Church 2011 How Many Multiword Expressions do People Know? , Invited Talk, MWE Workshop ACL に対する一つの回答
cf. M. Liberman 1989 How Many Words do People Know? , Invited Talk, ACL 4. 可変N-gram、構造付き、ギャップ付きフレーズ辞書であり、一種のslotted tree bank
でもある。(slotはparserを動的に制御する機構)
24
○JDMWEの特徴
1.すぐ使える
2.収録表現の多様性・網羅性 --世界では高々40,000表現程度で構造・種類限定
3.表記の多様性に対処
4.構造記述の緻密さ ---実用レベルでは他に類を見ない(たぶん)
5.表現の柔軟性に個別に対処 ---実用レベルでは他に類を見ない(たぶん)
6.不完全句、並列句に対処--- 他に類を見ない(たぶん)
○今後の課題
1.機械翻訳への応用(RBMT, EBMT, PBSMTの補強・改造が現実的か)
2.構文・意味解析への応用
3.仮名漢字変換への応用
4.意味の付与と意味の曖昧さ解消法の研究
5.変化形情報の充実
6.専門分野特有の表現、固有表現、数量表現、時空位置表現、「です」、
「ます」調関連表現の整理が残る
25
MWEは
言語表現の海の広大さ、豊潤さ
の表象、残すべき遺産
26
本日はご清聴を頂き
ありがとうございました。
27