Finding Non-Arbitrary Form-Meaning Systematicity Using String

ACL2016読み会@すずかけ台
Finding Non-Arbitrary Form-Meaning
Systematicity Using String-Metric
Learning for Kernel Regression
E.Dario Gutierrez, Roger Levy, Benjamin Bergen
紹介者:笹野遼平(東工大)
Finding Non-Arbitrary Form-Meaning Systematicity
Using String-Metric Learning for Kernel Regression
• ACL2016のBest Paper
• 著者: E.Dario Gutierrez, Roger Levy and Benjamin Bergen
cf. Literal and Metaphorical Senses in Compositional Distributional Semantic Models
• トピック: 言語の恣意性(の否定的な立場の検証)
– 犬を"dog"と呼ぶことには必然性はない
– しかし、まったく言葉の形状と意味に関係がないわけではない
• 手法: String-Metric Learning for Kenel Regression
– 意味的類似度(by SkipGram)を再現するように
Weighted Edit Distance を学習し検証
• 結論: 語の形状と意味の間には先行研究で
示されているよりも強い関係
2
Background
• 言語の恣意性 in 言語学
– 語のformはmeaningと関係がないという考え方
– しかし、例外も多く知られている
• phonaestheme: 多くの語に共通する音(gl-等)の存在
• iconicity: 性質(サイズ等)と形状間の関係(cf. オノマトペ)
• 関連する用語
– Word: いわゆる語のこと (e.g. dog, cat)
– Morpheme: 形態素 (e.g. discovered)
– Phon(a)estheme: 象徴素 (e.g. glow, glaze)
3
既存手法: Local/Globalなアプローチ
• Local: 特定のphonosemantic setに着目
– 直観・観察により特定されていたphonosemantic set
(=局所的なform-meaning pattern)を経験的手法により確認
– e.g. (Hutchins,1998; Magnus, 1998; Bergen, 2004)
• Global: 全体的なphonosemanticに着目
– 音素レベルの編集距離と分布意味論的距離の
相関により全体的なsystematicityを検証[Shillcock+’01]
– 英語におけるsystematicityは特定のクラスターではなく
広範に分布[Monaghan+’14]
本研究: Local/Globalな手法のGapを解消
4
提案手法の概要
• カーネル回帰(kernel regresion)
– Predictor: 語を構成する文字列(string-valued)
– Target: 語の意味のベクトル表現(vector-valued)
–
+
• String-Metric Learning
– 語の類似度を、重み付き編集距離で表現
– 各重みはMetric Learningで学習
5
• 回帰:
前提1: Kernel Regression
を入力として
を予測
• カーネル回帰: 入力と他のデータとの関係性を利用
–
はカーネルで、例えば2点間の距離尺度
を用いて以下のように定義される(拡散カーネル)
6
前提2: MLKR [Weinberger&Tesauro’07]
Metric Learning for Kernel Regression
• Xがベクトルだとすると一般的には各次元は
同様に重要なものとして扱うがその保証はない
⇒ Task-specificなマハラノビス距離
⇒ (=重み付き ユークリッド距離)を学習
– leave-one outしたときの平均2乗誤差(MSE)を
最適化することで、重みWを学習
7
String-Metric Learning for Kernel
Regression (SMLKR)
• MLKRを入力値が実数ベクトルではなく文字
列である場合に拡張
– やっていることは単純
• 編集操作
ごとに重み
• X間の距離を以下で定義
8
実験設定
• 実験対象: 4949 monomorphemic word
(=単独の形態素から構成される語)
• 意味ベクトルの学習
– 学習コーパス: UKWaC, BNC, Wikpedia
– モデル: SkipGram (Word2Vec in GENSIM)
• デフォルトパラメータ
• 次元数100で、ノルムを1に正規化
• SMLKRの学習: L-BFGS-B (B: [Byrd et al.’95])
– 各重みが正という制約付きのL-BFGS
9
Non-Arbitrariness性の確認
• 実験1:
– 構築モデルは、arbitraryだとした場合(=文字列と意味ベクトルの
組み合わせをシャッフル)にもあり得るか?⇒ No (p<.001)
• 実験2:
– 予測値と実際の値の相関係数は十分に高いか?
• 0.016 : [Monaghan+’14] with binary phonological features
• 0.0194: Word2Vecによる距離 vs 編集距離(重みなし)
• 0.0464: Word2Vecによる距離 vs SMLKRで学習した編集距離
• 実験3:
– 2語を与えた場合の、回帰モデルにより推定した意味的距離と、
実際の意味的距離の相関: 0.1028 (p<.001)
従来手法よりも形状と意味に強い関係
10
Most Systematic Wordの分析
• [Monaghan+’14]:
– 語を1つ抜いた時の
globalなcorrelationの
低下量で評価
– 低下量が大きいなら
Systematic Word
• SMLKR:
– 語の回帰誤差で評価
– 誤差が小さいなら
Systematic Word
11
語の先頭2文字の影響
• 先頭2文字が共通する語ごとにまとめて、各グループごとの
予測誤差の平均が他のグループより有意に小さいか検証
⇒ Systematicityは一様に分布しておらず偏りが存在
12
まとめ
• ACL 2016のBest Paper
• トピックは言語の恣意性
• String-Metric Learning for Kernel Regression
(SMLKR)を用いてモデル化
– 従来考えられていたよりも語の形状と意味の間
には強い関係があることを示唆
– Systematicityは一部の文字列に偏って存在
13
感想
• これをBest Paperに選ぶのは流石ACLという印象
– かなり多くの言語学的背景をふまえた研究
cf. 人間の言語の特徴13か条[by Hockett], パターンの二重性
– 言語学的な課題を計算を用いて解決
• Metric Learning + Kernel Regression
• 気になったところ
– 分析に使う語と、学習に使用した語のセットが同じ?
• おそらく過学習はしてない気はするけれど…
– 結果の解釈が難しい(相関係数0.0464をどう考えるか)
14