pdf

Transition-Based Dependency Parsing
with Stack Long Short-Term Memory
Chris Dyer
Minuguel Ballesteros
Wang Ling
Austin Matthews
Noah A.Smith
紹介する人:林(東工大)
2015/08/24
ACL読み会@すずかけ
1
Transition-Based Dependency Parsing with Stack
Long Short-Term Memory
p  係り受け解析
p  Transition-based Parserの分類器の話
–  ニューラルネットをLSTMに拡張したら性能が良くなった
p  ポイント
1.  係り受け解析の種類:Transition-Based Parsing
2.  モデル:with Stack Long Short-Term Memory
3.  入力:Composition Functions
–  ベースライン
•  分類器をSVMからNNへ [Chen&Manning 2014]
–  Stanford Parserの実装
–  http://cs.stanford.edu/ danqi/papers/emnlp2014_slides.pdf
2015/08/24
ACL読み会@すずかけ
2
Transition-based parsing
p  スタックに単語を積み分類器で次の操作を決定
–  今回はArc-Standardを採用 [Nivre 2004]
–  スタック,バッファ,操作履歴の三つ組
–  Shift : バッファからスタックに単語を積む
–  Arc:スタックから単語を取り出しArcを張る
•  Left-Arc, Right-Arc (右にかかるか左にかかるか)
+ head-dependent間の関係
–  詳しくは他のスライドで
•  能地さんのスライド「最近のTransition based parsing」
http://www.slideshare.net/nozyh/transition-based-parsing
•  ベースラインのスライド
http://cs.stanford.edu/ danqi/papers/emnlp2014_slides.pdf
2015/08/24
ACL読み会@すずかけ
3
モデル概要
2015/08/24
ACL読み会@すずかけ
4
1. Stack Long Short-Term Memory
スタック
バッファ
操作履歴
2015/08/24
ACL読み会@すずかけ
5
アイディア
p  その時のParserのすべての状態を考慮したい
1.  スタック内とバッファ内のすべての単語情報
2.  すべての操作履歴
–  Stack Long Short-Term Memories
• 
• 
• 
スタック内の状態
バッファ内の状態
操作履歴の状態
– 
それぞれの状態をベクトルで表現する
3.  スタック内に存在するすべての依存関係
–  Composition Functions:後で
2015/08/24
ACL読み会@すずかけ
6
Long Short-Term Memories
p  Reccurent Neural Networks (RNN)の一種
–  隠れ層から隠れ層の結合が特徴(過去の履歴も利用)
–  RNNは系列が長くなる場合,学習がうまくいかない場合がある
–  RNNの隠れユニットを置き換えたもの
PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-­‐seminar-­‐20141030rnn
2015/08/24
ACL読み会@すずかけ
7
LSTMを展開する
p  静的に見ることができる
–  出力nは入力1…n-1を踏まえたもの
出力1
出力2
出力3
出力n
入力1
入力2
入力3
入力n
PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-­‐seminar-­‐20141030rnn
2015/08/24
ACL読み会@すずかけ
8
LSTMを展開&論文図
どことなく似ている
出力1
出力2
出力3
出力n
入力1
入力2
入力3
入力n
つまり
スタック,バッファ,操作履歴の状態をLSTMで表現
PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-­‐seminar-­‐20141030rnn
2015/08/24
ACL読み会@すずかけ
9
1.モデル詳細
LSTMを使って表現
2015/08/24
ACL読み会@すずかけ
10
従来のLSTM(RNN)と異なる点
p  スタックバッファ内操作 (Shiftの例)
–  スタック,バッファ内の操作自体はpopとpush
–  操作履歴はpushのみ
Control を pop
Control を push
2015/08/24
ACL読み会@すずかけ
11
単語がpopされた場合
p  スタック,バッファ内の中の状態が変更
–  popした単語の履歴はたどれない
•  使う出力層を明示的に示す必要がある:Stack pointer
2015/08/24
ACL読み会@すずかけ
12
単語がpopされた場合
p  スタック,バッファ内の中の状態が変更
–  popした単語の履歴はたどれない
•  使う出力層を明示的に示す必要がある:Stack pointer
POP
2015/08/24
ACL読み会@すずかけ
次の入力は?出力は?
これまでの履歴は?
13
Stack pointer
p  スタック,バッファの操作に応じた出力先
–  例1:単語x1がpopされた
•  単語x1を考慮しないy0にポインタを移動
y0
y1
x0
x1
2015/08/24
Pop
ACL読み会@すずかけ
y0
y1
x0
x1
14
Stack pointer
p  例2:単語x2がpushされた
–  単語x1のLSTMは無視し,単語x0を踏まえた(隠れ層が
結合した)状態でy2にポインタを移動
y0
y1
x0
x1
Push
y0
y1
y2
x0
x1
x2
–  このようにLSTM自体がスタックされていく
•  Stack-LSTM
2015/08/24
ACL読み会@すずかけ
15
Stack pointer まとめ
1. 
2. 
3. 
an , overhasty がスタック内に保持されている状態
overhasty がpop:stack pointer→ an の出力層
decision がpush:stack pointer→ push の出力層
–  overhasty と decision 間に結合はなし
※ただし,操作履歴にはLeft-arc(amod)として保存
2015/08/24
ACL読み会@すずかけ
16
2.入力
2015/08/24
ACL読み会@すずかけ
17
バッファとスタックの入力ベクトル
p  3つのベクトルを組み合せる
–  word type (w)
•  Stanford Dependency treebank
–  ニューラル言語モデル (W_LM)
•  Strucured skip n-gram [Ling+ 2015]
•  giga word corpus
–  POSタグ (t)
•  pos-tagger
2015/08/24
ACL読み会@すずかけ
18
out-of-vocabulary-words
p  ニューラル言語モデルでは出現し,Parserの訓
練データでは出現しない単語が存在
–  その扱い方 (UNK)
–  Singleton word typeの単語ベクトルをイテレーショ
ンごとに確率的(p=0.5)に他のSingleton word type
の単語ベクトルに置き換えつつ学習
2015/08/24
ACL読み会@すずかけ
19
Composition Functions
p  操作によって得られたsubtreeをベクトル化
–  Recursive Neural Networkの発想 [Socher 2014]
–  head, modifier, relaitionの三組に変換
–  それをボトムアップにベクトルを作成
•  操作履歴のS-LSTMの入力とする
2015/08/24
ACL読み会@すずかけ
20
3.出力
2015/08/24
ACL読み会@すずかけ
21
3.出力
p  (大枠として)3層のニューラルネットワーク
ほしいもの:操作列
1層:S-LSTMの出力
2層:hidden layer (ReLU)
3層:softmax (操作)
S-LSTMの出力
Stack:S Buffer:b Action:a
2015/08/24
が最大となるように
バックプロパゲーションで学習
ACL読み会@すずかけ
22
実験設定
p  NNの次元数やパラメータ
–  直感に基づく:今後の課題の一つ
p  データ
–  英語
•  Stanford Dependency treebank
•  Stanford Tagger
•  English Gigaword corpus
–  中国語
•  Penn Chinese Treebank
•  Penn Chinese Treebankに付与されるPos
•  Chinese Gigaword corpus
2015/08/24
ACL読み会@すずかけ
23
実験結果
p  素性を引いてみて検討
–  提案手法 [S-LSTM]
–  - POS
–  - Pretraining
–  - Compotision Functions
–  S-RNN [LSTMをRNNに置き換え]
–  ベースライン [Chen&Manning]
ともによさげ
ビームサーチしてもあんまり効果なし
2015/08/24
ACL読み会@すずかけ
24
まとめ
p  既存の係り受け解析の手法より高性能
1.  係り受け解析の種類:Transition-Based Parsing
2.  モデル:with Stack Long Short-Term Memory
3.  入力:Token Embedding & OOVs, Compotition
Functions
p  今後
–  さまざまな拡張
•  Unsupervisedな係り受け解析
•  Neural Turing Machine
2015/08/24
ACL読み会@すずかけ
25