Transition-Based Dependency Parsing with Stack Long Short-Term Memory Chris Dyer Minuguel Ballesteros Wang Ling Austin Matthews Noah A.Smith 紹介する人:林(東工大) 2015/08/24 ACL読み会@すずかけ 1 Transition-Based Dependency Parsing with Stack Long Short-Term Memory p 係り受け解析 p Transition-based Parserの分類器の話 – ニューラルネットをLSTMに拡張したら性能が良くなった p ポイント 1. 係り受け解析の種類:Transition-Based Parsing 2. モデル:with Stack Long Short-Term Memory 3. 入力:Composition Functions – ベースライン • 分類器をSVMからNNへ [Chen&Manning 2014] – Stanford Parserの実装 – http://cs.stanford.edu/ danqi/papers/emnlp2014_slides.pdf 2015/08/24 ACL読み会@すずかけ 2 Transition-based parsing p スタックに単語を積み分類器で次の操作を決定 – 今回はArc-Standardを採用 [Nivre 2004] – スタック,バッファ,操作履歴の三つ組 – Shift : バッファからスタックに単語を積む – Arc:スタックから単語を取り出しArcを張る • Left-Arc, Right-Arc (右にかかるか左にかかるか) + head-dependent間の関係 – 詳しくは他のスライドで • 能地さんのスライド「最近のTransition based parsing」 http://www.slideshare.net/nozyh/transition-based-parsing • ベースラインのスライド http://cs.stanford.edu/ danqi/papers/emnlp2014_slides.pdf 2015/08/24 ACL読み会@すずかけ 3 モデル概要 2015/08/24 ACL読み会@すずかけ 4 1. Stack Long Short-Term Memory スタック バッファ 操作履歴 2015/08/24 ACL読み会@すずかけ 5 アイディア p その時のParserのすべての状態を考慮したい 1. スタック内とバッファ内のすべての単語情報 2. すべての操作履歴 – Stack Long Short-Term Memories • • • スタック内の状態 バッファ内の状態 操作履歴の状態 – それぞれの状態をベクトルで表現する 3. スタック内に存在するすべての依存関係 – Composition Functions:後で 2015/08/24 ACL読み会@すずかけ 6 Long Short-Term Memories p Reccurent Neural Networks (RNN)の一種 – 隠れ層から隠れ層の結合が特徴(過去の履歴も利用) – RNNは系列が長くなる場合,学習がうまくいかない場合がある – RNNの隠れユニットを置き換えたもの PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-‐seminar-‐20141030rnn 2015/08/24 ACL読み会@すずかけ 7 LSTMを展開する p 静的に見ることができる – 出力nは入力1…n-1を踏まえたもの 出力1 出力2 出力3 出力n 入力1 入力2 入力3 入力n PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-‐seminar-‐20141030rnn 2015/08/24 ACL読み会@すずかけ 8 LSTMを展開&論文図 どことなく似ている 出力1 出力2 出力3 出力n 入力1 入力2 入力3 入力n つまり スタック,バッファ,操作履歴の状態をLSTMで表現 PFI得居さんのスライドから h*p://www.slideshare.net/beam2d/pfi-‐seminar-‐20141030rnn 2015/08/24 ACL読み会@すずかけ 9 1.モデル詳細 LSTMを使って表現 2015/08/24 ACL読み会@すずかけ 10 従来のLSTM(RNN)と異なる点 p スタックバッファ内操作 (Shiftの例) – スタック,バッファ内の操作自体はpopとpush – 操作履歴はpushのみ Control を pop Control を push 2015/08/24 ACL読み会@すずかけ 11 単語がpopされた場合 p スタック,バッファ内の中の状態が変更 – popした単語の履歴はたどれない • 使う出力層を明示的に示す必要がある:Stack pointer 2015/08/24 ACL読み会@すずかけ 12 単語がpopされた場合 p スタック,バッファ内の中の状態が変更 – popした単語の履歴はたどれない • 使う出力層を明示的に示す必要がある:Stack pointer POP 2015/08/24 ACL読み会@すずかけ 次の入力は?出力は? これまでの履歴は? 13 Stack pointer p スタック,バッファの操作に応じた出力先 – 例1:単語x1がpopされた • 単語x1を考慮しないy0にポインタを移動 y0 y1 x0 x1 2015/08/24 Pop ACL読み会@すずかけ y0 y1 x0 x1 14 Stack pointer p 例2:単語x2がpushされた – 単語x1のLSTMは無視し,単語x0を踏まえた(隠れ層が 結合した)状態でy2にポインタを移動 y0 y1 x0 x1 Push y0 y1 y2 x0 x1 x2 – このようにLSTM自体がスタックされていく • Stack-LSTM 2015/08/24 ACL読み会@すずかけ 15 Stack pointer まとめ 1. 2. 3. an , overhasty がスタック内に保持されている状態 overhasty がpop:stack pointer→ an の出力層 decision がpush:stack pointer→ push の出力層 – overhasty と decision 間に結合はなし ※ただし,操作履歴にはLeft-arc(amod)として保存 2015/08/24 ACL読み会@すずかけ 16 2.入力 2015/08/24 ACL読み会@すずかけ 17 バッファとスタックの入力ベクトル p 3つのベクトルを組み合せる – word type (w) • Stanford Dependency treebank – ニューラル言語モデル (W_LM) • Strucured skip n-gram [Ling+ 2015] • giga word corpus – POSタグ (t) • pos-tagger 2015/08/24 ACL読み会@すずかけ 18 out-of-vocabulary-words p ニューラル言語モデルでは出現し,Parserの訓 練データでは出現しない単語が存在 – その扱い方 (UNK) – Singleton word typeの単語ベクトルをイテレーショ ンごとに確率的(p=0.5)に他のSingleton word type の単語ベクトルに置き換えつつ学習 2015/08/24 ACL読み会@すずかけ 19 Composition Functions p 操作によって得られたsubtreeをベクトル化 – Recursive Neural Networkの発想 [Socher 2014] – head, modifier, relaitionの三組に変換 – それをボトムアップにベクトルを作成 • 操作履歴のS-LSTMの入力とする 2015/08/24 ACL読み会@すずかけ 20 3.出力 2015/08/24 ACL読み会@すずかけ 21 3.出力 p (大枠として)3層のニューラルネットワーク ほしいもの:操作列 1層:S-LSTMの出力 2層:hidden layer (ReLU) 3層:softmax (操作) S-LSTMの出力 Stack:S Buffer:b Action:a 2015/08/24 が最大となるように バックプロパゲーションで学習 ACL読み会@すずかけ 22 実験設定 p NNの次元数やパラメータ – 直感に基づく:今後の課題の一つ p データ – 英語 • Stanford Dependency treebank • Stanford Tagger • English Gigaword corpus – 中国語 • Penn Chinese Treebank • Penn Chinese Treebankに付与されるPos • Chinese Gigaword corpus 2015/08/24 ACL読み会@すずかけ 23 実験結果 p 素性を引いてみて検討 – 提案手法 [S-LSTM] – - POS – - Pretraining – - Compotision Functions – S-RNN [LSTMをRNNに置き換え] – ベースライン [Chen&Manning] ともによさげ ビームサーチしてもあんまり効果なし 2015/08/24 ACL読み会@すずかけ 24 まとめ p 既存の係り受け解析の手法より高性能 1. 係り受け解析の種類:Transition-Based Parsing 2. モデル:with Stack Long Short-Term Memory 3. 入力:Token Embedding & OOVs, Compotition Functions p 今後 – さまざまな拡張 • Unsupervisedな係り受け解析 • Neural Turing Machine 2015/08/24 ACL読み会@すずかけ 25
© Copyright 2024 Paperzz