Espresso型ブートストラッピング法における 意味ドリフトのグラフ理論に基づく分析 小町守、工藤拓、新保仁、松本祐治、人工知能学会論文誌25‐2A, pp.233‐247 pp.233 247 , 2010 , 2010 担当 奥村直也(Nov 09,2015) 1 はじめに 1.はじめに • この論文の目的 • 語義曖昧性解消についての分析 • Espresso型のブートストラッピング法 E 型のブ トストラッピング法 • ブートストラッピング法では、意味ドリフトが発生 • 意味ドリフト:反復過程で、元の意味から違った意味にシフト 意味ドリフト:反復過程で 元の意味から違った意味にシフト • なぜ発生するのか? • どのようなインスタンスに意味ドリフトするのか? • 意味ドリフトが影響を受けないようにするには? • グラフ理論に基づいたアルゴリズム 1 はじめに 1.はじめに • 機械学習を用いる手法 • タグ付きコーパスを訓練データとして使用 減 問題 • 人手によるタグ付けコストの削減が問題 • 半教師ありや教師なしの手法 この論文では ブートストラッピング法を使用(両方) トストラッピング法を使用(両方) • この論文では、ブ 1 はじめに 1.はじめに • ブートストラッピング法とは? 1の例) X is is‐aa Y • 小規模インスタンスから大規模インスタンスを抽出 • ブートストラッピング法の手順 • • • • • 1-あるパターン(関係)を与える 2-インスタンスをシードとして抽出 3-インスタンスと共起するパターン抽出 4 新たなインスタンス抽出 4-新たなインスタンス抽出 5-3と4を繰り返す 2の例) cat, animal , 3の例) 例) Y such as X 5 • 出力:インスタンス • ブーストラッピング法の使用するタスク • 語義曖昧解消 • 固有表現抽出 • 関係抽出 出力 インスタンス集合 4の例) animal, dog 1 はじめに 1.はじめに • ブートストラッピング法の問題 ブ トストラ ピング法の問題 • 複数のパラメータ設定 • 意味ドリフト • パラメータ設定 パラメ タ設定 • 反復の終了条件 • 反復で選択するインスタンスやパターンの数 1 はじめに 1.はじめに • 意味ドリフト • 反復過程 反復過程で、元のインスタンスから関係ないインスタンスが抽出 イ タ から関係な イ タ が抽出 • 特徴(ジェネリックパターン) • 再現率は高い(獲得す 再現率は高い(獲得すべきインスタンスのカバー率) きインスタンスのカバ 率) • 適合率は低い(目的インスタンスが含まれている率) • 意味ドリフトの回避 ハワイ, 観光地 ○○の最新情報 ○○の写真 • 反復を最適な回数で停止 • Espressoアルゴリズム • ジェネリックパターンを抑える 定義 • インスタンスとパターンのスコア定義 携帯電話 1 はじめに 1.はじめに • 2. 2 Espresso型のブートストラッピング法 E 型のブ トストラ ピング法 • 3. Simplified Espressoアルゴリズムと Espresso型の意味ドリフトの検証 型 意味ドリ ト 検証 • 4. グラフ理論に基づくアルゴリズム • 5. 語義曖昧性解消の実験 2 ブートスラッピング法 2.ブートスラッピング法 1の例) X is‐a Y • ブートストラッピング手法 • • • • 入力:シードインスタンス(2) 入力 シ ドインスタンス(2) パターン抽出フェーズ(3)ー信頼度スコア インスタンス抽出フェーズ(4)ー信頼度スコア 出力 獲得インスタンス 出力:獲得インスタンス シードインスタンス 2の例) cat, animal パターン抽出 •ブ ブートストラッピング手法の手順 トストラッピング手法の手順 • • • • • 1-あるパターン(関係)を与える 2-インスタンスをシードとして抽出 3-インスタンスと共起するパターン抽出 4-新たなインスタンス抽出 5-3と4を繰り返す • 出力:インスタンス 出力 インスタンス 3の例) Y such as X インスタンス抽出 5 獲得インスタンス 出力 インスタンス集合 4の例) animal, dog 2 ブートスラッピング法 2.ブートスラッピング法 X is‐a Y • ブートストラッピング手法のパラメータ ブ トストラッピング手法のパラメ タ シードインスタンス cat, animal • パターン抽出フェーズ • (1)パターンの信頼度スコア関数 • (2)パターンの個数 (2)パタ ンの個数 • インスタンス抽出フェ―ズ • (3)インスタンスの信頼度スコア関数 • (4)インスタンスの個数 パターン抽出 1, 2) Y such as X Y such as X インスタンス抽出 5 • (5)停止条件 • ブートストラッピング手法の出力方法 ブ トストラッピング手法の出力方法 • (A)インスタンス抽出フェーズ毎に出力 • (B)最終反復時の信頼度スコア上位のみを出力 獲得インスタンス 出力 インスタンス集合 3, 4) animal dog animal, dog 2 Espressoアルゴリズム 2.Espressoアルゴリズム パターン抽出の信頼度スコア • Espressoアルゴリズム E アルゴリズム • 信頼度スコアを定義 • パターン抽出の信頼度スコア パタ ン抽出の信頼度スコア • インスタンス抽出の信頼度スコア インスタンス数 インスタンス抽出の信頼度スコア パターン数 2 Espresso型のブートストラッピング法 2.Espresso型のブートストラッピング法 シードインスタンス cat, animal • Espresso型ブートストラッピング手法 E 型ブ トストラ ピング手法 • パターン抽出フェーズ • (1)パターンの信頼度スコア関数 • (2)パターンの個数 • インスタンス抽出フェ―ズ • (3)インスタンスの信頼度スコア関数 • (4)インスタンスの個数 パターン抽出 インスタンス抽出 Y such as X animal, dog • (5)停止条件 • 出力方法 • 最終反復時の信頼度スコア上位のみを出力 獲得インスタンス 出力 インスタンス集合 3 Simplified Espresso 3.Simplified Espresso Simplified Espressoのアルゴリズム • 単純化したEspresso 単純化したE • Espressoとの違い • パラメータが信頼度スコアのみ パラメ タが信頼度スコアのみ パターン抽出フェーズ インスタンス抽出フェーズ ステップ4と6 3 Espressoの収束過程の解析 3.Espressoの収束過程の解析 • Simplified Si lifi d Espressoで取り除いたパラメータの影響の検証 E で取り除いたパラメ タの影響の検証 • インスタンスの個数とパターンの個数 • 意味ドリフトにどう影響したかの検証が必要 • 語義曖昧性解消のタスクに対する実験で検証 • Simplified EspressoとEspressoを比較 • 正解語義をあらかじめ与え、予想する実験 3 Espressoの収束過程の解析 3.Espressoの収束過程の解析 3 Espressoの収束過程の解析 3.Espressoの収束過程の解析 • Espressoのパラメータ設定 E のパラメ タ設定 シードインスタンス インスタンス抽出 パターン抽出 上位100のインスタンスのみを選択 パターン抽出の信頼度スコアを計算 残りのスコアは0へ そ 後上限を その後上限を100増加 増加 収束するまで反復 獲得インスタンス 上位200のパターンのみを選択 インスタンス抽出の信頼度スコアを計算 残りのスコアは0へ その後上限を1増加 3 Espressoの収束過程の解析 3.Espressoの収束過程の解析 • 適合率 • 正解事例数/全出力事例数 • 収束過程 • Simplified Espresso • 反復9回目 • 最頻出語義が選択 • Espresso • 反復20回目 • 最頻出語義が選択 • 意味ドリフトの影響が小さい 3 Espressoの収束過程の解析 3.Espressoの収束過程の解析 • 再現率 率 • 各々語義を当てれた数 • 意味ドリフトの検証 • 反復回数が増加すると 最頻出語義の再現率も増加 • その他は低下 • Espressoも意味ドリフトの影響を受ける も意味ドリ トの影響を受ける 4.意味ドリフトを解決するための2つのグラ 解決す フ理論に基づくアリゴリズム • Espresso型のブートストラッピング法での意味ドリフトの原因 E 型のブ トストラ ピング法での意味ドリフトの原因 • 「計算方法がリンク解析における全体重要度の計算に類似」と予測 • シードとしての節点(インスタンス)と他の節点(インスタンス)の関連 度(類似度)の計算 • リンク解析分野で提案された二つのアルゴリズム • トピックドリフトが制御しやすい(意味ドリフトが制御しやすい) • パラメータが少ない 4.意味ドリフトを解決するための2つのグラ 解決す フ理論に基づくアリゴリズム : 4.意味ドリフトを解決するための2つのグラ 解決す フ理論に基づくアリゴリズム Dは対角行列 5 語義曖昧性解消実験 5.語義曖昧性解消実験 • Von Neumann カーネル, V N カ ネル 正則化ラプラシアンカーネルに対して語義 正則化ラプラシアンカ ネルに対して語義 曖昧性解消を評価 • 実験で使用するパターン • Bag‐of‐wordsパターン Bag of wordsパタ ン • 文脈に出現する全単語をパターンとして使用 • 局所的な共起パターン • インスタンスinterest インスタンスi → 「sale of * interest in **」 「 l f*i i ** 5 語義曖昧性解消実験 5.語義曖昧性解消実験 • 意味ドリフトの抑制(bankのみ) 意味ドリ トの抑制( のみ) • • • • Von Neumann カーネル 正則化ラプラシアンカーネル 正則化ラプラシアンカ ネル 意味ドリフトが抑制可能か 3章の実験と同様 • その他の再現率が低下していない • 意味ドリフトが抑制可能 適合率が最大となった反復回数 5 語義曖昧性解消実験 5.語義曖昧性解消実験 • 語義曖昧性解消評価タスク • 全名詞を対象(bankだけでなく) • 全データ(名詞・動詞・形容詞) 全デ タ(名詞 動詞 形容詞) パラメータ 7個 • グラフに基づくアルゴリズム • • • • 教師あり手法と同程度の適合率 HyperLex PageRank 青と赤を比べると2つのカーネルが優秀 • Espressoの停止条件 E の停止条件 • 意味ドリフトを抑制するのに必須 パラメータ 1個 5 語義曖昧性解消実験 5.語義曖昧性解消実験 • 拡散係数βに対する安定性 正則化ラプラシアンは安定 =βを調整しやすい
© Copyright 2024 Paperzz