Espresso型ブートストラッピング法における 意味ドリフトのグラフ理論に

Espresso型ブートストラッピング法における
意味ドリフトのグラフ理論に基づく分析
小町守、工藤拓、新保仁、松本祐治、人工知能学会論文誌25‐2A, pp.233‐247
pp.233
247 , 2010
, 2010
担当 奥村直也(Nov 09,2015)
1 はじめに
1.はじめに
• この論文の目的
• 語義曖昧性解消についての分析
• Espresso型のブートストラッピング法
E
型のブ トストラッピング法
• ブートストラッピング法では、意味ドリフトが発生
• 意味ドリフト:反復過程で、元の意味から違った意味にシフト
意味ドリフト:反復過程で 元の意味から違った意味にシフト
• なぜ発生するのか?
• どのようなインスタンスに意味ドリフトするのか?
• 意味ドリフトが影響を受けないようにするには?
• グラフ理論に基づいたアルゴリズム
1 はじめに
1.はじめに
• 機械学習を用いる手法
• タグ付きコーパスを訓練データとして使用
減 問題
• 人手によるタグ付けコストの削減が問題
• 半教師ありや教師なしの手法
この論文では ブートストラッピング法を使用(両方)
トストラッピング法を使用(両方)
• この論文では、ブ
1 はじめに
1.はじめに
• ブートストラッピング法とは?
1の例) X is
is‐aa Y
• 小規模インスタンスから大規模インスタンスを抽出
• ブートストラッピング法の手順
•
•
•
•
•
1-あるパターン(関係)を与える
2-インスタンスをシードとして抽出
3-インスタンスと共起するパターン抽出
4 新たなインスタンス抽出
4-新たなインスタンス抽出
5-3と4を繰り返す
2の例) cat, animal
,
3の例)
例)
Y such as X
5
• 出力:インスタンス
• ブーストラッピング法の使用するタスク
• 語義曖昧解消
• 固有表現抽出
• 関係抽出
出力
インスタンス集合
4の例)
animal, dog
1 はじめに
1.はじめに
• ブートストラッピング法の問題
ブ トストラ ピング法の問題
• 複数のパラメータ設定
• 意味ドリフト
• パラメータ設定
パラメ タ設定
• 反復の終了条件
• 反復で選択するインスタンスやパターンの数
1 はじめに
1.はじめに
• 意味ドリフト
• 反復過程
反復過程で、元のインスタンスから関係ないインスタンスが抽出
イ
タ
から関係な イ
タ
が抽出
• 特徴(ジェネリックパターン)
• 再現率は高い(獲得す
再現率は高い(獲得すべきインスタンスのカバー率)
きインスタンスのカバ 率)
• 適合率は低い(目的インスタンスが含まれている率)
• 意味ドリフトの回避
ハワイ, 観光地
○○の最新情報
○○の写真
• 反復を最適な回数で停止
• Espressoアルゴリズム
• ジェネリックパターンを抑える
定義
• インスタンスとパターンのスコア定義
携帯電話
1 はじめに
1.はじめに
• 2.
2 Espresso型のブートストラッピング法
E
型のブ トストラ ピング法
• 3. Simplified Espressoアルゴリズムと
Espresso型の意味ドリフトの検証
型 意味ドリ ト 検証
• 4. グラフ理論に基づくアルゴリズム
• 5. 語義曖昧性解消の実験
2 ブートスラッピング法
2.ブートスラッピング法
1の例) X is‐a Y
• ブートストラッピング手法
•
•
•
•
入力:シードインスタンス(2)
入力
シ ドインスタンス(2)
パターン抽出フェーズ(3)ー信頼度スコア
インスタンス抽出フェーズ(4)ー信頼度スコア
出力 獲得インスタンス
出力:獲得インスタンス
シードインスタンス
2の例) cat, animal
パターン抽出
•ブ
ブートストラッピング手法の手順
トストラッピング手法の手順
•
•
•
•
•
1-あるパターン(関係)を与える
2-インスタンスをシードとして抽出
3-インスタンスと共起するパターン抽出
4-新たなインスタンス抽出
5-3と4を繰り返す
• 出力:インスタンス
出力 インスタンス
3の例)
Y such as X
インスタンス抽出
5
獲得インスタンス
出力
インスタンス集合
4の例)
animal, dog
2 ブートスラッピング法
2.ブートスラッピング法
X is‐a Y
• ブートストラッピング手法のパラメータ
ブ トストラッピング手法のパラメ タ
シードインスタンス
cat, animal
• パターン抽出フェーズ
• (1)パターンの信頼度スコア関数
• (2)パターンの個数
(2)パタ ンの個数
• インスタンス抽出フェ―ズ
• (3)インスタンスの信頼度スコア関数
• (4)インスタンスの個数
パターン抽出
1, 2)
Y such as X
Y such as X
インスタンス抽出
5
• (5)停止条件
• ブートストラッピング手法の出力方法
ブ トストラッピング手法の出力方法
• (A)インスタンス抽出フェーズ毎に出力
• (B)最終反復時の信頼度スコア上位のみを出力
獲得インスタンス
出力
インスタンス集合
3, 4)
animal dog
animal, dog
2 Espressoアルゴリズム
2.Espressoアルゴリズム
パターン抽出の信頼度スコア
• Espressoアルゴリズム
E
アルゴリズム
• 信頼度スコアを定義
• パターン抽出の信頼度スコア
パタ ン抽出の信頼度スコア
• インスタンス抽出の信頼度スコア
インスタンス数
インスタンス抽出の信頼度スコア
パターン数
2 Espresso型のブートストラッピング法
2.Espresso型のブートストラッピング法
シードインスタンス
cat, animal
• Espresso型ブートストラッピング手法
E
型ブ トストラ ピング手法
• パターン抽出フェーズ
• (1)パターンの信頼度スコア関数
• (2)パターンの個数
• インスタンス抽出フェ―ズ
• (3)インスタンスの信頼度スコア関数
• (4)インスタンスの個数
パターン抽出
インスタンス抽出
Y such as X
animal, dog
• (5)停止条件
• 出力方法
• 最終反復時の信頼度スコア上位のみを出力
獲得インスタンス
出力
インスタンス集合
3 Simplified Espresso
3.Simplified Espresso
Simplified Espressoのアルゴリズム
• 単純化したEspresso
単純化したE
• Espressoとの違い
• パラメータが信頼度スコアのみ
パラメ タが信頼度スコアのみ
パターン抽出フェーズ
インスタンス抽出フェーズ
ステップ4と6
3 Espressoの収束過程の解析
3.Espressoの収束過程の解析
• Simplified
Si lifi d Espressoで取り除いたパラメータの影響の検証
E
で取り除いたパラメ タの影響の検証
• インスタンスの個数とパターンの個数
• 意味ドリフトにどう影響したかの検証が必要
• 語義曖昧性解消のタスクに対する実験で検証
• Simplified EspressoとEspressoを比較
• 正解語義をあらかじめ与え、予想する実験
3 Espressoの収束過程の解析
3.Espressoの収束過程の解析
3 Espressoの収束過程の解析
3.Espressoの収束過程の解析
• Espressoのパラメータ設定
E
のパラメ タ設定
シードインスタンス
インスタンス抽出
パターン抽出
上位100のインスタンスのみを選択
パターン抽出の信頼度スコアを計算
残りのスコアは0へ
そ 後上限を
その後上限を100増加
増加
収束するまで反復
獲得インスタンス
上位200のパターンのみを選択
インスタンス抽出の信頼度スコアを計算
残りのスコアは0へ
その後上限を1増加
3 Espressoの収束過程の解析
3.Espressoの収束過程の解析
• 適合率
• 正解事例数/全出力事例数
• 収束過程
• Simplified Espresso
• 反復9回目
• 最頻出語義が選択
• Espresso
• 反復20回目
• 最頻出語義が選択
• 意味ドリフトの影響が小さい
3 Espressoの収束過程の解析
3.Espressoの収束過程の解析
• 再現率
率
• 各々語義を当てれた数
• 意味ドリフトの検証
• 反復回数が増加すると
最頻出語義の再現率も増加
• その他は低下
• Espressoも意味ドリフトの影響を受ける
も意味ドリ トの影響を受ける
4.意味ドリフトを解決するための2つのグラ
解決す
フ理論に基づくアリゴリズム
• Espresso型のブートストラッピング法での意味ドリフトの原因
E
型のブ トストラ ピング法での意味ドリフトの原因
• 「計算方法がリンク解析における全体重要度の計算に類似」と予測
• シードとしての節点(インスタンス)と他の節点(インスタンス)の関連
度(類似度)の計算
• リンク解析分野で提案された二つのアルゴリズム
• トピックドリフトが制御しやすい(意味ドリフトが制御しやすい)
• パラメータが少ない
4.意味ドリフトを解決するための2つのグラ
解決す
フ理論に基づくアリゴリズム
:
4.意味ドリフトを解決するための2つのグラ
解決す
フ理論に基づくアリゴリズム
Dは対角行列
5 語義曖昧性解消実験
5.語義曖昧性解消実験
• Von Neumann カーネル,
V N
カ ネル 正則化ラプラシアンカーネルに対して語義
正則化ラプラシアンカ ネルに対して語義
曖昧性解消を評価
• 実験で使用するパターン
• Bag‐of‐wordsパターン
Bag of wordsパタ ン
• 文脈に出現する全単語をパターンとして使用
• 局所的な共起パターン
• インスタンスinterest
インスタンスi
→ 「sale of * interest in **」
「 l f*i
i **
5 語義曖昧性解消実験
5.語義曖昧性解消実験
• 意味ドリフトの抑制(bankのみ)
意味ドリ トの抑制(
のみ)
•
•
•
•
Von Neumann カーネル
正則化ラプラシアンカーネル
正則化ラプラシアンカ
ネル
意味ドリフトが抑制可能か
3章の実験と同様
• その他の再現率が低下していない
• 意味ドリフトが抑制可能
適合率が最大となった反復回数
5 語義曖昧性解消実験
5.語義曖昧性解消実験
• 語義曖昧性解消評価タスク
• 全名詞を対象(bankだけでなく)
• 全データ(名詞・動詞・形容詞)
全デ タ(名詞 動詞 形容詞)
パラメータ
7個
• グラフに基づくアルゴリズム
•
•
•
•
教師あり手法と同程度の適合率
HyperLex
PageRank
青と赤を比べると2つのカーネルが優秀
• Espressoの停止条件
E
の停止条件
• 意味ドリフトを抑制するのに必須
パラメータ
1個
5 語義曖昧性解消実験
5.語義曖昧性解消実験
• 拡散係数βに対する安定性
正則化ラプラシアンは安定 =βを調整しやすい