Authorship Attribution using Word Sequences Coyotl-Morales, R.M., Villasenor-Pineda, L., Montes-y-Gomez, M., Rosso, P. CIARP, 2006, pp.844-853 ( Dec.,18, 2007, 中山 担当) Abstract Authorship attribution テキストの著者を特定 著者の文書スタイル・特徴を明確に表現 本論文 著者推定の為の新しい方法を提案 機能語と内容語を結合した語列を用いて特徴付け 詩の分類における提案手法結果 提案手法が最新の技術よりも大部分で性能向上 短い文書の帰属を扱う上で適切 目次 1. 2. 3. 4. 5. 6. Introduction Related Work Our Method Experimental Setup Experimental Results Conclusions 1. Introduction Authorship attribution テキストの著者を識別するタスク 分類問題 既知の原作者をもった文書をトレーニングデータ 匿名のテキストの著者を自動的に決定する事を目的 著者推定の関心 文書の適切な特性記述の定義 1. Introduction 著者推定 文体上の特徴を利用 著者の語彙、機能語の出現頻度 bag-of-word 著者推定の為の新しい方法の提案 著者の文体上の特徴とトピックとの特徴を考慮すると仮定 適切な特徴は機能的・内容語を有効に組み合わせるはず 本稿では語列により、この特性記述を構築する 1. Introduction トピックに基づいたテキスト分類 語列が適用された トピックのないもの/著者推定に対する十分な研究はない 分類精度への文書サイズの影響 著者推定のいくつかのアプローチは文書の長さに非常に敏感 特に文体上の特徴に基づいた方法は短い文書に直面し たときに失敗する傾向がある これの改善が提案手法を適用する上での動機 1. Introduction Section2:関連研究 Section3:提案手法 Section4:実験 Section5:実験結果 Section6:考察、今後の課題 2. Related Work 著者推定 著者の作品の書き方には特有の特徴があると仮定 著者推定における仮定の揺らぎ 言葉(単語)の使い方など 著者のスタイルは対象読者によって可変!? トピック・ジャンルによる差は!? 必ずしも仮定が正しいとは限らない 2. Related Work 著者推定の方法 Stylistic measure Syntactic cues Word-based 2. Related Work Stylistic measure 語彙の種類,単語長,文長 これだけでは十分ではない Computers and the Humanities[7] Proceedings of the program “Information transfer” held in ZIF[9] テキストのジャンルに依存,短い文書では意味を成さない 2. Related Work Syntactic cues 1組のスタイル・マーカーを使用 これらのマーカーは、ドキュメントの徹底的な構文解析で得られる 言語の構造に関連する情報を統合することによって、文体上の 測定を越えます。 テキストの特徴は“構文的な構造の存在と頻度” テキスト処理リソース(POSタガー、構文のパーサなど) 構築する事は、計算上高価であって、不可能 文長の長さに影響を与える 2. Related Work Word-based 1. 機能語を利用して文書を特徴付ける Content words を除く 独立した意味が割り当てることができる語 上手く使うことが可能 文書サイズの影響を受ける 機能語の発生の頻度だけではなく、その存在にも影響 2. Related Work 2. 文書の特徴としてcontent wordを利用(bag-of-word) Robust 著者とトピックの間に特別な関係があると有効な結果 2. Related Work 3. N-gram テキストの言語構造を捕らえる 単純な語列を複雑な構文の構造の代わりに利用 構文解析をせずにテキストの特徴を得ること事を目的 3語までのn-グラムだけを利用する傾向 提案手法 出現頻度の高い組み合わせを考慮 3. Our Method 著者推定の新方式の提案 functional/content wordを組み合わせて特徴付け シーケンス 著者の扱う,より重要な語列を利用するため 3.1 Mining Maximal Frequent Word Sequences D:テキスト(完全な文書or文) 単語の列から成ると仮定 語句の連結は共起する単語を考える 定義1: p(ai,…,ak) は語列 q のsubsequence If: ai(1≦i≦k)が全てqで生じ,pと同じ順序で生じる 例:p(a,b,c), q(a,b,c,d) 定義2: p はDにおいて高頻度 If: pが少なくともDのσテキストのsubsequence (σ:頻度しきい値) 3.1 Mining Maximal Frequent Word Sequences 定義3: pはDの最も高頻度語列 If: Dでシーケンスp’が存在しない pがp’のsubsequence かつ p’はDで高頻度 過去に導入した最大頻度語列の抽出法 テキストコレクションDの最大頻度の語列 Dと任意の整数値σ(1<σ<D)のものを列挙 sequence mining 多大な計算量 3.2 Classification Algorithms 最頻出な語列に基づいた分類アルゴリズム TRAINING 1. 2. 3. 4. 頻度しきい値σの値をセット σに対するDTの中の最頻出な語列をすべて列挙 語の出現の有無で作られた語列でトレーニング実例を構築 学習アルゴリズムにトレーニング実例を与えて、 トレーニングを行う 3.2 Classification Algorithms CLASSIFICATION 1. 2. トレーニングされた語列と一致するdの表現を構築 訓練されたクラシファイヤーにラベルを付ける 3.2 Classification Algorithms アルゴリズムの特徴 しきい値σの適切な定義に依存 σを小さくすれば多くの語列を抽出,プレシジョンを支援 σを大きくすれば、リコール・パーセンテージを支援する多くの短 い列を生成する傾向 σは文書のサイズによって影響される 経験的に決める 3.2 Classification Algorithms 提案手法 異なるσにより抽出された最頻出語列を組み合わせる 分類性能に依存したしきい値にする為 各ステップにσを追加、反復するプロセスで特徴構築 総計特徴セットになるべき語句の連結がない場合 (少なくとも2語の語句の連結) 終了またはしきい値を上げて再開 3.2 Classification Algorithms TRAINING 1. 2. 3. 頻度しきい値σ=2をセット 特徴セットF1={φ}をセット Do a. 頻度しきい値σに対応するDTの中の最大の頻繁な語列をすべて列挙 列:Sσ 特徴セットへの新しい列を結合 例:Fσ=Fσ-1∪Sσ c. 頻度しきい値を追加 例:σ=σ+1 ※WHILE(Sσ-1は、Fσに含まれない2つ以上の語の少なくとも1つの列を含む) b. 4. 5. 語の出現の有無で作られた語列でトレーニング実例を構築 学習アルゴリズムにトレーニング実例を与えて、トレーニングを行う 3.2 Classification Algorithms CLASSIFICATION 1. 2. トレーニングされた語列と一致するdの表現を構築 訓練されたクラシファイヤーに新しいラベルを付ける 4. 1 Corpus 評価するためのデータセットがない(原作者帰着) 本稿ではCorpusをWebから収集 コーパスを自分で組み立てる必要 5人の著者から353の詩 詩集 非常に短い文書:平均176語 同じ時代のメキシコの詩人 4. 1 Corpus 4.2 Classifier Naive Bayes Classifier 文書処理タスクにおいて競争率が高い カテゴリーciに属する文書dの確率を計算 特徴の統計的独立の単純化および仮定 N : 全体の収集文書数 Ni :カテゴリーciの文書数 Nji :ciの中で特徴fjが出現する文書数 |F| : 特徴数 4.3 Baseline Configurations ベースラインを確率する為の実験 4つの異なる特徴を用いる 1. 2. 3. 4. functional words content words the combination of functional and content words word n-grams 次元縮小 – a 10-cross-fold validation 4.3 Baseline Configurations Results functional words content words 文書が同じジャンル、同様のトピックの場合でさえ、 著者間で識別するべき関連情報を含む captured by word n-gram 短い文体の文書に適さない 原作者帰着のタスクに役立つ feature explosion and the small size of the corpus 必ずしも分類精度を上げるわけではない 5. Experimental Results 原作者帰着のための最頻出な語列の使用を提案 1. しきい値(σ)を使用して、アルゴリズムの分類性能を評価 改良したアルゴリズムを適用 異なるσによって抽出された最大列を組み合わせる 特徴セットを用いた効果を評価する 2. Bayes Classifier & a 10-cross-fold validation 5.1 Experiments with the Direct Algorithm 5.1 Experiments with the Direct Algorithm しきい値σの増加に伴い精度減少 しきい値による語列のばらつき 高いσを設定する事で高頻度のものしか得られない 5.2 Experiment using the Enhanced Algorithm 5.2 Experiment using the Enhanced Algorithm 5.2 Experiment using the Enhanced Algorithm 提案手法は通常のアルゴリズムより精度が上がる Precision, Recall の値が増加 長さの代わりに出現頻度を用いることが有効 6. Conclusions 著者推定の為の語列の抽出方法を提案 機能語・内容語を組み合わせた語列を使用 実験によりその有用性を示した 今後の課題 文書の特徴を利用する事を計画 テキスト分類の際の機能語の重要性を調査
© Copyright 2025 Paperzz