Dec.,18, 2007

Authorship Attribution
using Word Sequences
Coyotl-Morales, R.M., Villasenor-Pineda, L.,
Montes-y-Gomez, M., Rosso, P.
CIARP, 2006, pp.844-853
( Dec.,18, 2007, 中山 担当)
Abstract
‡
Authorship attribution
„
テキストの著者を特定
‡
‡
著者の文書スタイル・特徴を明確に表現
本論文
„
„
„
著者推定の為の新しい方法を提案
機能語と内容語を結合した語列を用いて特徴付け
詩の分類における提案手法結果
‡
‡
提案手法が最新の技術よりも大部分で性能向上
短い文書の帰属を扱う上で適切
目次
1.
‡ 2.
‡ 3.
‡ 4.
‡ 5.
‡ 6.
‡
Introduction
Related Work
Our Method
Experimental Setup
Experimental Results
Conclusions
1. Introduction
‡
Authorship attribution
„
„
テキストの著者を識別するタスク
分類問題
‡
‡
„
既知の原作者をもった文書をトレーニングデータ
匿名のテキストの著者を自動的に決定する事を目的
著者推定の関心
‡
文書の適切な特性記述の定義
1. Introduction
‡
著者推定
„
文体上の特徴を利用
‡
„
‡
著者の語彙、機能語の出現頻度
bag-of-word
著者推定の為の新しい方法の提案
„
著者の文体上の特徴とトピックとの特徴を考慮すると仮定
適切な特徴は機能的・内容語を有効に組み合わせるはず
本稿では語列により、この特性記述を構築する
1. Introduction
‡
トピックに基づいたテキスト分類
„
„
„
語列が適用された
トピックのないもの/著者推定に対する十分な研究はない
分類精度への文書サイズの影響
‡
„
„
著者推定のいくつかのアプローチは文書の長さに非常に敏感
特に文体上の特徴に基づいた方法は短い文書に直面し
たときに失敗する傾向がある
これの改善が提案手法を適用する上での動機
1. Introduction
Section2:関連研究
‡ Section3:提案手法
‡ Section4:実験
‡ Section5:実験結果
‡ Section6:考察、今後の課題
‡
2. Related Work
‡
著者推定
„
著者の作品の書き方には特有の特徴があると仮定
‡
„
著者推定における仮定の揺らぎ
‡
‡
„
言葉(単語)の使い方など
著者のスタイルは対象読者によって可変!?
トピック・ジャンルによる差は!?
必ずしも仮定が正しいとは限らない
2. Related Work
‡
著者推定の方法
„
„
„
Stylistic measure
Syntactic cues
Word-based
2. Related Work
‡
Stylistic measure
„
„
語彙の種類,単語長,文長
これだけでは十分ではない
‡
‡
„
Computers and the Humanities[7]
Proceedings of the program “Information transfer”
held in ZIF[9]
テキストのジャンルに依存,短い文書では意味を成さない
2. Related Work
‡
Syntactic cues
„
1組のスタイル・マーカーを使用
‡
‡
これらのマーカーは、ドキュメントの徹底的な構文解析で得られる
言語の構造に関連する情報を統合することによって、文体上の
測定を越えます。
テキストの特徴は“構文的な構造の存在と頻度”
ƒ テキスト処理リソース(POSタガー、構文のパーサなど)
ƒ 構築する事は、計算上高価であって、不可能
ƒ 文長の長さに影響を与える
2. Related Work
‡
Word-based
1.
機能語を利用して文書を特徴付ける
‡
Content words を除く
ƒ
‡
‡
独立した意味が割り当てることができる語
上手く使うことが可能
文書サイズの影響を受ける
ƒ
機能語の発生の頻度だけではなく、その存在にも影響
2. Related Work
2.
文書の特徴としてcontent wordを利用(bag-of-word)
„
„
Robust
著者とトピックの間に特別な関係があると有効な結果
2. Related Work
3.
N-gram
„
テキストの言語構造を捕らえる
„ 単純な語列を複雑な構文の構造の代わりに利用
„
„
„
構文解析をせずにテキストの特徴を得ること事を目的
3語までのn-グラムだけを利用する傾向
提案手法
„
出現頻度の高い組み合わせを考慮
3. Our Method
‡
著者推定の新方式の提案
„
„
functional/content wordを組み合わせて特徴付け
シーケンス
‡
著者の扱う,より重要な語列を利用するため
3.1 Mining Maximal Frequent Word Sequences
‡
D:テキスト(完全な文書or文)
„
„
‡
単語の列から成ると仮定
語句の連結は共起する単語を考える
定義1: p(ai,…,ak) は語列 q のsubsequence
If: ai(1≦i≦k)が全てqで生じ,pと同じ順序で生じる
例:p(a,b,c), q(a,b,c,d)
„
‡
定義2: p はDにおいて高頻度
„
If: pが少なくともDのσテキストのsubsequence
(σ:頻度しきい値)
3.1 Mining Maximal Frequent Word Sequences
‡
定義3: pはDの最も高頻度語列
„
If:
‡
‡
Dでシーケンスp’が存在しない
pがp’のsubsequence かつ p’はDで高頻度
過去に導入した最大頻度語列の抽出法
„
テキストコレクションDの最大頻度の語列
‡
„
Dと任意の整数値σ(1<σ<D)のものを列挙
sequence mining
‡
多大な計算量
3.2 Classification Algorithms
‡
最頻出な語列に基づいた分類アルゴリズム
‡
TRAINING
1.
2.
3.
4.
頻度しきい値σの値をセット
σに対するDTの中の最頻出な語列をすべて列挙
語の出現の有無で作られた語列でトレーニング実例を構築
学習アルゴリズムにトレーニング実例を与えて、
トレーニングを行う
3.2 Classification Algorithms
‡
CLASSIFICATION
1.
2.
トレーニングされた語列と一致するdの表現を構築
訓練されたクラシファイヤーにラベルを付ける
3.2 Classification Algorithms
„
アルゴリズムの特徴
„
しきい値σの適切な定義に依存
„
„
‡
σを小さくすれば多くの語列を抽出,プレシジョンを支援
σを大きくすれば、リコール・パーセンテージを支援する多くの短
い列を生成する傾向
σは文書のサイズによって影響される
ƒ 経験的に決める
3.2 Classification Algorithms
‡
提案手法
„
異なるσにより抽出された最頻出語列を組み合わせる
‡
„
„
分類性能に依存したしきい値にする為
各ステップにσを追加、反復するプロセスで特徴構築
総計特徴セットになるべき語句の連結がない場合
(少なくとも2語の語句の連結)
‡
終了またはしきい値を上げて再開
3.2 Classification Algorithms
‡
TRAINING
1.
2.
3.
頻度しきい値σ=2をセット
特徴セットF1={φ}をセット
Do
a.
頻度しきい値σに対応するDTの中の最大の頻繁な語列をすべて列挙
列:Sσ
特徴セットへの新しい列を結合 例:Fσ=Fσ-1∪Sσ
c.
頻度しきい値を追加
例:σ=σ+1
※WHILE(Sσ-1は、Fσに含まれない2つ以上の語の少なくとも1つの列を含む)
b.
4.
5.
語の出現の有無で作られた語列でトレーニング実例を構築
学習アルゴリズムにトレーニング実例を与えて、トレーニングを行う
3.2 Classification Algorithms
‡
CLASSIFICATION
1.
2.
トレーニングされた語列と一致するdの表現を構築
訓練されたクラシファイヤーに新しいラベルを付ける
4. 1 Corpus
‡
評価するためのデータセットがない(原作者帰着)
„
‡
本稿ではCorpusをWebから収集
„
‡
コーパスを自分で組み立てる必要
5人の著者から353の詩
詩集
„
„
非常に短い文書:平均176語
同じ時代のメキシコの詩人
4. 1 Corpus
4.2 Classifier
‡
Naive Bayes Classifier
„
文書処理タスクにおいて競争率が高い
カテゴリーciに属する文書dの確率を計算
„
特徴の統計的独立の単純化および仮定
„
N : 全体の収集文書数
Ni :カテゴリーciの文書数
Nji :ciの中で特徴fjが出現する文書数
|F| : 特徴数
4.3 Baseline Configurations
‡
ベースラインを確率する為の実験
„
4つの異なる特徴を用いる
1.
2.
3.
4.
‡
functional words
content words
the combination of functional and content words
word n-grams
次元縮小 – a 10-cross-fold validation
4.3 Baseline Configurations
‡
Results
„
functional words
‡
„
content words
‡
„
文書が同じジャンル、同様のトピックの場合でさえ、
著者間で識別するべき関連情報を含む
captured by word n-gram
‡
„
短い文体の文書に適さない
原作者帰着のタスクに役立つ
feature explosion and the small size of the corpus
‡
必ずしも分類精度を上げるわけではない
5. Experimental Results
‡
原作者帰着のための最頻出な語列の使用を提案
1.
しきい値(σ)を使用して、アルゴリズムの分類性能を評価
改良したアルゴリズムを適用
‡ 異なるσによって抽出された最大列を組み合わせる
特徴セットを用いた効果を評価する
2.
‡
Bayes Classifier & a 10-cross-fold validation
5.1 Experiments with the Direct Algorithm
5.1 Experiments with the Direct Algorithm
しきい値σの増加に伴い精度減少
‡ しきい値による語列のばらつき
‡
„
高いσを設定する事で高頻度のものしか得られない
5.2 Experiment using the Enhanced Algorithm
5.2 Experiment using the Enhanced Algorithm
5.2 Experiment using the Enhanced Algorithm
‡
提案手法は通常のアルゴリズムより精度が上がる
„
‡
Precision, Recall の値が増加
長さの代わりに出現頻度を用いることが有効
6. Conclusions
‡
著者推定の為の語列の抽出方法を提案
„
機能語・内容語を組み合わせた語列を使用
‡
実験によりその有用性を示した
‡
今後の課題
„
„
文書の特徴を利用する事を計画
テキスト分類の際の機能語の重要性を調査