アフィリエイト IDを用いたスパムブログ収集・分析手法

3rd Rakuten R&D Symposium
Poster Session
アフィリエイト ID を用いたスパムブログ収集・分析手法
石 井
増 田
聡
英
一†1
孝†1
福 原
中 川
知
裕
宏†2
志†3
本論文では,アフィリエイトプログラムの収入を目的としたスパムブログ (スプログ) を分析するた
めに,HTML テキスト中のハイパーリンクなどに含まれるアフィリエイト ID に着目し,アフィリエ
イト ID を用いたスプログ収集・分析手法を提案する.本研究では,スプログ作成者は同一のアフィ
リエイト ID を用いてスプログを大量に生成している,との仮説を立て,アフィリエイト ID を単位
として分析することにより,複数のブログサービスにまたがってスプログを大量に生成しているスパ
マの特定が可能となった.提案手法を用いてスプログの分析を行った結果,同一のアフィリエイト ID
でブログサイトを 10 以上管理しているスパムアフィリエイト ID は調査期間中に抽出したアフィリ
エイト ID の 0.8%と少ないが,そのスパムアフィリエイト ID が出現するブログサイト数は調査期間
中に抽出したアフィリエイト ID を含むブログサイト全体の 22.4%に上ることがわかった.また,10
ブログサイト以上に出現する 173 のスパムアフィリエイト ID を基にアフィリエイト ID の紐付けを
行ない,7ヶ月間スパムアフィリエイト ID を継続して観測した結果,15,409 のスプログを収集した.
A Method for Collecting Splogs using Affiliate IDs
Soichi Ishii,†1 Tomohiro Fukuhara,†2 Hidetaka Masuda†1
and Hiroshi Nakagawa†1
A method for collecting spam blogs(splogs) using affiliate IDs, and analysis results of splogs
are descriced. We assume that spammers create a large amount of splogs by using the same
affiliate IDs. By analyzing affiliate IDs embedded in HTML files of splog sites, we can identify spammers who use a large mount of splogs across multiple blog services. We found that
spammers, who manage more than 10 blog sites (0.8 % of all affiliate IDs), amount to 22.4
% of all affiliate blog sites in our dataset. We collected 14,990 spam blog sites by using the
proposed method.
ンク数の増加を目的とし,機械的に大量に生成される
1. は じ め に
ブログサイトのことである5)7) .このことから,スプ
ログは情報検索品質の低下やネットワーク資源の浪費
近年,ブログサイトやホームページ上に企業の広告
といった問題を引き起こす要因となっている5) .
を掲載する成功報酬型広告 (以下,アフィリエイトプロ
グラム) が盛んに行われている.個人が手軽に Web 上
本論文では,スプログ分析の為に,アフィリエイト
で紹介したい商品の情報を掲載できるようになり,利
ID に着目し,アフィリエイト ID を用いたスプログ
用者の商品レビューなどを簡単に得られるようになっ
の収集・分析手法を提案する.本研究では,スプログ
た.一方で,アフィリエイトプログラムの登場により,
作成者 (以下,スパマ) は同一のアフィリエイト ID を
個人の Web サイトまでも広告媒体として広く認知さ
用いてスプログを大量に生成している,との仮説を立
れ,広告収入を目的としたスパムブログ (以下,スプ
て,アフィリエイト ID を単位として分析することに
ログ) が増加している1)2) .
より,複数のブログサービスにまたがってスプログを
スプログとは,広告主への誘導や特定サイトの被リ
大量に生成しているスパマを特定する.実験データと
して,アフィリエイトプログラムを利用しているブロ
†1 東京電機大学大学院未来科学研究科
Graduate School of Science and Technology for Future
Life, Tokyo Denki University
†2 産業技術総合研究所サービス工学研究センター
Center for Service Research, National Institute of Advanced Industrial Science and Technology
†3 東京大学情報基盤センター
Information Technology Center, The University of
Tokyo
グサイトを用いる.著者らは 7ヶ月間継続してブログ
サイトを収集し,そのデータを用いて分析を行った.
その結果,複数のブログサービスにまたがるスパマの
特定が可能となった.
本論文の構成は次の通りである.2. でアフィリエ
イトプログラムの概要,先行研究と我々の提案するア
1
3rd Rakuten R&D Symposium
Poster Session
図 2 アフィリエイト ID 抽出例
図 1 アフィリエイト利用時のイメージ
アフィリエイトプログラムに着目した研究として,
フィリエイト ID に着目した分析アプローチを示す.3.
原ら4) の研究では,ブログサイト内に含まれるアフィ
で提案手法であるアフィリエイト ID 特定分析につい
リエイトリンク数に着目し,1 つのブログサイト内に
て説明する.4. で提案手法を用いたスプログの収集と
含まれるアフィリエイトリンク数が多いほどスプログ
分析結果を示す.5. で本論文のまとめと今後の課題に
である傾向が高く,アフィリエイトブログの半数がス
ついて述べる.
パムであると報告している.また Wang ら2) の分析で
は,スパムサイトから広告主に至るまでのトラフィッ
2. 先 行 研 究
ク分析を行い,スパムが集中するプロバイダの報告を
本節では,アフィリエイトプログラムの概要につい
している.これらの研究では,単独の Web サイトを
て述べ,先行研究との比較を行う.
単位とした分析を行っている.
2.1 アフィリエイトプログラムの概要
2.3 本研究におけるアプローチ
アフィリエイトプログラムとは,広告掲載主 (アフィ
我々は,複数のブログサービスにまたがるスプログ
リエイタ) が自身の Web サイトなどに企業サイトへ
分析を目的とし,アフィリエイト ID に着目したスプ
のリンク (アフィリエイトリンク) を貼り,閲覧者が
ログ分析手法であるアフィリエイト ID 特定分析を提
そのリンクを経由し企業サイトで商品の購入などを行
案する.アフィリエイト ID 特定分析とは,ASP から
うと,アフィリエイタに企業から成功報酬が支払われ
各アフィリエイタに付与されるアフィリエイト ID を
る広告手法である.図 1 にアフィリエイトプログラム
ブログサイトから抽出し,アフィリエイト ID を単位
の一般的な利用イメージを示す.
として分析する分析手法である.詳細を 3. に示す.
アフィリエイトプログラムの関係者として以下の 4
先行研究では,単独のブログサイトや Web サイト
者が存在する.
を単位として分析し,スパムが集中する ASP,プロバ
イダなどを報告している2)4) .これに対し,アフィリ
(1)
広告主
(2)
ASP(Affiliate Service Provider)
エイト ID 特定分析では,アフィリエイトブログに含
(3)
広告掲載主(アフィリエイタ)
まれるアフィリエイト ID を用いてアフィリエイタを
(4)
広告閲覧者
特定する.これにより,アフィリエイタがどのブログ
ASP とは,広告主とアフィリエイタの間にある中
サイトで広告活動を行っているのかという情報を得る
間業者である.広告主が直接アフィリエイトプログラ
ことができ,同一のアフィリエイト ID を用いて,複
ムを提供することは少なく,広告主に変わり ASP が
数のブログサービスにまたがってスプログを生成して
アフィリエイトプログラムの提供,アフィリエイタへ
いるスパマの特定が可能となる.
の成功報酬の支払いなどを行っている.
3. アフィリエイト ID 特定分析手法
2.2 先 行 研 究
スプログ研究では,単語,アンカーテキスト,URL
本節では,アフィリエイト ID 特定分析手法の概要
に着目し,SVM(Support Vector Machine) を用いた
について述べる.アフィリエイト特定分析手法では,
スプログ検知8) や,リンク解析に着目したスプログ
ブログサイトからアフィリエイト ID の抽出を行う.ま
フィルタリング6) ,HTML 構造が類似するスプログに
た,1 人で複数のアフィリエイト ID を取得するユー
7)
着目したスプログ収集手法
などが報告されている.
ザを特定する為,アフィリエイト ID 紐付けアルゴリ
これらの研究では,複数の特徴を用いる必要や,複数
ズムを適用する.
のブログサービスにまたがるスパマの分析が難しい.
2
3rd Rakuten R&D Symposium
Poster Session
groupAffiliateIDs()
Input: id
Output: GroupID
1: GroupID ← id
2: BlogSites ← f indBlogSites(id)
3: for each b ∈ BlogSites do
4:
IDs ← f indAf f iliateIDs(b)
5:
for each cid ∈ IDs do
6:
if cid ∈
/ GroupID then
7:
GroupID ← GroupID∪groupAf f iliateIDs(cid)
8:
end if
9:
end for
10: end for
11: return GroupID
図 3 アフィリエイト ID 紐付けアルゴリズム
図 4 収集したアフィリエイトブログでの ASP 利用割合
4.1 ブログサイトデータ
ブログサービス運営会社 8 社?1 から取得したブログ
3.1 アフィリエイト ID 抽出方法
サイトを利用する.ブログサービス運営会社から配信
図 2 にアフィリエイト ID 抽出例を示す.閲覧者が
される新着ブログ記事の RSS ファイルを定期的に取得
クリックするアフィリエイトリンクには,そのアフィ
し,ブログサイトを収集する.取得したブログサイト
リエイトリンクを生成したアフィリエイタのアフィリ
から,利用者の多い ASP を参考に3) ,ASP11 社?2 を
エイト ID や,広告主の ID,商品 ID などが含まれて
選定し,ASP11 社のアフィリエイトリンクを含むブロ
おり,我々は,その中からアフィリエイト ID の抽出
グサイトをアフィリエイトブログとし,実験データと
を行う.ASP 各社におけるアフィリエイトリンク中
して用いる.取得期間は 2009 年 12 月 1 日から 2010
でのアフィリエイト ID を示すパラメータ名の特定は,
年 6 月 30 日までの 7ヶ月間である.取得した全ブロ
予備調査により決定した.
グが 2,245,562 サイト,その内 ASP11 社でのアフィ
3.2 アフィリエイト ID の紐付け方法
リエイトブログが 181,755 サイト (8.1%) となった.
4.2 アフィリエイトブログデータ
図 3 にアフィリエイト ID 紐付けアルゴリズム
groupAffiliateIDs() を示す.複数のアフィリエイト ID
取得したアフィリエイトブログから,アフィリエイ
を取得するユーザのブログサイトには,1 つのブログ
ト ID の抽出を行う.ASP11 社中 2 社のアフィリエイ
サイトに複数のアフィリエイト ID が含まれる場合が
ト ID の抽出が困難であり,1 社 (R 社) はある条件時
ある.本アルゴリズムの入力は紐付けの基となるア
にのみ抽出可能,1 社 (Ah 社) は抽出不可能であった.
フィリエイト ID(id) であり,出力は id と紐付けられ
図 4 に収集した全アフィリエイトブログ中の ASP
た ID 集合 GroupID である.アフィリエイト ID の紐
利用割合,表 1 に個人のアフィリエイト ID を抽出し
付けではまず,id を含むブログサイト集合を返す関数
たブログサイト数?3 とアフィリエイト ID 数を示す?4 .
findBlogSites(id) を用いて,紐付け基となる id を含む
図 4 から R 社が 35%と一番多く,上位 4 社 (R 社,G
全てのブログサイトを抽出する (2 行目).次に,抽出し
社,Ah 社,Am 社) で 78%を占めていることがわか
た各ブログサイト b について関数 findAffiliateIDs(b)
る.表 1 では,全アフィリエイトブログの 48.3%から
を用いてアフィリエイト ID の抽出を行い (3-4 行目),
アフィリエイト ID が抽出できたことがわかる.残り
各 IDcid について新たなアフィリエイト ID を抽出し
51.7%のブログサイトでアフィリエイト ID を抽出で
た場合は,そのアフィリエイト ID も同一ユーザのア
きなかった原因は,アフィリエイト ID の抽出が困難
フィリエイト ID として紐付けを行う.次に,cid を
な ASP2 社 (R 社,Ah 社) の利用者が多く,また,分
基に再帰的にアフィリエイト ID を探索する (7 行目).
析対象としていないブログサービス運営会社が利用す
こうして id と紐付けられた ID 集合 GroupID が最終
るアフィリエイト ID も影響している.本研究では,
的な出力として得られる.
?1 Ab 社, C 社, F 社, J 社, Ld 社, Ss 社, W 社, Y 社,
?2 Ah 社, Am 社, At 社, D 社, G 社, I 社, L 社, R 社, S 社,
T 社, V 社
?3 ブログサービス運営会社が利用するアフィリエイト ID のみを
抽出したブログサイトを除去.
?4 以下,表中ではアフィリエイト ID を ID と略す.
4. アフィリエイト ID を用いたスプログ収集・
分析
本節では,提案手法を用いたスプログ収集・分析結
果について述べる.
3
3rd Rakuten R&D Symposium
表1
Poster Session
2009 年 12 月∼2010 年 6 月間でのアフィリエイト ID 抽出
ブログサイト数とアフィリエイト ID 数
期間 (1ヶ月)
2009/12
2010/01
2010/02
2010/03
2010/04
2010/05
2010/06
合計
アフィリエイト
ブログ数
ID 抽出
ブログサイト数
ID 数
55,507
56,070
53,814
52,500
53,131
50,795
56,548
181,755
25,140
26,064
25,565
25,350
25,259
25,288
29,344
87,771(48.3%)
20,635
21,903
21,392
21,139
20,930
19,784
23,114
68,915
表 1 でのアフィリエイト ID 抽出ブログ 87,771 サイ
図 5 アフィリエイト ID を用いたスプログ収集手順
トを主な実験データとして用いる.これは今回取得し
表2
た全ブログサイト数の 3.9%にあたる.
4.3 アフィリエイト ID を用いたスプログ収集の
2009 年 12 月の各アフィリエイト ID のブログサイト出現数
ブログサイト出現数
ID 数
1 サイト
2 サイト
3 サイト
4 サイト
5 サイト
6 サイト
7 サイト
8 サイト
9 サイト
10 サイト
為の予備実験
本節では,表 1 のアフィリエイト ID 抽出ブログ
87,771 サイトのデータを用いて,スプログの収集と分
析の為の 2 つの予備実験を行う.図 5 にアフィリエイ
ト ID を用いたスプログの収集手順を示す.以下 (1),
(2) について述べる.
4.3.1 アフィリエイト ID へのラベル付け
分析期間として表 1 の 2009 年 12 月 1 日∼31 日の
2 サイト以上
10 サイト以上
100 サイト以上
1ヶ月間に抽出した 20,635 のアフィリエイト ID に対
して,いくつのブログサイトから抽出できたのかを調
18,946(91.8%)
961(4.7%)
253(1.2%)
114(0.6%)
52(0.3%)
45(0.2%)
37(0.3%)
24(0.1%)
21(0.1%)
10(0.05%)
1,689 (8.2%)
182(0.9%)
14 (0.07%)
べる.これにより,ある同一のアフィリエイト ID が
何サイトに出現したのかを把握することができ,複数
かつ以下の 4 つの条件のいずれかに当てはまるものを
のブログサイトに出現する同一のアフィリエイト ID
スプログとした.
がどの程度存在するかがわかる.
(1)
広告のみの記事 (オリジナルコンテンツがない)
表 2 に各アフィリエイト ID のブログサイト出現数
(2)
コピー&ペースト記事
を示す.表 2 から 1 つのブログサイトにのみ出現した
(3)
マルチポスト記事
アフィリエイト ID が 18,946(91.8%) と大多数を占め,
(4)
アダルト記事
2 つ以上のブログサイトに出現したアフィリエイト ID
5 サイト以上に出現したアフィリエイト ID につい
が 1,689(8.2%),10 サイト以上に出現したアフィリエ
ては全てのアフィリエイト ID を確認し,4 サイト以
イト ID は 182(0.9%) と少数であることがわかった.
下に出現したアフィリエイト ID についてはランダム
次に,何ブログサイト以上に出現するアフィリエイ
サンプリングで,各 20ID を確認した.
ト ID のスパム率が高いのかを調べるために,出現し
図 6 にブログサイト出現数毎でのアフィリエイト
たサイト数毎でのスパム判定を行う.第一著者が目視
ID スパム率を示す.図 6 から,4 サイト以上に出現し
でアフィリエイト ID ごとのブログサイトを確認し,
たアフィリエイト ID では,スパム率が 90%以上であ
アフィリエイト ID にスパム,非スパムのラベル付け
ることがわかる.4 サイトに出現したアフィリエイト
を行う.
ID のサンプリング数が 20ID と少ないので,5 サイト
9)
では「1 つ以上の何
以上に出現したアフィリエイト ID についてスパム判
らかの他のコンテンツを部分的あるいはすべてコピー
スプログの定義として,文献
定を行うと,スパム率は 94.2%,10 サイト以上に出
し,それらを連結して生成するブログエントリ」と報
現したアフィリエイト ID では,スパム率は 95.1%に
告している.本研究ではスパムの判定基準として,文
なることがわかった.
献9) のスプログ分類を参考に,アフィリエイトを含み,
表 3 にスパムと判定したアフィリエイト ID 群が
4
3rd Rakuten R&D Symposium
Poster Session
表 4 173 のスパムアフィリエイト ID を基にしたアフィリエイト
ID の紐付け
ID の紐付け
ブログサイト数
ID 数
スパム率
紐付け前
紐付け後
5,621
6,040
173
475
95.1%
96.0%
表 5 アフィリエイト ID 紐付け前でのブログサイト収集結果
期間
(1ヶ月)
シードスパム
ID 残数
ブログ
サイト数
新出ブログ
サイト数
スパム率
2010/01
2010/02
2010/03
2010/04
2010/05
2010/06
合計
276(58.1%)
258(54.3%)
230(48.4%)
204(42.9%)
235(49.5%)
204(42.9%)
318
5,594
5,131
4,093
3,934
5,018
5,893
12,906
2,385
1,675
973
1,011
1,095
1,272
8,411
93.3%
100%
100%
100%
100%
100%
98.9%
図 6 ブログサイト出現数毎でのアフィリエイト ID スパム率
表 3 スパムアフィリエイト ID 群でのブログサイト数
ブログサイト出現数
ID 数
スパム ID 数
スプログ数
5 サイト以上
10 サイト以上
100 サイト以上
361
182
14
340
173
14
4.4 アフィリエイト ID を用いたスプログ収集
本節では,4.3.2 で得られた 475 のスパムアフィリ
7,589
5,621
3,119
エイト ID をシードスパム ID として,2010 年 1 月∼
6 月の 6ヶ月間でアフィリエイト ID の紐付けを行わ
ない場合と,行う場合とでのスプログ収集数の比較実
含まれていたブログサイト数を示す.表 2 と表 3 か
験を行う.
4.4.1 ID の紐付けを行わないスプログ収集実験
ら,同一のアフィリエイト ID を用いて 10 サイト以
上のブログサイトに広告を掲載するアフィリエイト
本節では,まず 2010 年 1 月∼6 月の 6ヶ月間に
ID は全体の 0.9%(182/20,635) と少ないが,その中
475ID の内どれだけのシードスパム ID が抽出でき
の 95.1%(173/182) がスパムアフィリエイト ID であ
るのかを調べる.また,各月毎に抽出できたシードス
り,全体の 0.8%(173/20,635) であった.173 のスパ
パム ID を基にブログサイトの収集を行い,新たなブ
ムアフィリエイト ID が含まれていたブログサイト数
ログサイトがどれだけ出現するのかを確認する.新た
は 5,621 サイトであり,2009 年 12 月のアフィリエイ
に出現したブログサイトについてはランダムサンプリ
ト ID 抽出ブログサイトの 22.4%(5,621/25,140) に上
ングで各月 30 サイトのスパム判定を行った.
ることがわかった.
表 5 にアフィリエイト ID 紐付け前でのブログサイ
4.3.2 アフィリエイト ID の紐付け
ト収集結果を示す.表 5 から,シードスパム ID 数は概
アフィリエイト ID は 1 人のユーザが複数持つこと
ね月を重ねるごとに減少傾向にあった.シードスパム
が可能である.そこで,表 3 の 10 サイト以上に出現し
ID を用いることによって,6ヶ月間で,新たに 8,411
た 173 のスパムアフィリエイト ID を用いて,アフィ
のブログサイトが出現し,スパム率は 98.9%であった.
4.4.2 ID の紐付けを行ったスプログ収集実験
リエイト ID の紐付けを行う.
表 4 に 173 のスパムアフィリエイト ID を基にし
本節では,まず始めにシードスパム ID を基にアフィ
たアフィリエイト ID の紐付け結果を示す.紐付けを
リエイト ID の紐付けを行い,紐付けられたアフィリ
行った結果,アフィリエイト ID は 173 から 475 に,
エイト ID を用いてブログサイトの収集を行う.アフィ
ブログサイトは 5,621 から 6,040 に増加した.新たに
リエイト ID の紐付けによって,新たに抽出されたア
302 のアフィリエイト ID を抽出し,419 のブログサ
フィリエイト ID は各月でシードスパム ID に加え,新
イトを収集した.新たに収集した 419 のブログサイト
たに収集されたブログサイトについてはランダムサン
をランダムサンプリングで 50 サイト確認したところ
プリングで各月 30 サイトのスパム判定を行った.
96.0%がスプログであった.このことから,アフィリ
表 6 にアフィリエイト ID 紐付け後でのブログサイ
エイト ID の紐付けがスプログの収集数を増やすこと
ト収集結果を示す.紐付け前 ID とは,シードスパム
に対して有効なことがわかった.
ID の中で各月に抽出できたアフィリエイト ID である.
表 5,表 6 から,アフィリエイト ID の紐付けを行っ
5
3rd Rakuten R&D Symposium
期間 (1ヶ月)
2010/01
2010/02
2010/03
2010/04
2010/05
2010/06
合計
Poster Session
表 6 アフィリエイト ID 紐付け後でのブログサイト収集結果
シード
紐付け前
紐付け後
新出
ブログ
新出ブログ
スパム ID 数
ID 数
ID 数
ID 数
サイト数
サイト数
475
589
707
777
846
946
1,206
276
298
296
270
316
310
n/a
390
416
366
339
416
570
n/a
114
118
70
69
100
260
731
5,912
5,331
4,388
4,320
5,436
6,452
13,864
2,650
1,788
1,069
1,200
1,259
1,403
9,369
スパム率
100%
96.7%
93.3%
96.7%
93.3%
83.3%
93.9%
た方が新出ブログサイト数が増加することがわかった
ログサイトの 3.9%とごく少数である.今後,アフィ
(月平均 159.7 増加).また,表 6 からアフィリエイト
リエイト ID の抽出率を調査し,分析対象 ASP を増
ID の紐付けにより,シードスパム ID 数が毎月増加し
やすなどして,適用範囲を広げることが必要である.
ていることがわかる (月平均 121.8 増加).スパム率は
参
アフィリエイト ID の紐付け前よりも劣るが,93.9%と
考
文
献
1) Z. Gyongyi, and H. Garcia-Molina. Web Spam
Taxonomy. In Proc. 1st AIRWeb, pp.39-47,
2005.
2) Y. M. Wang, M. Ma, Y. Niu, and H. Chen.
Spam double-funnel: Connecting web spammers with advertisers. In Proc. 16th WWW,
pp.291-300, 2007.
3) アフィリエイトマーケティング協会, アフィリエ
イトプログラムに関する意識調査 2007 年, NPO
法人 アフィリエイト・マーケティング協会, 2007.
4) 原正憲, 長谷巧, 山本匠, 山田明, 西垣正勝. スパ
ムブログとアフィリエイトの関連性に関する一考
察. 情報処理学会論文誌, Vol.50, No.12, pp.32063210, 2009.
5) Y.-R. Lin, H. Sundaram, Y. Chi, J. Tatemura,
and B. L. Tseng. Splog detection using selfsimilarity analysis on blog temporal dynamics.
In Proc. 1st AIRWeb, pp.1-8, 2007.
6) 石田和成. スパムブログの推定と抽出. 日本データ
ベース学会 Letters, Vol.6, No.4, pp.37-40, 2008.
7) 片山太一, 芳中隆幸, 宇津呂武仁, 河田容英, 福原
知宏. HTML 構造を利用した類似スパムブログの
収集. 第 2 回データ工学と情報マネジメントに関
するフォーラム (DEIM2010) 論文集, B4-2, 電子
情報通信学会, 2010.
8) P. Kolari, A. Java, T. Finin, T. Oates, A.
Joshi. Detecting spam blogs: A machine learning approach. In Proc. 21st AAAI, pp.13511356, 2006.
9) 竹田隆治, 高須淳宏. 複数文字列検知に基づいた
Splog フィルタリング手法. 情報処理学会論文誌
データベース (TOD41), Vol.2, No.1, pp.93-103,
2009.
なった.アフィリエイト ID の紐付けを行わない場合,
シードスパム ID は減少傾向にあり,アフィリエイト
ID の紐付けを行った場合,毎月新たなアフィリエイト
ID を抽出していることからスパマは定期的にアフィ
リエイト ID を変更していると考えられる.
6ヶ月間に収集したユニークなブログサイト数が
13,864 であることから,67.6%のサイトが新たに確
認されたブログサイトとなる?1 .今回収集したアフィ
リエイト ID 抽出ブログサイト数が 87,771,アフィリ
エイト ID 数が 68,915 である.2009 年 12 月の 10 ブ
ログサイト以上に出現する 173(収集したアフィリエ
イト ID の 0.25%) のアフィリエイト ID にスパムのラ
ベル付けを行うことにより,2009 年 12 月∼2010 年 6
月の 7ヶ月間に 15,409(アフィリエイト ID 抽出ブログ
サイトの 17.6%) のスプログを収集することができた.
5. お わ り に
本論文では,スプログ分析を目的とし,アフィリエ
イト ID を用いたスプログの収集・分析手法を提案し
た.始めにシードとなるスパムアフィリエイト ID を
手動で作成する必要があるが,その後はアフィリエイ
ト ID の紐付けを行うことにより,シードスパム ID
が増加していくことを観察できた.この結果から,ア
フィリエイト ID に着目することにより,半自動的に
スプログを収集することが可能となった.
アフィリエイト ID に着目することにより,ブログ
サービスをまたいだ横断的な分析が可能となり,高い
適合率でスプログを収集することが可能となった.し
かしながら本論文で対象としたデータは取得した全ブ
?1 現在の分析では,新たに出現したブログサイトが新しく作られ
たブログサイトであるのか,記事の投稿をしていなかったブロ
グサイトであるのかの判断を行っていない.
6