Topic Sensitive PageRank

Topic-Sensitive
Topic
Sensitive PageRank:
A Context-Sensitive
Ranking Algorithm for Web Search
Taher H. Haveliwala
IEEE T
Trans O
On K
Knowledge
l d D
Data
t E
Engr. 15
15-4,
4 2003
2003,
pp.784-796 (Nov.19,2010, 畠中担当)
目次
•
•
•
•
•
•
•
•
ABSTRACT
INTRODUCTION
REVIEW OF PAGERANK
TOPIC SENSITIVE PAGERANK
TOPIC-SENSITIVE
EXPERIMENTAL RESULTS
SEARH CONTEXT
EFFICIENCY CONSIDERATIONS
FUTURE WORK
ABSTRACT
• PageRankというアルゴリズムの改善
ゴ ズ
• 本来のPageRankはリンク構造のみに着目
– ページの中身(文脈)は無視
– あらかじめ計算されたPageRankで順位付け
• TOPIC-SENSITIVE PAGERANK
– ページの中身(文脈)を考慮
ペ ジの中身(文脈)を考慮
– Topic別の各PageRankの合成で順位付け
•例
– Webページ (a)(花見の説明)からWebページ (b) (花見を説
明)と(c)(宇宙を説明) リンク
明)と(c)(宇宙を説明)へリンク
INTRODUCTION
・HITSアルゴリズム
ア ゴリズム
– Kleinbergのリンク構造への着目
• ハブ(優良リンク集 )とオーソリティ(優良サイト )
• 全ページはハブ値とオーソリティ値を所有
例
O=2
H=1
H 3
H=3
O=1+3+4
H=4
図1.オーソリティ値の求め方
O 4
O=4
H 2 4 1
H=2+4+1
O=1
O
図2.ハブ値の求め方
INTRODUCTION
・PageRankアルゴリズム
ゴ ズ
– PageRank値とIRスコア
age a 値と ス ア
– IRスコア()
例
①Aページ
同タグ:3回使用×0.1(Type
同タグ
3回使用×0 1(T pe weight)
eight) ×0.1(同タグを3回使用に応じた
×0 1(同タグを3回使用に応じた
Count weight)=0.03
②B
②Bページ
ジ
同タグ:6回使用×0.1(Type weight) ×0.05(同タグを6回使用に応じた
Count weight)=0.03
INTRODUCTION
• PageRankアルゴリズムの改良
ゴ ズ
– Hilltopアルゴリズム
opアル リズム
• トップドメインを所持しているサイト
– 例 .edu .gov .org .com
– vertical search
• その分野のカテゴリーのみでの検索
INTRODUCTION
• PageRankベクトルに偏りを持たせる方法
– 16個のトピックによるクエリーの分類
6個のト ックによるク リ の分類
– Open Directory
– a multinomial naive
naive-Bayes
Bayes classifier
– Bookmarksやhistory
INTRODUCTION
・単語
単語 ・単語を含む文書
単語を含む文書
・単語の位置情報
a multinomial naive-Bayes classifier
図3,従来のPageRank
図4,topic-sensitivePageRank
REVIEW OF PAGERANK







例
N1
N2
N4
1/4
N3





0 . 25 
0 . 25
0 . 25
0 . 25
1/4
1/4
1/4
REVIEW OF PAGERANK

0 0


 0 . 25  0
 3
 0 . 25


3

 0 . 25 
3

0.25
0.25
0 25
0.25
0 . 25
2
0 . 25
0 . 25


2
2
0 . 25
 0 0
1
0 . 25
0
 0
2
 0


  0 . 13
 
  0 . 33
   0 . 33
 
  0 . 21


0.13
0 25
0.25







0.33
0 21
0.21
0 33
0.33
REVIEW OF PAGERANK

0 0


 0 . 13  0
 3
 0 . 13


3

 0 . 13 
3

0.13
0.33
0 21
0.21
0 . 21
2
0 . 33
0 . 21


2
2
0 . 33
 0 0
1
0 . 33
0
 0
2
 0
0.11
0 33
0.33


  0 . 11
 
  0 . 32
   0 . 37
 
  0 . 21









0.32
0 21
0.21
0 37
0.37
REVIEW OF PAGERANK

0 0


 0 . 11  0
 3
 0 . 11


3

 0 . 11 
3

0.11
0.11
0.32
0 21
0.21
0 . 21
2
0 . 37
0 . 21


2
2
0 . 32
 0 0
1
0 . 37
0
 0
2
 0
0.37


  0 . 11
 
  0 . 34
   0 . 36
 
  0 . 23









0.34
0 23
0.23
0 36
0.36
REVIEW OF PAGERANK

0 0


 0 . 11  0
 3
 0 . 11


3

 0 . 11 
3

0.11
0.12
0.34
0 23
0.23
0 . 23
2
0 . 36
0 . 23


2
2
0 . 34
 0 0
1
0 . 36
0
 0
2
 0
0.36


  0 . 12
 
  0 . 34
   0 . 38
 
  0 . 22









0.34
0 22
0.22
0 38
0.38
REVIEW OF PAGERANK

0 0


 0 . 12  0
 3
 0 . 12


3

 0 . 12 
3

0.12
0.11
0.34
0 22
0.22
0 . 22
2
0 . 38
0 . 22


2
2
0 . 34
 0 0
1
0 . 38
0
 0
2
 0
0.38


  0 . 11
 
  0 . 34
   0 . 38
 
  0 . 23









0.34
0 23
0.23
0 38
0.38
REVIEW OF PAGERANK

0 0


 0 . 11  0
 3
 0 . 11


3

 0 . 11 
3

0.11
0.12
0.34
0 23
0.23
0 . 23
2
0 . 38
0 . 23


2
2
0 . 34
 0 0
1
0 . 38
0
 0
2
 0
0.38


  0 . 12
 
  0 . 35
   0 . 38
 
  0 . 23









0.35
0 23
0.23
0 38
0.38
REVIEW OF PAGERANK

0 0


 0 . 12  0
 3
 0 . 12


3

 0 . 12 
3

0.12
0 . 23
2
0 . 38
0 . 23


2
2
0 . 35
 0 0
1
0 . 38
 0
0
2
 0







0.12
0.35
0 23
0.23


  0 . 12
 
  0 . 35
   0 . 39
 
  0 . 23


0.38
この収束した値が
PageRanK
0.35
0 23
0.23
0 39
0.39
REVIEW OF PAGERANK










この計算過程を行
列表示。
0.12
1
3
1
3
1
3
0
0
0
1
2
1
0
0
1
2
0.12
0.35
0 23
0.23
0
0.38






0 


0 

1
2
1
2
0 . 12 
 0 . 12


0 . 35 
 0 . 35

 0 . 39
0 . 38 



 0 . 23
0 . 23 

0.35
0 23
0.23
0 39
0.39







REVIEW OF PAGERANK









0
0
0
1
2
1
3
0
1
2
1
2
1
3
1
0
0

 0 . 12
 
  0 . 35

  0 . 38
  0 . 23
0
t

1
3
0
1
2
π
  0 . 12
 
  0 . 35
   0 . 39
 
  0 . 23
 







π π M
t
t
πt 1
M
この計算過程は線形代数の固有ベ
クトル計算
REVIEW OF PAGERANK
• PageRankの調整
g
– 正確なランク付けできなくなる例(ランクシンク)
– 収束条件(確率的調整、原始性調整)
収束条件(確率的調整 原始性調整)
N2
N4
N3
N1
N6
N5
図5.ランクシンク
REVIEW OF PAGERANK
• 調整1
– 行き止まりページ(N2)でもテレポート
行き止まり
ジ( )でもテレポ ト
N2
N4
N3
N1
N6
N5
5
REVIEW OF PAGERANK
調整2
– すべてのページがすべてのページにテレポート
す ての
ジがす ての
ジにテレポ ト
–例

1
p  [
] n 1
n
N2
N4
N3
N1
N6
N5
REVIEW OF PAGERANK
• 2回の調整による新しい行列M´


D  p d (調整1)

1
E  p [1]1n  [ ]nn (調整2)
n
M '  (1 α)( M  D) αE
TOPIC SENSITIVE PAGERANK
TOPIC-SENSITIVE
・ODP-biasing
– 人が作成しているODP
人が作成して る
– 16個の偏ったPageRankベクトルの作成


– テレポートベクトル
テレポ トベクトル p  vjと置く
T j : ODP のカテゴリーjに
含まれる URL の集合
i : ページ
ペ ジ
ユーザーのテレポートを当該カテゴリーのみに限定
ザ
ポ
を当該カ ゴ
限定
TOPIC SENSITIVE PAGERANK
TOPIC-SENSITIVE
• Query-Time Importance Score
– クエリーがどのカテゴリーに重要なのかの重み
ク リ がどのカテ リ に重要なのかの重み
TOPIC SENSITIVE PAGERANK
TOPIC-SENSITIVE
例
・sports
・News
1 サッカー 足 ボール
1 W杯 サッカー 日本代表 11人 勝った
2 野球 9 人 試合
2 野球 W杯 2010 開催
3 サッカー 11人 試合
9
2
}・{ P (サッカー | sports )  }
18
9
3
}
{ P (サッカー ) 
18
{ P ( sports ) 
P ( sports | サッカー )=
TOPIC SENSITIVE PAGERANK
TOPIC-SENSITIVE
• Query-Time Importance Score
– ページdのtopic-sensitive
ジdの op c se s e PageRank
age a
クエリq時のページdの
TOPIC-SENSITIVE
PAGERANK
クエリqがどのカテゴリに
属しているかの確率
カテゴリjのPageRank
EXPERIMENTAL RESULTS
• 実験データ
デ
表1.35個のテストクエリ
EXPERIMENTAL RESULTS
• Similarrity Measure for induced Rankings
– ランキングの類似性の評価方法
• 二つのランキングの重複の割合
| A B |
OSim(τ1 ,τ2 ) 
k
• 二つのランキングの順位の類似度
EXPERIMENTAL RESULTS
• Kendall’s τ distance measure
• 例
人
A B C D E
身長
1 2 3 4 5
体重
3 4 1 2 5
4
 0.4
5(5  1) / 2
Coun
t
ペア
身長
体重
(A,B)
1<2
3<4
(A,C)
1<3
3>1
X
(A D)
(A,D)
1<4
3>2
X
(A,E)
1<5
3<5
(B,C)
2<3
4>1
X
(B,D)
2<4
4>2
X
・・・・・・
EXPERIMENTAL RESULTS
• 二つのランキングの順位の類似度
グ
• 例
1
2
3
4
5
τ1
a
b
c
d
e
τ2
b
d
f
a
g
U  {a, b, c, d , e, f , g}
δ1  {g , d , e, f , a}δ2  { c , e}
τ'1  {g} τ'2  {e}
1
KSim(τ1τ
, 2) 
76
?
EXPERIMENTAL RESULTS
• Effect of ODP-Biasing
– ランキングに最も良い偏りを与えるαの値
ランキングに最も良 偏りを与えるαの値
表2、Average Similarity of Rankings for α={0.05,0.25}
どちらの関数でも高い値な
ので、αはランキング付け
にあまり影響がない
EXPERIMENTAL RESULTS
• Effect of ODP-Biasing
– 17個のランキングの類似性
個のランキングの類似性
表3,Topic Pairs Yielding the Most Similar Rankings
それぞれのランキ
ングは似ていない
表4, Top Results for the Query “Bicycling” When Ranked Using Various Topic-Specific Vectors
EXPERIMENTAL RESULTS
• Query-Sensitive Scoring
– 35個のクエリーの各カテゴリーへの重要度
35個のク リ の各カテ リ
の重要度
– 5人のボランティアによる従来のPageRankと
topic-sensitive PageRankのTop10の比較
•
図6、Estimates for P(cj|q) for a Subset of the Test Queries
直感的に最も
関連があるカ
テゴリーが上
リ
位にある
表5. Ranking Scheme Preferred by
Majority of Users
図7. P
図7
Precision@10
i i @10 results
lt ffor our ttestt
queries. The average precision
over the 10 queries is also shown
5人が10個のクエリのランキングを
8/10の割合でtopic-sensitive
PageRankが良いと評価
EXPERIMENTAL RESULTS
• Context-Sensitive Scoring
– 例(blues)というクエリーでの検索
例(b ues)と うク リ での検索
表6. Two Different Search Contexts for the Query “Blues”
EXPERIMENTAL RESULTS
• クエリーがどのカテゴリーに重要なのかの重み
がど
ゴ
重 な
重
従来のPRに
比べてよい
結果が出て
いる
SEARH CONTEXT
• 様々なquery
様々な
contextの提案
の提案
– 検索履歴
– サーチエンジンの階層との連動
– ユーザーのブラウジングパターン・メール・ブック
マーク
EFFICIENCY CONSIDERATIONS
• Offline Processing
– 8000万URL
万
• PageRankを求めるのに使用したURL数
– Two dual processor machines
• PageRankを求めるのに使用したマシン
– roughly 20 hours
• PageRankを求めるのにかかった時間
EFFICIENCY CONSIDERATIONS
• 収束までに必要な反復回数を減じるアルゴリ
ズム
– k 回目の反復時のPageRank ベクトルから準優
固有値に対応する固有ベクトルを引算
– Overlap部分のみで先に計算
O l 部分のみで先に計算
図7. Graph 1 personalizes on node A and Graph 2 personalizes on the children of A.
R d
Random
walks
lk on th
these graphs
h b
behave
h
similarly,
i il l an observation
b
ti use tto compute
t a
large number of personalized PageRank vectors simultaneously.
EFFICIENCY CONSIDERATIONS
• Overview of Keyword Search Processing
図8. A simplified illustration of a search engine with a standard inverted text
図8
text-index
index and
three auxiliary numerical attributes for each document.
EFFICIENCY CONSIDERATIONS
• PageRankの値を保持するメモリの節約
– Float値は4byte×1億2000万ページ=460MB
– 0.0~1.0までしか使わない
• 量子化に使用するbitを減らす
表7, A Description of the Six Quantization Strategies We Compare
EFFICIENCY CONSIDERATIONS
ランキング
の歪み度
図9. The average distortion for the various strategies when using the
KDist distortion measure for 86 test queries.
queries The rankings compared
were the top 100 results ranked.
FUTURE WORK
• ODP のカテゴリの第2
ゴ
,3 階層などのより細
細
かいトピックの分類
類
• すべてのページをカテゴリー分け