Topic-Sensitive Topic Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search Taher H. Haveliwala IEEE T Trans O On K Knowledge l d D Data t E Engr. 15 15-4, 4 2003 2003, pp.784-796 (Nov.19,2010, 畠中担当) 目次 • • • • • • • • ABSTRACT INTRODUCTION REVIEW OF PAGERANK TOPIC SENSITIVE PAGERANK TOPIC-SENSITIVE EXPERIMENTAL RESULTS SEARH CONTEXT EFFICIENCY CONSIDERATIONS FUTURE WORK ABSTRACT • PageRankというアルゴリズムの改善 ゴ ズ • 本来のPageRankはリンク構造のみに着目 – ページの中身(文脈)は無視 – あらかじめ計算されたPageRankで順位付け • TOPIC-SENSITIVE PAGERANK – ページの中身(文脈)を考慮 ペ ジの中身(文脈)を考慮 – Topic別の各PageRankの合成で順位付け •例 – Webページ (a)(花見の説明)からWebページ (b) (花見を説 明)と(c)(宇宙を説明) リンク 明)と(c)(宇宙を説明)へリンク INTRODUCTION ・HITSアルゴリズム ア ゴリズム – Kleinbergのリンク構造への着目 • ハブ(優良リンク集 )とオーソリティ(優良サイト ) • 全ページはハブ値とオーソリティ値を所有 例 O=2 H=1 H 3 H=3 O=1+3+4 H=4 図1.オーソリティ値の求め方 O 4 O=4 H 2 4 1 H=2+4+1 O=1 O 図2.ハブ値の求め方 INTRODUCTION ・PageRankアルゴリズム ゴ ズ – PageRank値とIRスコア age a 値と ス ア – IRスコア() 例 ①Aページ 同タグ:3回使用×0.1(Type 同タグ 3回使用×0 1(T pe weight) eight) ×0.1(同タグを3回使用に応じた ×0 1(同タグを3回使用に応じた Count weight)=0.03 ②B ②Bページ ジ 同タグ:6回使用×0.1(Type weight) ×0.05(同タグを6回使用に応じた Count weight)=0.03 INTRODUCTION • PageRankアルゴリズムの改良 ゴ ズ – Hilltopアルゴリズム opアル リズム • トップドメインを所持しているサイト – 例 .edu .gov .org .com – vertical search • その分野のカテゴリーのみでの検索 INTRODUCTION • PageRankベクトルに偏りを持たせる方法 – 16個のトピックによるクエリーの分類 6個のト ックによるク リ の分類 – Open Directory – a multinomial naive naive-Bayes Bayes classifier – Bookmarksやhistory INTRODUCTION ・単語 単語 ・単語を含む文書 単語を含む文書 ・単語の位置情報 a multinomial naive-Bayes classifier 図3,従来のPageRank 図4,topic-sensitivePageRank REVIEW OF PAGERANK 例 N1 N2 N4 1/4 N3 0 . 25 0 . 25 0 . 25 0 . 25 1/4 1/4 1/4 REVIEW OF PAGERANK 0 0 0 . 25 0 3 0 . 25 3 0 . 25 3 0.25 0.25 0 25 0.25 0 . 25 2 0 . 25 0 . 25 2 2 0 . 25 0 0 1 0 . 25 0 0 2 0 0 . 13 0 . 33 0 . 33 0 . 21 0.13 0 25 0.25 0.33 0 21 0.21 0 33 0.33 REVIEW OF PAGERANK 0 0 0 . 13 0 3 0 . 13 3 0 . 13 3 0.13 0.33 0 21 0.21 0 . 21 2 0 . 33 0 . 21 2 2 0 . 33 0 0 1 0 . 33 0 0 2 0 0.11 0 33 0.33 0 . 11 0 . 32 0 . 37 0 . 21 0.32 0 21 0.21 0 37 0.37 REVIEW OF PAGERANK 0 0 0 . 11 0 3 0 . 11 3 0 . 11 3 0.11 0.11 0.32 0 21 0.21 0 . 21 2 0 . 37 0 . 21 2 2 0 . 32 0 0 1 0 . 37 0 0 2 0 0.37 0 . 11 0 . 34 0 . 36 0 . 23 0.34 0 23 0.23 0 36 0.36 REVIEW OF PAGERANK 0 0 0 . 11 0 3 0 . 11 3 0 . 11 3 0.11 0.12 0.34 0 23 0.23 0 . 23 2 0 . 36 0 . 23 2 2 0 . 34 0 0 1 0 . 36 0 0 2 0 0.36 0 . 12 0 . 34 0 . 38 0 . 22 0.34 0 22 0.22 0 38 0.38 REVIEW OF PAGERANK 0 0 0 . 12 0 3 0 . 12 3 0 . 12 3 0.12 0.11 0.34 0 22 0.22 0 . 22 2 0 . 38 0 . 22 2 2 0 . 34 0 0 1 0 . 38 0 0 2 0 0.38 0 . 11 0 . 34 0 . 38 0 . 23 0.34 0 23 0.23 0 38 0.38 REVIEW OF PAGERANK 0 0 0 . 11 0 3 0 . 11 3 0 . 11 3 0.11 0.12 0.34 0 23 0.23 0 . 23 2 0 . 38 0 . 23 2 2 0 . 34 0 0 1 0 . 38 0 0 2 0 0.38 0 . 12 0 . 35 0 . 38 0 . 23 0.35 0 23 0.23 0 38 0.38 REVIEW OF PAGERANK 0 0 0 . 12 0 3 0 . 12 3 0 . 12 3 0.12 0 . 23 2 0 . 38 0 . 23 2 2 0 . 35 0 0 1 0 . 38 0 0 2 0 0.12 0.35 0 23 0.23 0 . 12 0 . 35 0 . 39 0 . 23 0.38 この収束した値が PageRanK 0.35 0 23 0.23 0 39 0.39 REVIEW OF PAGERANK この計算過程を行 列表示。 0.12 1 3 1 3 1 3 0 0 0 1 2 1 0 0 1 2 0.12 0.35 0 23 0.23 0 0.38 0 0 1 2 1 2 0 . 12 0 . 12 0 . 35 0 . 35 0 . 39 0 . 38 0 . 23 0 . 23 0.35 0 23 0.23 0 39 0.39 REVIEW OF PAGERANK 0 0 0 1 2 1 3 0 1 2 1 2 1 3 1 0 0 0 . 12 0 . 35 0 . 38 0 . 23 0 t 1 3 0 1 2 π 0 . 12 0 . 35 0 . 39 0 . 23 π π M t t πt 1 M この計算過程は線形代数の固有ベ クトル計算 REVIEW OF PAGERANK • PageRankの調整 g – 正確なランク付けできなくなる例(ランクシンク) – 収束条件(確率的調整、原始性調整) 収束条件(確率的調整 原始性調整) N2 N4 N3 N1 N6 N5 図5.ランクシンク REVIEW OF PAGERANK • 調整1 – 行き止まりページ(N2)でもテレポート 行き止まり ジ( )でもテレポ ト N2 N4 N3 N1 N6 N5 5 REVIEW OF PAGERANK 調整2 – すべてのページがすべてのページにテレポート す ての ジがす ての ジにテレポ ト –例 1 p [ ] n 1 n N2 N4 N3 N1 N6 N5 REVIEW OF PAGERANK • 2回の調整による新しい行列M´ D p d (調整1) 1 E p [1]1n [ ]nn (調整2) n M ' (1 α)( M D) αE TOPIC SENSITIVE PAGERANK TOPIC-SENSITIVE ・ODP-biasing – 人が作成しているODP 人が作成して る – 16個の偏ったPageRankベクトルの作成 – テレポートベクトル テレポ トベクトル p vjと置く T j : ODP のカテゴリーjに 含まれる URL の集合 i : ページ ペ ジ ユーザーのテレポートを当該カテゴリーのみに限定 ザ ポ を当該カ ゴ 限定 TOPIC SENSITIVE PAGERANK TOPIC-SENSITIVE • Query-Time Importance Score – クエリーがどのカテゴリーに重要なのかの重み ク リ がどのカテ リ に重要なのかの重み TOPIC SENSITIVE PAGERANK TOPIC-SENSITIVE 例 ・sports ・News 1 サッカー 足 ボール 1 W杯 サッカー 日本代表 11人 勝った 2 野球 9 人 試合 2 野球 W杯 2010 開催 3 サッカー 11人 試合 9 2 }・{ P (サッカー | sports ) } 18 9 3 } { P (サッカー ) 18 { P ( sports ) P ( sports | サッカー )= TOPIC SENSITIVE PAGERANK TOPIC-SENSITIVE • Query-Time Importance Score – ページdのtopic-sensitive ジdの op c se s e PageRank age a クエリq時のページdの TOPIC-SENSITIVE PAGERANK クエリqがどのカテゴリに 属しているかの確率 カテゴリjのPageRank EXPERIMENTAL RESULTS • 実験データ デ 表1.35個のテストクエリ EXPERIMENTAL RESULTS • Similarrity Measure for induced Rankings – ランキングの類似性の評価方法 • 二つのランキングの重複の割合 | A B | OSim(τ1 ,τ2 ) k • 二つのランキングの順位の類似度 EXPERIMENTAL RESULTS • Kendall’s τ distance measure • 例 人 A B C D E 身長 1 2 3 4 5 体重 3 4 1 2 5 4 0.4 5(5 1) / 2 Coun t ペア 身長 体重 (A,B) 1<2 3<4 (A,C) 1<3 3>1 X (A D) (A,D) 1<4 3>2 X (A,E) 1<5 3<5 (B,C) 2<3 4>1 X (B,D) 2<4 4>2 X ・・・・・・ EXPERIMENTAL RESULTS • 二つのランキングの順位の類似度 グ • 例 1 2 3 4 5 τ1 a b c d e τ2 b d f a g U {a, b, c, d , e, f , g} δ1 {g , d , e, f , a}δ2 { c , e} τ'1 {g} τ'2 {e} 1 KSim(τ1τ , 2) 76 ? EXPERIMENTAL RESULTS • Effect of ODP-Biasing – ランキングに最も良い偏りを与えるαの値 ランキングに最も良 偏りを与えるαの値 表2、Average Similarity of Rankings for α={0.05,0.25} どちらの関数でも高い値な ので、αはランキング付け にあまり影響がない EXPERIMENTAL RESULTS • Effect of ODP-Biasing – 17個のランキングの類似性 個のランキングの類似性 表3,Topic Pairs Yielding the Most Similar Rankings それぞれのランキ ングは似ていない 表4, Top Results for the Query “Bicycling” When Ranked Using Various Topic-Specific Vectors EXPERIMENTAL RESULTS • Query-Sensitive Scoring – 35個のクエリーの各カテゴリーへの重要度 35個のク リ の各カテ リ の重要度 – 5人のボランティアによる従来のPageRankと topic-sensitive PageRankのTop10の比較 • 図6、Estimates for P(cj|q) for a Subset of the Test Queries 直感的に最も 関連があるカ テゴリーが上 リ 位にある 表5. Ranking Scheme Preferred by Majority of Users 図7. P 図7 Precision@10 i i @10 results lt ffor our ttestt queries. The average precision over the 10 queries is also shown 5人が10個のクエリのランキングを 8/10の割合でtopic-sensitive PageRankが良いと評価 EXPERIMENTAL RESULTS • Context-Sensitive Scoring – 例(blues)というクエリーでの検索 例(b ues)と うク リ での検索 表6. Two Different Search Contexts for the Query “Blues” EXPERIMENTAL RESULTS • クエリーがどのカテゴリーに重要なのかの重み がど ゴ 重 な 重 従来のPRに 比べてよい 結果が出て いる SEARH CONTEXT • 様々なquery 様々な contextの提案 の提案 – 検索履歴 – サーチエンジンの階層との連動 – ユーザーのブラウジングパターン・メール・ブック マーク EFFICIENCY CONSIDERATIONS • Offline Processing – 8000万URL 万 • PageRankを求めるのに使用したURL数 – Two dual processor machines • PageRankを求めるのに使用したマシン – roughly 20 hours • PageRankを求めるのにかかった時間 EFFICIENCY CONSIDERATIONS • 収束までに必要な反復回数を減じるアルゴリ ズム – k 回目の反復時のPageRank ベクトルから準優 固有値に対応する固有ベクトルを引算 – Overlap部分のみで先に計算 O l 部分のみで先に計算 図7. Graph 1 personalizes on node A and Graph 2 personalizes on the children of A. R d Random walks lk on th these graphs h b behave h similarly, i il l an observation b ti use tto compute t a large number of personalized PageRank vectors simultaneously. EFFICIENCY CONSIDERATIONS • Overview of Keyword Search Processing 図8. A simplified illustration of a search engine with a standard inverted text 図8 text-index index and three auxiliary numerical attributes for each document. EFFICIENCY CONSIDERATIONS • PageRankの値を保持するメモリの節約 – Float値は4byte×1億2000万ページ=460MB – 0.0~1.0までしか使わない • 量子化に使用するbitを減らす 表7, A Description of the Six Quantization Strategies We Compare EFFICIENCY CONSIDERATIONS ランキング の歪み度 図9. The average distortion for the various strategies when using the KDist distortion measure for 86 test queries. queries The rankings compared were the top 100 results ranked. FUTURE WORK • ODP のカテゴリの第2 ゴ ,3 階層などのより細 細 かいトピックの分類 類 • すべてのページをカテゴリー分け
© Copyright 2024 Paperzz