The Method of Improving the Specific Language Focused Crawler

DEIM Forum 2010 B2-1
特定言語Webページ収集のためのフォーカストクローラの性能改善手法 詹 善斌 山名 早人
早稲田大学大学院基幹理工学研究科 〒169-8555 東京都新宿区大久保3-4-1 E-mail: {chrisjan,yamana}@yama.info.waseda.ac.jp あらまし 近年CJK(中国、日本、韓国語)Webページはますます増加しており、それに伴いCJKページに含まれる
情報は重要性を増している。現行一般に用いられているクローラは英語Webページ収集に対しては性能がよいが、CJK Webページ等、特定言語Webページの収集に対しては性能が悪い。本論文は、CJKページを収集するクローラの性能改
善を試みる。提案手法ではWebリンク構造とアンカーテキスト、ホスト名を使用しCJKページを予想することで性能
改善を行った。収集結果によると、本提案手法による収集を行った場合、収集目的言語が日本語の場合、収集した
日本語Webページの割合は約87%、中国語を収集目的言語とした場合の中国語Webページの割合は約88%、韓国語を収
集目的言語とした場合の韓国語Webページの割合は約71%である。 キーワード 情報検索,Webマイニング,クローラ The Method of Improving the Specific Language Focused Crawler Shan-Bin CHAN Hayato YAMANA
Graduate School of Fundamental Science and Engineering, Waseda University 3‒4‒1 Okubo, Shinjuku-ku, Tokyo, 169‒8555, Japan E-mail: {chrisjan,yamana}@yama.info.waseda.ac.jp Abstract In recent years, more and more CJK (Chinese, Japanese, and Korean) web pages appear in the Internet. The information in the CJK web page also becomes more and more important. Web crawler is a kind of tool to retrieve web pages. But the web crawler is always optimized for English web pages. We found that the performance of the web crawler is worse in retrieving CJK web pages. We tried to enhance the performance of the CJK crawler by analyzing the web link structure, anchor text, and host name on the hyperlink and changing the crawling algorithm. According to the experimental results, when the target crawling language is Japanese, the 87% of the crawled web pages are Japanese web pages. When the target crawling language is Chinese, the 88% of the crawled web pages are Chinese web pages. When the target crawling language is Korean, the 71% of the crawled web pages are Korean web pages. Keyword Information Retrieval, Web Mining, Crawler 1 . は じ め に さ れ た Webペ ー ジ ( 例 : 英 語 の Webペ ー ジ ) に 結 び つ け
近年のインターネットの発達とインターネットユ
る ハ イ パ ー リ ン ク が 多 数 存 在 す る 。一 方 で 、英 語 の Web
ー ザ ー の 成 長 に 伴 い 、 Webペ ー ジ は ま す ま す 増 え て い
ペ ー ジ 中 に は 、 CJKの Webペ ー ジ に 結 び つ け る ハ イ パ ー
る 。 ク ロ ー ラ は Webペ ー ジ 収 集 ツ ー ル と し て 、 Webペ ー
リンクの割合が少ない。このため、中国語、日本語、
ジのハイパーリンクに従い、ページ情報を収集するソ
韓 国 語 で 書 か れ た Webペ ー ジ を シ ー ド と し て ク ロ ー リ
フトウェアである。その中でも、特定の言語や話題別
ングを続けても、深くクローリングすればするほど、
に Webデ ー タ を 収 集 す る 手 法 は フ ォ ー カ ス ト ク ロ ー リ
多 く の 言 語 を 収 集 す る こ と に な る 。 ングと呼ばれる。本論文では、クローラを用いて中国
こ の よ う に 、 CJK に 特 化 し た ペ ー ジ を 収 集 し よ う と
語 、日 本 語 、韓 国 語 で 記 述 さ れ た Webペ ー ジ を 効 率 よ く
しても英語ページをはじめとする多言語ページが多く
収集するフォーカストクローラの性能改善手法を提案
含 ま れ 、 CJKの Webペ ー ジ を 収 集 す る こ と を 考 え る と そ
す る 。 の 収 集 効 率 が 悪 い 。 Web ペ ー ジ に は 、 様 々 な 言 語 で 記 述 さ れ た ペ ー ジ が
提 案 手 法 で は 、 ま ず 収 集 先 の URL が 収 集 対 象 言 語 に
存 在 し 、中 国 語 、日 本 語 、韓 国 語( 以 下 、CJK)に 特 化
合 致 し た ド メ イ ン で あ る か ど う か を 判 別 す る 。例 え ば 、
し た Webペ ー ジ を 収 集 し よ う と し て も 、他 の 言 語 で 記 述
日 本 語 を 収 集 対 象 言 語 と し た 場 合 、 URLが .jpド メ イ ン
であるかどうかを判定し、当該ドメインであれば、収
4. Webペ ー ジ j内 の リ ン ク 先 を 抽 出 す る 。 集 を 行 う 。さ ら に 、.jpド メ イ ン 以 外 の URLに つ い て は 、
5. リ ン ク 先 が 非 タ イ 語 サ ー バ を 指 し て い る 場 合 、
アンカーテキストの言語判定を行うことにより、収集
対 象 と す る か し な い か を 決 定 す る 。 本 研 究 で は 、 ク ロ ー ラ と し て Nutch を 用 い た 。 た だ
し 、 大 量 の Webデ ー タ 収 集 を 実 現 す る た め に 、 Nutchを
Hadoop上 で 動 作 さ せ て い る 。ク ロ ー リ ン グ の シ ー ド Web
ペ ー ジ( Seeds S et)と し て は 、DOMZ[7]を 用 い た 。DOMZ
を 用 い る に あ た っ て は 、 ま ず 、 DOMZ 上 の リ ン ク 先 を
Domain Name( 例 : .cn, .jp, .kr, .com, .net) に 基
そ の リ ン ク を 削 除 す る 。 6. リ ン ク 先 が 収 集 済 URLで あ る 場 合 、そ の リ ン ク を
削 除 す る 。 7. Webペ ー ジ jが タ イ 語 で あ っ た 場 合 、 残 っ た リ ン
ク 先 URLを 高 優 先 度 で Queueに 入 る 。 8. Webペ ー ジ jが 非 タ イ 語 で あ っ た 場 合 、 残 っ た リ
ン ク 先 URLを 低 優 先 度 で Queueに 入 る 。 [1] で は 、 研 究 デ ー タ セ ッ ト は 2004 年 7 月
8月 に タ
づ い て 分 類 す る と 共 に 、当 該 Webペ ー ジ に つ い て 、言 語
イの著名ポータルのトップページをシードとし、
判定器を用い、言語(中国語、日本語、韓国語)別に
574,111サ ー バ か ら ダ ウ ン ロ ー ド し た 18,344,127 HTML
振 り 分 け た 。 CJKに 判 定 さ れ た URLsを Seeds Setと し て
文書ページである。このデータセットを用い、選択的
用 い 、 Nutchで ク ロ ー リ ン グ し た 。 収集方式をシミュレーションにより評価している。評
実 験 手 法 と し て は 、 対 照 実 験 を 利 用 し 、 Control Groupと Experimental Group別 に Nutchで ク ロ ー リ ン グ
を 行 っ た 。ま ず 、シ ー ド URLを 収 集 す る 。収 集 し た シ ー
価 対 象 と し た 方 式 は 、 • Server-based filtering, aggressive: サ ー バ 単
位 の 判 定 、 新 規 サ ー バ へ の 進 出 は 無 制 限 ド URLを 言 語( 中 国 語 、日 本 語 、韓 国 語 )別 に 振 り 分 け
• Server-based filtering, conservative: サ ー バ
て 、 対 照 実 験 を 利 用 し て 、 二 つ Groupで 言 語 別 に ク ロ
単 位 の 判 定 、新 規 サ ー バ へ の 進 出 は タ イ 語 サ ー バ か
ー リ ン グ を 行 う 。 Control Groupは Nutchの ク ロ ー リ ン
グアルゴリズムをそのまま利用してクローリングした。
一 方 で Experimental Group は Nutch の ク ロ ー リ ン グ ア
ルゴリズムに本論文で提案する手法により改良した上
ら の み • Directory-based filtering, conservative : サ
ー バ 内 デ ィ レ ク ト リ 単 位 の 判 定 、新 規 デ ィ レ ク ト リ
へ の 進 出 は タ イ 語 デ ィ レ ク ト リ か ら の み 。 でクローリングを行った。最後に、クローリングした
比 較 対 象 と し て 、 言 語 別 の Webペ ー ジ 数 を 比 較 す る こ と に よ っ て 、提 案 手
• Hard focused: 非 タ イ 語 ペ ー ジ か ら の リ ン ク を 全
法 の 有 効 性 を 示 す 。 て 棄 却 • Soft focused: タ イ 語 ペ ー ジ か ら の リ ン ク を 高 優
2 . 関 連 研 究 先 度 で Queuingす る 。 非 タ イ 語 ペ ー ジ か ら の リ ン ク
2 . 1 . 特 定 話 題 の W e b デ ー タ 収 集 を 低 優 先 度 で Queueに 投 入 Tang[2] ら は 医 学 領 域 情 報 を 対 象 と し た フ ォ ー カ ス
• BFS: 単 純 な 幅 優 先 探 索 トクローラを提案している。彼らの研究では、アンカ
• Perfect: 事 前 に 幅 優 先 探 索 で タ イ 語 ペ ー ジ に 至
ー テ キ ス ト 、Hyperlinkの URL、Hyperlinkの 前 後 50語 と 、
る リ ン ク を 調 べ お き ,そ の リ ン ク の み を 辿 る も の を
フォーカストクローリングが対象とするコンテンツと
用 い て い る 。 の間に関連があることを発見している。また、インプ
Perfect の 場 合 、 ク ロ ー リ ン グ 中 の 累 積 タ イ 語 ペ ー
リ メ ン ト に あ た っ て は 、適 当 な breadth-firstク ロ ー ラ
ジ 収 集 率 は 92%か ら 99%付 近 へ 徐 々 に 高 ま っ て い る と 報
の URL filterが あ れ ば 十 分 で あ る こ と を 示 し て い る 。 告 さ れ て い る 。 2 . 2 . 特 定 言 語 W e b ペ ー ジ 選 択 的 収 集 手 法 2 . 3 . W e b ク ロ ー ラ S e e d s S e t 生 成 手 法 村 田 [1] ら は 特 定 言 語 Web ペ ー ジ の 選 択 的 に 収 集 す
Shervin[3] ら の 研 究 は HITS ア ル ゴ リ ズ ム [8] を 利 用
る手法として、タイ語を対象としたフォーカストクロ
し て ク ロ ー ラ の Seeds S etを 生 成 す る も の で あ る 。彼 ら
ー リ ン グ を 提 案 し て い る 。提 案 手 法 で は 、特 定 言 語( タ
は、ネットワークリソースは有限であるため、適切な
イ語)をクローリングする際に、以下のリンク選択手
Webペ ー ジ を ク ロ ー リ ン グ し た 方 が 効 率 が よ い と 考 え
法 を と る : た 。具 体 的 に は 、ク ロ ー リ ン グ し た Webペ ー ジ に タ イ し
1. Web サ ー バ i 上 の Web ペ ー ジ j を 収 集 し た 際 、 Web
ペ ー ジ jの 記 述 言 語 を 判 定 す る 。 て 、Webグ ラ フ を 作 成 し 、HITS-Rankingを 利 用 し て 、収
集 す べ き URLの Seeds Setを 生 成 し て い る 。 2. Webペ ー ジ jが タ イ 語 時 、Nr(i)( Nr(i)は サ ー バ i
の タ イ 語 ペ ー ジ 数 ) に 1を 加 え る 。 3. Na(i)( Na(i)は サ ー バ iの 収 集 済 ペ ー ジ 数 ) に 1
を 加 え る 。 3 . 提 案 手 法 図 1に 本 研 究 の プ ロ セ ス を 示 す 。 本 研 究 は 、 5 つ の
ス テ ッ プ に 分 か れ て い る 。 ば 、 Queuing す る 。 こ れ は 、 .jp の Web ペ ー ジ は 、
Seeds Set収 集 日本語で記述されている可能性が高いと考える
か ら で あ る 。 • Hyperlink の ト ッ プ レ ベ ル ド メ イ ン 名 が .jp で は
URLs抽 出 な い 時 、 Hyperlink ア ン カ ー テ キ ス ト を 言 語 判 定
す る 。 Hyperlinkア ン カ ー テ キ ス ト が 日 本 語 で あ
URLs分 類 れ ば 、 Queuingす る 。 こ れ は 、 ア ン カ ー テ キ ス ト
が 日 本 語 で 記 述 さ れ て い る 場 合 、そ の リ ン ク 先 が
Control Group 日本語で記述されている可能性が高いと考える
Experimental Group か ら で あ る 。 • 他 の 場 合 は 、 Hyperlinkを Queuingし な い 。 結 果 比 較 最 後 に 、 Control Group と Experimental Group に つ
図 1 研 究 プ ロ セ ス い て 、収 集 さ れ た Webペ ー ジ の 言 語 分 布 を 計 算 し 比 較 を
行 う 。 Webペ ー ジ を ク ロ ー リ ン グ す る 前 に 、 Seeds Setが 必
要 と な る 。 本 研 究 で は DMOZ( http://www.dmoz.org/)
の URLsを 利 用 し た 。 DMOZは 世 界 で 最 も 大 き い 人 手 に よ
り 編 集 さ れ た Web D irectoryで あ る 。以 下 に 手 順 を 示 す 。 • 2009年 10月 26日 に DMOZホ ー ム ペ ー ジ か ら XMLフ ォ
ー マ ッ ト の Web Directory デ ー タ を ダ ウ ン ロ ー ド
す る 。 • Web Directoryの デ ー タ か ら URLsを 抽 出 す る 。 4 . 評 価 DMOZ か ら 抽 出 し た .com ド メ イ ン の URLs 数 は
1,964,053、.netド メ イ ン の URLs数 は 182,595、.jpド メ
イ ン の URLs 数 は 130,125 、 .cn ド メ イ ン の URLs 数 は
14,769、 .twド メ イ ン の URLs数 は 10,259、 .krド メ イ ン
の URLs数 は 4,910で あ る 。 図 2に 各 ド メ イ ン の 割 合 を 示
す 。 other;
4%
• 抽 出 し た URLs を ト ッ プ レ ベ ル ド メ イ ン 名
( .jp, .cn, .kr, .net, .com等 ) で 分 類 す る 。 • ト ッ プ レ ベ ル ド メ イ ン と し て 、 jp, kr, cn, tw, edu; 2%
jp; 3%
net, comを 選 択 し 、 そ れ ぞ れ URLの Web内 容 を 言 語
判 別 す る 。 com;
43%
• 言 語 判 別 さ れ た URLsを 中 国 語 、日 本 語 、韓 国 語 に
振 り 分 け る 。な お 、言 語 判 定 器 は 東 京 大 学 情 報 基
it; 3%
net; 4%
盤 セ ン タ ー 中 川 研 究 室 の Perl の
uk; 5%
Lingua::LanguageGuesser[9]を 使 用 し た 。 • 振 り 分 け た URLsを Nutchに よ り ク ロ ー リ ン グ す る 。 org; 9%
本 研 究 は 二 つ Group( Control Groupと Experimental 図 2 DMOZの ト ッ プ レ ベ ル ド メ イ ン 分 布 Group)で 研 究 を 進 行 す る 。Control G roupは Nutchの ク
ローリングアルゴリズムを変更しないでクローリング
を 行 う 。 Experimental Groupは Nutchの ク ロ ー リ ン グ
ア ル ゴ リ ズ ム を 変 更 し て ク ロ ー リ ン グ を 行 う 。 Nutch
は plug-inプ ロ グ ラ ム を イ ン ポ ー ト で き 、こ の 機 能 を 用
い 、 plug-inを プ ロ グ ラ ミ ン グ し て 、 Hyperlink( 収 集
Webペ ー ジ か ら の リ ン ク 先 ) の Queuingル ー ル を 書 き 換
え た 。 Hyperlink の Queuing ル ー ル を 日 本 語 Web ペ ー ジ 収 集
を 例 と し て 、 説 明 す る 。 • Hyperlinkの ト ッ プ レ ベ ル ド メ イ ン が 、.jpが あ れ
de; 8%
ま た 、表 1に「 .comと .net」
「 .cn」
「 .tw」
「 .jp」
「 .kr」
の ト ッ プ レ ベ ル ド メ イ ン 別 に 、含 ま れ る CJKペ ー ジ 数 を
示 す 。 表 1 に 示 す よ う に Seeds Set と な る URLs の 内 、
43,216ペ ー ジ が 中 国 語 、175,666ペ ー ジ が 日 本 語 、5,252
ペ ー ジ が 韓 国 語 で 記 述 さ れ て い た 。 次 に 、 言 語 判 定 し た CJK U RLs中 か ら 、 各 言 語 に ラ ン
ダ ム で 1,000 U RLsを 抽 選 し て 、 Seeds S etと し て ク ロ ー
リ ン グ を 行 う 。 表 1 言 語 判 定 し た CJK Webペ ー ジ 数 Experimental G roupの プ ロ セ ス で は 、 Control G roup
D o m a i n C N J P K R の 処 理 に 加 え て 次 の 処 理 を 行 う 。 Experimental G roup
comと net 24,851 56,256 1,975 の プ ロ セ ス の 最 初 で は Hyperlink の ト ッ プ レ ベ ル ド メ
cn 11,937 40 1 インを判定する。収集対象が日本語の場合、トップレ
tw 6,220 573 16 ベ ル ド メ イ ン が .jpで あ れ ば 、 URL Queueに 書 き 込 む 。
jp 147 118,729 14 一 方 、ト ッ プ レ ベ ル ド メ イ ン が .jpで な い 場 合 は 、ア ン
kr 61 68 3,246 カーテキストの記述言語を判定して、アンカーテキス
43,216 175,666 5,252 ト の 記 述 言 語 が 日 本 語 な ら 、 URL Queueに 書 き 込 む 。
Total アンカーテキストの記述言語が日本語ではない時は、
Nutch を 用 い て 実 験 を 行 う に あ た り 、 plug-in Hyperlinkを 棄 却 す る 。 parse-htmlに 二 つ functionを 書 き 込 ん だ 。 一 つ は html
表 2 は 2010 年 2 月 5 日 か ら 2010 年 2 月 12 日 ま で Control テ キ ス ト の 言 語 判 定 器 、も う 一 つ は 収 集 し た Webペ ー ジ
Group と Experimental Group で 各 言 語 の 収 集 結 果 で あ
計 数 器 で あ る 。言 語 判 定 器 は Seeds S etの 言 語 判 定 器 と
る 。 Experimental Groupは ア ン カ ー テ キ ス ト の 言 語 判
同じものを用いるために、東京大学情報基盤センター
定があるため時間がかかる。このため、同期間収集を
中 川 研 究 室 の Perlの LanguageGuesserを 使 用 し て い る 。 行 っ た 場 合 、 Experimental Groupの 総 収 集 Webペ ー ジ
数 は Control Groupよ り 少 な く な る 。 表 2 各 手 法 に よ る 収 集 Webペ ー ジ 数 Htmlテ キ ス ト KR-C KR-E JP-C JP-E CN-C CN-E ∗
言 語 判 定 URL計 数 URL, Anchor
Text抽 出 URL Q ueue Chinese Japanese Korean Other Total 12,523 1,926 80,049 36,273 130,771 1,757 380 11,328 2,386 15,851 6,555 66,235 108 2,838 75,736 1,179 11,890 24 465 13,558 112,924 2,468 1.052 11,321 127,765 10,078 202 99 1,015 11,394 図 4は 、 目 的 言 語 を 韓 国 語 と し て 、 Control Groupで
収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集 し た Web
Hyperlink判 定
(目 的 ド メ イ ン
で あ る ) ペ ー ジ は 130,771 ペ ー ジ で あ り 、 言 語 判 定 し た 韓 国 語
Y URL Q ueue Webペ ー ジ の 割 合 は 61.21%で あ る 。 chinese;
9.58%
N japanese
; 1.47%
アンカーテキス
ト 言 語 判 定 (目
的 言 語 で あ る ) other;
27.74%
Y URL Q ueue N 棄 却 korean;
61.21%
Experimental Group Only
図 3 Html Parseの プ ロ セ ス 図 4 Korean Control Group( 記 述 述 言 語 分 布 ) 図 3 は ク ロ ー リ ン グ 中 の プ ロ セ ス で あ る 。 Nutch の
plug-in parse-html を 実 行 す る 時 、 言 語 判 定 器 の
functionを 呼 び 、 htmlテ キ ス ト を 言 語 判 定 し 、 判 定 し
図 5 は 、 目 的 言 語 を 韓 国 語 と し て 、 Experimental た Webペ ー ジ の URLを 計 数 フ ァ イ ル に 書 き 込 む 。そ し て 、
Groupで 収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集
htmlテ キ ス ト の 中 に 、Hyperlinkと ア ン カ ー テ キ ス ト は
URL の Queue に 書 き 込 む 。 こ こ ま で の 処 理 が Control Groupで あ る 。 ∗
KR( 韓 国 語 )、JP( 日 本 語 )、CN( 中 国 語 )、 C( Control Group)、 E( Experimental Group) し た Webペ ー ジ は 15,851ペ ー ジ で あ り 、言 語 判 定 し た 韓
other;
3.43%
国 語 Webペ ー ジ の 割 合 は 71.47%で あ る 。 chinese;
11.08%
other;
15.05%
chinese;
8.70%
korean;
0.18%
japanese
; 2.40%
japanese
; 87.70%
korean;
71.47%
図 7 Japanese E xperimental G roup( 記 述 言 語 分 布 ) 図 5 Korean Experimental Group( 記 述 言 語 分 布 ) 図 8は 、 目 的 言 語 を 中 国 語 と し て 、 Control Groupで
収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集 し た Web
図 4と 図 5に 示 さ れ る よ う に 、 提 案 手 法 利 用 し た 場 合 、
ペ ー ジ 数 は 127,765ペ ー ジ で あ り 、言 語 判 定 し た 中 国 語
韓 国 語 Webペ ー ジ の 割 合 が 10%増 え て お り 、 提 案 手 法 の
Webペ ー ジ の 割 合 は 88.38%で あ る 。 有 効 性 が 示 さ れ て い る 。 korean; other;
0.82% 8.86%
japanese
; 1.93%
図 6は 、 目 的 言 語 を 日 本 語 と し て 、 Control Groupで
収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集 し た Web
ペ ー ジ は 75,736ペ ー ジ で あ り 、言 語 判 定 し た 日 本 語 Web
ペ ー ジ の 割 合 は 87.46%で あ る 。
korean; other;
0.14% 3.75%
chinese;
8.66%
chinese;
88.38%
japanese
; 87.46%
図 8 Chinese Control Group( 記 述 言 語 分 布 ) 図 9 は 、 目 的 言 語 を 中 国 語 と し て 、 Experimental Groupで 収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集
図 6 Japanese Control Group( 記 述 言 語 分 布 ) 図 7 は 、 目 的 言 語 を 日 本 語 と し て 、 Experimental Groupで 収 集 し た 各 言 語 Webペ ー ジ の 割 合 で あ る 。 収 集
し た Webペ ー ジ は 13,558ペ ー ジ で あ り 、言 語 判 定 し た 日
本 語 Webペ ー ジ の 割 合 は 87.70%で あ る 。 図 6と 図 7に 示 さ れ る よ う に 、 提 案 手 法 を 利 用 し た 場
合 、 日 本 語 Webペ ー ジ の 割 合 が 約 0.24%増 え る 。 し た Webペ ー ジ は 11,394ペ ー ジ で あ り 、言 語 判 定 し た 中
国 語 Webペ ー ジ の 割 合 は 88.45%で あ る 。
図 8と 図 9に 示 さ れ る よ う に 、 提 案 手 法 を 利 用 し た 場
合 、 中 国 語 Webペ ー ジ の 割 合 が 約 0.07%増 え る 。 以 上 、 韓 国 語 に つ い て は 10% の 性 能 向 上 が 見 ら れ る
が 、 日 本 語 と 中 国 語 に つ い て の 性 能 向 上 は 1%以 下 と な
っ て お り 、 顕 著 性 が 小 さ い 。 korean; other;
0.87% 8.91%
謝 辞
本研究は、科学研究費補助金(基盤研究(B)
japanese
; 1.77%
21300038) 及 び 早 稲 田 大 学 グ ロ ー バ ル C O E プ ロ グ ラ
ム「 ア ン ビ エ ン ト S o C 教 育 研 究 の 国 際 拠 点 」
(文部科
学省研究拠点形成費補助金)により支援されたもので
ある。
chinese;
88.45%
参 考 文 献
[1] 村 田 孝 之 , ク ン ワ デ ィ ー ソ ン ブ ー ン ワ ィ ワ ッ
ト , 喜 連 川 優 , 特 定 言 語 で 記 述 さ れ た Web ペ ー
ジ の 選 択 的 収 集 手 法 と そ の 評 価 , 電 子 情 報 通 信
学 会 論 文 誌 , D, Vol. J89-D, No.2, pp. 199-209 [2]
Thanh Tin Tang, David Hawking, Nick Craswell, Kathy Griffiths, Focused Crawling for both 図 9 Chinese E xperimental G roup( 記 述 言 語 分 布 ) Topical Relevance and Quality of Medical Information, CIKM, 2005. [3] Shervin Daneshpajouh, Mojtaba Mohammadi 5 . お わ り に Nasiri, Mohammad Ghodsi, A Fast Community 本 論 文 で は 、 Nutch の plug-in を 利 用 し 、 Nutch ク ロ
Based Algorithm For Generating Web Crawler Seeds Set. 2003. ーリングアルゴリズムを変更することによって、言語
[4] Charu C . A ggarwal, F atima A l-Garawi, P hilip S . 別のフォーカストクローリングを行う方法を提案した。
Yu, I ntelligent C rawling o n t he W orld W ide W eb 本 手 法 は 、 Nutchの plug-inと し て 簡 単 に 実 装 が 可 能 で
with Arbitrary Predicates. WWW conference, 2001. あ る 。 [5]
Neel Sundaresan, Jeonghee Yi, Mining the Web 言 語 判 定 し た URLs、 各 言 語 分 別 に Nutchで Webデ ー タ
for Relations. Computer Networks, 2001. を 収 集 し 、 Control G roupと Experimental G roupの 収 集
[6] S. Chakrabarti, M. van den Berg, B. Dom. 結果を比較した結果は韓国語クローラの性能改善が顕
Focused Crawling: A New Approach to Topic Specific Resource Discovery. WWW Conference, 著になる。一方で、日本語と中国語クローラの性能改
1999. 善 は 小 さ い 。 [7] DMOZ: T he O pen D irectory P roject i s t he l argest, 言 語 判 定 器 は JAVA の External Call で Perl の
most comprehensive human-edited directory of the Web. http://www.dmoz.org LanguageGuesserを 使 用 し て い る 。同 じ 比 較 基 準 の た め
[8] HITS: Hyperlink-Induced Topic Search. に 、JAVAの 言 語 判 定 器 を 使 え ば 、Webデ ー タ の 収 集 ス ピ
http://en.wikipedia.org/wiki/HITS_algorithm ードを加速できると考えられる。
[9] Lingua::LanguageGuesser 言 語 判 定 器 . http://gensen.dl.itc.u-tokyo.ac.jp/Language
ま た 、 現 在 Hadoopで 主 に 利 用 さ れ て い る フ ァ イ ル 書
Guesser/LanguageGuesser_ja.html き込み関数は新しいファイルの作成のみが可能で、既
存のファイルに新しいデータを追加することができな
い。そのため、クロールデータを格納しているファイ
ル が 複 数 に 分 散 し て し ま い 、即 時 に 収 集 し た URL計 数 を
できない。クロールデータが複数のファイルに分散し
た 場 合 、JAVAの External C allか ら Perlを 呼 び 出 し 、収
集 し た URL を 計 数 し た 際 に 「 Out of memory 」 や
「 IOExpection 」 等 エ ラ ー が 発 生 す る 。 も し も Hadoop
に バ グ の な い append関 数 が 実 装 さ れ れ ば 、Webデ ー タ の
収 集 ス ピ ー ド を 加 速 で き る と 考 え ら れ る 。 Experimental Groupの 収 集 結 果 に よ る と 、 本 提 案 手
法による収集を行った場合、収集目的言語が日本語の
場 合 、 収 集 し た 日 本 語 Webペ ー ジ の 割 合 は 約 87%、 中 国
語 を 収 集 目 的 言 語 と し た 場 合 の 中 国 語 Webペ ー ジ の 割
合 は 約 88%、韓 国 語 を 収 集 目 的 言 語 と し た 場 合 の 韓 国 語
Webペ ー ジ の 割 合 は 約 71%で あ る 。 今 後 、 さ ら に 収 集 効 率 を 上 げ て い く 予 定 で あ る 。