生存分析からみた学術論文 PDF ファイルのクローリング石田栄美(駿河台大学)* 宮田洋輔(慶應義塾大学大学院) 池内淳(筑波大学) 安形輝(亜細亜大学) 野末道子(鉄道総合研究所) 上田修一(慶應義塾大学) *e-mail: [email protected] 【抄録】学術論文専門の検索エンジンにとってＰＤＦファイルのクローリングは重要な課題である。しかし、ウェブページと異なりＰＤＦファイルでは生存分析が行われていないため、クローリング頻度、収集範囲などの戦略を策定することが困難である。本研究ではクローラーによるアクセス調査、人手によるファイル追跡調査から構成される生存分析を行った。論文ファイルは非論文よりも生存率が高く、たとえ移動していても移動先を再発見しやすいことが明らかとなった。最後に調査結果に基づき論文ファイルの効率的なクローリング手法を検討した。 1. はじめには行われてきたが、ＰＤＦファイルを対象としたもの学術情報のウェブでの提供が一般的になってきは行われてこなかった。たが、Ｇｏｏｇｌｅなどの汎用検索エンジンでは検索結そこで本研究では、クローリング戦略を検討する果に学術情報が埋没してしまうため、学術情報のみためにまずＰＤＦファイルの生存分析調査を行う。学を探すことが困難である。そこで本研究グループで術論文専門の検索エンジンを前提とした調査であるは学術情報に特化した検索エンジン「ΑΛΗΘΕ ため、対象が論文か否かを軸とした分析を行った。 ΙΑ（以下、アレセイア）」の開発を進めている。これ 2. ウェブページの生存分析調査は公開されたアルゴリズムにより学術論文を自動識ウェブページの生存分析の既往調査での手法を別、検索できるシステムである。ＧｏｏｇｌｅＳｃｈｏｌａｒ参考に、本研究ではＰＤＦファイルの生存分析調査ＢＥＴＡなど、他の学術情報専門のエンジンと比較し、の設計や結果の分析を行った。 1) 評価した結果、一定の有用性を示すことができた。従来、ウェブページの生存分析は主としてウェブなお、ウェブ上に公開されている学術情報の多くダイナミクス的観点から行われてきた。ウェブがスタ 2) はＰＤＦファイル形式であることから、アレセイアはティックなものではないという事実は早くから知られ収集・検索対象をＰＤＦファイルとしている。ており、プロキシサーバのキャッシュや、クローリンアレセイアは試作段階であり、現在のところ、定期的なクローリングではなく一括して収集したＰＤＦフグの効率化などへの応用を中心に、ウェブの時系列変化を捕捉しようとする研究がなされてきた。ァイル群を対象としている。実用化のためにはＰＤＦ例えば、Douglas ら3)はＡＴ＆Ｔ研究所のクライアンファイルの効率的なクローリング手法の開発が課題トがアクセスした４７４，０００ＵＲＬについて、ファイルとなる。これは、ＰＤＦファイルは一般的にＨＴＭＬで属性、アクセス頻度、更新頻度等を調査し、アクセス書かれたウェブページと比較してファイルサイズが頻度と更新頻度との間に強い相関のあることを示し大きく、一般的なクローリング手法を適用するとウェている。また、Koehler 4)5 ) は Web Crawler random ブサーバやネットワークトラフィックに対する負荷が URL generator によって選択された３６１ＵＲＬを対象高くなってしまうためである。に、四年間にわたってその変化についての調査を効率的なクローリング戦略を検討するためには生行い、ウェブページの半数がおよそ２年で消滅する存率、更新率などの情報が必要となる。しかしながこと等を明らかにした。同じく、Brewingston ら6)は計ら、従来、ウェブページを対象とした生存分析調査２００ＧＢのウェブページの時系列変化を確認し、モデル化を行うとともに、検索エンジンによるインデクの PDF ファイル集合に対して既往研究10)で行ったスの更新戦略に対する応用可能性について検討し学術論文判定結果の情報を利用した。 7) ている。さらに、Ｃｈｏらは２７０の有名なウェブサー集合中のファイル数が膨大であり人手で行うことバから４ヶ月間毎日７２０，０００ページをダウンロードが困難であるため、判定は機械学習手法を用いてし、全てのウェブページの４０％が一週間以内に変大きくスクリーニングしたのちに人手で判定する形化すること、５０日間に全体の５０％が変化すること、で行った。機械学習手法を適用するために最初にｃｏｍドメインの２５％は一日で変化すること、ｃｏｍド無作為に選択した２万件に対して６人の判定者が学メインのページが半分変化するための期間は１１日術論文を判定し、それを学習集合とした。その集合間であるが、ｇｏｖドメインの場合は４ヶ月間を要するを機械学習に基づく１６分類器に学習させ、全集合こと等を明らかにした。Fetterly ら8)は、Ｃｈｏらの２００を再現率重視で判定させた。１つ以上の分類器が倍のサンプル集合を収集し、その後、１０週間に亘論文と判定した３６，８５７件に対して再び人手で判って、計１１回のクローリングを行い、その変化を観定を行ったところ、全集合から学術論文ＰＤＦファイ測し、ドメインごとの変化とアクセス可能性の推移をル１３，４４６件が得られた。確認しているものの、Ｃｈｏらとは異なり、ｇｏｖドメイン 3.3 クローラーを用いた生存調査の方が変化のスピードが早いことを報告している。生存分析のためにＰＤＦファイル集合の全ファイその一方で、Ｓｈｉら9)は幾つかの著名サイトにおいル（のＵＲＬ）を対象にし、クローラーを用いた機械て動的に生成されるページの変化を確認している。的なクローリングを行った。調査は２００７年１２月か 3. 生存分析調査手法ら２００８年１月にかけて行った。なお、リダイレクト本研究では２年前に収集した日本語ＰＤＦファイル (転送)には追従する設定でクローリングを行い、ファ集合を対象としてＰＤＦファイルの生存分析調査をイルそのものを収集するとともにＨＴＴＰレスポンスコ行った。調査はクローラーを用いた機械的な調査とードも保存した。人手によるファイル追跡調査から構成される。 3.4 ファイル追跡調査 3.1 調査対象ＰＤＦファイル集合今回のクローラーによる調査でアクセスできなかっ調査対象ＰＤＦファイル集合は、２００５年５月と半たファイルはすべてが消滅したのではなく、何らか年後の２００５年１１月との２度にわたって収集された。の理由で元のＵＲＬとは異なる場所に移動した場合ＩＰＡｄｉｃの６つの名詞辞書ファイル（計２１３，０２０語）もある。アクセスできない理由としては、ＨＴＴＰ規格から、それぞれ、９，７５０語（第１回目）、１０，２５０語では転送先をウェブサーバ側で設定できるが、それ（第２回目）を無作為抽出し、各々の語について、検が設定されていないこと、ファイルの存在したサー索エンジンＹａｈｏｏ！Ｊａｐａｎを用いて検索を行った。バ自体にアクセスできないことなど様々なものが考その際、検索対象を「ＰＤＦファイル」＋「日本語」にえられる。限定するとともに、各検索語の最大収集件数は上元のＵＲＬからは論文のＰＤＦファイルにアクセス位１００件までとした。次に、各々のＵＲＬに対してＰできなくてもインターネット上の他の場所で公開されＤＦファイルのダウンロードを試みた。ダウンロードているならば、そのファイルは生存しているといえる。が不可能であったもの、及び、０バイト・ファイル、破そこで、アクセスできなかったファイルに対して検索損ファイル、暗号化ファイル、ＰＤＦファイルでないもエンジンを用いたファイル追跡調査を行った。の等を除去した結果、５８４，９７３件となった。 3.2 学術論文の判定学術論文か否かを軸とした分析を行うため、上記ＰＤＦファイルの追跡調査は、キャッシュされた現物ファイルを確認した上で、調査者が的確な結果が出ると考えた検索式により検索エンジンを用いて行った。検索エンジンとしては代表的なＧｏｏｇｌｅ、米間での違いはあるが、ウェブページ調査で政府Ｙａｈｏｏ！Ｊａｐａｎと学術情報専門検索エンジンの系サイトは更新が少ないとした Cho らの結果を支持ＧｏｏｇｌｅＳｃｈｏｌａｒＢＥＴＡを用い、すべての検索するものといえる。結果について上位２０件まで確認した。なお、調 4.2 ファイル追跡調査結果査は２００８年２月に発表者らが分担して行った。クローラーでアクセスできなったファイルを対象とクローラーでアクセスできなかったファイルすべした人手によるファイル追跡調査の結果を表３に示てを調査することは困難であるため、無作為に抽す。表３において「ブラウザでアクセス可能」とはクロ出したファイルを論文１，３２８件、非論文３５１件をーラーではアクセスできなかったがファイル追跡調対象とした。本研究では学術論文の生存調査に査時にはウェブブラウザでアクセスできたものを示重点を置くため、論文の調査数を増やしている。している。この原因はネットワークやクライアント環境 4. 調査結果の違いによるものであるが、元ＵＲＬのままでアクセ 4.1 クローラーによる生存調査結果スできることを意味するため、それらを除いたファイクローラーによりアクセスできたかどうかという生存調査の結果を○はアクセス可、×はアクセス不可として表１に示す。表１　クローラーによる生存調査論文非論文全体 ○ 9,579 71.2% 313,463 54.8% 323,042 55.2% × 3,867 28.8% 258,064 45.2% 261,931 44.8% 計 13,446 100.0% 571,527 100.0% 584,973 100.0% ルをファイル追跡調査の対象とした。表３ファイル追跡調査結果論文ブラウザでアクセス可能 48 調査対象数 1280 100.0% 移動先URL発見数 704 55.0% 移動先URL不明数 576 45.0% 計 1328 非論文 7 344 100.0% 84 24.4% 260 75.6% 351 表からは、ウェブページの生存調査と同様に PDF 表３からは以前のＵＲＬでアクセスできなくなってファイルもおよそ２年間で半数がアクセスできなくないたファイルが、論文の場合には検索エンジンを用ることがわかる。また、論文と非論文を比較すると、いることで半分以上のファイルを再発見できている明らかに論文の方がより生存しやすいといえる。ことがわかる。一方で非論文の場合には再発見できＰＤＦファイル集合は日本語ファイルで構成されてる割合は１／４程度であり、論文はＵＲＬが変わったおりＪＰドメインのＵＲＬが全体の８５．２％を占める。としてもインターネット上で公開され続ける傾向が強そこで、アクセス可能性をファイル数が多いセカンドいといえる。レベルドメイン順に表２に示した。表２ JPセカンドレベルドメイン別の生存調査論文非論文全体 co 50,865 52.1% 46,821 47.9% 97,686 or 36,326 59.1% 25,149 40.9% 61,475 ac 38,336 63.1% 22,466 36.9% 60,802 go 41,827 69.0% 18,757 31.0% 60,584 ne 18,947 52.5% 17,142 47.5% 36,089 ed 4,645 55.1% 3,792 44.9% 8,437 tokyo 3,689 47.4% 4,097 52.6% 7,786 hokkaido 3,260 45.6% 3,896 54.4% 7,156 gr 4,041 60.2% 2,670 39.8% 6,711 osaka 2,700 44.6% 3,352 55.4% 6,052 その他 68,802 47.3% 76,620 52.7% 145,422 計 273,438 54.9% 224,762 45.1% 498,200 ファイルを再発見できた場合に用いた検索エンジンを表４に示した。表で各エンジンの発見数は排他的でなく、ＧｏｏｇｌｅとＹａｈｏｏ！Ｊａｐａｎの両方で再発見できた場合には両方にカウントしている。表４　検索エンジン別移動先URL発見数論文非論文エ Google 632 89.8% 72 85.7% ン Yahoo! Japan 446 63.4% 53 63.1% ジ GoogleScholar 260 36.9% 1 1.2% ンその他 42 6.0% 9 10.7% 移動先URL発見数 704 100.0% 84 100.0% 表４からは論文は 9 割近くが Google で再発見可能表からは政府系 (go.jp)、大学(ac.jp)は他のドメイであること、非論文はＧｏｏｇｌｅＳｃｈｏｌａｒで再発見でンと比べ、以前と同じＵＲＬでのアクセス可能性が高きないことが明らかである。さらに表では直接示されく比較的変化が少ないサイトであることがわかる。日ているわけではないが、ＧｏｏｇｌｅＳｃｈｏｌａｒでは検索結果にリンク先が含まれていても、実は元ＵＲＬのま日本語ファイルの場合にはドメイン名で設定していまでリンク切れとなる事例が多くみられた。Ｇｏｏｇｌｅくことが考えられる。理由は、筆者らの既往研究11)でとＧｏｏｇｌｅＳｃｈｏｌａｒについてこのような違いがみら PDF ファイルを収集した際のドメイン名分析からはれる原因としては、同じ Google 社による検索エンジ日本語学術論文 PDF ファイルの多くは大学系ンでもクローリング間隔に大きな差があることが考え (ac.jp)や政府系(go.jp)サイトから収集されたためでられる。ある。これらのドメインを重点的に収集対象とするこ 5. 学術論文に対するクローリングとで論文に対する効率的なクローリングが可能になＰＤＦファイルの生存分析の結果に基づいて、頻度と対象範囲から学術論文ＰＤＦファイルに対するるはずである。 6. まとめクローリングの戦略について検討を行う。前述のよう学術情報専門の検索エンジンにおけるクローリンに、一般的なウェブページよりもＰＤＦファイルのクログ戦略を検討するためＰＤＦファイルの生存分析調ーリングはネットワークやサーバに負荷をかけるた査を行った。論文ファイルは同じＵＲＬで生存するめ、できるだけ効率化することが望ましい。割合が高く、さらに移動先ＵＲＬも再発見しやすいこ一般的なウェブページに対するクローリングではとが明らかとなった。内容が更新されることがあるため、特にニュースサイトやブログに対しては、その頻度を高くする必要がある。しかし、学術論文ＰＤＦファイルでは、その性質上、内容の更新はほとんど行われないため、同じファイルを再度クローリングする必要性は少なく、クローリングを行う回数は一度でよいと考えられる。また、新規に追加されるファイルを確実に収集するためには、ＰＤＦファイルそのものではなく、ファイルへのリンクを張ったウェブページのクローリングが必要である。このようなリンクページに対しては、一見、頻繁なクローリングが望ましいように思われる。しかし、今回の生存分析の結果から論文ＰＤＦファイルは非論文と比べて生存率が高いことが判明した。また、ファイル追跡調査では、論文ＰＤＦファイルは場所が変わったとしてもインターネット上から消滅することは少なく、非論文ファイルと比較して、移動先を検索エンジンで探せる可能性が高かった。これらの結果は、リンクページに対するクローリングを比較的長い間隔で行ったとしても新規追加の論文 PDF ファイルを逃す可能性は低いことを示唆している。次にクローリング範囲について検討を行う。機関リポジトリなど、学術論文 PDF ファイルが集中するサイトを優先的にクローリング範囲に含めるべきことは明らかであるが、それ以降の優先順位については【注・参考文献】 1) 安形輝ほか 5 名. 学術論文 PDF 検索システムの開発と評価. 2007 年度日本図書館情報学会研究大会発表要綱 2007，鶴見大学，2007-10-13/14，p.57-60 2) 三根慎二. “オープンアクセス資料のファイル形式”. http://www.openaccessjapan.com/archives/2006/05/oa_1.html 3) Douglis, Fred., Feldmann, Anja., Krishnamurthy, Balachander., Mogul, Jeffrey. "Rate of Change and Other Metrics: A Live Study of the World Wide Web," Proceedings of the USENIX Symposium on Internetworking Technologies and Systems, p.147-158(1997) 4) Koehler, Wallace. "An Analysis of Web Page and Web Site Constancy and Permanence." Journal of the American Society for Information Science. Vol.50, No.2, p.162-180(1999) 5) Koehler, Wallace. "Web Page Change and Persistence-A Four-Year Longitudinal Study," Journal of the American Society for Information Science and Technology, vol.53, no.2, p162-171(2002) 6) Brewington, Brian E., Cybenko, George. "How Dynamic is the Web?," Proceedings of the 9th International World Wide Web Conference. also available Computer Networks, Vol.33, 1-6,p.257-276(2000) 7) Cho, J., Garcia-Molina, H. The Evolution of the Web and Implications for an Incremental Crawler. Proceedings of the 26th International Conference on Very Large Databases, 2000. 8) Fetterly, Dennis., Manasse, Mark., Najork, Marc. Wiener, Janet. “A Large-Scale Study of the Evolution of Web Pages”, Proceedings of the 12th International Conference on World Wide Web. p.669-678(2003) 9) Shi, Weisong., Collins, Eli. Karamcheti, Vijay. "Modeling Object Characteristics of Dynamic Web Content," Proceedings of the IEEE Globecom 2002 conference in Taipei. 10) 具体的な手順については以下の文献に詳しい。池内淳ほか 5 名. プーリング手法を用いた学術論文の自動判別実験. 情処研報 Vol.2007 No.34, p.33-40 11) 安形輝ほか 5 名. “日本語学術論文 PDF ファイルの自動判定”. Library and Information Science, No.56,p.43-63(2006)