SlothLib:Web 検索研究のためのプログラミングライブラリ ウェブ情報

登録番号
SOC-14
タイトル
SlothLib:Web 検索研究のためのプログラミングライブラリ
研究概要
「SlothLib」は Web 検索研究におけるソフトウェアの試作開発時のコストを軽減するため
のライブラリである。ウェブ検索サービス、ウェブ情報取得、クラスタリング、簡単な自
然言語処理をプログラムから簡単に利用できるようする。機能やアルゴリズムは共通イン
タフェースを持たせて実装しているため、あとで機能を入れ替えることが容易である。今
後は、多様なライブラリの開発に加え、ウェブ検索の各種要素をライブラリ化し、様々な
部品の組み合わせによりサーチエンジンを構成可能な環境の構築を目指す。
各種文書読込
類似機能には共通インターフェース
•Word, PPT, PDF,…
テキスト処理
ウェブ情報収集
•シングルスレッド
•文字コード判別
•マルチスレッド
クラスタリング
(青字 : 作成中)
•階層型 5種
•非階層型 2種
特徴ベクトル
•TF-IDF
•ChaSen
•長さや類似度の計算
•MeCab
•各種演算
•Tree Tagger
•各種正規化 etc…
•Porter Stemmer
URL
Web Search
形態素解析
•Web (Google, Yahoo, MSN)
•Blog (goo, Livedoor)
•Movie (Yahoo, Youtube)
•人力検索 (はてな, goo, Yahoo)
•Image
etc…
http://www.dl.kuis.kyoto-u.ac.jp/SlothLibWiki/
産業への展開例・適用分野
本プログラミングライブラリは、研究におけるアイデアを試す際のコストを減らすことが
できるものである。現在は特にウェブ検索に関連する研究において利用しているため、ウ
ェブのサービスを思いついた時にすぐにシステムを作成することができる。ウェブのサー
ビスはこれからも広く多様に発展していくと考えられ、そこで本ライブラリは有用である
と考えられる。
キーワード
①プログラミング
②ライブラリ
③機能の部品化
研究者データ(展示責任者)
氏
名
大島 裕明
専
攻
社会情報学
URL
役
職
博士課程後期 3 回