解 説 コンピューティング 松尾 豊 産業技術総合研究所 スタンフォード大学 松村 真宏 大阪大学大学院経済学研究科 リンク構造, ,検索エンジン ! ! ! " ! ! ! ! # # ! # ! ! ! ! $ は じ め に れていたが,徐々に小規模の研究グループが行うことは が大きな普及を遂げ,その発展とともにウェブ クロールの対象を限定した研究を行ったり,また . や を対象とした検索・加工・マイニング等のアルゴリズムも ニュースサイト等に情報源を限ってページの収集とシス 進展している. 年には," で使われていると テム構築を行う研究にシフトした.そういった流れとは別 して有名になった アルゴリズムが提案され, に,このところ増えているのが検索エンジンをいわば下 その後さまざまな改良が行われた.また,ウェブコミュ 位システムとして扱う研究である.こういった研究では, ニティを抽出する方法や,ユーザの必要なページに絞っ 検索エンジンをウェブページの収集と索引付けを行うモ てクローリングする ! の手法なども各種 ジュールとして考え,それを利用した応用を研究する. 提案されてきた. 最近では,ウェブを検索だけではなく,情報の集約や 加工に用いようという研究が多く行われるようになって きている.ウェブを用いた %& システム,評判情報の抽 出,オントロジーの自動構築,社会ネットワークの抽出 などである.これらのシステムに共通するのは,大量の ウェブデータを背景として,検索と言語処理をうまく組 み合わせることで高度な情報処理を行う点である. ウェブ上のデータを対象とした情報処理,すなわち コンピューティングは,現実的な問題から大きく2 つに分けて考えることができるだろう.ウェブページの クロールを行うか行わないかである.現在では " や '(などの検索エンジンが )) 億ページ以上のページ をインデキシングしており,これと同規模の検索エンジ ンを作り,学術的に用いることはほぼ不可能である.した がって,ウェブページのクロールが必要となる や *+, などのウェブリンクの研究は以前は活発に行わ 難しくなった£ .そこで,- ! と呼ばれる このようなウェブページの収集と検索に関する部分, そしてそれを利用した応用に研究が二分されていくこと は,. (. の検索エンジン(+ 等)とそ れを利用した研究)や , (, の検索エンジン(,! )とそれを利用した研究)な ど,ウェブの部分領域でも見られる.歴史的に見れば,計 算機科学というひとつの研究領域から,データベース工 学とデータベースを用いる応用研究(自然言語処理や画 像処理,人工知能)が分化していったように,このよう な流れは必然的なものであるだろう.そして,より人間 の側に近い「知識処理」「情報処理」を目指す & 研究に とって,検索エンジンを利用した研究というのは,これ からの コンピューティングにおいて重要なひとつ の研究分野になっていくと考えられる. 以下では,ウェブページの収集を行った上で,リンク ウェブのインフラ系の企業の研究所,ウェブのアーカイブを 専門とする研究室などでは可能である. 人工知能学会論文誌 巻 号 ( 年) 構造の計算を行う(2章),適切な収集と提示を行う(3 ワードに関連するウェブページ集合に対し,まず情報源 章)技術を述べる.さらに,検索エンジンを使った応用に としての価値を表す & スコアと,ウェブページ 関するコンピュテーション(4章),そしてブログや ,/, へのリンク集としての価値を表す * スコアを定義す などの新しいウェブにおけるコンピュテーション(5章) る.次に,& スコアの高いウェブページへのリ について述べる. ンクをもつウェブページの * スコアを上げ,* スコ アの高いウェブページからリンクされているウェブペー ウェブのリンク構造を使ったコンピュテー ジの & スコアを上げるという相互依存関係に基 づいてスコアを再帰的に計算する.ウェブページ ション & スコアを ,* スコアを の , ブページにリンクを張り巡らした結果として形成された にリンクを張っているウェブページ集合を とすると, 以下の反復計算によって と を求める ものである.本章では,そのようなウェブのリンク構造 ことができる. ウェブのリンク構造は,人々が興味や関心のあるウェ の特徴を利用したコンピュテーションとして, アルゴリズム,*+, アルゴリズム,コミュニティ抽出 について紹介する. ・ アルゴリズム 検索エンジン " の開発者であり," は,ウェブのリンク構造を利用してウェブペー ジに重要度を付与するアルゴリズムである. は 良質なウェブページからリンクされているウェブページは やはり良質であるというアイデアに基づいてウェブページ の重要度を定義する.したがって,例えば '(0&&/ のトップページのような の高いウェブページ 1:2 1;2 ただし, と の共同設立者である . と によって提案された は 1 2 5 1<2 1 2 5 172 を満たすように反復計算の度に正規化される. ウェブページに複数の話題が含まれている場合,検索 キーワードと関係のないウェブページの & スコ からリンクを張られたウェブページの は高く アと * スコアが高くなってしまう + 問題が なる. 知られている.そこで,リンク構造だけでなくウェブペー 12 をウェブページ の , にリ ンクを張っているウェブページ集合を ,ウェブ ページ 内のリンク数を 1 2 とすると, は以下の式から再帰的に求められる 3. 4.なお, 全てのウェブページの の総和は になるよ いる 3. 4. ・ コミュニティ抽出 *+, アルゴリズムや アルゴリズムがリン うに反復計算の度に正規化される. 12 5 1 2 6 ジの内容の類似度も考慮するなどの改善策が提案されて 1 2 1 2 12 は減衰係数 1 2 であり,3. 4 で は 5 )7 と設定されている.式 12 は,ウェブページ ク構造からなるウェブコミュニティを利用してウェブペー ジの重要度を求めているのに対し,ウェブコミュニティそ のものの発見に取り組む研究もある.一般にウェブページ は,関連する全てのウェブページにリンクを張っているわ けではないし,ライバル関係にある会社や意見や考えの のリンクをランダムに辿りながらウェブページを見て回 対立するウェブページにもリンクを張らないという傾向 るユーザの振る舞いをモデル化したものと見なすことが がある.そこで 8 らは,ウェブコミュニティにはそ できるので,ランダムサーファーモデル 1 2 と呼ばれている.このとき, はリンクを辿らず に他のウェブページにジャンプする確率に対応する.な お, は検索キーワードに関係なく一意に与え られる値である. ・ アルゴリズム とほぼ同時期に発表された 8 によ る *+, 1* 9 + ,238 4 もウェブのリンク構造を用いてウェブページの重要 度を求めるアルゴリズムである. *+, では,検索キー の核となるべき中心的なウェブページ( と呼ぶ) と,そのウェブページに対してリンクを張るウェブペー ジ( と呼ぶ)が存在していると仮定し, と の間に形成される完全2部グラフをウェブコミュニ ティとして抽出するアルゴリズムを提案している 38 4.この方法だと,直接リンクが張られていないウェブ ページも を介してつながっていれば同一のコミュニ ティとして取り出すことができる. 上記の方法がコミュニティの密な部分を発見する手法 なのに対し,ウェブコミュニティを繋いでいるエッジ(リ ンク)を見つけることでコミュニティを発見する方法もあ コンピューティング る." らは,任意の : つのウェブページ間の最短経 路に含まれる頻度によって定義される ! ・ Ü ウェブページの提示 パーソナライゼーション を各エッジに対して計算し, ! の高い たかだか数語からなる検索キーワードからユーザの検 エッジを取り除いていくことで密なウェブコミュニティ 索意図を正確に把握することは難しいため,検索エンジン を発見する方法を提案している 3" ):4(5章に後述 を使っても膨大なウェブページの中から所望の情報を見つ する). けることは容易ではない.この問題に対処する一つの方法 が検索結果のパーソナライゼーション 1 2 ウェブページの収集と提示アルゴリズム 検索エンジンは膨大なウェブページを収集し,検索で きるように索引付け 1#2 を行っている.また,検 索キーワード 12 を含むウェブページは膨大な数に 上るので,ユーザの興味に沿ったウェブページが検索結 果の上位に来るようにさまざまな工夫が凝らされている. そこで本章では,ウェブページの収集と提示のアルゴリ ズムについて概観する. ・ である.例えば," のパーソナライズド検索£では, ユーザがこれまでに入力した検索キーワードや閲覧した ウェブページの履歴に基づいて検索結果の順位付けを行っ ている.したがって,もしユーザが過去にアップルコン ピュータの製品について検索したことがあれば, 「アップ ル」という検索キーワードが入力されたときにそれが果 物の「アップル」ではなくコンピュータメーカの「アッ プル」であると判断できるようになる.また,0 らは の , > に優先すべきウェ ブページ(例えばブックマークに登録されているウェブ ページなど)にジャンプするテレポーテーション確率を ウェブページの収集 導入した を提案している 30 と呼ばれるソフトウェアがウェブページのリンクを辿り );4. Ü 適合フィードバック 適合フィードバック 1 2 は,検索結 ながら収集するロボット型がある.ディレクトリ型は良 果に対するユーザからのフィードバックに基づいてクエ 質なウェブページを登録できるが,収集できるウェブペー リーベクトル(検索キーワードをベクトル表現したもの) ジの量に限界があるので,近年では膨大なウェブページ の重みを更新する方法である.フィードバックは,検索 を登録できるロボット型が主流である.しかし,ウェブ空 結果の個々のウェブページに対し, 「適合」 「不適合」のラ 間はリンクを辿ることによって互いに到達可能なウェブ ベルを与えることで行われる.適合フィードバックの代 ページ,到達はできるが戻って来られないウェブページ, 表的な方法である のアルゴリズムは以下の式で 到達不可能なウェブページが蝶ネクタイのように組み合 表される. ウェブページの収集には,人手でウェブページを登録 するディレクトリ型と,クローラ(もしくはスパイダー) わさっているため,リンクを辿るだけでは収集できない ウェブページがあることが知られている 3. ))4.そ のような収集できないウェブページは = 1もし くは 2 と呼ばれており,検索できるウェブ ページの <))∼7)) 倍ものウェブページがあると言われ ている. ウェブページは内容が更新されるので,できるだけ最 新の内容を索引に反映させる必要がある.そこで検索エ ンジンのクローラは,更新頻度の高いウェブページや重 要なウェブページ(例えば の高いウェブペー ジなど)の優先順位を上げるなどして膨大なウェブページ を効率よくクローリングしている.ウェブ上の情報(ウェ ブページだけでなく,ソフトウェアやマルチメディアデー タまで含む)のスナップショットを収集して公開してい る &£ が作成したクローラ *#£ は オープンソースとして公開されており,その詳細は 3> )<4 に詳しい.収集すべきトピックを限定して,そのト ピックに合うウェブページだけを選択的に収集するさま ざまな - ?! の方法が提案されている. ¼ 5 6 1@2 ¾ ¾ ¼ は更新されたクエリーベクトル, は元のクエリー ベクトル, はユーザが適合と判断した文書集合, はユーザが不適合と判断した文書集合, はそれぞ れ重みパラメータである.このようにして,適合と判断 された文書のベクトルに近く,不適合と判断された文書 のベクトルから遠くなるようにクエリーベクトルの重み を更新する. また,適合文書集合,不適合文書集合が与えられれば, / . などを用いた分類器 1 $2 を構築し て適合フィードバックを行うこともできる.語 が適 合文書,不適合文書に現れる確率は 1 5 62 5 1 5 2 5 12 は全文書数, は を含む文 書数, は を含む適合文書集合, はカテゴリ(6 で表される.ここで 1A2 表 人工知能学会論文誌 ½ つのメッセージに対する の評価スコ ア( の を一部改変) > : ; < 7 @ 8 7 B < : : < 7 : > : < ; 7 5 あるウェブページ のカテゴリを決定する問題は事後確 12 を最大化するカテゴリ C を求める問題と等し く,その / . ? $ は次式で表される. C 5 # 12 ¾ 1 2 5 5 7 :::: 5 ) ) ) 1)2 による重みを乗した値の和として得られる. D ¾ 1 2 : 5 ;6 6 : 1)2 5 ;6 5 <7@ 6 ) C 5 D 6 Ü 推薦システム ウェブから入手できる情報はウェブページだけではな るといったオンラインショッピングが日常的に行われてお 12 D D 1 21 2 D D 1 2 1 2 同様に計算すると,8 と > の相関係数 は ,8 と / の相関係数 は ) となる. 8 のメッセージ への評価スコアの予測値 C は, 他の人たちのメッセージ への評価スコアに相関係数 12 い.近年ではネットを介して本を買ったりホテルを予約す 号 ( 年) / : < は適合, は不適合)である 3> )A4.このとき, 率 ) となる. 巻 12 8 のメッセージ に対する評価スコアの予測値は C 5 <7@ と大きい値になっているが,これは 8 と相 り,既に生活の一部となっている.そのような場面で用い 関係数の高い > がメッセージ に高い評価スコアを られる技術が,お勧めの映画やレストランをユーザの興味 付けている影響が大きいからである. に合わせて提示してくれる推薦システム 1 23 :4 である. 推薦システムは,コンテンツに基づくフィルタリング 協調フィルタリングには,新しい商品には評価情報が 少ない ? , ,商品の種類が多すぎると 十分な情報が集まらない , ,嗜好の合 と協調フィルタリングに分けられる.コンテンツに基づ わない人の意見は役に立たない " , , くフィルタリングは,ユーザの興味・嗜好を表すプロファ 人ごとに評価スコアの基準が異なる,評価スコアのない イルとウェブページ中に含まれるキーワードやアイテム ユーザには使えない,といった問題点が指摘されている の属性情報とのマッチングによって,ユーザの興味・嗜好 が,それでも大変有効な方法であることは実際の運用に に合った情報を提示する方法である.ユーザのプロファイ おいて実証されている.例えば &E£ の「この ルは,アンケート等から明示的に獲得する方法と,ユー 商品を買った人はこんな商品も買っています」欄の商品 ザの閲覧履歴等から暗黙的に獲得する方法がある.明示 を利用したことのある読者も多いのではないだろうか. 的な方法では信頼性の高い情報が得られるが,ユーザに 負担を強いることになる.一方,暗黙的な方法ではユー ウェブ検索を用いたアルゴリズム ザへの負担はほとんどないが,正確なプロファイルを得 ることが難しい. 検索エンジンが整備され,人々が検索エンジンを使って 協調フィルタリングは,ウェブページやアイテムにつ 情報の収集を日常的に行うようになると,検索エンジン けてもらった評価スコアを使い,ユーザと同じような評 を用いたコンピューティングが可能になる.例えば,ウェ 価スコアをつけた人たちの傾向を利用して,ユーザの興 ブ上の情報で,どういった語とどういった語が関連が深 味・嗜好に合うと推測される情報を提示する方法である. いか,上位語,下位語は何か,エンティティ間の関係は 表 に 8 B > / の < 人がメッセージ か 何かといった処理に検索エンジンを用いることができる. らメッセージ までの @ つのメッセージ(のいずれか) に付けた評価スコアの例を示す.ここで, のア ルゴリズム 3 <4 を用いて 8 のメッセージ 検索エンジンを使ったコンピューティングの基本とな るのは以下の2つである. ト件数を得る. に対する評価スコアを推定する方法は次のようになる. まず,8 と他の人との興味・嗜好の近さをピアソン の相関係数より求める.例えば,8 と B の相関係数 は,二人が共に付与したアイテム(この場合はメッ セージ )にだけ着目すると以下の式より 統計情報を得る.すなわち,クエリーを構成してヒッ 用例を得る.すなわち,クエリーを構成して目的に 応じた文書を得る. 以下ではそれぞれについて説明する. !"# # $ コンピューティング ・ る.このとき,各選択肢のスコア 1 2 を相互情報 統計情報を得る 検索エンジンを使った最も一般的な統計情報は,ヒッ ト件数を用いるものである.検索エンジンのヒット件数 量(! > )により次のように 求める. 1 2 5 11I 22 121 22 は,ウェブ全体(検索エンジンに索引付けされている文書 全体)をコーパスと考えたときの文書頻度(= 「人工知能学会」とい -)に相当する.例えば, うクエリーは " で A 万 ))) 件ヒットする.これ は, 「人工知能学会」という語を含む文書が A 万 ))) 件 これを求めるために検索エンジンのヒット件数を用い 存在することを示す. (厳密には,複製文書の認識やドメ は除去できる. )このほかにも,/H& オペレータを用い インごとの処理の影響があるため,この数字が文書頻度 そのものであるとは限らない. )これに対して「情報処理 学会」は ) 万件, 「電子情報通信学会」は )7 万件, 「言 語処理学会」は < 万 7)) 件ヒットする.この数字が何 を表しているのかを一言で言うことは難しいが,少なく とも事実として,ウェブ上にある「人工知能学会」とい う語を含む文書の数は, 「情報処理学会」 「電子情報通信 学会」という語を含む文書の数より少なく, 「言語処理学 会」という語を含む文書の数より多いことが分かる. 1つの語ではなく2つの語をクエリーとすると,語の 共起情報が得られる.例えば, 「人工知能学会 &」という クエリーで検索(&/= 検索)すると,7 万 7@)) 件ヒッ トする.これは, 「人工知能学会」「&」の両方の語を含 む文書が 7 万 7@)) 件あるということであり,文書を共 1 2 5 !1 &/= 2 !1 2 を計算する. (最大となる を求めたいので,12 と た指標,/G+ オペレータを用いた指標を考慮し,&/= オペレータだけの最も単純なものでも @:7J(複雑なも のでは A;A7J)の精度であると報告している.その後, H + らは,+ の報告をより詳細に検証し,さ まざまな共起指標や共起の範囲(文書単位か何語以内と いう範囲かなど)を変えて実験した 3+ );4.そのと き最も結果が良かったのは,=9>(文書単位の相互 情報量を用いたもの)で、共起を測るウィンドウのサイ ズが @9;: 語のときであった. これを利用すると,さまざまなエンティティの関連性 を求めることができる.例えば,2人の氏名 " と # の共 起関係の強さ 1"# 2 を同様の方法で測ることもできる. 例えば, 係数という共起指標で測る場合には, 1"# 2 5 !1" 起の単位としたときのコーパス中の共起頻度と見なすこ &/= #2 1!1" 2!1# 22 とができる.多くのコーパス言語処理では,単語の生起 となる.この値の高い氏名を見つければ,それは何らか 頻度,そして共起頻度を用いるが,この2つが検索エン の意味で関連が深い人物であることが推測できる.これ ジンのインタフェースを介して利用できるわけである. を利用した研究に 3> )7 8 A4 などがあり,一定 共起頻度を使えば,さまざまな処理が可能になる.例 のコミュニティにおける研究者の関連を測ったり,自分と えば, 「&」という語と他の学会名の共起頻度を計ってみ 目的の人物(例えば * 8 から > > ) よう. 「情報処理学会 &」では A 万 A)) 件, 「言語処理 をつなぐパスを探したりすることができる. 学会 &」は A< 件, 「知能情報ファジィ学会 &」は 7: 件である.この共起頻度を,学会名単独のヒット件数で 割ると ・ 用 例 の 検 索 検索エンジンを用いたもうひとつのコンピューティン 人工知能学会と &F 77@)) A))) 5 );:7 グは,用例の検索である.例えば, 「うどん・そばなどの 電子情報通信学会と &F A))) )7)))) 5 ) 麺類の販売」という句があれば,うどんやそばが麺類と 情報処理学会と &F AA)) ))))) 5 ))A: いうクラスに属することが分かる.英語では * の 日本知能情報ファジィ学会と &F 7: :):)) 5 )):@ パターンが有名で,例えば,次のようなものである. 12 12 1K2 1 2 これを使うと, が のクラスに属する ( と 9 関係がある)ことが分かる.すなわち,9 関係にあるかどうか調べたい2つの語 " と # があれば 言語処理学会と &F A< <7))) 5 ))): となる.これは確率的には「学会名が出現する文書で & という語が出現する確率」を表しており,人工知能学会 と & の共起が最も強いことが分かる. このアイディアを用いて,検索エンジンを用いて関連 語を認識する研究として最も早い時期に行われたものが, + らの研究である.+GH-B のシソーラスの同 LM 'N というクエリーを検索エンジンに入れ, 定問題(「次の中から,∼と同義である語を選びなさい」 それに該当する文書があるかどうかを調べれば良い. という問題)を,検索エンジンを用いて答えるシステム このような処理は,基本的に大規模なコーパスであれ を作り,ノンネイティブの学生の平均スコアを上回る精 ばある程度可能であるが, というデータの量がある 度で正解することができると示した 3+ )4.ここ からこそ,簡単なアルゴリズムでも良い精度が得られる. で問題となる語を 例えば,& はりんごであるが,会社名でもある.自 とし,選択肢となる語を とす 人工知能学会論文誌 然言語処理でよく用いられるシソーラスの / に は,& が会社名であるという情報は載っていない.し かし, を調べれば,L& N 巻 号 ( 年) 新 し い ウェブ ウェブ :) と呼ばれる新しいウェブサービスが注目さ L& N などの記述がすぐに れている.# や " などのソーシャルネットワーキ 見つかる. ングサービス 1,/,2,ブログ,ソーシャルブックマーク このように語の関連性や語に関する知識を得る研究 などのサービスである.国内外でこのようなデータを対 はさまざまな形で行われている.例えば,, らは, 象にした研究が行われている. &/8G( &/ 8! 9 G 2 というシステムで,検索エンジンを 使ってオントロジの抽出を試みている.B らは, ンテンツを対象とした処理,そしてコンテンツ間の関連 の検索ヒット数をさまざまな自然言語処理のタスクに適 対象とした処理としては,例えば,ブログのエントリの 用し,タスクによっては既存のコーパスの結果を凌ぐこ 分類(男女の分類,肯定的意見/否定的意見の分類)な とを報告している 3B )<4. どがあるが,新しいウェブであることに起因する本質的 なお,検索エンジンを使って文書を取得して処理を行 うには,文書をダウンロードする(*+>B ファイルを入 手する)必要がある.検索エンジンから返ってくる結果 は,OB とその内容を要約したもの(スニペットと呼 ばれる)であり,そのページ全体を取得するには,その OB(もしくはキャッシュ)をダウンロードしなければ いけない.ところが,いちいち文書をダウンロードする のは時間がかかる場合があるし,処理しやすい *+>B でなければ面倒な処理が必要になる£ .したがって,ス ニペットだけを用いて処理をする場合もある.例えば, , らは検索した2つの語(例えば「人工知能」と 「&」)の 同士がどのくらい似ているかをター ムベクトルの類似度で測ることで認識している 3, )74.前節のヒット件数とパターンの処理を両方含んだ研 究 3. )A4 もある. ・ 人工知能にとっての意義 検索エンジンを使ったコンピューティングの基礎とな るのは,エンティティとその関係の認識である." の共同設立者 . は, 年に LH# ! ! !N という論文 3. 4 を書いている.この論文では,著者と本のタ イトルなどエンティティの関係性を取り出すことの重要 こういった研究の処理は,大きく2つに分けられる.コ 性やユーザの関連性を用いた処理である.コンテンツを な違いはない.こういった新しいウェブで重要になるの が,個々のユーザやページの関係性,そしてその総体と してのネットワークである. ,/, はそのままユーザの関係が社会ネットワークであ る.ブログは,コメント,トラックバック,エントリ中の OB,ブログロールなど各種の関係があり,同様に複数 の関係を持つ社会ネットワーク( # ! と 呼ぶ)となる.ソーシャルブックマークは基本的にタグ・ ユーザ・インスタンスの3部グラフであるが,これも社 会ネットワークに帰着することができる. ネットワークに関する計算は,古くから社会ネットワー ク分析の分野で行われてきた.ここ ) 年ほどは複雑ネッ トワークとして統計物理の分野でも研究されている.大 きくまとめると,次のような処理がある. や の計算,次数分布, 中心性の計算 クラスタリング 以下では簡単に概説する. ・ 次数分布 中心性の計算 各種の研究で決まって行われるのが, や ,次数分 布や中心性の計算である.平均パス長 は,ネットワー クのコンポネント(連結成分)に含まれる各ノード間の最 短パスの長さの平均である.クラスタ係数 は,各ノー 性とその手法について,当時の技術からのアプローチが ド ! に隣接するノード数の数を $ とすると, 本存在 述べられている.現在でも " ではこういった研究が しえるエッジのうち実際に何本あるかをすべてのノード 行われている 3 )@4 が,ウェブ上の情報処理をさら に対して平均をとったものである. (次数が ), のノード に高度化するには,エンティティ間の関係を捉えなけれ については平均から除外するのが通常である. )例えば, 記号の世界であるウェブをフィールドとして,成熟して # 全体(ユーザ数が ; 万人の時点)の は 77: で あり,任意の : 人は平均 77: ステップでつながってい る. は );: であり,自分の : 人の友達は ;:Jの確 きた検索エンジンをツールに,エンティティの関係性を 率で友達である. ばならない.関係性を基本とする知識の表現や処理(推 論)は人工知能の技術で古くから扱われてきた.膨大な 捉え処理する技術は,今後の重要な方向性のひとつでは ないだろうか. 次数分布は,次数(ノードのもつエッジの数)の分布 を示したものである.図 は # の次数分布を示したも ので,こういった両対数グラフで分布が直線状になるか フレームの処理,文字コードがおかしい文書,%& や '#( 等の文書や ) を用いたページなどの処理である どうかを調べる.この3つの分析( 次数分布)で 分かるのが,ネットワークがスケールフリーであるかそ コンピューティング 図 図 ½ ¾ ! クラスタリングの例 ノードの分割を見つける改良法が提案された 3/! 次数分布 )<4. うでないか,である. 5 ネットワーク全体を概観したあと,ネットワークの個々 のノードに注目した分析に移る.その際,中心的なプレ イヤーを求める中心性の分析がよく行われる.中心性の 計算方法としては,以下の3種類が一般的である. 次数.エッジの数である. 距離中心性.各ノードから他のノードへの 最短距離の平均. 媒介中心性.他の2ノードのの最短パ ス上にそのノードが含まれる割合である. : 章で紹介した アルゴリズムも実は中心性の 計算のひとつであり,社会ネットワーク分析の分野では . の中心性として A) 年代から知られていたも のである. ・ ここで, はクラスタ 1:2 ! の中にあるエッジの割合であ り, はクラスタ ! と % を結ぶエッジの割合である.し たがって,クラスタ内のエッジを増やし,クラスタ間の エッジを減らす方向に分割する(実際は,個々の点から 始めてマージしていく)すればよい.これは,古典的な クラスタリングで,クラスタ内の類似性を最大化し,ク ラスタ間の類似性を最小化するという考えと同一のもの になっている. む す び 本稿では,ウェブ上の情報を処理するための基礎とな るコンピュテーションをいくつか紹介した.ウェブの特 クラスタリング 徴は,ページが相互にリンクしていることであり,これ ネットワークを処理したり,可視化する際にはネット は や ,/, などの新しいウェブでも同様である.し ワークのクラスタリングがよく行われる.クラスタリン たがって,ネットワークの計算が重要な働きをする.それ グは人工知能の分野で古くから行われているタスクであ と同時に,ページを収集し高速に検索を可能にする検索 るが,ネットワークのクラスタリングはネットワークが エンジンをどう研究に用いていくかも重要な技術である. 与えられたときにそれを(直観的に適切な部分に)分割 昨年,大きな話題となった「:)」は,ユーザとシ する処理であり,エンティティの類似度を定義した上で ステムがどのようにインタラクションするか,どのよう 結合(もしくは分離)していく古典的なクラスタリング にユーザを巻き込んでいくかが大きな焦点である.それ 方法とはスタート地点が異なる. に対して, コンピューティングは,あくまでも自動 図 : は ! の高いエッジを除去するクラスタ 処理による計算を基礎とするものである.しかし,この リング方法である.12 でエッジ 9 は ! が 2つは相反するものではなく,相補的なものであって,自 高い. (すなわち,任意の2ノードをつなぐ多くの最短パ 動処理があるからこそユーザをうまく巻き込める仕組み スがエッジ 9 を含んでいる. )これまでもグラフを分割 が作れるわけであり,ユーザを巻き込めるからこそ,さ するために,最小流カット(9)などの方法があっ らに価値のあるデータ処理が行えるわけである. たが,12 では最小流のエッジは 9 と 9 の2つ候補が ウェブは,社会的な現象,言語現象を映す鏡である.こ あるのに対して,! の高いエッジは 9 の一 のデータのコンピューティングは,すなわち言語学や社 意に決まる.このように ! を考慮したクラス 会学の分析でもあり,こういった学問分野に従来はでき タリングは,ネットワーク全体のトポロジを考慮し,バ なかったさまざまな知見を提供する.例えば,ソーシャ ランスのよいクラスタを作ることができる. ルブックマーキングのタグの分析は,あるタグが使用を その後の研究で,この ! の高いエッジを切 るというクラスタリング方法は,下記の を最大化する 通じて社会的な意味を持つにいたるまでの過程を観測可 能にする.知識をどう取り出すかというコンピュテーショ 人工知能学会論文誌 ンは重要であり,例えば,? にウェブから得た知識を どう取り込むかという研究 3> )74 もある. ウェブは今後もますます人工知能の重要な一分野になっ ていくであろうし,それがさまざまなレベルに細分化し ていき,現在行われている人工知能の技術(例えば,オ ントロジー,コミュニティ,ロボット,ユビキタス,身 体知,推論)とさまざまな形で融合していくのではない かと思う.現在,人工知能とウェブの中間にある研究分 野は , であるが,現在の , の 研究は,人工知能とウェブを融合するひとつの形にすぎ ない.欧州を中心とした , の研究,米国を 中心とした検索や :) のビジネスを参考にしながら も,それに捉われすぎることなく,さまざまな角度から ウェブ上のコンピューティングに取り組んでいくことは, 日本の研究コミュニティとして重要な方向性であろう. 参 考 文 献 * + * ( *#( , , - .# !/ )0 " ( #0) #. 1) '1 2 +3 *#))) 45 *#))) & # 6 ( 7" 8! 8!)9 1 '#( : '1 8 ; 24453 * + * 8 ;< ( )# .#! #)( ( 1 2 +3 * +1 * 8 ( % = ,#!9 #. / 8) >9<) '1 8 ; 2 +3 *#( 44 *#( , ! #) / 0 % $#) 8 8 =#! , ( ' ? @ 1 24443 @0 4 @0 ( ! ; ? A#!!9 #) ( 1#)#) # B#) +5 C+5 2443 ? 4 ? @ ( '(#! ? 8) %#)"( '1 8 ! 5 C5 2443 " 5 " > 8)! * ( 8 = >(/ ( '1 " B#) + # 5C 2 53 )1 + )1 ? ,#0 8# >9)( ;0#! #$# % +C55 2 +3 ! ! 8 0 % $#) 8 ( =# , =) 1 .# ! 91 #!/ ! & 2 3 4 ( )) = '1 */ ) ;0) %.#! #. :0( '1/ 1( #() .# #. % = '()$ ( * C + 2443 45 A 0 % ( 8" > % +, A!1( :0/ 9 % 24453 #) 0# " 4 " A '1# ) A1) ? 8( & 8 % ( & 8/ .# A#!!# 8 %#) A9 .#! '1 $- 2443 4 % ) 8! '1 =#)#9 .# ;<# ( ,)9 #. 8#) # .% B#) # 2443 # 4 # @ !# 8 ( / #0 7 7#(# # >< 0) -)9 1 巻 号 ( 年) ) %# 7#) '1 ,0 '## 27',' ’43 2443 ! 4 ! )#! .# ( #!!9 # +, / B#) 2443 % 4 % & *! ? . , ( ? , D" ( 8 '#)('('1 #. / 8 D D/ ))# ;<# A)/ ) 0 2443 % ( B > #!!( 89/ ! % # B#) 4 # C+ 2 3 % 7#0# 8 *#! % ( () ? @#) , # .# #))1#0 E) #. 1* 5C + 2 3 8! 4 8! ( >)! = , '1/1( / ) # .# 8# =< 8 $ ( 2(-3 C 2443 = 4 = ; ( A) A -9 ! .# ) #( !)9 ! '()4( ! 2443 =9 4 =9 % '1 .# 89#9! % 7/7 0 8, # =D; /#($5 C4 244 3 著 者 紹 松尾 介 豊(正会員) 年 東京大学工学部電子情報工学科卒業. 年 同 大学院博士課程修了.博士(工学).同年より,産業技術総 合研究所 情報技術研究部門 勤務, 年 月よりス タンフォード大学客員研究員.人工知能,特に高次 マイニングに興味がある.情報処理学会,言語処理学会, , の各会員. 松村 真宏(正会員) 年大阪大学基礎工学部卒業. 年同大学院基礎 工学研究科修士課程修了. 年東京大学大学院工学系 研究科博士課程修了.博士(工学).東京大学情報理工学 系研究科ポスドクを経て, 年 月より大阪大学大学 院経済学研究科専任講師,現在に至る.情報処理学会,日 本マーケティング・サイエンス学会の会員.現在は主にコ ミュニケーションマイニングとフィールドマイニングに取 り組んでいる.
© Copyright 2024 Paperzz