解説コンピューティング松尾豊産業技術総合研究所スタンフォード大学松村真宏大阪大学大学院経済学研究科リンク構造，，検索エンジン ! ! ! " ! ! ! ! # # ! # ! ! ! ! $ はじめにれていたが，徐々に小規模の研究グループが行うことはが大きな普及を遂げ，その発展とともにウェブクロールの対象を限定した研究を行ったり，また . やを対象とした検索・加工・マイニング等のアルゴリズムもニュースサイト等に情報源を限ってページの収集とシス進展している．年には，" で使われているとテム構築を行う研究にシフトした．そういった流れとは別して有名になったアルゴリズムが提案され，に，このところ増えているのが検索エンジンをいわば下その後さまざまな改良が行われた．また，ウェブコミュ位システムとして扱う研究である．こういった研究では，ニティを抽出する方法や，ユーザの必要なページに絞っ検索エンジンをウェブページの収集と索引付けを行うモてクローリングする ! の手法なども各種ジュールとして考え，それを利用した応用を研究する．提案されてきた．最近では，ウェブを検索だけではなく，情報の集約や加工に用いようという研究が多く行われるようになってきている．ウェブを用いた %& システム，評判情報の抽出，オントロジーの自動構築，社会ネットワークの抽出などである．これらのシステムに共通するのは，大量のウェブデータを背景として，検索と言語処理をうまく組み合わせることで高度な情報処理を行う点である．ウェブ上のデータを対象とした情報処理，すなわちコンピューティングは，現実的な問題から大きく２つに分けて考えることができるだろう．ウェブページのクロールを行うか行わないかである．現在では " や '(などの検索エンジンが )) 億ページ以上のページをインデキシングしており，これと同規模の検索エンジンを作り，学術的に用いることはほぼ不可能である．したがって，ウェブページのクロールが必要となるや *+, などのウェブリンクの研究は以前は活発に行わ難しくなった£ ．そこで，- ! と呼ばれるこのようなウェブページの収集と検索に関する部分，そしてそれを利用した応用に研究が二分されていくことは，. （. の検索エンジン（+ 等）とそれを利用した研究）や , （, の検索エンジン（,! ）とそれを利用した研究）など，ウェブの部分領域でも見られる．歴史的に見れば，計算機科学というひとつの研究領域から，データベース工学とデータベースを用いる応用研究（自然言語処理や画像処理，人工知能）が分化していったように，このような流れは必然的なものであるだろう．そして，より人間の側に近い「知識処理」「情報処理」を目指す & 研究にとって，検索エンジンを利用した研究というのは，これからのコンピューティングにおいて重要なひとつの研究分野になっていくと考えられる．以下では，ウェブページの収集を行った上で，リンクウェブのインフラ系の企業の研究所，ウェブのアーカイブを専門とする研究室などでは可能である．人工知能学会論文誌巻号（年）構造の計算を行う（２章），適切な収集と提示を行う（３ワードに関連するウェブページ集合に対し，まず情報源章）技術を述べる．さらに，検索エンジンを使った応用にとしての価値を表す & スコアと，ウェブページ関するコンピュテーション（４章），そしてブログや ,/, へのリンク集としての価値を表す * スコアを定義すなどの新しいウェブにおけるコンピュテーション（５章）る．次に，& スコアの高いウェブページへのリについて述べる．ンクをもつウェブページの * スコアを上げ，* スコアの高いウェブページからリンクされているウェブペーウェブのリンク構造を使ったコンピュテージの & スコアを上げるという相互依存関係に基づいてスコアを再帰的に計算する．ウェブページション & スコアを，* スコアをの，ブページにリンクを張り巡らした結果として形成されたにリンクを張っているウェブページ集合をとすると，以下の反復計算によってとを求めるものである．本章では，そのようなウェブのリンク構造ことができる．ウェブのリンク構造は，人々が興味や関心のあるウェの特徴を利用したコンピュテーションとして，アルゴリズム，*+, アルゴリズム，コミュニティ抽出について紹介する．・アルゴリズム検索エンジン " の開発者であり，" は，ウェブのリンク構造を利用してウェブページに重要度を付与するアルゴリズムである．は良質なウェブページからリンクされているウェブページはやはり良質であるというアイデアに基づいてウェブページの重要度を定義する．したがって，例えば '(0&&/ のトップページのようなの高いウェブページ 1:2 1;2 ただし，との共同設立者である . とによって提案されたは 1 2 5 1<2 1 2 5 172 を満たすように反復計算の度に正規化される．ウェブページに複数の話題が含まれている場合，検索キーワードと関係のないウェブページの & スコからリンクを張られたウェブページのは高くアと * スコアが高くなってしまう + 問題がなる．知られている．そこで，リンク構造だけでなくウェブペー 12 をウェブページの，にリンクを張っているウェブページ集合を，ウェブページ内のリンク数を 1 2 とすると，は以下の式から再帰的に求められる 3. 4．なお，全てのウェブページのの総和はになるよいる 3. 4．・コミュニティ抽出 *+, アルゴリズムやアルゴリズムがリンうに反復計算の度に正規化される． 12 5 1 2 6 ジの内容の類似度も考慮するなどの改善策が提案されて 1 2 1 2 12 は減衰係数 1 2 であり，3. 4 では 5 )7 と設定されている．式 12 は，ウェブページク構造からなるウェブコミュニティを利用してウェブページの重要度を求めているのに対し，ウェブコミュニティそのものの発見に取り組む研究もある．一般にウェブページは，関連する全てのウェブページにリンクを張っているわけではないし，ライバル関係にある会社や意見や考えののリンクをランダムに辿りながらウェブページを見て回対立するウェブページにもリンクを張らないという傾向るユーザの振る舞いをモデル化したものと見なすことががある．そこで 8 らは，ウェブコミュニティにはそできるので，ランダムサーファーモデル 1 2 と呼ばれている．このとき，はリンクを辿らずに他のウェブページにジャンプする確率に対応する．なお，は検索キーワードに関係なく一意に与えられる値である．・アルゴリズムとほぼ同時期に発表された 8 による *+, 1* 9 + ,238 4 もウェブのリンク構造を用いてウェブページの重要度を求めるアルゴリズムである． *+, では，検索キーの核となるべき中心的なウェブページ（と呼ぶ）と，そのウェブページに対してリンクを張るウェブページ（と呼ぶ）が存在していると仮定し，との間に形成される完全２部グラフをウェブコミュニティとして抽出するアルゴリズムを提案している 38 4．この方法だと，直接リンクが張られていないウェブページもを介してつながっていれば同一のコミュニティとして取り出すことができる．上記の方法がコミュニティの密な部分を発見する手法なのに対し，ウェブコミュニティを繋いでいるエッジ（リンク）を見つけることでコミュニティを発見する方法もあコンピューティングる．" らは，任意の : つのウェブページ間の最短経路に含まれる頻度によって定義される ! ・ Ü ウェブページの提示パーソナライゼーションを各エッジに対して計算し， ! の高いたかだか数語からなる検索キーワードからユーザの検エッジを取り除いていくことで密なウェブコミュニティ索意図を正確に把握することは難しいため，検索エンジンを発見する方法を提案している 3" ):4（５章に後述を使っても膨大なウェブページの中から所望の情報を見つする）．けることは容易ではない．この問題に対処する一つの方法が検索結果のパーソナライゼーション 1 2 ウェブページの収集と提示アルゴリズム検索エンジンは膨大なウェブページを収集し，検索できるように索引付け 1#2 を行っている．また，検索キーワード 12 を含むウェブページは膨大な数に上るので，ユーザの興味に沿ったウェブページが検索結果の上位に来るようにさまざまな工夫が凝らされている．そこで本章では，ウェブページの収集と提示のアルゴリズムについて概観する．・である．例えば，" のパーソナライズド検索£では，ユーザがこれまでに入力した検索キーワードや閲覧したウェブページの履歴に基づいて検索結果の順位付けを行っている．したがって，もしユーザが過去にアップルコンピュータの製品について検索したことがあれば，「アップル」という検索キーワードが入力されたときにそれが果物の「アップル」ではなくコンピュータメーカの「アップル」であると判断できるようになる．また，0 らはの , > に優先すべきウェブページ（例えばブックマークに登録されているウェブページなど）にジャンプするテレポーテーション確率をウェブページの収集導入したを提案している 30 と呼ばれるソフトウェアがウェブページのリンクを辿り );4． Ü 適合フィードバック適合フィードバック 1 2 は，検索結ながら収集するロボット型がある．ディレクトリ型は良果に対するユーザからのフィードバックに基づいてクエ質なウェブページを登録できるが，収集できるウェブペーリーベクトル（検索キーワードをベクトル表現したもの）ジの量に限界があるので，近年では膨大なウェブページの重みを更新する方法である．フィードバックは，検索を登録できるロボット型が主流である．しかし，ウェブ空結果の個々のウェブページに対し，「適合」「不適合」のラ間はリンクを辿ることによって互いに到達可能なウェブベルを与えることで行われる．適合フィードバックの代ページ，到達はできるが戻って来られないウェブページ，表的な方法であるのアルゴリズムは以下の式で到達不可能なウェブページが蝶ネクタイのように組み合表される．ウェブページの収集には，人手でウェブページを登録するディレクトリ型と，クローラ（もしくはスパイダー）わさっているため，リンクを辿るだけでは収集できないウェブページがあることが知られている 3. ))4．そのような収集できないウェブページは = 1もしくは 2 と呼ばれており，検索できるウェブページの <))∼7)) 倍ものウェブページがあると言われている．ウェブページは内容が更新されるので，できるだけ最新の内容を索引に反映させる必要がある．そこで検索エンジンのクローラは，更新頻度の高いウェブページや重要なウェブページ（例えばの高いウェブページなど）の優先順位を上げるなどして膨大なウェブページを効率よくクローリングしている．ウェブ上の情報（ウェブページだけでなく，ソフトウェアやマルチメディアデータまで含む）のスナップショットを収集して公開している &£ が作成したクローラ *#£ はオープンソースとして公開されており，その詳細は 3> )<4 に詳しい．収集すべきトピックを限定して，そのトピックに合うウェブページだけを選択的に収集するさまざまな - ?! の方法が提案されている． ¼ 5 6 1@2 ¾ ¾ ¼ は更新されたクエリーベクトル，は元のクエリーベクトル，はユーザが適合と判断した文書集合，はユーザが不適合と判断した文書集合，はそれぞれ重みパラメータである．このようにして，適合と判断された文書のベクトルに近く，不適合と判断された文書のベクトルから遠くなるようにクエリーベクトルの重みを更新する．また，適合文書集合，不適合文書集合が与えられれば， / . などを用いた分類器 1 $2 を構築して適合フィードバックを行うこともできる．語が適合文書，不適合文書に現れる確率は 1 5 62 5 1 5 2 5 12 は全文書数，はを含む文書数，はを含む適合文書集合，はカテゴリ（6 で表される．ここで 1A2 表人工知能学会論文誌 ½ つのメッセージに対するの評価スコア（のを一部改変） > : ; < 7 @ 8 7 B < : : < 7 : > : < ; 7 5 あるウェブページのカテゴリを決定する問題は事後確 12 を最大化するカテゴリ C を求める問題と等しく，その / . ? $ は次式で表される． C 5 # 12 ¾ 1 2 5 5 7 :::: 5 ) ) ) 1)2 による重みを乗した値の和として得られる． D ¾ 1 2 : 5 ;6 6 : 1)2 5 ;6 5 <7@ 6 ) C 5 D 6 Ü 推薦システムウェブから入手できる情報はウェブページだけではなるといったオンラインショッピングが日常的に行われてお 12 D D 1 21 2 D D 1 2 1 2 同様に計算すると，8 と > の相関係数は，8 と / の相関係数は ) となる． 8 のメッセージへの評価スコアの予測値 C は，他の人たちのメッセージへの評価スコアに相関係数 12 い．近年ではネットを介して本を買ったりホテルを予約す号（年） / : < は適合，は不適合）である 3> )A4．このとき，率 ) となる．巻 12 8 のメッセージに対する評価スコアの予測値は C 5 <7@ と大きい値になっているが，これは 8 と相り，既に生活の一部となっている．そのような場面で用い関係数の高い > がメッセージに高い評価スコアをられる技術が，お勧めの映画やレストランをユーザの興味付けている影響が大きいからである．に合わせて提示してくれる推薦システム 1 23 :4 である．推薦システムは，コンテンツに基づくフィルタリング協調フィルタリングには，新しい商品には評価情報が少ない ? , ，商品の種類が多すぎると十分な情報が集まらない , ，嗜好の合と協調フィルタリングに分けられる．コンテンツに基づわない人の意見は役に立たない " , ，くフィルタリングは，ユーザの興味・嗜好を表すプロファ人ごとに評価スコアの基準が異なる，評価スコアのないイルとウェブページ中に含まれるキーワードやアイテムユーザには使えない，といった問題点が指摘されているの属性情報とのマッチングによって，ユーザの興味・嗜好が，それでも大変有効な方法であることは実際の運用にに合った情報を提示する方法である．ユーザのプロファイおいて実証されている．例えば &E£ の「このルは，アンケート等から明示的に獲得する方法と，ユー商品を買った人はこんな商品も買っています」欄の商品ザの閲覧履歴等から暗黙的に獲得する方法がある．明示を利用したことのある読者も多いのではないだろうか．的な方法では信頼性の高い情報が得られるが，ユーザに負担を強いることになる．一方，暗黙的な方法ではユーウェブ検索を用いたアルゴリズムザへの負担はほとんどないが，正確なプロファイルを得ることが難しい．検索エンジンが整備され，人々が検索エンジンを使って協調フィルタリングは，ウェブページやアイテムにつ情報の収集を日常的に行うようになると，検索エンジンけてもらった評価スコアを使い，ユーザと同じような評を用いたコンピューティングが可能になる．例えば，ウェ価スコアをつけた人たちの傾向を利用して，ユーザの興ブ上の情報で，どういった語とどういった語が関連が深味・嗜好に合うと推測される情報を提示する方法である．いか，上位語，下位語は何か，エンティティ間の関係は表に 8 B > / の < 人がメッセージか何かといった処理に検索エンジンを用いることができる．らメッセージまでの @ つのメッセージ（のいずれか）に付けた評価スコアの例を示す．ここで，のアルゴリズム 3 <4 を用いて 8 のメッセージ検索エンジンを使ったコンピューティングの基本となるのは以下の２つである．ト件数を得る．に対する評価スコアを推定する方法は次のようになる．まず，8 と他の人との興味・嗜好の近さをピアソンの相関係数より求める．例えば，8 と B の相関係数は，二人が共に付与したアイテム（この場合はメッセージ）にだけ着目すると以下の式より統計情報を得る．すなわち，クエリーを構成してヒッ用例を得る．すなわち，クエリーを構成して目的に応じた文書を得る．以下ではそれぞれについて説明する． !"# # $ コンピューティング・る．このとき，各選択肢のスコア 1 2 を相互情報統計情報を得る検索エンジンを使った最も一般的な統計情報は，ヒット件数を用いるものである．検索エンジンのヒット件数量（! > ）により次のように求める． 1 2 5 11I 22 121 22 は，ウェブ全体（検索エンジンに索引付けされている文書全体）をコーパスと考えたときの文書頻度（= 「人工知能学会」とい -）に相当する．例えば，うクエリーは " で A 万 ))) 件ヒットする．これは，「人工知能学会」という語を含む文書が A 万 ))) 件これを求めるために検索エンジンのヒット件数を用い存在することを示す．（厳密には，複製文書の認識やドメは除去できる．）このほかにも，/H& オペレータを用いインごとの処理の影響があるため，この数字が文書頻度そのものであるとは限らない．）これに対して「情報処理学会」は ) 万件，「電子情報通信学会」は )7 万件，「言語処理学会」は < 万 7)) 件ヒットする．この数字が何を表しているのかを一言で言うことは難しいが，少なくとも事実として，ウェブ上にある「人工知能学会」という語を含む文書の数は，「情報処理学会」「電子情報通信学会」という語を含む文書の数より少なく，「言語処理学会」という語を含む文書の数より多いことが分かる．１つの語ではなく２つの語をクエリーとすると，語の共起情報が得られる．例えば，「人工知能学会 &」というクエリーで検索（&/= 検索）すると，7 万 7@)) 件ヒットする．これは，「人工知能学会」「&」の両方の語を含む文書が 7 万 7@)) 件あるということであり，文書を共 1 2 5 !1 &/= 2 !1 2 を計算する．（最大となるを求めたいので，12 とた指標，/G+ オペレータを用いた指標を考慮し，&/= オペレータだけの最も単純なものでも @:7J（複雑なものでは A;A7J）の精度であると報告している．その後， H + らは，+ の報告をより詳細に検証し，さまざまな共起指標や共起の範囲（文書単位か何語以内という範囲かなど）を変えて実験した 3+ );4．そのとき最も結果が良かったのは，=9>（文書単位の相互情報量を用いたもの）で、共起を測るウィンドウのサイズが @9;: 語のときであった．これを利用すると，さまざまなエンティティの関連性を求めることができる．例えば，２人の氏名 " と # の共起関係の強さ 1"# 2 を同様の方法で測ることもできる．例えば，係数という共起指標で測る場合には， 1"# 2 5 !1" 起の単位としたときのコーパス中の共起頻度と見なすこ &/= #2 1!1" 2!1# 22 とができる．多くのコーパス言語処理では，単語の生起となる．この値の高い氏名を見つければ，それは何らか頻度，そして共起頻度を用いるが，この２つが検索エンの意味で関連が深い人物であることが推測できる．これジンのインタフェースを介して利用できるわけである．を利用した研究に 3> )7 8 A4 などがあり，一定共起頻度を使えば，さまざまな処理が可能になる．例のコミュニティにおける研究者の関連を測ったり，自分とえば，「&」という語と他の学会名の共起頻度を計ってみ目的の人物（例えば * 8 から > > ）よう．「情報処理学会 &」では A 万 A)) 件，「言語処理をつなぐパスを探したりすることができる．学会 &」は A< 件，「知能情報ファジィ学会 &」は 7: 件である．この共起頻度を，学会名単独のヒット件数で割ると・用例の検索検索エンジンを用いたもうひとつのコンピューティン人工知能学会と &F 77@)) A))) 5 );:7 グは，用例の検索である．例えば，「うどん・そばなどの電子情報通信学会と &F A))) )7)))) 5 ) 麺類の販売」という句があれば，うどんやそばが麺類と情報処理学会と &F AA)) ))))) 5 ))A: いうクラスに属することが分かる．英語では * の日本知能情報ファジィ学会と &F 7: :):)) 5 )):@ パターンが有名で，例えば，次のようなものである． 12 12 1K2 1 2 これを使うと，がのクラスに属する（と 9 関係がある）ことが分かる．すなわち，9 関係にあるかどうか調べたい２つの語 " と # があれば言語処理学会と &F A< <7))) 5 ))): となる．これは確率的には「学会名が出現する文書で & という語が出現する確率」を表しており，人工知能学会と & の共起が最も強いことが分かる．このアイディアを用いて，検索エンジンを用いて関連語を認識する研究として最も早い時期に行われたものが， + らの研究である．+GH-B のシソーラスの同 LM 'N というクエリーを検索エンジンに入れ，定問題（「次の中から，∼と同義である語を選びなさい」それに該当する文書があるかどうかを調べれば良い．という問題）を，検索エンジンを用いて答えるシステムこのような処理は，基本的に大規模なコーパスであれを作り，ノンネイティブの学生の平均スコアを上回る精ばある程度可能であるが，というデータの量がある度で正解することができると示した 3+ )4．ここからこそ，簡単なアルゴリズムでも良い精度が得られる．で問題となる語を例えば，& はりんごであるが，会社名でもある．自とし，選択肢となる語をとす人工知能学会論文誌然言語処理でよく用いられるシソーラスの / には，& が会社名であるという情報は載っていない．しかし，を調べれば，L& N 巻号（年）新しいウェブウェブ :) と呼ばれる新しいウェブサービスが注目さ L& N などの記述がすぐにれている．# や " などのソーシャルネットワーキ見つかる．ングサービス 1,/,2，ブログ，ソーシャルブックマークこのように語の関連性や語に関する知識を得る研究などのサービスである．国内外でこのようなデータを対はさまざまな形で行われている．例えば，, らは，象にした研究が行われている． &/8G（ &/ 8! 9 G 2 というシステムで，検索エンジンを使ってオントロジの抽出を試みている．B らは，ンテンツを対象とした処理，そしてコンテンツ間の関連の検索ヒット数をさまざまな自然言語処理のタスクに適対象とした処理としては，例えば，ブログのエントリの用し，タスクによっては既存のコーパスの結果を凌ぐこ分類（男女の分類，肯定的意見／否定的意見の分類）なとを報告している 3B )<4．どがあるが，新しいウェブであることに起因する本質的なお，検索エンジンを使って文書を取得して処理を行うには，文書をダウンロードする（*+>B ファイルを入手する）必要がある．検索エンジンから返ってくる結果は，OB とその内容を要約したもの（スニペットと呼ばれる）であり，そのページ全体を取得するには，その OB（もしくはキャッシュ）をダウンロードしなければいけない．ところが，いちいち文書をダウンロードするのは時間がかかる場合があるし，処理しやすい *+>B でなければ面倒な処理が必要になる£ ．したがって，スニペットだけを用いて処理をする場合もある．例えば， , らは検索した２つの語（例えば「人工知能」と「&」）の同士がどのくらい似ているかをタームベクトルの類似度で測ることで認識している 3, )74．前節のヒット件数とパターンの処理を両方含んだ研究 3. )A4 もある．・人工知能にとっての意義検索エンジンを使ったコンピューティングの基礎となるのは，エンティティとその関係の認識である．" の共同設立者 . は，年に LH# ! ! !N という論文 3. 4 を書いている．この論文では，著者と本のタイトルなどエンティティの関係性を取り出すことの重要こういった研究の処理は，大きく２つに分けられる．コ性やユーザの関連性を用いた処理である．コンテンツをな違いはない．こういった新しいウェブで重要になるのが，個々のユーザやページの関係性，そしてその総体としてのネットワークである． ,/, はそのままユーザの関係が社会ネットワークである．ブログは，コメント，トラックバック，エントリ中の OB，ブログロールなど各種の関係があり，同様に複数の関係を持つ社会ネットワーク（ # ! と呼ぶ）となる．ソーシャルブックマークは基本的にタグ・ユーザ・インスタンスの３部グラフであるが，これも社会ネットワークに帰着することができる．ネットワークに関する計算は，古くから社会ネットワーク分析の分野で行われてきた．ここ ) 年ほどは複雑ネットワークとして統計物理の分野でも研究されている．大きくまとめると，次のような処理がある．やの計算，次数分布，中心性の計算クラスタリング以下では簡単に概説する．・次数分布中心性の計算各種の研究で決まって行われるのが，や，次数分布や中心性の計算である．平均パス長は，ネットワークのコンポネント（連結成分）に含まれる各ノード間の最短パスの長さの平均である．クラスタ係数は，各ノー性とその手法について，当時の技術からのアプローチがド ! に隣接するノード数の数を $ とすると，本存在述べられている．現在でも " ではこういった研究がしえるエッジのうち実際に何本あるかをすべてのノード行われている 3 )@4 が，ウェブ上の情報処理をさらに対して平均をとったものである．（次数が )，のノードに高度化するには，エンティティ間の関係を捉えなけれについては平均から除外するのが通常である．）例えば，記号の世界であるウェブをフィールドとして，成熟して # 全体（ユーザ数が ; 万人の時点）のは 77: であり，任意の : 人は平均 77: ステップでつながっている．は );: であり，自分の : 人の友達は ;:Jの確きた検索エンジンをツールに，エンティティの関係性を率で友達である．ばならない．関係性を基本とする知識の表現や処理（推論）は人工知能の技術で古くから扱われてきた．膨大な捉え処理する技術は，今後の重要な方向性のひとつではないだろうか．次数分布は，次数（ノードのもつエッジの数）の分布を示したものである．図は # の次数分布を示したもので，こういった両対数グラフで分布が直線状になるかフレームの処理，文字コードがおかしい文書，%& や '#( 等の文書や ) を用いたページなどの処理であるどうかを調べる．この３つの分析（次数分布）で分かるのが，ネットワークがスケールフリーであるかそコンピューティング図図 ½ ¾ ! クラスタリングの例ノードの分割を見つける改良法が提案された 3/! 次数分布 )<4．うでないか，である． 5 ネットワーク全体を概観したあと，ネットワークの個々のノードに注目した分析に移る．その際，中心的なプレイヤーを求める中心性の分析がよく行われる．中心性の計算方法としては，以下の３種類が一般的である．次数．エッジの数である．距離中心性．各ノードから他のノードへの最短距離の平均．媒介中心性．他の２ノードのの最短パス上にそのノードが含まれる割合である． : 章で紹介したアルゴリズムも実は中心性の計算のひとつであり，社会ネットワーク分析の分野では . の中心性として A) 年代から知られていたものである．・ここで，はクラスタ 1:2 ! の中にあるエッジの割合であり，はクラスタ ! と % を結ぶエッジの割合である．したがって，クラスタ内のエッジを増やし，クラスタ間のエッジを減らす方向に分割する（実際は，個々の点から始めてマージしていく）すればよい．これは，古典的なクラスタリングで，クラスタ内の類似性を最大化し，クラスタ間の類似性を最小化するという考えと同一のものになっている．むすび本稿では，ウェブ上の情報を処理するための基礎となるコンピュテーションをいくつか紹介した．ウェブの特クラスタリング徴は，ページが相互にリンクしていることであり，これネットワークを処理したり，可視化する際にはネットはや ,/, などの新しいウェブでも同様である．しワークのクラスタリングがよく行われる．クラスタリンたがって，ネットワークの計算が重要な働きをする．それグは人工知能の分野で古くから行われているタスクであと同時に，ページを収集し高速に検索を可能にする検索るが，ネットワークのクラスタリングはネットワークがエンジンをどう研究に用いていくかも重要な技術である．与えられたときにそれを（直観的に適切な部分に）分割昨年，大きな話題となった「:)」は，ユーザとシする処理であり，エンティティの類似度を定義した上でステムがどのようにインタラクションするか，どのよう結合（もしくは分離）していく古典的なクラスタリングにユーザを巻き込んでいくかが大きな焦点である．それ方法とはスタート地点が異なる．に対して，コンピューティングは，あくまでも自動図 : は ! の高いエッジを除去するクラスタ処理による計算を基礎とするものである．しかし，このリング方法である．12 でエッジ 9 は ! が２つは相反するものではなく，相補的なものであって，自高い．（すなわち，任意の２ノードをつなぐ多くの最短パ動処理があるからこそユーザをうまく巻き込める仕組みスがエッジ 9 を含んでいる．）これまでもグラフを分割が作れるわけであり，ユーザを巻き込めるからこそ，さするために，最小流カット（9）などの方法があっらに価値のあるデータ処理が行えるわけである．たが，12 では最小流のエッジは 9 と 9 の２つ候補がウェブは，社会的な現象，言語現象を映す鏡である．こあるのに対して，! の高いエッジは 9 の一のデータのコンピューティングは，すなわち言語学や社意に決まる．このように ! を考慮したクラス会学の分析でもあり，こういった学問分野に従来はできタリングは，ネットワーク全体のトポロジを考慮し，バなかったさまざまな知見を提供する．例えば，ソーシャランスのよいクラスタを作ることができる．ルブックマーキングのタグの分析は，あるタグが使用をその後の研究で，この ! の高いエッジを切るというクラスタリング方法は，下記のを最大化する通じて社会的な意味を持つにいたるまでの過程を観測可能にする．知識をどう取り出すかというコンピュテーショ人工知能学会論文誌ンは重要であり，例えば，? にウェブから得た知識をどう取り込むかという研究 3> )74 もある．ウェブは今後もますます人工知能の重要な一分野になっていくであろうし，それがさまざまなレベルに細分化していき，現在行われている人工知能の技術（例えば，オントロジー，コミュニティ，ロボット，ユビキタス，身体知，推論）とさまざまな形で融合していくのではないかと思う．現在，人工知能とウェブの中間にある研究分野は , であるが，現在の , の研究は，人工知能とウェブを融合するひとつの形にすぎない．欧州を中心とした , の研究，米国を中心とした検索や :) のビジネスを参考にしながらも，それに捉われすぎることなく，さまざまな角度からウェブ上のコンピューティングに取り組んでいくことは，日本の研究コミュニティとして重要な方向性であろう．参考文献 * + * ( *#( , , - .# !/ )0 " ( #0) #. 1) '1 2 +3 *#))) 45 *#))) & # 6 ( 7" 8! 8!)9 1 '#( : '1 8 ; 24453 * + * 8 ;< ( )# .#! #)( ( 1 2 +3 * +1 * 8 ( % = ,#!9 #. / 8) >9<) '1 8 ; 2 +3 *#( 44 *#( , ! #) / 0 % $#) 8 8 =#! , ( ' ? @ 1 24443 @0 4 @0 ( ! ; ? A#!!9 #) ( 1#)#) # B#) +5 C+5 2443 ? 4 ? @ ( '(#! ? 8) %#)"( '1 8 ! 5 C5 2443 " 5 " > 8)! * ( 8 = >(/ ( '1 " B#) + # 5C 2 53 )1 + )1 ? ,#0 8# >9)( ;0#! #$# % +C55 2 +3 ! ! 8 0 % $#) 8 ( =# , =) 1 .# ! 91 #!/ ! & 2 3 4 ( )) = '1 */ ) ;0) %.#! #. :0( '1/ 1( #() .# #. % = '()$ ( * C + 2443 45 A 0 % ( 8" > % +, A!1( :0/ 9 % 24453 #) 0# " 4 " A '1# ) A1) ? 8( & 8 % ( & 8/ .# A#!!# 8 %#) A9 .#! '1 $- 2443 4 % ) 8! '1 =#)#9 .# ;<# ( ,)9 #. 8#) # .% B#) # 2443 # 4 # @ !# 8 ( / #0 7 7#(# # >< 0) -)9 1 巻号（年） ) %# 7#) '1 ,0 '## 27',' ’43 2443 ! 4 ! )#! .# ( #!!9 # +, / B#) 2443 % 4 % & *! ? . , ( ? , D" ( 8 '#)('('1 #. / 8 D D/ ))# ;<# A)/ ) 0 2443 % ( B > #!!( 89/ ! % # B#) 4 # C+ 2 3 % 7#0# 8 *#! % ( () ? @#) , # .# #))1#0 E) #. 1* 5C + 2 3 8! 4 8! ( >)! = , '1/1( / ) # .# 8# =< 8 $ ( 2(-3 C 2443 = 4 = ; ( A) A -9 ! .# ) #( !)9 ! '()4( ! 2443 =9 4 =9 % '1 .# 89#9! % 7/7 0 8, # =D; /#($5 C4 244 3 著者紹松尾介豊（正会員）年東京大学工学部電子情報工学科卒業．年同大学院博士課程修了．博士（工学）．同年より，産業技術総合研究所情報技術研究部門勤務，年月よりスタンフォード大学客員研究員．人工知能，特に高次マイニングに興味がある．情報処理学会，言語処理学会，，の各会員．松村真宏（正会員）年大阪大学基礎工学部卒業．年同大学院基礎工学研究科修士課程修了．年東京大学大学院工学系研究科博士課程修了．博士（工学）．東京大学情報理工学系研究科ポスドクを経て，年月より大阪大学大学院経済学研究科専任講師，現在に至る．情報処理学会，日本マーケティング・サイエンス学会の会員．現在は主にコミュニケーションマイニングとフィールドマイニングに取り組んでいる．