Webコンピューティング

解
説
コンピューティング
松尾 豊
産業技術総合研究所
スタンフォード大学
松村 真宏
大阪大学大学院経済学研究科
リンク構造,
,検索エンジン
! !
! "
! !
! ! # # ! # ! ! ! !
$
は じ め に
れていたが,徐々に小規模の研究グループが行うことは
が大きな普及を遂げ,その発展とともにウェブ
クロールの対象を限定した研究を行ったり,また .
や
を対象とした検索・加工・マイニング等のアルゴリズムも
ニュースサイト等に情報源を限ってページの収集とシス
進展している. 年には,"
で使われていると
テム構築を行う研究にシフトした.そういった流れとは別
して有名になった アルゴリズムが提案され,
に,このところ増えているのが検索エンジンをいわば下
その後さまざまな改良が行われた.また,ウェブコミュ
位システムとして扱う研究である.こういった研究では,
ニティを抽出する方法や,ユーザの必要なページに絞っ
検索エンジンをウェブページの収集と索引付けを行うモ
てクローリングする !
の手法なども各種
ジュールとして考え,それを利用した応用を研究する.
提案されてきた.
最近では,ウェブを検索だけではなく,情報の集約や
加工に用いようという研究が多く行われるようになって
きている.ウェブを用いた %& システム,評判情報の抽
出,オントロジーの自動構築,社会ネットワークの抽出
などである.これらのシステムに共通するのは,大量の
ウェブデータを背景として,検索と言語処理をうまく組
み合わせることで高度な情報処理を行う点である.
ウェブ上のデータを対象とした情報処理,すなわち
コンピューティングは,現実的な問題から大きく2
つに分けて考えることができるだろう.ウェブページの
クロールを行うか行わないかである.現在では "
や
'(などの検索エンジンが )) 億ページ以上のページ
をインデキシングしており,これと同規模の検索エンジ
ンを作り,学術的に用いることはほぼ不可能である.した
がって,ウェブページのクロールが必要となる や *+, などのウェブリンクの研究は以前は活発に行わ
難しくなった£ .そこで,- !
と呼ばれる
このようなウェブページの収集と検索に関する部分,
そしてそれを利用した応用に研究が二分されていくこと
は,.
(.
の検索エンジン(+ 等)とそ
れを利用した研究)や , (, の検索エンジン(,!
)とそれを利用した研究)な
ど,ウェブの部分領域でも見られる.歴史的に見れば,計
算機科学というひとつの研究領域から,データベース工
学とデータベースを用いる応用研究(自然言語処理や画
像処理,人工知能)が分化していったように,このよう
な流れは必然的なものであるだろう.そして,より人間
の側に近い「知識処理」「情報処理」を目指す & 研究に
とって,検索エンジンを利用した研究というのは,これ
からの コンピューティングにおいて重要なひとつ
の研究分野になっていくと考えられる.
以下では,ウェブページの収集を行った上で,リンク
ウェブのインフラ系の企業の研究所,ウェブのアーカイブを
専門とする研究室などでは可能である.
人工知能学会論文誌
巻
号 ( 年)
構造の計算を行う(2章),適切な収集と提示を行う(3
ワードに関連するウェブページ集合に対し,まず情報源
章)技術を述べる.さらに,検索エンジンを使った応用に
としての価値を表す & スコアと,ウェブページ
関するコンピュテーション(4章),そしてブログや ,/,
へのリンク集としての価値を表す * スコアを定義す
などの新しいウェブにおけるコンピュテーション(5章)
る.次に,& スコアの高いウェブページへのリ
について述べる.
ンクをもつウェブページの * スコアを上げ,* スコ
アの高いウェブページからリンクされているウェブペー
ウェブのリンク構造を使ったコンピュテー
ジの & スコアを上げるという相互依存関係に基
づいてスコアを再帰的に計算する.ウェブページ
ション
& スコアを ,* スコアを
の
,
ブページにリンクを張り巡らした結果として形成された
にリンクを張っているウェブページ集合を とすると,
以下の反復計算によって と を求める
ものである.本章では,そのようなウェブのリンク構造
ことができる.
ウェブのリンク構造は,人々が興味や関心のあるウェ
の特徴を利用したコンピュテーションとして,
アルゴリズム,*+, アルゴリズム,コミュニティ抽出
について紹介する.
・ アルゴリズム
検索エンジン "
の開発者であり,"
は,ウェブのリンク構造を利用してウェブペー
ジに重要度を付与するアルゴリズムである. は
良質なウェブページからリンクされているウェブページは
やはり良質であるというアイデアに基づいてウェブページ
の重要度を定義する.したがって,例えば '(0&&/
のトップページのような の高いウェブページ
1:2
1;2
ただし,
と
の共同設立者である . と によって提案された
は
1
2 5 1<2
1
2 5 172
を満たすように反復計算の度に正規化される.
ウェブページに複数の話題が含まれている場合,検索
キーワードと関係のないウェブページの & スコ
からリンクを張られたウェブページの は高く
アと * スコアが高くなってしまう + 問題が
なる.
知られている.そこで,リンク構造だけでなくウェブペー
12 をウェブページ の , にリ
ンクを張っているウェブページ集合を ,ウェブ
ページ 内のリンク数を 1 2 とすると,
は以下の式から再帰的に求められる 3. 4.なお,
全てのウェブページの の総和は になるよ
いる 3. 4.
・
コミュニティ抽出
*+, アルゴリズムや アルゴリズムがリン
うに反復計算の度に正規化される.
12 5 1 2 6 ジの内容の類似度も考慮するなどの改善策が提案されて
1 2
1 2
12
は減衰係数 1 2 であり,3. 4 で
は 5 )7 と設定されている.式 12 は,ウェブページ
ク構造からなるウェブコミュニティを利用してウェブペー
ジの重要度を求めているのに対し,ウェブコミュニティそ
のものの発見に取り組む研究もある.一般にウェブページ
は,関連する全てのウェブページにリンクを張っているわ
けではないし,ライバル関係にある会社や意見や考えの
のリンクをランダムに辿りながらウェブページを見て回
対立するウェブページにもリンクを張らないという傾向
るユーザの振る舞いをモデル化したものと見なすことが
がある.そこで 8 らは,ウェブコミュニティにはそ
できるので,ランダムサーファーモデル 1 2 と呼ばれている.このとき, はリンクを辿らず
に他のウェブページにジャンプする確率に対応する.な
お, は検索キーワードに関係なく一意に与え
られる値である.
・ アルゴリズム
とほぼ同時期に発表された 8
によ
る *+, 1*
9 + ,238
4 もウェブのリンク構造を用いてウェブページの重要
度を求めるアルゴリズムである. *+, では,検索キー
の核となるべき中心的なウェブページ( と呼ぶ)
と,そのウェブページに対してリンクを張るウェブペー
ジ( と呼ぶ)が存在していると仮定し, と
の間に形成される完全2部グラフをウェブコミュニ
ティとして抽出するアルゴリズムを提案している 38
4.この方法だと,直接リンクが張られていないウェブ
ページも を介してつながっていれば同一のコミュニ
ティとして取り出すことができる.
上記の方法がコミュニティの密な部分を発見する手法
なのに対し,ウェブコミュニティを繋いでいるエッジ(リ
ンク)を見つけることでコミュニティを発見する方法もあ
コンピューティング
る." らは,任意の : つのウェブページ間の最短経
路に含まれる頻度によって定義される !
・
Ü
ウェブページの提示
パーソナライゼーション
を各エッジに対して計算し, ! の高い
たかだか数語からなる検索キーワードからユーザの検
エッジを取り除いていくことで密なウェブコミュニティ
索意図を正確に把握することは難しいため,検索エンジン
を発見する方法を提案している 3" ):4(5章に後述
を使っても膨大なウェブページの中から所望の情報を見つ
する).
けることは容易ではない.この問題に対処する一つの方法
が検索結果のパーソナライゼーション 1
2
ウェブページの収集と提示アルゴリズム
検索エンジンは膨大なウェブページを収集し,検索で
きるように索引付け 1#2 を行っている.また,検
索キーワード 12 を含むウェブページは膨大な数に
上るので,ユーザの興味に沿ったウェブページが検索結
果の上位に来るようにさまざまな工夫が凝らされている.
そこで本章では,ウェブページの収集と提示のアルゴリ
ズムについて概観する.
・
である.例えば,"
のパーソナライズド検索£では,
ユーザがこれまでに入力した検索キーワードや閲覧した
ウェブページの履歴に基づいて検索結果の順位付けを行っ
ている.したがって,もしユーザが過去にアップルコン
ピュータの製品について検索したことがあれば,
「アップ
ル」という検索キーワードが入力されたときにそれが果
物の「アップル」ではなくコンピュータメーカの「アッ
プル」であると判断できるようになる.また,0 らは
の , >
に優先すべきウェ
ブページ(例えばブックマークに登録されているウェブ
ページなど)にジャンプするテレポーテーション確率を
ウェブページの収集
導入した を提案している 30
と呼ばれるソフトウェアがウェブページのリンクを辿り
);4.
Ü 適合フィードバック
適合フィードバック 1
2 は,検索結
ながら収集するロボット型がある.ディレクトリ型は良
果に対するユーザからのフィードバックに基づいてクエ
質なウェブページを登録できるが,収集できるウェブペー
リーベクトル(検索キーワードをベクトル表現したもの)
ジの量に限界があるので,近年では膨大なウェブページ
の重みを更新する方法である.フィードバックは,検索
を登録できるロボット型が主流である.しかし,ウェブ空
結果の個々のウェブページに対し,
「適合」
「不適合」のラ
間はリンクを辿ることによって互いに到達可能なウェブ
ベルを与えることで行われる.適合フィードバックの代
ページ,到達はできるが戻って来られないウェブページ,
表的な方法である のアルゴリズムは以下の式で
到達不可能なウェブページが蝶ネクタイのように組み合
表される.
ウェブページの収集には,人手でウェブページを登録
するディレクトリ型と,クローラ(もしくはスパイダー)
わさっているため,リンクを辿るだけでは収集できない
ウェブページがあることが知られている 3. ))4.そ
のような収集できないウェブページは = 1もし
くは 2 と呼ばれており,検索できるウェブ
ページの <))∼7)) 倍ものウェブページがあると言われ
ている.
ウェブページは内容が更新されるので,できるだけ最
新の内容を索引に反映させる必要がある.そこで検索エ
ンジンのクローラは,更新頻度の高いウェブページや重
要なウェブページ(例えば の高いウェブペー
ジなど)の優先順位を上げるなどして膨大なウェブページ
を効率よくクローリングしている.ウェブ上の情報(ウェ
ブページだけでなく,ソフトウェアやマルチメディアデー
タまで含む)のスナップショットを収集して公開してい
る &£ が作成したクローラ *#£ は
オープンソースとして公開されており,その詳細は 3>
)<4 に詳しい.収集すべきトピックを限定して,そのト
ピックに合うウェブページだけを選択的に収集するさま
ざまな - ?!
の方法が提案されている.
¼ 5 6
1@2
¾ ¾
¼ は更新されたクエリーベクトル, は元のクエリー
ベクトル, はユーザが適合と判断した文書集合, はユーザが不適合と判断した文書集合, はそれぞ
れ重みパラメータである.このようにして,適合と判断
された文書のベクトルに近く,不適合と判断された文書
のベクトルから遠くなるようにクエリーベクトルの重み
を更新する.
また,適合文書集合,不適合文書集合が与えられれば,
/ . などを用いた分類器 1
$2 を構築し
て適合フィードバックを行うこともできる.語 が適
合文書,不適合文書に現れる確率は
1 5 62 5
1 5 2 5
12
は全文書数, は を含む文
書数, は を含む適合文書集合, はカテゴリ(6
で表される.ここで
1A2
表
人工知能学会論文誌
½ つのメッセージに対する の評価スコ
ア( の を一部改変)
>
:
;
<
7
@
8
7
B
<
:
:
<
7
:
>
:
<
;
7
5
あるウェブページ のカテゴリを決定する問題は事後確
12 を最大化するカテゴリ C を求める問題と等し
く,その / . ?
$ は次式で表される.
C 5 #
12
¾
1 2
5
5
7
::::
5 )
) )
1)2
による重みを乗した値の和として得られる.
D
¾ 1 2
: 5 ;6
6 : 1)2
5 ;6
5 <7@
6 )
C 5 D 6
Ü 推薦システム
ウェブから入手できる情報はウェブページだけではな
るといったオンラインショッピングが日常的に行われてお
12
D
D
1 21 2
D D 1 2
1 2
同様に計算すると,8 と > の相関係数 は
,8 と / の相関係数 は ) となる.
8 のメッセージ への評価スコアの予測値 C は,
他の人たちのメッセージ への評価スコアに相関係数
12
い.近年ではネットを介して本を買ったりホテルを予約す
号 ( 年)
/
:
<
は適合, は不適合)である 3> )A4.このとき,
率
) となる.
巻
12
8 のメッセージ に対する評価スコアの予測値は
C
5 <7@ と大きい値になっているが,これは 8 と相
り,既に生活の一部となっている.そのような場面で用い
関係数の高い > がメッセージ に高い評価スコアを
られる技術が,お勧めの映画やレストランをユーザの興味
付けている影響が大きいからである.
に合わせて提示してくれる推薦システム 1
23 :4 である.
推薦システムは,コンテンツに基づくフィルタリング
協調フィルタリングには,新しい商品には評価情報が
少ない ?
, ,商品の種類が多すぎると
十分な情報が集まらない , ,嗜好の合
と協調フィルタリングに分けられる.コンテンツに基づ
わない人の意見は役に立たない " , ,
くフィルタリングは,ユーザの興味・嗜好を表すプロファ
人ごとに評価スコアの基準が異なる,評価スコアのない
イルとウェブページ中に含まれるキーワードやアイテム
ユーザには使えない,といった問題点が指摘されている
の属性情報とのマッチングによって,ユーザの興味・嗜好
が,それでも大変有効な方法であることは実際の運用に
に合った情報を提示する方法である.ユーザのプロファイ
おいて実証されている.例えば &E£ の「この
ルは,アンケート等から明示的に獲得する方法と,ユー
商品を買った人はこんな商品も買っています」欄の商品
ザの閲覧履歴等から暗黙的に獲得する方法がある.明示
を利用したことのある読者も多いのではないだろうか.
的な方法では信頼性の高い情報が得られるが,ユーザに
負担を強いることになる.一方,暗黙的な方法ではユー
ウェブ検索を用いたアルゴリズム
ザへの負担はほとんどないが,正確なプロファイルを得
ることが難しい.
検索エンジンが整備され,人々が検索エンジンを使って
協調フィルタリングは,ウェブページやアイテムにつ
情報の収集を日常的に行うようになると,検索エンジン
けてもらった評価スコアを使い,ユーザと同じような評
を用いたコンピューティングが可能になる.例えば,ウェ
価スコアをつけた人たちの傾向を利用して,ユーザの興
ブ上の情報で,どういった語とどういった語が関連が深
味・嗜好に合うと推測される情報を提示する方法である.
いか,上位語,下位語は何か,エンティティ間の関係は
表 に 8 B > / の < 人がメッセージ か
何かといった処理に検索エンジンを用いることができる.
らメッセージ までの @ つのメッセージ(のいずれか)
に付けた評価スコアの例を示す.ここで, のア
ルゴリズム 3 <4 を用いて 8 のメッセージ 検索エンジンを使ったコンピューティングの基本とな
るのは以下の2つである.
ト件数を得る.
に対する評価スコアを推定する方法は次のようになる.
まず,8 と他の人との興味・嗜好の近さをピアソン
の相関係数より求める.例えば,8 と B の相関係数
は,二人が共に付与したアイテム(この場合はメッ
セージ )にだけ着目すると以下の式より
統計情報を得る.すなわち,クエリーを構成してヒッ
用例を得る.すなわち,クエリーを構成して目的に
応じた文書を得る.
以下ではそれぞれについて説明する.
!"# # $
コンピューティング
・
る.このとき,各選択肢のスコア 1 2 を相互情報
統計情報を得る
検索エンジンを使った最も一般的な統計情報は,ヒッ
ト件数を用いるものである.検索エンジンのヒット件数
量(! >
)により次のように
求める.
1 2 5 11I 22 121 22
は,ウェブ全体(検索エンジンに索引付けされている文書
全体)をコーパスと考えたときの文書頻度(=
「人工知能学会」とい
-)に相当する.例えば,
うクエリーは "
で A 万 ))) 件ヒットする.これ
は,
「人工知能学会」という語を含む文書が A 万 ))) 件
これを求めるために検索エンジンのヒット件数を用い
存在することを示す.
(厳密には,複製文書の認識やドメ
は除去できる.
)このほかにも,/H& オペレータを用い
インごとの処理の影響があるため,この数字が文書頻度
そのものであるとは限らない.
)これに対して「情報処理
学会」は ) 万件,
「電子情報通信学会」は )7 万件,
「言
語処理学会」は < 万 7)) 件ヒットする.この数字が何
を表しているのかを一言で言うことは難しいが,少なく
とも事実として,ウェブ上にある「人工知能学会」とい
う語を含む文書の数は,
「情報処理学会」
「電子情報通信
学会」という語を含む文書の数より少なく,
「言語処理学
会」という語を含む文書の数より多いことが分かる.
1つの語ではなく2つの語をクエリーとすると,語の
共起情報が得られる.例えば,
「人工知能学会 &」という
クエリーで検索(&/= 検索)すると,7 万 7@)) 件ヒッ
トする.これは,
「人工知能学会」「&」の両方の語を含
む文書が 7 万 7@)) 件あるということであり,文書を共
1 2 5 !1 &/= 2 !1 2
を計算する.
(最大となる を求めたいので,12 と た指標,/G+ オペレータを用いた指標を考慮し,&/=
オペレータだけの最も単純なものでも @:7J(複雑なも
のでは A;A7J)の精度であると報告している.その後,
H + らは,+ の報告をより詳細に検証し,さ
まざまな共起指標や共起の範囲(文書単位か何語以内と
いう範囲かなど)を変えて実験した 3+ );4.そのと
き最も結果が良かったのは,=9>(文書単位の相互
情報量を用いたもの)で、共起を測るウィンドウのサイ
ズが @9;: 語のときであった.
これを利用すると,さまざまなエンティティの関連性
を求めることができる.例えば,2人の氏名 " と # の共
起関係の強さ 1"# 2 を同様の方法で測ることもできる.
例えば,
係数という共起指標で測る場合には,
1"# 2 5 !1"
起の単位としたときのコーパス中の共起頻度と見なすこ
&/=
#2
1!1" 2!1# 22
とができる.多くのコーパス言語処理では,単語の生起
となる.この値の高い氏名を見つければ,それは何らか
頻度,そして共起頻度を用いるが,この2つが検索エン
の意味で関連が深い人物であることが推測できる.これ
ジンのインタフェースを介して利用できるわけである.
を利用した研究に 3> )7 8 A4 などがあり,一定
共起頻度を使えば,さまざまな処理が可能になる.例
のコミュニティにおける研究者の関連を測ったり,自分と
えば,
「&」という語と他の学会名の共起頻度を計ってみ
目的の人物(例えば * 8 から > > )
よう.
「情報処理学会 &」では A 万 A)) 件,
「言語処理
をつなぐパスを探したりすることができる.
学会 &」は A< 件,
「知能情報ファジィ学会 &」は 7:
件である.この共起頻度を,学会名単独のヒット件数で
割ると
・
用 例 の 検 索
検索エンジンを用いたもうひとつのコンピューティン
人工知能学会と &F 77@)) A))) 5 );:7
グは,用例の検索である.例えば,
「うどん・そばなどの
電子情報通信学会と &F A))) )7)))) 5 )
麺類の販売」という句があれば,うどんやそばが麺類と
情報処理学会と &F AA)) ))))) 5 ))A:
いうクラスに属することが分かる.英語では * の
日本知能情報ファジィ学会と &F 7:
:):)) 5
)):@
パターンが有名で,例えば,次のようなものである.
12
12 1K2
1 2 これを使うと, が のクラスに属する
( と 9 関係がある)ことが分かる.すなわち,9
関係にあるかどうか調べたい2つの語 " と # があれば
言語処理学会と &F A<
<7))) 5 ))):
となる.これは確率的には「学会名が出現する文書で &
という語が出現する確率」を表しており,人工知能学会
と & の共起が最も強いことが分かる.
このアイディアを用いて,検索エンジンを用いて関連
語を認識する研究として最も早い時期に行われたものが,
+ らの研究である.+GH-B のシソーラスの同
LM 'N というクエリーを検索エンジンに入れ,
定問題(「次の中から,∼と同義である語を選びなさい」
それに該当する文書があるかどうかを調べれば良い.
という問題)を,検索エンジンを用いて答えるシステム
このような処理は,基本的に大規模なコーパスであれ
を作り,ノンネイティブの学生の平均スコアを上回る精
ばある程度可能であるが, というデータの量がある
度で正解することができると示した 3+ )4.ここ
からこそ,簡単なアルゴリズムでも良い精度が得られる.
で問題となる語を
例えば,&
はりんごであるが,会社名でもある.自
とし,選択肢となる語を とす
人工知能学会論文誌
然言語処理でよく用いられるシソーラスの / に
は,&
が会社名であるという情報は載っていない.し
かし, を調べれば,L&
N
巻
号 ( 年)
新 し い ウェブ
ウェブ :) と呼ばれる新しいウェブサービスが注目さ
L&
N などの記述がすぐに
れている.# や " などのソーシャルネットワーキ
見つかる.
ングサービス 1,/,2,ブログ,ソーシャルブックマーク
このように語の関連性や語に関する知識を得る研究
などのサービスである.国内外でこのようなデータを対
はさまざまな形で行われている.例えば,, らは,
象にした研究が行われている.
&/8G( &/ 8!
9
G 2 というシステムで,検索エンジンを
使ってオントロジの抽出を試みている.B らは,
ンテンツを対象とした処理,そしてコンテンツ間の関連
の検索ヒット数をさまざまな自然言語処理のタスクに適
対象とした処理としては,例えば,ブログのエントリの
用し,タスクによっては既存のコーパスの結果を凌ぐこ
分類(男女の分類,肯定的意見/否定的意見の分類)な
とを報告している 3B )<4.
どがあるが,新しいウェブであることに起因する本質的
なお,検索エンジンを使って文書を取得して処理を行
うには,文書をダウンロードする(*+>B ファイルを入
手する)必要がある.検索エンジンから返ってくる結果
は,OB とその内容を要約したもの(スニペットと呼
ばれる)であり,そのページ全体を取得するには,その
OB(もしくはキャッシュ)をダウンロードしなければ
いけない.ところが,いちいち文書をダウンロードする
のは時間がかかる場合があるし,処理しやすい *+>B
でなければ面倒な処理が必要になる£ .したがって,ス
ニペットだけを用いて処理をする場合もある.例えば,
, らは検索した2つの語(例えば「人工知能」と
「&」)の 同士がどのくらい似ているかをター
ムベクトルの類似度で測ることで認識している 3,
)74.前節のヒット件数とパターンの処理を両方含んだ研
究 3.
)A4 もある.
・
人工知能にとっての意義
検索エンジンを使ったコンピューティングの基礎とな
るのは,エンティティとその関係の認識である."
の共同設立者 . は, 年に LH# !
! !N という論文
3. 4 を書いている.この論文では,著者と本のタ
イトルなどエンティティの関係性を取り出すことの重要
こういった研究の処理は,大きく2つに分けられる.コ
性やユーザの関連性を用いた処理である.コンテンツを
な違いはない.こういった新しいウェブで重要になるの
が,個々のユーザやページの関係性,そしてその総体と
してのネットワークである.
,/, はそのままユーザの関係が社会ネットワークであ
る.ブログは,コメント,トラックバック,エントリ中の
OB,ブログロールなど各種の関係があり,同様に複数
の関係を持つ社会ネットワーク(
# ! と
呼ぶ)となる.ソーシャルブックマークは基本的にタグ・
ユーザ・インスタンスの3部グラフであるが,これも社
会ネットワークに帰着することができる.
ネットワークに関する計算は,古くから社会ネットワー
ク分析の分野で行われてきた.ここ ) 年ほどは複雑ネッ
トワークとして統計物理の分野でも研究されている.大
きくまとめると,次のような処理がある.
や の計算,次数分布,
中心性の計算
クラスタリング
以下では簡単に概説する.
・ 次数分布 中心性の計算
各種の研究で決まって行われるのが, や ,次数分
布や中心性の計算である.平均パス長 は,ネットワー
クのコンポネント(連結成分)に含まれる各ノード間の最
短パスの長さの平均である.クラスタ係数 は,各ノー
性とその手法について,当時の技術からのアプローチが
ド ! に隣接するノード数の数を $ とすると, 本存在
述べられている.現在でも "
ではこういった研究が
しえるエッジのうち実際に何本あるかをすべてのノード
行われている 3 )@4 が,ウェブ上の情報処理をさら
に対して平均をとったものである.
(次数が ), のノード
に高度化するには,エンティティ間の関係を捉えなけれ
については平均から除外するのが通常である.
)例えば,
記号の世界であるウェブをフィールドとして,成熟して
# 全体(ユーザ数が ; 万人の時点)の は 77: で
あり,任意の : 人は平均 77: ステップでつながってい
る. は );: であり,自分の : 人の友達は ;:Jの確
きた検索エンジンをツールに,エンティティの関係性を
率で友達である.
ばならない.関係性を基本とする知識の表現や処理(推
論)は人工知能の技術で古くから扱われてきた.膨大な
捉え処理する技術は,今後の重要な方向性のひとつでは
ないだろうか.
次数分布は,次数(ノードのもつエッジの数)の分布
を示したものである.図 は # の次数分布を示したも
ので,こういった両対数グラフで分布が直線状になるか
フレームの処理,文字コードがおかしい文書,%& や '#(
等の文書や ) を用いたページなどの処理である
どうかを調べる.この3つの分析(
次数分布)で
分かるのが,ネットワークがスケールフリーであるかそ
コンピューティング
図
図
½
¾ ! クラスタリングの例
ノードの分割を見つける改良法が提案された 3/!
次数分布
)<4.
うでないか,である.
5
ネットワーク全体を概観したあと,ネットワークの個々
のノードに注目した分析に移る.その際,中心的なプレ
イヤーを求める中心性の分析がよく行われる.中心性の
計算方法としては,以下の3種類が一般的である.
次数.エッジの数である.
距離中心性.各ノードから他のノードへの
最短距離の平均.
媒介中心性.他の2ノードのの最短パ
ス上にそのノードが含まれる割合である.
: 章で紹介した アルゴリズムも実は中心性の
計算のひとつであり,社会ネットワーク分析の分野では
. の中心性として A) 年代から知られていたも
のである.
・
ここで, はクラスタ
1:2
! の中にあるエッジの割合であ
り, はクラスタ ! と % を結ぶエッジの割合である.し
たがって,クラスタ内のエッジを増やし,クラスタ間の
エッジを減らす方向に分割する(実際は,個々の点から
始めてマージしていく)すればよい.これは,古典的な
クラスタリングで,クラスタ内の類似性を最大化し,ク
ラスタ間の類似性を最小化するという考えと同一のもの
になっている.
む
す
び
本稿では,ウェブ上の情報を処理するための基礎とな
るコンピュテーションをいくつか紹介した.ウェブの特
クラスタリング
徴は,ページが相互にリンクしていることであり,これ
ネットワークを処理したり,可視化する際にはネット
は や ,/, などの新しいウェブでも同様である.し
ワークのクラスタリングがよく行われる.クラスタリン
たがって,ネットワークの計算が重要な働きをする.それ
グは人工知能の分野で古くから行われているタスクであ
と同時に,ページを収集し高速に検索を可能にする検索
るが,ネットワークのクラスタリングはネットワークが
エンジンをどう研究に用いていくかも重要な技術である.
与えられたときにそれを(直観的に適切な部分に)分割
昨年,大きな話題となった「:)」は,ユーザとシ
する処理であり,エンティティの類似度を定義した上で
ステムがどのようにインタラクションするか,どのよう
結合(もしくは分離)していく古典的なクラスタリング
にユーザを巻き込んでいくかが大きな焦点である.それ
方法とはスタート地点が異なる.
に対して, コンピューティングは,あくまでも自動
図 : は ! の高いエッジを除去するクラスタ
処理による計算を基礎とするものである.しかし,この
リング方法である.12 でエッジ 9 は ! が
2つは相反するものではなく,相補的なものであって,自
高い.
(すなわち,任意の2ノードをつなぐ多くの最短パ
動処理があるからこそユーザをうまく巻き込める仕組み
スがエッジ 9 を含んでいる.
)これまでもグラフを分割
が作れるわけであり,ユーザを巻き込めるからこそ,さ
するために,最小流カット(9)などの方法があっ
らに価値のあるデータ処理が行えるわけである.
たが,12 では最小流のエッジは 9 と 9 の2つ候補が
ウェブは,社会的な現象,言語現象を映す鏡である.こ
あるのに対して,! の高いエッジは 9 の一
のデータのコンピューティングは,すなわち言語学や社
意に決まる.このように ! を考慮したクラス
会学の分析でもあり,こういった学問分野に従来はでき
タリングは,ネットワーク全体のトポロジを考慮し,バ
なかったさまざまな知見を提供する.例えば,ソーシャ
ランスのよいクラスタを作ることができる.
ルブックマーキングのタグの分析は,あるタグが使用を
その後の研究で,この ! の高いエッジを切
るというクラスタリング方法は,下記の を最大化する
通じて社会的な意味を持つにいたるまでの過程を観測可
能にする.知識をどう取り出すかというコンピュテーショ
人工知能学会論文誌
ンは重要であり,例えば,? にウェブから得た知識を
どう取り込むかという研究 3> )74 もある.
ウェブは今後もますます人工知能の重要な一分野になっ
ていくであろうし,それがさまざまなレベルに細分化し
ていき,現在行われている人工知能の技術(例えば,オ
ントロジー,コミュニティ,ロボット,ユビキタス,身
体知,推論)とさまざまな形で融合していくのではない
かと思う.現在,人工知能とウェブの中間にある研究分
野は , であるが,現在の , の
研究は,人工知能とウェブを融合するひとつの形にすぎ
ない.欧州を中心とした , の研究,米国を
中心とした検索や :) のビジネスを参考にしながら
も,それに捉われすぎることなく,さまざまな角度から
ウェブ上のコンピューティングに取り組んでいくことは,
日本の研究コミュニティとして重要な方向性であろう.
参 考
文 献
* + * ( *#( , , - .# !/
)0 " ( #0) #. 1) '1 2 +3
*#))) 45 *#))) & # 6 ( 7" 8! 8!)9 1 '#( : '1
8 ; 24453
* + * 8 ;< ( )# .#!
#)( ( 1 2 +3
* +1 * 8 ( % = ,#!9 #. /
8) >9<) '1 8 ; 2 +3
*#( 44 *#( , ! #) /
0 % $#) 8 8 =#! , (
' ? @ 1 24443
@0 4 @0 ( ! ; ? A#!!9
#) ( 1#)#) # B#) +5 C+5
2443
? 4 ? @ ( '(#! ? 8) %#)"( '1
8 ! 5 C5 2443
" 5 " > 8)! * ( 8 = >(/
( '1 "
B#) + # 5C 2 53
)1 + )1 ? ,#0 8# >9)( ;0#! #$# %
+C55 2 +3
! ! 8 0 % $#) 8 ( =# , =) 1 .# ! 91 #!/
! & 2 3
4 ( )) = '1 */
) ;0) %.#! #. :0( '1/
1( #() .# #. % = '()$
( * C + 2443
45 A 0 % ( 8" > %
+, A!1( :0/
9 % 24453 #) 0#
" 4 " A '1# ) A1) ? 8( & 8 % ( & 8/
.# A#!!# 8 %#) A9 .#! '1 $- 2443
4 % ) 8! '1 =#)#9 .# ;<# ( ,)9 #. 8#) # .%
B#) # 2443
# 4 # @ !# 8 ( /
#0 7 7#(# # >< 0) -)9 1
巻
号 ( 年)
) %# 7#) '1 ,0 '##
27',' ’43 2443
! 4 ! )#! .# (
#!!9 # +, / B#) 2443
% 4 % & *! ? . , (
? , D" ( 8 '#)('('1 #.
/ 8 D D/
))# ;<# A)/
) 0 2443
% ( B > #!!( 89/
! %
# B#) 4 # C+ 2 3
% 7#0# 8 *#! % ( () ? @#) , #
.# #))1#0 E) #. 1* 5C + 2 3
8! 4 8! ( >)! = , '1/1( /
) # .# 8# =< 8 $
(
2(-3
C 2443
= 4 = ; ( A) A -9 ! .#
) #( !)9 ! '()4(
! 2443
=9 4 =9 % '1 .# 89#9!
%
7/7 0 8, # =D; /#($5 C4 244 3
著
者 紹
松尾
介
豊(正会員)
年 東京大学工学部電子情報工学科卒業. 年 同
大学院博士課程修了.博士(工学).同年より,産業技術総
合研究所 情報技術研究部門 勤務, 年 月よりス
タンフォード大学客員研究員.人工知能,特に高次 マイニングに興味がある.情報処理学会,言語処理学会,
, の各会員.
松村 真宏(正会員)
年大阪大学基礎工学部卒業. 年同大学院基礎
工学研究科修士課程修了. 年東京大学大学院工学系
研究科博士課程修了.博士(工学).東京大学情報理工学
系研究科ポスドクを経て, 年 月より大阪大学大学
院経済学研究科専任講師,現在に至る.情報処理学会,日
本マーケティング・サイエンス学会の会員.現在は主にコ
ミュニケーションマイニングとフィールドマイニングに取
り組んでいる.