検索エンジンを用いた社会ネットワーク構築

検索エンジンを用いた社会ネットワーク構築
*窪田雄一(1),鈴木麗璽(1),有田隆也(1)
(1) 名古屋大学大学院情報科学研究科
〒464-8601 愛知県名古屋市千種区不老町
E-mail:[email protected]
Abstract: 近年,急速にインターネット検索の技術が発展し普及も進んでいる.我々は,検索エンジン
を活用することにより,専門家でなくても社会ネットワーク分析ができることを事例とともに示す.
具体的には,年代や場所の情報も含む複数の検索ワードを用いた検索によりある時空間的制約下での
対象間の関係の強さを推測し,それを用いて社会ネットワークを構築することで,個々の要素が持つ
位置付けやネットワーク自体が持つ構造的な性質を分析するようなフレームワークを提案する.
1.
はじめに
近年,検索エンジンを用いて Web 上の情報から関係性を抽出し,社会ネットワークを構築する研究
が盛んになっている[1].本研究では,検索エンジンを用いて社会ネットワークを構築し,個々の要素
が持つ位置付けやネットワーク自体が持つ構造的な性質を分析する.
2.
提案手法
一般に,検索エンジンは複数の単語をクエリとして実行すると共起頻度が高いほど検索ヒット数は
大きくなる.この性質を利用することで,Web 上での関係の強さを推測することが出来る.例として
対象 A と対象 B の関係度を測る場合を想定する.単語 A の検索ヒットページの集合を A,単語 B の
検索ヒットページの集合を B とする.検索ヒット数をこの場合,h(A, B)で表現する.ただし,h(A, B)
は「"A" "B"」を検索クエリにした場合の検索ヒット数とする.我々は,従来検討されていなかったも
のも含む,対象間の関係度を算出するための複数の評価指標を使用し,得られた関係性により構築さ
れた社会ネットワークがどのような構造を示すのかを考察する. 本論文では,関係度を計算するため
に以下の評価指標を用いる.
Jaccard ( A, B ) 
h( A, B )
h( A)  h( B )  h( A, B )
DirectedSimpson ( A, B) 
h( A, B)
h( A)
(1)
(2)
Jaccard(A, B)は 対 象 の 和集 合に 占め る共通 集合 の大 きさ を用 いた 指標で あり (式 (1)), Directed
Simpson(A, B)は対象間の関係性の方向性に着目した指標である(式(2)).Jaccard(A, B)を用いた場合,
無向グラフのネットワークが構築され(以下 Jaccard モデル),Directed Sim pson(A, B)を用いた場合,
有向グラフのネットワークが構築される(Directed Sim pson モデル).
さらに,企業間の関係に制約を与えることで,ネットワーク構造にどのような違いが生まれるかを
分析する.方法としては,検索クエリに空間的・時間的制約を加えてネットワークを構築する.また
各企業の中心性の変化を調べることで,各アクターの社会的位置づけ の変化を考察する.企業 50 社に
対して,提案手法を適用し,企業間の社会ネットワークを構築する.今回は,自動車産業に絞らず複
数産業間の横断的な企業群を用いてネットワークを構築する.そのため,業種は自動車,商社,電機
機器,小売,食品,燃料,建設,運輸,機械,鉄鋼,通信などから幅広く採用した.
制約下での関係度を
h( A, B, L)
CDirectedSimpson ( A, B, L) 
h( A, L)
L : 制約(地域名,年号)
h(A, L) : 検索クエリ
" A" " L" -"*" のヒット数
* : 条件集合から
Lを除いた全ての単語
と定義する.
関係性に制約を付与する場合,各制約同士での重複を避けるため,他の制約によるページを検索範
囲から排除している.こうすることにより,より正確に関係性を抽出することが出来る.
3.
社会ネットワーク構築
提案手法の適用例として,自動車産業の企業 50 社(表 1)に対して式(1),(2)で示した指標を用いて社
会ネットワークを構築する.企業群には,自動車メーカーや素材・部品メーカーなど,自動車生産に
関わるサプライヤーを対象にした.自動車産業は,自動車メーカーや素材・部品メーカーなど広範な
関連産業を持つ総合産業である.サプライヤーシステムの構造を提案手法によって可視化し,自動車
産業における取引関係の特徴を抽出する.検索エンジンは Google を使用し,公開されている API1を
用いてシステムを実装した.各ノードは企業を表し,ネットワークの可視性を考慮し,ノード間の関
係度が閾値以上(Jaccard モデルでは閾値 0.1,Directed Simpson モデルでは閾値 0.6 とした)のリンク
のみ張っている.可視化には Cytoscape 2を使用しており,ネットワークの各ノードはばねモデル3を用
いて配置されているため,関係度の高いノード同士が近接的に配置されている.
表 1.自動車産業 50 社
トヨタ自動車,本田技研工業,日産自動車,マツダ,スズキ,ダイハツ工業,三菱自動車,富士重工
業,いすゞ自動車,日野自動車,デンソー,アイシン精機,トヨタ車体,豊田自動織機,トヨタ紡織,
ジェイテクト,カルソニックカンセイ,日本精工,豊田合成,NTN,ブリヂストン,住友ゴム工業,
横浜ゴム,東洋ゴム工業,東海ゴム工業,バンドー化学,オカモト,鬼怒川ゴム工業,西川ゴム工業,
三ツ星ベルト,新日本製鐵,JFE ホールディングス,神戸製鋼所,住友金属工業,日新製鋼,日立金
属,大同特殊鋼,日本製鋼所,トピー工業,愛知製鋼,三菱ケミカル HD,住友化学,三井化学,信
越化学工業,DIC,東ソー,旭化成,日東電工,宇部興産,日立化成工業
3.1 Jaccard モデル
Jaccard モデルによる社会ネットワークを図 1 に示す.大きく分けて左の組立・部品メーカーを中
心とするクラスターと右の鉄鋼・化学メーカーを中心とするクラスターが存在していることが分かる.
多くの企業と関わりの深い企業がネットワークの中心に位置し,一部の企業との関わりが企業ほど外
側に位置している.
Jaccard モデルでは,関係性に方向が無く,同じ事業規模のアクター間の値が大きくなり易い.その
ため,ネットワーク上でも同じ事業領域に存在する企業同士が近接的に配置されている.
3.2 Directed Simpson モデル
Directed Simpson モデルによる社会ネットワークを図 3 に示す.各企業のリンク状態を見ると,ト
ヨタ自動車などの組立メーカーは,出力リンクに比べて入力リンクが多いことが分かる.これは,組
立メーカーの市場規模が部品メーカーに比べて格段に大きく,多くのサプライヤーにとって重要な取
1
2
3
Google AJAX AP I
ネットワーク可視化ソフト:http://www.cytoscape. org/
ばねモデル:リンクをばねとみなし,頂点をクーロンの法則に従う電荷を持つ粒子とみなす
引相手として存在しているためだと考えられる.また,デンソーやアイシン精機などの部品メーカー
は入力リンクより出力リンクが多く,自動車メーカーと強くつながっている.
また,それぞれのクラスターで違う特徴が見てとれる.右のクラスターは,組立メーカー同士が強
く結びつき,クラスターの中心に配置されており,その外側に関連企業が配置されている.リンクは
外側から中心に向かって集中しているという特徴が見られる.対して,左のクラスターでは,中心に
三菱ケミカル HD といった化学メーカーが存在し,周辺に鉄鋼や化学などの関連企業同士が近接的に
配置されている.そして,クラスターの中心から外側に向かってリンクが張られている.特に,三菱
ケミカル HD を中心としたリンクの結びつきによってクラスターが形成されている.
自動車産業の構造として,素材から部品,そして車体・組み立て・販売といった,生産の各工程を
担っているサプライヤーが存在する.そういった産業構造の性質から,化学や鉄鋼といった素材を担
う川上産業から部品・組み立てを担う川下産業へのリンクの流れが見てとれる.
図 1.Jaccard モデルによる社会ネットワーク
4.
図 2 Directed Sim pson による社会ネットワーク
社会ネットワークの中心性分析
ネットワークを構成する各アクターの位置づけ(影響力)を測る為にネットワーク中心性の概念を用
いる.本論文では,各指標で構築したネットワークについて,企業の次数中心性,近接中心性,媒介
中心性を分析した.中心性の計算は,全ノード間のリンクについて行っている.
Jaccard モデルでは,近接中心性と媒介中心性について説明する (図 3).近接中心性による評価では,
一般的に「顔が広い」アクターが高い中心性を示すと考えられている.これは,自動車産業にお いて
広範な分野と関わりを持つ企業の中心性が高くなることを示している.ここでは,三菱ケミカル HD
がやはり高い値を示しており,逆にトヨタ自動車など組立メーカーはそれほど高くならない.組立メ
ーカーは川上の企業との関わりが小さく評価されているためだと考えられる.媒介中心性による評価
では,多くの企業間を仲介するアクターが高い中心性を示す.ここでは,クラスターのより中心的な
位置づけを占める企業が高い値を示している.
Directed Simpson モデルでは,入力次数中心性,出力次数中心性について説明する(図 4).入力次
数中心性は,他企業にとっての自身の重要度を示す.三菱自動車や日産自動車など,組立メーカーが
上位を占めている.これは,組立メーカーが素材・部品のサプライヤーなど,ネットワーク上の多く
の企業にとって,重要な企業であることを示している.対して,出力次数中心性は,自身にとっての
他企業の重要度を示す.三菱ケミカル HD やダイハツ工業が高い値を示している.三菱ケミカル HD
は,化学・鉄鋼産業に関わりが強く,他産業との共同開発も手広く行っているため,事業規模では大
きく劣る自動車メーカーよりも高い値を示している.
図 3.Jaccard モデルによる近接中心性と媒介中心性
図 4.Directed Sim pson モデルによる入力次数中心性と出
(上位 10 社)
力次数中心性(上位 10 社)
5.
制約付き企業間社会ネットワークの構築
空間的制約下での社会ネットワーク上の各企業の媒介中心性の変化を観察すると (図 5),各企業の媒
介中心性が大きく変化していることが分かる.これは各地域の市場性による違いだと考えられる.こ
のように企業群の社会ネットワークに空間的制約を加えることによって ,各地域おける中心的な企業
を推定できる可能性がある.
また,時間的制約下での各企業の媒介中心性の変化を観察すると (図 6),各企業の媒介中心性が大き
く変動していることが分かる.これは時間と共に,企業の社会的重要性・位置づけが変化しているた
めだと考えられる.各企業の社会ネットワーク上での時間的な中心性の変化を観察することによって,
その企業が持つ社会的影響力を測るひとつの指標になると考えられる.
図 5.Directed Simpson モデルの空間的制約下での
媒介中心性の変化(上位 10 社)
6.
図 6.Directed Simpson モデルの時間的制約下での
媒介中心性の変化(上位 10 社)
おわりに
本論文では,検索エンジンのみを用いるという簡易な方法で,対象間の社会的関係性を推測し,得
られた関係性から社会ネットワークを構築する手法を提案した.さらに,企業間の関係に制約を付与
した社会ネットワークを構築することで,各企業が持つ地域性,または時間的変化を判断するための
新たなアプローチを提案した.
参考文献
[1] L ee, S.-H., Kim, P.-J., Ahn, Y.-Y., Jeong, H.:Googling Social Interactions: Web Search Engine
Based Social Network Construction. PLoS ONE e11233 (2010).