情報爆発時代における新しいIT研究 - 喜連川研究室

情報爆発時代における
情報爆発時代における新
における新しいIT
しいIT研究
IT研究:
研究:
超大量多様情報からの価値創出
(情報爆発プロジェクト
/ 情報大航海プロジェクト)
喜連川優
東大 生研 戦略情報融合研究センタ
生研
先端研
教養学部
知識の
知識の爆発!
爆発!
情報爆発時代に向けた新しいIT基盤技術の研究
平成17
平成17年発足
17年発足 文部科学省特定領域研究
喜連川優
東京大学 生産技術研究所
© 特定領域研究「
特定領域研究「情報爆発 IT基盤
IT基盤」
基盤」
情報爆発時代の到来
988EB = 1ZB
(2010) ゼッタ
バイト
161EB
(2006 by IDC07)
ユビキタス
セキュリティ
ではない 情報系アンブレラ
GRID/ペタコン
ITS
2006年
年における生成量
万倍 6トン
トンの
一人,
年には36トン
トン!
における生成量は
生成量は過去全ての
過去全ての本
ての本の 300万倍
トンの本/一人
一人 ©2010年
には
トンIT基盤
特定領域研究「
「情報爆発
基盤」
特定領域研究
IT!
基盤」
全人類が情報発信
72 億ウェブサーチ/月
>> 世界総人口
「探す」ことに明け暮れる
実社会の射影としてのウェブ
MySpace
2006年各国人口
1,400.0
1,200.0
800.0
600.0
400.0
200.0
日
本
リア
ェ
シ
ア
イ
ジ
ナ
ロ
ュ
ラ
デ
シ
タン
ン
グ
パ
キ
ス
ジ
ル
ラ
ア
国
イ
ン
ドネ
シ
合
衆
ブ
バ
ア
メリ
カ
イ
ン
ド
0.0
中
国
人口(百万人)
1,000.0
国際連合統計部による各掲載年の7月1日現在の推計人口
日本人はけっこう
しゃべりたがり屋?
目的:ウェブ情報の高度利用システ
ムの構築(WEBの時空間解析)
成果①ウェブ空間の構造俯瞰
~ウェブ全空間の地図化~
ウェブ空間の構造俯瞰
~コンピューター業界周辺の地図~
リンク
リンク&
リンク& テキスト解析
テキスト解析を
解析を用 いてウェブ
いて ウェブの
ウェブの全空間を
全空間を地図化
産業連関図
産業連関図に
産業連関図に相当する
相当 する地図
する地図が
地図が得られる
注目分野
注目分野の
注目分野のリサーチ・
リサーチ・ サーベイに
サーベイに有用
影響力
影響力のある
影響力のある製品
のある製品ユーザ
製品 ユーザの
ユーザのグループなども
グループなども同時
なども同時に
同時に抽出
広告設置戦略
広告設置戦略への
への応用
応用
広告設置戦略への
10
9
8
7
6
5
4
3
2
有効一意URL数(億)
Cyber Map for Financial Business
Caching/Loan
Banks
Stock Companies
Web Archive(1999~2007)
12
11
1
0
5
/0
07
20
1
/0
07
20
0
/1
06
20
6
/0
06
20
7
/0
05
20
/ 05
04
20
1
/0
04
20
7
/0
03
20
2
/0
03
20
2
/1
02
20
8
/0
02
20
2
/0
02
20
0
/1
01
20
8
/0
00
20
8
/0
99
19
ウェブの時系列分析
~銀行業界の変遷~
インターネット銀行の出現と世間への浸透
合併した銀行の出現:三井住友、UFJ、みずほ、りそな
検索キーワード
銀行
ウェブの時系列分析
~社会現象による話題の爆発的発生~
テロ
同時多発テロ
同時多発テロ
ニュース記事
ニュース記事
義援金募集
平和運動
ウェブの時系列分析
~社会学への応用:ジェンダー活動の成長~
お茶大 ジェンダーセンタ+増永研
ジェンダーセンタ+増永研
お茶大
99年
年の男女共同参画社会基本法施行に
男女共同参画社会基本法施行に
呼応して
呼応して全国
して全国に
全国に女性センター
女性センターの
センターの
ホームページが
ホームページが作成されていった
作成されていった様子
されていった様子が
様子が見て取れる
「生協の白石さん」
出現
認知
人気爆発
WWW2006:
Toyoda,Kitsuregawa
情報大航海プロジェクト
【 マイ・ライフ・アシスト
サービス(仮称)】ユーザーの日々の行動の情報を収集・蓄積
家
駅
NWアクセス
NWアクセス
(時刻・属性・嗜好・対象)
(時刻・属性・嗜好・対象)
近所・公園
散歩経路による
散歩経路による
歩行距離・心拍
歩行距離・心拍
データなどの
データなどの
生体データ
生体データ
鉄道・バス
情報家電・無線LAN
情報家電・無線LAN
・車内
車内NW
NW・カメラ
・カメラ
・GPS
GPS・
・RFID
RFIDタグ
タグ
・FeliCa
FeliCa・
・POS
レストラン
事前のNWアクセスと
事前のNWアクセスと
実来店の関係
実来店の関係
途中の行動特性
途中の行動特性
各出口へのヒトの流れ
各出口へのヒトの流れ
動線傾向、移動者数・
動線傾向、移動者数・
属性、NWアクセス
属性、NWアクセス
乗降者数・属性
乗降者数・属性
ヒトの流れ・動線傾向
ヒトの流れ・動線傾向
車内でのアクセス動向
車内でのアクセス動向
コンビニ
デパート
デバートでの行動特性
デバートでの行動特性
属性と消費の関連
属性と消費の関連
セールへのレスポンス
セールへのレスポンス
店舗POSデータの
店舗POSデータの
統計的なリアルタイム
統計的なリアルタイム
消費動向特性
消費動向特性
情報大航海プロジェクト
【 マイ・ライフ・アシスト サービス(仮称) 】 蓄積データを行動連鎖型検索で活用
コンテンツプロバイダ、
サービスプロバイダの
異業種サービスの
マッシュアップを加速
「行動連鎖型検索」による
「気付き」や「サプライズ」
情報を配信
利用者
マイ・ライフ・サービス(仮称)
推薦情報
配信
推薦情報配信サービス
行動情報解析サービス
生活情報預りサービス
推薦情報
提供
アシストサービス
コンテンツ
プロバイダー
行動情報
解析結果
提供
サービス
プロバイダー
生活情報
提供
マイニング事業者
個人の
行動履歴
情報大航海プロジェクト
【 マイ・ライフ・アシスト
サービス(仮称) 】
サービスイメージ①
マッシュアップ
推薦情報Push配信サービス
「こんな情報、ちょうど欲しかったんだ!」を実現する
サービス名: プレビュ-・チャネル
過去の蓄積から次の行動を予測
必要な情報を先行調査
過去の行動履歴に無い
意表をつく提案
何気なくケータイを覗くと、自分の行動や潜在的欲求にマッチした内容を表示。
何気なくケータイを覗くと、自分の行動や潜在的欲求にマッチした内容を表示。
最近、残業で
最近、残業で
帰りの遅い日が
帰りの遅い日が
続いていたなあ。
続いていたなあ。
今週は頑張ったし、
今週は頑張ったし、
ちょっと自分にご褒美
ちょっと自分にご褒美
あげてもいいかな!
あげてもいいかな!
オフは自分にご褒美
①口コミのいいお店が
あるよ!
②おすすめの映画情報
があるよ!
今日は、久々の
今日は、久々の
定時退社。
定時退社。
東京駅に着きました
たまには奥さんを誘って
夜景を見ながら食事は
どう?
お勧めの店あるよ!
The Evolution of Science
• Observational Science
– Scientist gathers data by direct observation
– Scientist analyzes data
• Analytical Science
– Scientist builds analytical model
– Makes predictions.
• Computational Science
Jim Gray氏より
– Simulate analytical model
– Validate model and makes predictions
• Data Exploration Science
Data captured by instruments
Or data generated by simulator
– Processed by software
– Placed in a database / files
– Scientist analyzes database / files
Jim Gray氏より
The Big Picture
Experiments &
Instruments
fac
ts
Other Archives
facts
Literature
facts
questions
?
answers
ts
fac
基盤の有無が生命線
Simulations
The Big Problems
•
•
•
•
•
•
Data ingest
Managing a petabyte
Common schema
How to organize it?
How to reorganize it
How to coexist with others
• Query and Vis tools
• Support/training
• Performance
– Execute queries in a minute
– Batch query scheduling
Global Earth Observation System of Systems
( GEOSS)
)
Strictly Confidential
国家基幹技術「
国家基幹技術「海洋地球観測探査システム
海洋地球観測探査システム」
システム」データ統合
データ統合・
統合・解析システム
解析システム
Global Earth Observation System of Systems
( GEOSS)
)
海洋観測データ
データ
研究地上観測データ
研究地上観測データ 海洋観測
衛星データ
衛星データ
WCRP CMIP3
シミュレーション
MetBroker
データ統合
データ統合・
統合・情報融合コアシステム
情報融合コアシステムの
コアシステムのプロトタイプ
アプリケーション層
アプリケーション層
User Apps.
User Apps.
User Apps.
User Apps.
User Apps.
共通基盤ソフトウェア
共通基盤ソフトウェア層
ソフトウェア層
•Visualizer(w display wall)
•Discovery Work Flow Assist
•Data Quality Manager
•Data Transformer
•Data Crawler
•ETL
•DB管理
管理システム
データマネージメント層
データマネージメント層
管理システム
ファイルシステム層
スケール論理
ファイルシステム
層 •PBスケール
スケール論理ファイル
論理ファイル
ストレージ層
ストレージ層
ディスクアレイ群
Kitsuregawa Laboratory Confidential. © 2007 Kitsuregawa Laboratory , IIS, The Univ ersity of Toky o.
•Data Mingrator
•Data Navigator
•Meta Data Manger
H18
•ストレージ
ストレージ管理
ストレージ管理システム
管理システム
•power管理
管理システム
管理システム
•基本
基本システム
基本システムの
システムの
設計
•データアーカイ
データアーカイ
ブ 開始
H19
•実験
実験システム
実験システムの
システムの
実装・
・運用開始
実装
The First Global Integrated Data Sets of the Water Cycle
Model Outputs by
Numerical Weather
Prediction Centers
Surface Observational (in-situ) Data
from the 36 CEOP Reference Sites
Satellite Remote
Sensing Data
Space Agency
JAXA
NASA
EUMETSAT
ESA
MODEL Output Data
Archiving Center at Ma xPlanck Institute of
Germany
http://www.mpg.de/
In-Situ Data Archiving Center at
UCAR (Center at University
Corporation for Atmospheric
Research) of USA
http://www.ucar.edu/
Data Integrating/Archiving Center
at University of Tokyo and JAXA
of Japan
http://monsoon.t.u-tokyo.ac.jp/ceop/
Global Land Data Assimilation
System at NASA Goddard
Space Flight Center of USA
http://ldas.gsfc.nasa.gov/
Strictly Confidential
Strictly Confidential
喜連川研 地球環境デジタルライブラリ
Strictly Confidential
2004年
年 7月
月 13日
日 新潟豪雨
極軌道衛星(水蒸気
極軌道衛星 水蒸気・
水蒸気・気温三次元分布)
気温三次元分布
静止衛星 (水蒸気
水蒸気の
水蒸気の流れ)
静止衛星 (雲
雲の動き)
Strictly Confidential
レーダ・
降雨分布)
レーダ・アメダス合成情報
アメダス合成情報 (降雨分布
降雨分布
地球規模→
地球規模→流域規模
全球モデル
全球モデル
データ同化
データ同化
データ同化
データ同化
全球モデル
全球モデルの
モデルの予測改善
衛星観測データ
衛星観測 データ
領域・
領域・メソモ デル
予測モデル
予測モデルの
モデルの
初期値改善
地上観測データ
地上観測 データ
洪水流出予測と
洪水流出予測とダム最適操作
ダム最適操作
による洪水流量
による洪水流量の
洪水流量の低減
データ統合
データ統合・
統合・情報融合システム
情報融合システム
3000
2000
Optimized rules
Outflow eq. 0
Outflow eq. inflo w
3
discharge [m /s]
2500
1500
1000
500
河川流出モデル
河川流出モデル
0
7/8.1z
7/9.1z
7/10.1z
7/11.1z
2002
7/12.1z
Strictly Confidential
社会経済データ
社会経済データ
利根川上流域
八木沢ダム
奈良俣ダム
藤原ダム
相俣ダム
四万川ダム
薗原ダム
八ツ場ダム
(工事中)
Strictly Confidential
降雨予測の
降雨予測の
改善
気象庁13~18時間降雨予測を用いた最適ダム操作
57 0
90 0
56 0
80 0
55 0
70 0
54 0
3
d isc har ge [m/s]
薗原ダム
1 00 0
岩本地点
60 0
Sim outflow
53 0
50 0
Sim inflow
Sim water level
Obs w ater level
52 0
40 0
30 0
20 0
Optimized release
洪水ピーク
流量の低減
Optimized rules
2500
47 0
7 /9.1z
7/1 0.1 z
7 /11 .1 z
7/1 2.1 z
20 02
Outflow eq. inflow
3
1500
1000
ダム貯水位上昇
500
7/9.1z
7/10.1z
7/11.1z
7/12.1z
2002
3
7/8.1z
事前放流
1000
900
800
700
600
500
400
300
200
100
0
7/8.1z
Sim outflow
Sim inflow
Sim water leve l
Obs water level
7/9.1z
7/10.1z
7/11.1z
2002
Strictly Confidential
洋上発電
7/12.1z
650
645
640
635
630
625
620
615
610
605
600
water level [m]
藤原ダム
0
discharge [ m /s]
di scharge [m /s]
Outflow eq. 0
2000
48 0
0
7/8 .1 z
50 0
49 0
10 0
3000
51 0
water level [m]
サーチャージ水位まで
貯水
E130°
E14 0°
N30°
2003/8/ 8
最大風速 41 m/s
2003/8/ 7
最大風速 3 9 m/s
沖大東島
2 003/8/6
最大風速 39 m/s
ケース2-1
~ケース2-3
硫黄島
沖ノ鳥島
N20°
ケース1-1
2003/ 8/5
最大風速 36 m/s
ケース1-2
~ケース1-5
2003/8/ 4
最大風速 23 m/s
1目盛=50km
200 3/8/3
最大風速 0 m/s
Goal
• 循環型エネルギー系は自然エネルギーの基幹
エネルギーとしての利用によってのみ成立する
• 経済性に加えて環境負荷を最小にすべき
• 水素社会では外洋はエネルギーの宝庫
• 帆走メガフロートは適度な風を求めて移動し、暴
風を回避できる
• 1400ユニットで日本の総発電量の18%を賄え、
CO2排出を約10%削減可能
• 副次的に洋上に情報ネットワークが形成され軍
事的のみならず資源管理、環境管理に有益
情報爆発(大量・異種情報)
からの価値創出
情報融合炉
Outline
• Keywords
• Self*