オープンデータとは

Linked Dataによるオープンデータ
活用技術
2015年10月30日
株式会社富士通研究所
知識情報処理研究所
湯上 伸弘
Copyright 2015 FUJITSU LTD.
講演内容
ビッグデータ、オープンデータの動向
富士通研におけるオープンデータ活用技術
Linked Dataによるオープンデータ活用
「人」に向けたセキュリティ
 オープンデータ活用に向けて
1
Copyright 2015 FUJITSU LTD.
ビッグデータ、オープンデータの動向
2
Copyright 2015 FUJITSU LTD.
ビッグデータ利活用の3つの流れ+1
 新しいデータ、新しい分析・活用方法、新しい適用領域
 人工知能、スマートマシン
②新しい分析・活用方法
意志決定・自動化
将来の予測
現在の把握
過去の分析
業務効率化
顧客フロント
社会・スマートシティ
①新しいデータ
企業データ
Web, SNS
メディア、センサー
オープンデータ
③新しい領域
3
Copyright 2015 FUJITSU LTD.
オープンデータとは
 ビッグデータの情報源のひとつとして注目されている
 営利目的を含め、誰もが2次利用可能(複製・改編・再配布)
 通常は利用規約にて2次利用を制限するが、申請なしで2次利用可能な「オープ
ンライセンス」をデータに付与
 問題解決に向けて、組織が所有するデータを外部に公開
 政府の目的: オープンガバメント、新サービス市場の創出
 自治体の目的: 地域経済活性化、市民サービス運営の省力化
 研究機関の目的: 実験データの共有、分野をまたがる発見の促進
 民間企業の目的: 外部知識の取り込み(オープンイノベーション)
現在、世界45か国でオープンデータへの取り組みが開始
4
Copyright 2015 FUJITSU LTD.
世界では欧米がオープンデータを牽引
 英国は国家戦略として
世界各国の
オープンデータ進捗状況
 2013年のG8オープンデータ憲
章の牽引役
 ビジネス立ち上げのための行政
機関ODI(Open Data
Institute)を設立
• 4つスタートアップ
• CO2・公共交通・不動産・金融
• OpenCorporates:
• 世界中の企業情報を収集
• 企業取引の解明
 米国は透明性と市民参加
 オバマ政権の「オープンガバメント
戦略」のひとつ(透明性)
 中央政府・自治体(NY市)
の所有データを積極的に公開
 市民参加を促すコンテスト等の
開催
出典: http://global.census.okfn.org/ by Open Knowledge Foundation (英国)
5
Copyright 2015 FUJITSU LTD.
日本の状況は「世界に追いつけ、追い越せ」
 国家IT戦略として、オープンデータを推進
 日本の市場規模1.2兆円、経済効果5兆円(経産省試算値)
 再利用可能(著作権)、機械可読(データ形式)での公開が必要
 科学技術系
 官公庁
 世界最先端IT国家創造宣言(2013)
• オープンデータが3本柱のひとつ
• 2014~2015を集中取組期間に選定
 政府データカタログサイト (2014)
 経産省:ビジネスモデルコンテスト(2015)
 「地方創生」の一活動として、自治体へ積
極的な働きかけ
 JST/JAXA/国立国会図書館/電子情
報通信学会など、所有データをオー
プンデータ化
 オープン・サイエンス
• 内閣府:検討会を設置(2014年)
• 日本学術会議:主テーマに(2015年)
 公共交通系
 東京メトロが運行状況などを
(準)オープンデータ化(2014年)
 自治体
 103団体(全体1750)が取組み開始
• 大規模なコンテストを実施
 その他
• 予算:数百~1000万円/年
• 外部からの出向者(地方シンクタンク等)が担
当者に就任
6
 警視庁:犯罪情報のメール配信内容
をオープンデータ化(2015年)
Copyright 2015 FUJITSU LTD.
データ活用とプライバシー、セキュリティ
 不適切な匿名化~利用者の不信感、標的型攻撃等新しい攻撃
 個人情報保護法の改正等、制度面での環境整備は進みつつある
Netflix Prizeのサービス中止(2010, 米)
曖昧化されたDVDレンタルログから、ネット上の情報との突合せにより個人を再特定
ユーザー
データマイニング
コンテストに向け公開
Netflix
DVD
rental log
インターネットムービー
DBサービス
同一人物を特定
匿名化
匿名ログ
レーティング
コメント
共通する映画
(5-10程度)
Suicaデータ分析 でデータ提供を中止 (2013, 日本)
ユーザー
乗車ログを匿名化して第三者で分析、マーケティング利用
仮名化、入場(時分秒)、
鉄道会社
第三者
経路が分かる状態
販売
30,000人以上
が反対。データ消
去を要望
乗車ログ
カード使用ログ
匿名化
販売
匿名ログ
7
匿名ログ
マーケット
レポート
Copyright 2015 FUJITSU LTD.
Linked Dataによるオープンデータ活用
 LOD4ALL:Linked Open Data活用基盤
 Linked Dataを使ったデータ統合と活用
8
Copyright 2015 FUJITSU LTD.
機械判読可能な形式とは
 5 Star Open Data
関連データがリンク
 Tim B.Lee(W3C所長)が
提唱するオープンデータの
5段階
例:Linked Data
WEB公開に適する
例:URI、RDF
アプリケーション非依存
例:CSV、XML
構造化データ
例:Excel
LOD
(Linked Open Data)
非構造データ
例:PDF
出典: http://5stardata.info/
政府オープンデータの公開
フォーマットの割合(2015年3月)
総数
日本
Data.go.jp
16268
英国
Data.gov.uk
10056
1★
2★
3★
4★
12372
76%
2711
27%
3180
19%
1820
18%
713
4%
5127
51%
3
0.02%
278
3%
9
5★
0
0%
120
1%
Copyright 2015 FUJITSU LTD.
Linked Open Data(LOD)と従来のWeb
Web
LOD (Linked Open Data)
・テキストで記述されたページの集合
・検索エンジンでページを検索
・名前のついたリンクによって連携された
データ間の巨大なグラフ構造
トップページ URL
・プログラムによって、データベースのような
問い合わせができる
URL プレスリリース
例)富士通研究所の最新プレスリリースのタイトルは?
例)世界で最も(売上/従業員数)の高い会社は?
プレスリリース
URL 研究紹介
URI
会社名
富士通研究所
検索
富士通研究所
タイトル
URI
研究分野
URI
世界初!
大規模…
発表日
研究テーマ名
2013年
4月3日
インテリジェントソサエティ
キーワードで情報の検索ができ、
人間が読むための情報を提供
多様な条件で柔軟に情報を収集でき、
コンピュータ処理に適した情報を提供
10
Copyright 2015 FUJITSU LTD.
LODコンテンツの例
従業員数や所在地
などの企業情報
DBPedia
各国語のWikipediaをマージし、
LOD化した巨大データセット 会社概要
出典:http://dbpedia.org/
(各国語)
GeoNames
国、大都市、首都、山、郵便番号などの
地名(800万以上)と、緯度経度高度、
人口などの関連をLOD化
・ Creative Commonsライセンスで公開
出典:http://www.geonames.org/
・ データソース
-National Geospatial-Intelligence Agency‘s (NGA)
-U.S. Geological Survey Geographic Names
Information System
日本では国立国会図書館等が保有データをLOD化
11
Copyright 2015 FUJITSU LTD.
LODのメリット
 異なる人・組織の作成したデータセット間の相互運用・統合
 関連情報(背景知識)を引き出し、それらを用いて、データを分析
CSV形式でも分かる情報
政府オープンデータ
(調達情報など)
集計
LOD
A社単独の
受注状況
グループ
会社
A社グループの
受注状況
競合他社(グループ)
との比較
LOD化することで分かる情報
他のデータと機械的に組み合せしやすくなり、
分析情報が増える
12
Copyright 2015 FUJITSU LTD.
富士通研でのLinked Open Data研究
 LOD向け大規模データ格納・検索技術
 世界中で公開されているLODを収集・一括検索(LOD4ALL)
 非Linked Dataからオープンデータへのリンク自動的付与技術
 異種データを統合・活用した新しいアプリケーション(EvaCva等)
国内外との産学連携(アイルランドINSIGHT等)により、LODを中心に各種
データを連携・統合した知識ベース構築技術を目指す
Web公開されているLODを収集・検索
異種データを活用した新しいアプリケーション
知識特性見えるかツールEvaCva
2014年1月より一般公開
http://evacva.net
2014年12月より一般公開
http://lod4all.net
日本全国の地域特性を統計データ等
のオープンデータから分析・可視化
国内コンテストに
基盤提供
社内外のデータをLinked Dataに変換・統合
収集
大規模
グラフDB
リンク付与
13
RDFストア
CSVをRDF
に変換
LOD
テキスト
Copyright 2015 FUJITSU LTD.
LOD4ALL
世界中のLOD(数百億項目)を格納し、高速な一括検索を提供
特徴1
個々のサイトを探しまわることなく、
データを利用できる!
特徴2
複雑な処理をアプリケーションで
実装する必要がない!
アプリケーション
開発者
アプリケーション
データの概要や中身が
見える!
利用
利用
標準API
インターフェイス
収集
サイトA
一般公開中
http://lod4all.net/
収集
収集
特徴3
検索機能のない
サイトのデータも
検索できる!
サイトB
アイルランドINSIGHT Centre for Data Analytics との共同研究
14
Copyright 2015 FUJITSU LTD.
LOD4ALL
www.lod4all.net
15
Copyright 2015 FUJITSU LTD.
大規模グラフ処理の高速化技術 x4u-rdf
大規模グラフに関する、標準準拠(SPARQL)の格納/操作/検索の高速化技術
[大容量] 世界中の公開済みグラフデータ(LOD)=40B(400億)の格納・検索を可能に
[高速化] 2種類のグラフ基本操作を独自技術で高速化
トラバース操作(hop-by-hop): エッジで接続されたノードを1つずつたどりながら探す
スキャン操作(pattern match): グラフの中で特定の属性パターンを持つ 集合を抽出する
x4u-rdf
OSS
Response Time [msec]
10,000.00
1,000.00
1,333.80
100.00
10.00
1.00
41.85
6.65
Query 1
173.13 119.28
12.30
Query 2
16
57.66
9.69
Query 3
Query 4
Copyright 2015 FUJITSU LTD.
Adaptive optimization in traversal
Server1
Server2
A
D
Server3
B
グラフの接続関係を
考慮せずに配置すると、
「隣りのノード」も、
別のサーバに分散配置
C
 traverse(たどる)度に
別サーバへアクセス
頻繁なサーバ間通信が発生
ABCD という
ノードのつながりを
アクセスログから自動把握
Server1
Server2
Server3
A
D
B
C
関連するグラフ操作を
1サーバ内で閉じて
実行できる
=
数百万~数十億の
大規模グラフ処理で
スループットを大幅向上
17
接続関係を配置に反映し、
無駄なサーバ間通信を削減
【技術ポイント】
どこまでをひとまとめにするか、
実際のアクセスログを
もとに自動調整
Copyright 2015 FUJITSU LTD.
データ精錬・リンク付与技術
 目的:
元データ:著者の所属情報
 記述粒度を統一し、点在する関連
項目を連携
情報モデル
富士通(株)
富士通株式会社 サーバシステム事業本部
富士通研究所
…
 技術概要:
 処理:
②精錬
org:unitOf
(内部組織)
•情報モデル(組織構造など)の作成
•情報モデルおよび既存LODと照合し、
会社・内部組織等を判定
org:unitOf
会社
内部組織
子会社
org:subOranizationOf
サーバシステム
事業本部
富士通
富士通研究所
org:subOrganizationOf
(子会社関係)
 技術:
owl:sameAs
•名称・周辺情報の類似度による確率
モデル
評価実験
owl:sameAs
②リンク付与
富士通
 評価:リンク付与
比較対象
精度
組織
富士通研
0.90
SILK
0.82
LOD Refine
0.58
富士通研
0.93
SILK
0.89
LOD Refine
0.73
富士通研
0.73
SILK
0.63
LOD Refine
0.51
dbp:owner
富士通
研究所
従業員数
•同機能を持つ代表的なOSS(SILK,
LOD Refine)と比較し、最大10ポイ
ント精度向上
タイプ
17万人
著者
4兆4675億74百万円
売上高
 課題:
•周辺情報の欠落による手がかり不足
18
DBpedia
技術
用語
Copyright 2015 FUJITSU LTD.
リンク付与の事例
 DBpedia(Wikipedia情報)にリンクし、LODを知識ベースとして利用
 例:ある企業のグループ会社を取得し、企業グループの受注状況を分析
データ収集
RDFに変換
政府調達情報CSV
発注者
調達
受注企業
富士通
リンク自動付与
データ可視化
データ可視化
企業グループでの
受注状況の分析
企業単体での
受注状況の分析
グループ会社
の取得
19
Copyright 2015 FUJITSU LTD.
Linked Open Dataの活用
20
Copyright 2015 FUJITSU LTD.
LODによるオープンデータ活用
 LOD4Allを中心に各種のオープンデータを統合し新しい価値を創出
 オープンデータに基づく地域特性の可視化
 異なるデータソースからの企業業績比較
 LODとWebデータを組み合せた人物辞書構築
 将来的には人工知能実現のための知識ベース構築へ
金融
環境
LOD for all
Unified access to LOD across
the world in a batch
オープンガバメント
ナレッジマネージメント
http://lod4all.net/
21
Copyright 2015 FUJITSU LTD.
オープンデータに基づく地域特性の可視化
 客観的で公平な政府統計など1,200項目以上のオープンデータを活
用し、地域の特性を評価
 類似自治体との比較・評価により地各種施策の立案へ
類似自治体との比較
散布図
着目する自治体
政府統計による類似自治体との比較
安全安心の観点からの比較
EvaCva(http://evacva.net)
22
Copyright 2015 FUJITSU LTD.
地域特性の評価尺度
 環境・経済・社会の3つのカテゴリから地域特性を包括的に評価
 環境:資源の有無や活用可能性、環境への負荷から、将来への期待や癒
し等の居心地よさをもって生活できる住みやすい環境条件であるかどうか
を評価
 経済:財政の健全性や産業状態から、職の選択自由度、働き易さなど安定
感をもって生活できる住みやすい経済状況であるかどうかを評価
 社会:社会インフラやサービス充実度、地域活力から、安心・安全に豊かさ
を実感しながら生活できる住みやすい社会基盤であるかどうかを評価
23
Copyright 2015 FUJITSU LTD.
異種企業データ統合
 会計データ(XBRL)、DBPedia、株価、ニュース等の異種・異ソースの
企業情報を集約・LOD化し統合
 XBRL, HTMLファイル(クローラ)、Web API等のデータ取得やフォーマットの違い
 LEI等の各種の企業IDの対応付け
Analysts
Dashboard
Financial Reports, etc.
User defined
KPI
US GAAP
Taxonomy
HIKAKU
Data Conversion
Interstage
XWand
Linking XBRL documents
with different taxonomies
Semi-automatic
mapping
Market Data
Public
Generate financial index , which enable screening data,
fundamental analysis, and other type of analysis
Linked Open Data
(LOD)
Public
Standard APIs
LOD Utilization
Platform
Large-Scale
Search
LEI
Knowledge
Processing
LOD Crawling
Public
Sentiment
Analytics
Crunchbase DBpedia
news
Mashup XBRL with other
financial data
24
Copyright 2015 FUJITSU LTD.
HIKAKU
25
Copyright 2015 FUJITSU LTD.
研究者データベースの構築
 論文データ、個人HP等の情報を統合し研究者DBを構築
 LODだけでは不足する情報をWeb上から半自動抽出
 LOD(論文データ等)⇒業績、研究分野、現在の所属等
 Web(個人のHP等)⇒履歴、役職(大学内、学会、委員会)等
 推論・マイニング
⇒ 専門性、外部からの評価等
Webページ
①Web情報抽出
③推論・グラフマイニング
技術
②精錬・リンク付与
研究の経歴
論文
人物情報
オープンデータ
電子情報通信学会
論文情報
Linked Data化
組織間関係
LODダッシュボード
26
Copyright 2015 FUJITSU LTD.
オープンデータの特徴
オープンデータは、データ保有者が自分の目的で作成したデー
タを公開
データの利用者は、自分の目的に合わせて、必要なデータの
収集・組合せ・変換が必要
ITの役割は、データ保有者と利用者の間の様々なミスマッチ
を埋めること
それに伴い、プライバシー保護等の問題も発生
27
Copyright 2015 FUJITSU LTD.
データ活用のためのプライバシー保
護、セキュリティ技術
「人」に向けたセキュリティ:行動特性分析に基づく
ICTリスク判定技術
28
Copyright 2015 FUJITSU LTD.
データ活用、特に個人情報活用とセキュリティ
2015年は節目の年
日、米、欧法制度が変わり始める
個人情報保護法改正で「匿名加工情報」が導入され、第三者含め
た活用が可能に。
匿名化は、データに合わせて適切な技術を選ぶ必要がある。
完全な匿名化もないのも注意。
パーソナルデータ:技術x法律x社会受容性でいかにバラン
スを取っていくかがカギ
セキュリティに限らず、これからますます「人」が重要
29
Copyright 2015 FUJITSU LTD.
プライバシー保護技術の色々
匿名化、暗号化もデータ種別に合わせて色々な技術がある
データ種別
テキスト
(例)
カルテ、SNS、メ
モリダンプ、ログ
DB
統計の調査票、
(レコード単 レセプト、カルテ
位)
DB(全体)
レセプト、医療
データベース
サービスや 検索サービス、
分析結果
DB公開
ストリーム
データ
センサーログ(位
置など)、スマー
トメータ
消す
丸める
隠す/置換
個人情報検出
匿名、イニシャル
表記
仮名
墨塗り(マスキン
グ)
トークン化, 仮名
化、曖昧化、トッ
プコーディング
暗号
準同型暗号
墨塗り(マスキン
グ)
K-匿名 (集合匿
名化)、シャフリン
グ、平均化、特異
値除去、統計化
アクセス制御
秘密分散(割
符)
墨塗り(マスキン
グ)
統計化、差分プラ 情報ゲートウェ
イバシー
イ
墨塗り(マスキン
グ)
曖昧化、統計化
検索可能暗号
赤字は富士通研究所の強い技術
30
Copyright 2015 FUJITSU LTD.
セキュリティ事故の大半は「人」に起因
原因の大半は組織内部
何らかの人間系予防対策
が必要
図 1:漏えい原因比率(件数)
日本ネットワークセキュリティ協会
2013年 情報セキュリティインシデントに関する調査報告書
~個人情報漏えい編~
JNSA2014.12.25
31
Copyright
2015
FUJITSU
LIMITED
Copyright
2015
FUJITSU
LTD.
サイバー攻撃の多様化:一般人がターゲット
 サイバー攻撃の巧妙化、多様化
 標的型メール攻撃に「やり取り型」増加、水飲み場攻撃も確認
 警察庁の2013年のサイバー攻撃情勢より(2014年2月)、
 システムを堅牢に構築しても、運用する人間に問題があると意味がない
 組織の従業員一人一人の意識、ITリスクに対する警戒心を、向上・維
持させる必要がある
システムだけでなく
人がターゲットに
32
Copyright 2015 FUJITSU LTD.
社内実践より:時間帯や組織による行動特性の違い
 メール誤送信対策
 富士通G(10万人)の標準メールセキュリティツール(富士通SSL SHieldMailChecker)
 時間帯によって、誤送信率に差
要注意の時間帯がある
キャンセル
2000
1.2%
チェック
29.7
%
5%
送信数
スルー
69.0
%
取戻し率
1600
4%
1200
3%
800
2%
400
1%
0
0%
0
2
4
約18千通より
6
8
10
12
14
16
18
20
22 時
開封率
 標的メール訓練
 研究部によって開封率に大きい差
何らかの組織的特徴がある可能性
1回目平均32%
2回目平均12%
研究部
33
Copyright 2015 FUJITSU LTD.
目標:人の被害リスクに合わせたセキュリティ対策
 社会心理学の知見を活かし、各ユーザのサイバー攻撃の被害のリスクを、
PC操作上の行動から判定する技術を開発
 特長1: 被害に遭いやすい心理特性の分析
 特長2: 行動分析による被害リスク判定
34
Copyright 2015 FUJITSU LTD.
行動分析による被害リスク判定
PC操作における行動的な特徴と,心理特性との関連を調べ
ることで,行動から被害リスクを算出する技術を開発
アンケートとログ取得を同時に行う「被害リスク判定ツール」を開発し、従
業員約250名に対して実施。回答内容と回答時の操作ログからリスク
を算出
•Windows PC上に常駐し、メール(送受信、誤送信状況)やWebアクセス、アプリ
の切替、オフィスアプリの利用状況、キー・マウスの動き等220項目を取得
•特長1で得られた心理特性を調べるアンケートと共に、アンケートの回答時の行動
を分析
今回、特に以下の状況における、ユーザの行動と心理特徴を相関分
析
① プライバシーポリシーを読んでいるユーザの挙動を観測
② 疑似的なPCフリーズ状態を作り出し、その時のユーザの挙動を観測
35
Copyright 2015 FUJITSU LTD.
簡易判定結果(例)
ウィルス感染
詐欺被害
36
ウイルス/詐欺/情報漏えい
の3つのリスクにどの程度
強いかを表示
情報漏えい
Copyright 2015 FUJITSU LTD.
特長2) 得られた知見の例
 プライバシーポリシー表示時間が短い人
 ベネフィット認知の強さに関係
 ベネフィット認知が強い人は、ウイルス感染被害に遭いやすい傾向
被害リスク
2.行動分析による
プライバシーポリ
シー表示が短い
ユーザー
被害 リスク判定
ベネフィット認知
の強さ
 疑似フリーズ時に多くの操作がある人
ウイルス感染
1.被害に遭いやすい
心理特性の分析
 20代はほかの世代と比べてキー操作が多い結果に
 20代は情報漏洩のしやすさ、詐欺に遭いやすい傾向
疑似フリーズ時の
キー操作
被害リスク
2.行動分析による
被害 リスク判定
20代ユーザー
情報漏洩、詐欺
1.被害に遭いやすい
心理特性の分析
37
Copyright 2015 FUJITSU LTD.
オープンデータ活用に向けて
産学連携による先進的なビッグデータ、オープンデー
タ活用技術の研究開発
富士通株式会社での製品化を通したお客様への提供
オープンデータの新しい活用方法の構築と有効性の
検証
38
Copyright 2015 FUJITSU LTD.
39
Copyright 2015 FUJITSU LTD.