講義資料 - リスク工学専攻

平成20年度リスク工学概論
探索的データ解析
2008年5月20日
筑波大学 システム情報工学研究科
佐藤美佳
リスクに関するデータ解析
リスクデータ(不確定データ)に対する解析
リスク状況(不確実性)を対象とするデータ解析法
<リスクを定量化>
リスクの回避
リスクの発見と利用
(データマイニング・探索的データ解析)
医学、教育、金融、企業活動、
環境、社会、工学
リスクに関するデータ解析
データ解析
統計的データ解析、多次元データ解析、
多変量データ解析
<リスク解析>
成功と失敗のリスク
リスク予測
金融リスク、企業倒産、疾病リスク、
ドロップアウト、事故、災害
多変量データ解析とは
対象: 多変量で観測されているデータ
大量で複雑なデータ解析の基礎
変数間の関連性
データの要約、潜在構造の抽出
分析の目的、データのタイプ(型・質)
異なる分析手法
データマイニング・探索的データ解析
データマイニング
市場調査、品質管理、需要予測、財務分析、人事管理
大量、複雑なデータ
・統計的解析
・クラスタリング
・人工知能
・視覚化技法
・データベース
・ニューラルネットワーク
・ファジィクラスタリング
・サポートベクターマシン
・テキストマイニング
分類、推測、記述
潜在構造、相関関係、パターン・類似関係の多次元的解析
潜在的ニーズ
探索的データ解析
「探索的データ解析」(Exploratory Data Analysis:EDA):
J.W.Tukey (Bell研究所), Addison-Wesley Publishing. (1977)
データ解析の変遷:
統計学 ー>統計学に基づくデータ解析手法(統計的多変量解析、数理統計学)->
統計的モデルを想定してデータに当てはめるー>データの複雑性を説明する限界ー>
まずは、データありき(モデルありきではない)
データが語る構造を抽出しよう!
応用面を重視
“やみくもに特定の統計手法を適用する前に、まずデータを素直に眺めることが重要”
(Sと統計モデル、J.M. Chambers and T.J. Hastie編、柴田里程訳)
“データ自身に現象の規則性を語らせる”
(S言語、R.A. Becker, J.M. Chambers, and A.R. Wilks著、渋谷政昭、柴田里程訳)
ソフトデータ解析
(Soft Data Analysis: SDA)
ソフトコンピューティングに基づくデータ解析
従来の統計的多変量データ解析の貢献
しかし、
補完
大量・複雑なデータの解析
パラダイム・リソース・応用
ソフトデータ解析
(Soft Data Analysis: SDA)
定義: ソフトコンピューティングに基づくデータ解析
ソフトコンピューティング
方法論の複合体
(ファジィ理論・ニューラルネットワーク・確率推論・遺伝的アルゴリズム・カオス)
補完的に作用
現実のデータに内在する不確実性・不精密性(リスク)の反映
主導原理:不確定性(リスク)の許容
トラクタビリティ・頑健性・解導出の低コスト
ソフトデータ解析
(Soft Data Analysis: SDA)
定義: ソフトコンピューティングに基づくデータ解析
ファジィ多変量データ解析:
ファジィ多変量データ解析
ファジィクラスタリング、ファジィ回帰分析、
ファジィ主成分分析、ファジィ数量化法(I、II、III、IV)
ハイブリッド手法:
ハイブリッド手法
ニューラルネットワーク、遺伝的アルゴリズム、
サポートベクターマシン、ファジィデータ解析
関数データ解析、非線形一般化モデル、
シンボリックデータ解析、空間統計学(地理情報データ)、
地球統計学(Geostatistics)
データ解析法
データを要約
データ
情報を抽出
予測
クラスター分析: 類似性に基づき分類、内在する構造
人間がもつ原始的能力、最も古い科学的探求
主観的分類法
・ Galen (A.D. 129-199): 9つの気質の型を定義、病名との関連
・ Aristotle (384-322 B.C.): 脊椎動物と無脊椎動物の分類
・ Linnaeus 1737年 「Genera Plantarum」
リンネの分類体系
・ Lindley 1836年 「Natural Systems of Botany」:自然類縁の概念に基づく分類
・ Darwin 1859年 自然淘汰に基づく進化論説
客観的分類法
Sokal, R.R. and Sneath, R.H.A. (1963)
Principles of Numerical Taxonomy
数値分類法の確立
1. 生命科学(生物学・植物学・動物学・医学等)
2. 行動科学・社会科学(心理学・社会学・教育学等)
3. 地球科学(地質学・地域学・地理学等)
数量分類学
類型学
地域分割
4. 工学(パターン認識・人工知能・サイバネティックス等)
教師付き分類・教師なし分類
5. 情報科学・政策科学・決定科学(情報検索・政治学・経済学・
市場調査・OR等)
組分け
自然連関 ・ 自然な分類
ファジィクラスタリング
“自然な分類”とは何か
リスクデータやリスク状況の“自然な抽出”とは何か
ファジィクラスタリング
境界の曖昧なクラスターを構成
個体の分類
排反的分類には無理が伴う場合が多い
個体がクラスターに帰属するか否か
のみならず、帰属の度合いを考慮
現実に即した解析手法
ファジィクラスター
ファジィ部分集合A
ファジィクラスターCk
L.A. Zadeh, Fuzzy Sets, Information Control, 8, pp. 338-353, 1965
ファジィ部分集合(ファジィクラスター)
U
A 部分集合
1
特性関数
メンバーシップ関数
0
ファジィクラスタリング
ハード分割
(排反的クラスター)
⎧⎪1,
μk (x) = ⎨
⎪⎩0,
x∈Ck
x∉Ck
ファジィ分割
(ファジィクラスター)
μ k ( x ) ∈ [0,1]
Fisherのアイリスデータ
Modern Applied Statistics with S-Plus, W.N. Venables and B.D. Ripley, Springer, 1997
3相3元データ
個体(アイリス)
種類
50
Virsinica
3
Setosa
4
Versicolor
変数
3元データから2元データへの変換
アイリスデータ
アイリス
Setosa
(記号:S)
Versicolor
(記号:C)
Virginica
(記号:V)
がく
長さ
がく
幅
花弁
長さ
花弁
幅
1番目のサンプル
5.1
3.5
1.4
0.2
50番目のサンプル
5.0
3.3
1.4
0.2
1番目のサンプル
7.0
3.2
4.7
1.4
50番目のサンプル
5.7
2.8
4.1
1.3
1番目のサンプル
6.3
3.3
6.0
2.5
50番目のサンプル
5.9
3.0
5.1
1.8
4変数アイリスデータの構造
4次元
クラスタリング
111
129
13
100
10
6
7
8
50
9
3
11
?
4
150
2
1
4変数アイリスデータの構造
4次元
主成分分析
101
150
3
7
68
57
5
第2主成分
9
1
149
11
第1主成分
主成分分析の結果
4変数アイリスデータの構造
4次元
主成分分析
101
150
3
7
68
57
5
9
149
11
1
第2、第3主成分得点に関する結果
第2、第4主成分得点に関する結果
R( http://www.r-project.org/)
R ーCRANー
分類結果の相違
“似ている”ということの定義:
類似度、非類似度(距離)
クラスタリング手法:
1)どのようなグループを作るのか
2)条件をどのように設定するか。
(クラスター数等)
分類基準
クラスター内のデータが密で
クラスター間の距離が疎であるような分類
クラスター内変動が小さい
クラスター間変動が大きい
全変動(データが与えられたとき一定)
=クラスター内変動+クラスター間変動
分類基準
分類基準
級内の変動は小さくなる
級内の変動は大きくなる
全体の変動は変化しない!
分類基準
全体の変動(変化しない)=級内変動の和+級間変動の和
T=W+B
T:全変動、W:級内変動の和、B:級間変動の和
T:定数
k-means法
(B)
(A)
D. Wishart, Edinburg, Treatment of Missing Values in Cluster Analysis,
COMPSTAT, Proceedings in Computational Statisitics, Leiden, pp. 281-287,
Physica-Verlag, 1978
分類基準
nk個
Ck
Ck
減少分 (A)
Or
(Xr)
Or
(Xr)
増加分 (B)
Ct
Ct
nt個
(A)>(B)のとき、Wは減少
(T=W+B)
クラスター分析
分類構造と主成分分析
12
150
100
13
3
7
8
6
21
5
9
11
4
1
多次元
Fuzzy Clustering
Fuzzy c-means (J.C. Bezdek, 1981)
J (U , v ) =
n
K
∑∑
u ikm d 2 ( x i , v k )
i =1 k =1
n : Number of Objects
K : Number of Clusters
U = (uik ) : Degree of Belongingness of Object i
Cluster k
d
m
xi
vk
: Dissimilarity
: Control Parameter of Fuzziness
of Clustering
m ∈ [1, ∞)
: Object i
: Center of Cluster k
FCMの数値例(R2.3.1(June, 2006)) アイリスデータ
FCMの数値例(R2.3.1(June, 2006))
FCMの数値例(R2.3.1(June, 2006))
3
3.5
4.0
1
2.0
4.5
2.5
3.0
3.5
4.0
4.5
Sepal Width
Sepal Width
クラスター2の結果
1.5
7
1.0
6
5
0.5
4
3
2
0.0
Petal Width
2.0
2.5
クラスター1の結果
2.0
1
2.5
3.0
3.5
4.0
4.5
Sepal Width
クラスター3の結果
Petal Length
3.0
Petal Length
1.5
0.0
2
2.5
3
2
1
2.0
5
4
0.5
0.5
4
7
6
1.0
Petal Width
1.0
5
Petal Length
1.5
7
6
0.0
Petal Width
2.0
2.0
2.5
2.5
FCMの数値例(アイリスデータ)
(R2.3.1(June, 2006))