分割表のモデルと計算代数統計

∗
分割表のモデルと計算代数統計
竹村 彰通 (東大情報理工)
∗
本講演は解説であり,研究内容や文献等のサーベイはあまり含みません.
項目
1. 分割表とは
2. 分割表の確率モデル
(2 元独立モデル,3 元条件つき独立モデルとシンプソ
ンのパラドックス等)
3. 有限標本空間の指数型分布族と toric model
4. 多元分割表の問題点,記法
5. 対数線形モデルの階層モデルと部分モデル
6. グラフィカルモデル
7. 分解可能モデル
1
分割表とは
Table 1: あるクラスの数学演習の成績
幾何 \ 統計
5
4
3
2
1
計
5
2
1
1
0
0
4
4
8
3
3
0
0 14
3
0
2
1
1
1
5
2
0
0
0
1
1
2
1
0
0
0
0
1
1
計
10 6
5
2
3 26
2
• 分割表: 有限個の値のみをとる複数の確率変数の頻度
を表にしたもの.
• 前ページの例は「2 元の 5 × 5 の分割表」と言う.
• 成績の各々の組み合わせ (i, j) を「セル」とよぶ.
• 幾何学単独あるいは統計学単独の成績の分布は,行和
(行計) あるいは列和 (列計) として示されている.これ
を周辺頻度とよぶ.xi+ などと書く.
• 3 科目以上であれば「多元配列」となる.以下では多
元の場合を一般に考察したい.
• セルの集合が直積集合となっていることが特徴.
3
分割表の確率モデル
• 基本的な例: 2 元分割表の独立モデル (I × J )
pij = pi+ × p+j
= αi × βj
(周辺確率の積と見る)
(単に積の形に書けていると見る)
i = 1, . . . , I, j = 1, . . . , J.
• 伝統的には対数をとって log pij = log αi + log βj の
形に書き「対数線形モデル」と呼ぶ.
• 計算代数統計では pij = αi × βj をそのまま「単項
式」と見る (“toric model”)
単なる視点の違いだが,違いは結構大きい.
4
次の例: 3 元分割表の条件つき独立モデル
• pijk: 同時確率
• j 所与のもとでの i の条件つき確率
pij+
pi|j =
p+j+
• j 所与のもとでの (i, k) の条件つき確率
pik|j =
pijk
p+j+
• 条件つき独立モデル “i −
q k | j”
pik|j = pi|j × pk|j
5
• これを同値変形すると
pijk =
pij+ p+jk
p+j+
= αij × βjk
6
• 条件つき独立モデルとシンプソンのパラドックス
例: 二つの学部別,男女別の入試の合格者 (架空の例)
学部 A
学部 B
合格
不
計
合格
不
計
男
54
36
90
男
3
7
10
女
6
4
10
女
27
63
90
計
60
40 100
計
30
70 100
学部の区別をなくして,二つの表の数字を足すと
7
2 学部計
合格
不
計
男
57
43
100
女
33
67
100
計
90
110 200
• 学部ごとには男女の合格率は全く同じなのに,学部の
区別を無くすと男子の合格率が高くなっている.
• 理由: 男子がやさしい学部を多く受けた
• 3 元表で条件つき独立モデルが成り立っても,2 元表
に周辺化すると独立でなくなることがある.
8
3 元分割表のその他のモデル
Figure 1: グラフとの対応で考える
iq
jq
q
kq
q
q
·
q
·
·
q
q
q
·T
· T
Tq
q·
左から
pijk = αiβj γk,
pijk = αiβjk,
9
pijk = αij βjk
• ただし一番右の三角形には二つの場合が考えられる.
pijk : 制限なし or pijk = αij βjkγik
• simplicial complex として中身がつまっているかが,
グラフの表示だけではわからない.
• “graphical model” と呼ぶ時は中身はすべて詰める.
• pijk = αij βjkγik は「無三因子交互作用モデル」とよ
ばれ,toric ideal の観点からは非常に興味深い
10
有限標本空間の指数型分布族と toric
model
• 分割表では,セルの集合が直積集合となっているが,
ここでは単なる有限集合 Ω = {ω1 , . . . , ωN } とする.
• pj , j = 1, . . . , N , がそれぞれの点の確率とする.
• p = (p1 , . . . , pN ) は RN の単体
∑
S = {p | pj ≥ 0, j pj = 1} 上にのっている.
11
• 不定元の集合 β1 , . . . , βL によって各 pj が
monomial
aj 1
ajL
pj = β1 . . . βL
と表されるようなモデルを toric model という.
(ajl は所与の非負整数).
• 伝統的には対数をとって
log pj = aj1 θ1 + · · · + ajLθL,
θl = log βl
あるいは
(
pj = exp aj1 θ1 + · · · + ajLθL)
の形に表し,対数線形モデルという.
12
• より一般には「指数型分布族」と言う.
• 多項式環の準同型
π : k[p1 , . . . , pN ] → k[β1 , . . . , βL]
a
a
π : pj 7→ β1 j 1 . . . βLjL
の kernel が toric ideal.
• Toric ideal の生成系は「マルコフ基底」(Diaconis
and Sturmfels) とよばれ,toric model の検定に本
質的な役割を果たす.
13
• 指数型分布族に慣れた人には ajl = Tl(j), さらには
j → x と記法を変えて
(
p(x) = exp T1 (x)θ1 + · · · + TL(x)θL)
と書けば見やすい.十分統計量 (T1 (x), . . . , TL(x)
が整数ベクトルの場合が toric model.
14
多元分割表解析の問題点,記法
以下では,一般の多元分割表のモデルについて考えるa .こ
こでの目的は多元分割表の階層モデルについて基本的事項
を整理することにある.
• 現状で Lauritzen の教科書を除いてあまり一般的に
書いていない.
• 多元分割表: 元数が大きくなると急速に難しくなる.
2 元,3 元, . . . , 8 元, . . . , 20 元 , . . . , 300 元, . . .
– 総セル数が指数的に増大
a
ここからは 6 月の応用統計学会での講演の再利用になるので,話が
速くなります.
15
– 可能なモデル数がさらに速く増大 (階層モデルであ
れば二重指数的)
多元分割表の記法
• ∆ = {1, . . . , m} : 変数の集合
• δ ∈ ∆ : 個々の変数
• Iδ = {1, . . . , Iδ } : δ の水準の集合
• セルの集合
I =
∏
Iδ
δ∈∆
• i = (i1 , . . . , im) : 個々のセル
16
(直積)
• a, b, . . . ⊂ ∆ : 変数の部分集合
• a-周辺セル ia = (iδ )δ∈a ∈ Ia =
∏
δ∈a
Iδ .
• x(i) あるいは n(i) : セル i の頻度
• p(i) : セル i の生起確率
• x(ia): 周辺頻度, p(ia) : 周辺確率
• “a-周辺のみに依存する関数”
– 各周辺セル ia ∈ Ia に実数を対応させる関数
ψ : Ia 7→ R を (a を明示して) ψa と書く.
def
– 引数を i に拡張して ψa(i) = ψa(ia) と書く.
17
– 例: 2 元分割表の独立モデル log pij = αi + βj を
log p(i, j) = α{1}(i, j) + β{2}(i, j)
と書く.
– 「a-周辺のみに依存する関数」の集合は線形空間
となっていることに注意
– b ⊂ a とする時,b-周辺のみに依存する関数は a周辺のみに依存する関数の特殊な場合である
– すなわち a-周辺のみに依存する関数の集合は,b周辺のみに依存する関数の集合をふくむ.
18
対数線形モデルの階層モデルと部分モ
デル
• 階層モデルの定義
• A : ∆ の部分集合の族
– 例: 無 3 因子交互作用モデル:
A = {{1, 2}, {1, 3}, {2, 3}}
• A に対する階層モデル:
log p(i) =
∑
a∈A
19
µa(i)
(1)
• b ⊂ a ∈ A とすると,(1) 式の右辺には µb(i) の項
が自動的に含まれていると考える
• そこで,A には次の性質を要求することとする.
b ⊂ a, a ∈ A ⇒ b ∈ A
(2)
⇒ 「抽象的単体的複体」(abstract simplicial
complex)
[各 δ ∈ ∆ について {δ} ∈ A を要求することもある.
「主効果は
必ず含む」ことに対応.]
20
• 階層モデルの研究は数学的には抽象的単体的複体の研
究と (水準数の考察等を除いて) 同等
• A の中で包含関係の意味で極大なもののみを残して考
えてもよい
• 記法: red A
• red A の要素間には包含関係がない.Antichain,
clutter, Sperner system.
• 階層モデルの文脈では,red A を生成集合 (族) とよ
ぶことが多い (generating class).
21
.
階層モデルの数 = antichain の数 = デデキント数
(主効果のいつくかが無いモデルも含めた数)
Table 2: デデキント数
2
3
4
5
6
7
8
4
18
166
7579
7828352
2414682040996
56130437228687557907786
• m = 9 の 正確な Dedekind 数は困難.
m
(
• デデキント数の漸近的評価は 2 bm/ 2c) とされる.
• 階層モデルの部分モデルを考えることが重要:
分解可能モデル ⊂ グラフィカルモデル ⊂ 階層モデル
22
Table 3: グラフィカルモデルと分解可能モデルの個数
m
グラフィカル
分解可能 (同型判定後)
2
2
2 (2)
3
8
8 (4)
4
64
61 (10)
5
1024
820 (27)
6
32768 (= 215 )
18154 (96)
7
2097152 (= 221 )
617675 (469)
8
268435456 (= 228 )
30888596 (3734)
23
グラフィカルモデル
• 階層モデルにおいて生成集合 red A があるグラフ G
の極大クリークの族となっているモデル
• クリーク: 互いに辺 (あるいは枝) によって結ばれた頂
点の集合
• 統計のグラフィカルモデルでは単にクリークと言うと
極大クリークをさすことが多い.
24
独立グラフ: 必ずしもグラフィカルとは限らないモデルに
関して考える.
• {p(i)}i∈I: 確率分布
• {p(i)}i∈I の「独立グラフ」 G
δ, δ 0 間に辺が無い ⇔ 「δ, δ 0 以外のすべての
変数の値を所与とした時に δ, δ 0 が条件つき独
立になる」
• 一般の階層モデル A に対しては,その独立グラフ
G = G(A) において δ と δ 0 の間に辺があることと,
ある a ∈ red A が存在して {δ, δ 0} ⊂ a となること
が同値.
25
• A 7→ G(A) は多対 1 写像
– 例: A: 3 元表の無 3 因子交互作用モデルの時,
G(A) は飽和モデル.
– 各グラフィカルモデル G には,それを制約した階
層モデルの集合が張りついていて,ファイバー構
造をなしている.
– 単体的複体の用語を用いれば,各ファイバーは
1-skeleton を共有する単体的複体の族.
(1-skeleton とは 2 要素集合の集合.
「骨格」)
26
分解可能モデル
• 分解可能モデルは,グラフィカルモデルの部分モデル
であり,グラフ G がコーダルグラフの場合
• G がコーダルとは,長さ 4 以上の閉路には途中の頂点
間を結ぶ「弦」が必ず存在することを言う.
“triangulated” とも言う.
• コーダルグラフは性質の良いグラフであり,統計のみ
ならずさまざまの分野に現れる.
• ここでは階層モデルの分解という観点から分解可能モ
デルを考える (原尚幸.研究会資料.2007 年 6 月).
27
• 分解可能モデルは最近ではグラフィカルモデルの部分
モデルととらえることが多いが,歴史的には分解可能
モデルの概念のほうが先に定義された.
定義 1 (Haberman の本)
階層モデル A が分解
可能であるとは,red A が一つの集合からなるか,あ
るいは二つの分解可能モデル A1 , A2 が存在して,
red A = red A1 ∪ red A2 , red A1 ∩ red A2 = ∅,
と分割され,かつ a ∈ red A1 , b ∈ red A2 が存在
して,
[ ∪ 0]
[ ∪ 0]
a ∩
b =a∩b
a0 ∈A1
b0 ∈A2
となることである.
28
• 定義中の a ∩ b は単体的複体を「左右に分離」する感
じになっている.
• コーダルグラフに関しては,定義中の a ∩ b は
minimal vertex separator とよばれるものとなる.
– Minimal vertex separator とは,二つの頂点を
分離するような頂点の集合 (関所の集合) の中で,
包含の意味で極小な集合を言う.
– グラフがコーダルグラフであるための必要十分条
件として,任意の minimal vertex separator S
が complete (すなわち S ∈ A) であることが古
典的な事実として知られている.
29
• また red A の要素はコーダルグラフ G の極大クリー
クの族である.
• コーダルグラフの構造は,極大クリークの集合
C = A と,“minimal vertex separator” の集合 S
によって完全に指定される.
30
• ただし S の各要素には重複度 (正整数) が付随してい
る.ラフに言えば,重複度とは,
「G を何個に分解する
か」に対応している.
• そこで S を “multiset” とし,各要素が重複度の回
数だけ含まれるものと定義する.
• 定義 1 の分解が最後まで進んで最終的に極大クリーク
まで分解されるのが分解可能モデル.
• しかし,最終的に極大クリークまで分解されなくても,
分解自体は統計的推測にとって基本的な重要性を持つ.
31
• そこで以下の定義を与える.
定義 2
階層モデル A が s ∈ A により分解され
るとは,二つの階層モデル A1 , A2 が存在して,
red A = red A1 ∪ red A2 , red A1 ∩ red A2 = ∅,
と分割され,かつ a ∈ red A1 , b ∈ red A2 が存在
して
[ ∪ 0]
[ ∪ 0]
s = a ∩ b,
a ∩
b =s
a0 ∈A1
を満たすことである.
32
b0 ∈A2
• 定義 2 を満たす s を “divider” と呼ぶ (cf.
Malvestuto and Moscarini).
• A 自体が分解可能モデルである場合には,divider の
定義は minimal vertex separator の定義と同等
• 一般に,divider を持たない A を “compact” とよ
ぶ.(あまりいい用語とは思えない.)
33
6 面体の例
5
2
4
3
1
34
• 統計的には,s が divider であれば,(s 以外の) A1
に属する変数と A2 に属する変数は条件つき独立に
なる.
• ただし divider としては s が A に属することを要求
していることに注意.
• 例:4 cycle model
A = {{1, 2}, {2, 3}, {3, 4}, {4, 1}}
においては,{2, 4} を与えた時に 1 と 3 は条件つき
独立であるが,{2, 4} 6∈ A であるから {2, 4} は
divider ではない.
35
• グラフの場合
– A がグラフ G に対応する場合には,divider で
あることと,クリークをなす minimal vertex
separator であることが同値.
– compact は prime graph とよばれ,極大部分
compact は maximal prime subgraph とよば
れる.
36
• Divider の基本的な重要性
– 定義 2 を再帰的に適用して A を分解していくと,
適用の順序にかかわらず分解は一意に定まる.
– 分解の結果は A の極大な部分 compact の族と
なる.
– この分解の操作を “compaction” とよぶ.
– 極大部分 compact 間の関係は,コーダルグラフ
における極大クリーク間の関係と全く同様である.
37
– すなわち 極大部分 compact の perfect
sequence や,極大部分 compact 間を結ぶ
junction tree などが,コーダルグラフの場合と
全く同様に定義される.
• 統計的観点からは 極大部分 compact ごとに推定や検
定の手続きを分解することができる.
– 最尤推定においては各極大部分 compact ごとの
最尤推定を,分解可能モデルの MLE に対応する
形で組み合わせることによって,モデル全体の最
尤推定値が得られる.
38
– モデルの適合度検定においても,尤度比が
compaction に対応する形で分解される.
– また正確検定をおこなうためのマルコフ基底やグ
レブナー基底に関しても,各極大部分 compact
ごとのマルコフ基底やグレブナー基底を組合せて,
モデル全体のマルコフ基底やグレブナー基底を構
成することができる.
• このように compaction は階層モデルの推測に基本
的な重要性を持つが,compaction 自体がまだあまり
知られていないために,階層モデルの推測のどの段階
で compaction を考えるべきについてはあまり議論
がなされていない.
39
まとめ
以下の事項について説明した.
• 分割表の基本的事項,条件つき独立性.
• toric model (指数型分布族).
• 一般の多元分割表の階層モデルが simplicial
complex と同値であること.
• 階層モデルの部分モデルとしてのグラフィカルモデル,
分解可能モデル.
• 階層モデルの観点から重要となる simplicial
complex の諸概念 (特に分離の概念).
40
余談及び補足
• compaction によるモデルの分類と,1-skeleton に
よるモデルの分類の関係が自明でない.6 面体の例.
• 単体的複体まで考えなくても,red A の要素の積集合
全体からなる intersection poset の構造のみから定
まる部分も多いのではないかという感じがする.
• 例えば,自由度の計算などは,包除原理を用いておこ
なうが,包除原理の適用は本質的には intersection
poset のメビウス関数を扱っていることにあたる.
• 分解可能モデルは intersection poset の構造が非常
に特殊であるように思われる.例えば分解可能モデル
41
の自由度の計算は,クリークの自由度の和から,
minimal vertex separator の自由度の和を引くだけ
で求まってしまい,包除原理の観点からすると 2 項目
までである.
• 有向グラフについても今後考えたい.DAG から
moralization によって得られる simplicial complex
は,必ずしもグラフには対応しないはず.
42