木構造およびクラスター構造をもつデータの測地的解析手法 1 概要 2 木

木構造およびクラスター構造をもつデータの測地的解析手法
統計数理研究所 小林 景
熊本大学 折田 充
1
概要
木構造をもつデータは,遺伝学における系統樹解析,クラスター分析,ネットワーク解析
など幅広い分野で用いられる [1].本研究ではそれらのデータ空間の幾何学的特徴,特にモ
デル上の測地距離に基づいた推定,検定理論を紹介し,理論的な評価を行う.
2
木空間
本発表では根無し木(free tree) について扱うが,根付き木 (rooted tree) についても,根
に対応するダミーの葉を導入することにより同様な議論ができる.
{l1 , . . . , lp } を葉の集合,そのインデックス集合を Ip とする.木の各辺は,葉を端点とし
てもつ辺(端辺)とそれ以外の辺(内辺)のいずれかである.各内辺は葉のインデックス集
合の自明でない2分割 A, Ac ⊂ Ip ,A ̸= ϕ, Ip に対応するので,eA:Ac のように表記し,そ
の長さを dA:Ac と表す.例えば,葉数が3の木の内辺の候補は e1:2,3 , e2:1,3 , e3:1,2 の3つで
あるが,このうち同時に存在しうる(0 以外の長さを取りうる)ものは1つだけである.一
般には,葉のインデックス集合 A, B ⊂ Ip ,A, B ̸= ϕ, Ip に対して以下が成立する.
(C1) dA:Ac > 0 かつ dB:B c > 0 ⇒ A ⊂ B もしくは B ⊂ A.
逆に(C1) が成り立つような (dA:Ac )A⊂Ip と,各端辺の長さ (dj )j∈Ip を与えれば,辺の長
さが与えられた木が一意に構成できる.
3
木測地距離空間と CAT(0)
Ip の非自明な二分割の組み合わせ数は 2p−1 − 1 であることから,葉数 p の木の全体 Tp は
p−1
ユークリッド空間 R2 +p−1 に自然に埋め込まれる.この埋め込みにより,Tp に測地距離
を定義したものを木測地距離空間とよび,単体的扇とよばれる多面体的複体の一種である.
木測地距離の計算に関しては,近年 GTP アルゴリズム [2] などの多項式時間アルゴリズム
が提案され,応用が現実的となった.本発表では,この木測地距離を用いた既存の統計的解
析手法の紹介と,新しい手法の提案をして,その理論的な妥当性の評価を行う.
また,木距離空間は CAT(0) とよばれる性質をもつ.CAT(0) 空間は負曲率空間の拡張で
あり,任意の二点間の測地線が一意に存在し,また距離関数の凸性から intrinsic mean を一
意に定義することができる.本発表では,木構造での議論をより拡張して,データ空間が
CAT(0) 空間の場合の統計的手法の理論的妥当性についても評価する.
参考文献
[1] Ruriko Yoshida (訳:間野修平) (2012), 分子系統学における代数的方法, 統計数理,
Vol.60, No.2, pp.279-288.
[2] Owen, M. and Provan, J.S.(2011), A fast algorithm for computing geodesic distances
in tree space, IEEE/ACM Transactions on Computational Biology and Bioinformatics
(TCBB), Vol.8, No.1, pp.2-13.