木構造およびクラスター構造をもつデータの測地的解析手法 統計数理研究所 小林 景 熊本大学 折田 充 1 概要 木構造をもつデータは,遺伝学における系統樹解析,クラスター分析,ネットワーク解析 など幅広い分野で用いられる [1].本研究ではそれらのデータ空間の幾何学的特徴,特にモ デル上の測地距離に基づいた推定,検定理論を紹介し,理論的な評価を行う. 2 木空間 本発表では根無し木(free tree) について扱うが,根付き木 (rooted tree) についても,根 に対応するダミーの葉を導入することにより同様な議論ができる. {l1 , . . . , lp } を葉の集合,そのインデックス集合を Ip とする.木の各辺は,葉を端点とし てもつ辺(端辺)とそれ以外の辺(内辺)のいずれかである.各内辺は葉のインデックス集 合の自明でない2分割 A, Ac ⊂ Ip ,A ̸= ϕ, Ip に対応するので,eA:Ac のように表記し,そ の長さを dA:Ac と表す.例えば,葉数が3の木の内辺の候補は e1:2,3 , e2:1,3 , e3:1,2 の3つで あるが,このうち同時に存在しうる(0 以外の長さを取りうる)ものは1つだけである.一 般には,葉のインデックス集合 A, B ⊂ Ip ,A, B ̸= ϕ, Ip に対して以下が成立する. (C1) dA:Ac > 0 かつ dB:B c > 0 ⇒ A ⊂ B もしくは B ⊂ A. 逆に(C1) が成り立つような (dA:Ac )A⊂Ip と,各端辺の長さ (dj )j∈Ip を与えれば,辺の長 さが与えられた木が一意に構成できる. 3 木測地距離空間と CAT(0) Ip の非自明な二分割の組み合わせ数は 2p−1 − 1 であることから,葉数 p の木の全体 Tp は p−1 ユークリッド空間 R2 +p−1 に自然に埋め込まれる.この埋め込みにより,Tp に測地距離 を定義したものを木測地距離空間とよび,単体的扇とよばれる多面体的複体の一種である. 木測地距離の計算に関しては,近年 GTP アルゴリズム [2] などの多項式時間アルゴリズム が提案され,応用が現実的となった.本発表では,この木測地距離を用いた既存の統計的解 析手法の紹介と,新しい手法の提案をして,その理論的な妥当性の評価を行う. また,木距離空間は CAT(0) とよばれる性質をもつ.CAT(0) 空間は負曲率空間の拡張で あり,任意の二点間の測地線が一意に存在し,また距離関数の凸性から intrinsic mean を一 意に定義することができる.本発表では,木構造での議論をより拡張して,データ空間が CAT(0) 空間の場合の統計的手法の理論的妥当性についても評価する. 参考文献 [1] Ruriko Yoshida (訳:間野修平) (2012), 分子系統学における代数的方法, 統計数理, Vol.60, No.2, pp.279-288. [2] Owen, M. and Provan, J.S.(2011), A fast algorithm for computing geodesic distances in tree space, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), Vol.8, No.1, pp.2-13.
© Copyright 2024 Paperzz