May 23, 2006

時系列分析におけるドットプロット
Dragomir Yankov, Eamonn J. Keogh, Stefano
Lonardi, Ada Waichee Fu: Dot Plots for Time
Series Analysis, 17th IEEE International
Conference on Tools with Artificial Intelligence
(ICTAI 2005), 2005, pp.159-168,(吉原担当)
目次
•
•
•
•
•
はじめに
手法
テストデータによる実験
Dynamic Sliding Window
結論
はじめに
• Dot Plots
– 70年代,Gibbs, McIntyre
– 連続分析とマイニングにおける強力かつ直感的手法
– 生命情報学
• ゲノム解析
• 連続類似性や整列性
– データ固有の不連続な構造には制限あり
• Ex) テキスト
• Dot Plotsの拡張
– 新たに設計
– オンラインデータのモニタリングにも使用可
導入
• “diagnal match”, “diagram method”
– アミノ酸の順序列における類似性発見の最も単
純な方法
– 例)表1:プロットとは
• 2つの要素(i成分,j成分)に
おける対行列はMmnで表現
• 3つのパターン
– matches: (atg, atg)
– reverses: (atg, gta)
– gaps: 一致はしてないが例外的な重要点
(遺伝子における突然変異 等)
• Maizel, J.V., Lenk, R.P.(1981)
– 部分的な相同関係を許した改善手法
– 生命情報学団体で普及
– 単純かつ強力な方法
– 有限長のアルファベットに限定
• 生命情報学以外の例
– コードやテキストの類似性検証
– 二ヶ国語テキスト翻訳
– ハイパーテキストリンク構造の検出
• 時系列データへの応用は?
– recurrence plots (Eckmann et al.)
• 再発性行動パターンの発見を可能にするダイナミックなシステムの設計
• 高次元の相は2次元の繰り返しで表現
xi: システムの状態 , r(xi): xi点における半径
• これによる変更点
– 特定の変動、変化なし、激しい変動、など
• 欠点
– ノイズな変動も含んでいる点
• 対応策
– 閾値でノイズを減少、パターンを強調
• 点データを扱う手法は柔軟性に欠ける
• 本稿での提案手法
– 近似した繰り返し起こる結果の確率的発見アル
ゴリズム
• 低次元における代表的な結果の比較
• 異なったクラスに分類する
– ハッシュ関数のセットを使用
• 有用なDot Plotsを作るための必要条件
–
–
–
–
ノイズに強い
不変な値と時間変化
不変なある量の時間偏り
効率的な計算
• 過去の手法との違い
– 対角線
• サイン波の連続性
– 白い境界線と中央の対角線
– サイン波の頻度変更
• 対角線の湾曲で表現
– Dot Plotsの色表現
• 準拠:青、反転:赤
方法
• 時系列におけるDot Plotsの構築
– 変化する期間の比較
– 期間ごとに対応する結果を表示
• モチーフの発見
– 時系列のマイニングにおいては不可欠なステップ
– ランダムプロジェクションにより確率的に発見
問題の定義
• 1.Match
– R:長さ(実数), P, Q:系列, T1, T2:時系列
以下の不等号が成立 ⇒ QとPはMatch
D(P, Q)≦R
– T1において、QjでPと一致
• Qj+1でもPと一致する可能性が高い
⇒ trivial match
– 時系列データにおけるDot Plots作成の問題点
• 全ての可能なモチーフを探すために、2つの時間に縮
小されること
• 2. Time Series Dot Plot
– m, n:T1, T2における時系列の長さ
(T1, T2):m×nのbinary行列A
• 両定義におけるP, Qは長さ制限はない
– 4章で変化する期間に対応できない例あり
– 良い長さの時、ダイナミックな変化に対応した例あり
個別の時系列
• 重要な目的
– ノイズの減少し、低次元での特性維持の提供
– 系列にプロジェクションアルゴリズムを適用
• Symbolic Aggregate approXimation(SAX) [Lin, J., 2003] を利用
• SAX
– P=p1, p2, …, pn:入力時系列パラメータ
|∑|:アルファベットの種類
w:アルファベットの大きさ、長さ
– Pはある長さごとに分割、その平均 P
P :Piecewise Aggregate Approximation (PAA) [Keogh, E., 2000]
時系列モチーフの確率的発見
• モチーフの発見アルゴリズム
– 確率的発見の手法 [Keogh, E., 2003]
– (w, d)-motifs
• 長さwの近似したモチーフを発見
• 最高d<wでミスマッチの発生・・・don’t care
– ベースはBuhler, Tompaのプロジェクションアルゴリズム
プロジェクションと導入したモチーフの
問題
• 導入した(w, d)-motif問題 [Penvzner, Sze, 2000]
– (15,4)-motif, 20シーケンスでn=600以上, 4つの
DNAアルファベット の時に発生
• (18,6)- では確率手法を用いて発見可能
• (14,4)-, (15,4)-, (16,5)- ではモチーフ構築が困難か
時系列ドットプロットにおけるプロジェ
クション
• 時系列T1,T2の長さm=1024
sliding windows size n=128
単語長w=4
アルファベットの種類|∑|=3
• 連続した文字列は圧縮可能
– 2項目=10番目のシーケンス(1~9番目がbcba)
• (4,0)-, (4,1)-motif :d=1までdon’t care
– プロジェクトk < w-d なら、ハミング距離はdと同等かそれ以下
– (例)k=2の任意の箇所を選択(図4では2, 4番目)
•
•
•
•
同じプロジェクションをハッシュ
行列にカウント
閾値sでフィルタリング
対応する箇所に点をプロット
繰り返し回数の推定
• モチーフの区分け
– Buhler, Tompaは95%の信頼閾値で容易に推定
• 現実には計算量は膨大
– w=16, k=7のとき、d=3でm=132, d=5でm=3599
– Raphael et al.[2004]
• 任意で一様なkポジションを
選択するよりも、可能な
ポジションを予測
– 一様な選択でも、はるかに少ない繰り返し
• 2対のシーケンス(i1, j1), (i2, j2)
– X1, X2:m回繰り返し後の行列数
• 確率はそれぞれ推定(式6,7)
– a:アルファベットの大きさ
– 式4:長さd文字列の相違確率
– 式5:dにおける文字列の
一致する確率
– 式8,9:平均と標準偏差
オンラインにおけるモチーフ発見
• オンラインマイニングにおける不可欠な特性
– 良い時間パフォーマンス
• 計算量O(m|M|), Mは非常にまばら
• Mは比較的小さな値に制限
– 更新性
• 全てのmハッシュを保持しながら、わずかなオーバーヘッドで更新可能
• ユーザーがLデータ毎に更新
– 過去のハッシュを再利用
– 最初のL時間分は消去
• 応用:ストリーミングデータのモニタリング
– Ex)心臓のモニタリング、地震学など自然現象における調査
実験結果
• データセットで本稿のツールを検証
–薬
– 産業
– 株式市場
– 自然現象
– 音楽
例外発見におけるドットプロット
• ECG data
– 周期的なパターン:対角線
– 例外パターン:白の十字線
– W=16, d=max2
– タイムワープ
• Bは発見、Cは未発見
– 固定の長さ期間をもたないことが欠点
– Section4の手法が有効
• Powerplant data
– 1995年前期半年の電力消費量
– 例外箇所
• 元日週
• 4月イースターと解放日
• 5月労働デー
パターン発見におけるドットプロット
• Stock Market Data
– Yahoo!とNextelの5年間の株価
(Yahoo!Financeのデータ)
– 類似点の多くは分散
• 図8B
Nextel 2001 (切り下げ)
第一、第二四半期
Yahoo! 2004(株式分割)
第二、第三四半期
– 例外点は有効
• 図8A:Nextelは下降、Yahoo!は上昇
• Audio data
– ジングルベルの短いサンプル
• ピッチを抽出
– A:コーラスの繰り返し(全体の1/3)
– 単語wを大
• ノイズのフィルタリング
• 一致、高い類似した対角線
まで除去(B地点)
• Discrete data
– 不連続なDNAデータ
(2種類のランダムな文字列)
– ダウンサンプリング手法比較
• 上図:MUMer
– 検出されなくなる
• 下図:Dot Plots
– 検出可能を維持
Dynamic Sliding Window
• 固定長の枠組みの利用
– 例外点を暗示可能
• 例外は現実に存在したかが問題
– Dynamic sliding windowのアルゴリズム
• s1, s2, …, sk:切片限度
s=s1, e=s2:Sliding Windowの始めと終わり
(si, si+1)で比率がa/bなら、(si+1, s+2)も比率a/b
• 心電図データ
– 心臓の鼓動の頻度
– 上図:一定のsliding window
• 湾曲した対角線
– 下図:Dynamic sliding window
• ほぼ直線的な対角線
結論
• 時系列にモチーフを用いたことで改善
– プロジェクションを利用したツールの開発
• ツールの有用性
– 多くのデータセットで検証
• Sliding windowの可変長化
– 時系列データの分割