モデル選択理論と信号検知

流れ
序
統計学における最近の流れと本内容との関連
産業連携ワークショップ「数理モデルの産業・諸科学への活用」
モデル選択理論(
モデル選択理論と信号検知
)
信号モデル
識別不能性
二宮 嘉行
幾何的表現からみる信号モデルの特殊性
の再評価(一般論)
九州大学 マス・フォア・インダストリ研究所
年
月
具体的な評価
日
因子分析モデルや変化点モデルにおける
の具体的な導出
数値実験や実データ解析を通じての有効性の検証
まとめ(言いたいこと)
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
二宮 嘉行 九州大学
統計学における最近の流れ
研究所
モデル選択理論と信号検知
年
月
日
統計学における最近の流れ
背景:
データの大規模化
→ 対応するモデルはシンプルなものでも複雑になる
計算機の発展
→ 複雑なモデルでも扱える(そのモデルがいいわけではない)
注意:
「計算機の負荷は考える必要がない」というわけではない
前頁の方法には,高速のアルゴリズムが装備されている
むしろよいアルゴリズムの開発が重要視されている
計算機に頼らない理論的手法も重要である
それが計算負荷が減らすならば,より複雑な解析を目指せる
統計学において急速な発展を感じるもの:
ベイズアプローチ
複雑に設定したモデルを後から簡素にしていくという発想
カーネル法:データを無限次元空間に飛ばした後,シンプルな
(正則化)統計手法を用いる
およびその拡張:回帰分析において膨大な説明変数が
あるとき,有効なモデル選択と推定を同時におこなう
ブースティング:判別分析において,多数の判別器を準備し,
その重み付き和を判別の結果に用いる
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
証明と計算機実験の中間点:
米国国立科学財団が世界各国から著名な統計学者を集めてお
こなったワークショップの報告書「統計学: 世紀における
挑戦と機会」における六つの挑戦的研究の一つ
例として「識別不能性をもつモデル(信号モデルはその典型)
に対する解析手法」が挙げられている
今回は「識別不能性をもつモデルに対するモデル選択」について
二宮 嘉行 九州大学
研究所
モデル選択について
モデル選択理論と信号検知
年
月
日
通常のモデルにおける
記法:
:モデル候補
モデル選択
:
複数のモデル候補からデータに基づいて適切なものを選ぶこ
とであり,統計解析において不可欠な作業
「あてはまりのよいモデルを選べばよい」というわけではない
過適合の問題
ベイズでなければ,予測の意味でよいモデルを選ぶのが通常
クロス・バリデーションがいわゆる計算機的手法(要時間)
情報量規準を最小にするモデルを選ぶことが理論的手法であ
り,
はその代表格といえる
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
の
における最大対数尤度
のパラメータ数
:
真の分布と
内のベストな分布との
(の二倍からある定数をひいたもの)
真の分布が
距離
の推定量
の中にあるなら漸近的に不偏
となっているときに通常用いられる
と
の比較のみを考えたとき,
は真
の分布が
の近く(中)にあるなら
の良い推定
の良い性質につながっている
量となっており,それが
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
信号モデル
信号モデルの派生
定義( 信号モデル)
:
画像解析における信号モデル:
, が多次元のとき( は画素の位置)
:滑らかな信号関数
解析で用いられるモデル:
:ノイズ
は「位置 にある遺伝子座の遺伝型」と「量的形質を表現
の位置
する連続量」との関連度を表すもの, は
:信号の位置
:信号の大きさ
変化点モデル:
識別不能性:
だと,上記モデルは によらず「 信号モデル」となり,
と
は識別できない
つまり
信号モデルは
で微分できないので扱い(漸近理論)は異なる
信号モデルにおいて識別不能性をもつという
信号モデルは
二宮 嘉行 九州大学
のとき
尤度が
研究所
信号モデルにおいて識別不能性をもつ
モデル選択理論と信号検知
年
月
日
二宮 嘉行 九州大学
研究所
信号モデルの幾何的表現
モデル選択理論と信号検知
年
月
日
通常のモデルの幾何的表現
通常のモデル:
識別不能性はないので,
から
の近傍では),
見て(
は直線だったり平面だったりする
「真の分布が
なら
の中にある
は
の漸近不偏推定
の良い性質を意
量」という
の近傍を考えている
識して
幾何的考察: 信号モデルから見ると( 信号モデルの近傍では),
信号モデルは 信号モデルを頂点とする錐とみなせる
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
信号モデルでは,明らかに小さい方のモデルの近傍での構造が違
うので,上記の良い性質が成立しない
二宮 嘉行 九州大学
信号モデルの一般化
研究所
モデル選択理論と信号検知
信号モデルにおける
年
月
日
の再評価
から最適なモデルを選択する問題:
局所錐モデル:
ここでは
と
であり,この
から見ると(
の近くで
は錐とみなせるから
は)
と
信号モデルとする
局所錐モデルの理論を用いれば
は,
において識別
のある
不能性をもつような
クラスを局所錐モデルと呼んだ
ある正則条件のもと,真の分布が
を
の最大対数尤度の差
を用いて以下を定義する
の中にあるならば
の最大対数尤度の差
の中にあるなら
は,正則条件のもと,真の分布が
の漸近不偏推定量となる
ただし期待値の評価は困難
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
(探索的)因子分析モデル:定義とデータ例
変量
因子分析モデルの幾何的表現
因子モデル
は以下の分布にしたがう標本
は
において識別不能性をもっている!
また,実は錐
は頂点
の近くで縮退している!
次元ベクトル
因子
和は正
因子負荷ベクトル
撹乱項
のデータ:
因子分析モデルのためのベンチマーク的データ
: 番目の人の基準化した
種のテスト得点
テストの例:数え上げ,数字認識,文章補完,視覚認識
「記憶」「数学的能力」「スピード」などの因子の存在を期待
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
因子分析モデルに対する
月
日
二宮 嘉行 九州大学
の再評価
数値実験:
変量
定理
ある
(
とすると,真の分布が
は
研究所
モデル選択理論と信号検知
,
年
月
日
,
因子モデル内の真の分布:
は以下の標本
)を用いて
内の普通の分布ならば,
の漸近不偏推定量
上記期待値は以下のように評価できる
:
因子モデルを選択する割合( )
:推定された分布と真の分布との
距離の平均
二宮 嘉行 九州大学
研究所
数値実験:
変量
モデル選択理論と信号検知
,
因子モデル内の真の分布:
年
月
日
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
,
年
月
日
のデータへの適用
は以下の標本
種のテスト得点データ(
,
)
の性質:
より本来の目的を達成する(数値実験より)
:
因子モデルを選択する割合( )
:推定された分布と真の分布との
距離の平均
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
とは差が大きい(実データ解析より)
月
日
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
変化点モデル
変化モデル
データの例
は
:
各々独立な
→
の変化点モデルを考えた
が確率関数/確率密度関数として
のとき
をもつ(
)
は未知パラメータ
既存の
:
通常の(変化点パラメータ以外の)パラメータの数
なぜか変化点パラメータに対する罰則項のないもの,つまり
もある(
)
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
変化点モデルに対する
月
日
の再評価
定理
とすると
研究所
モデル選択理論と信号検知
年
月
日
数値実験:正規分布の分散変化モデル
変化点モデルにおける特殊な漸近理論を用いると以下が得られる
真の分布があるオーダーで
二宮 嘉行 九州大学
「
と
表」なる真の構造に対し,平均未知
の分散変化モデルを考え, 変化モデルの選択確率を評価( )
に近づくならば,
は
の漸近不偏推定量
例(平均未知の分散変化モデル)
:
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
二宮 嘉行 九州大学
研究所
のデータへの適用
(
)は彼らの
で
モデル選択理論と信号検知
年
月
日
まとめ
変化を付加したが…
言いたいこと
識別不能性をもつモデルにおいては,通常のモデル選択理論
(例えば
)は妥当ではない
その代表例である因子分析モデルや信号モデル(変化点モデ
ル)において,妥当なモデル選択理論の有用性が確認できる
混合分布モデルや隠れマルコフモデル,ニューラルネット
ワークモデルといった工学でよく用いられるモデルも識別不
能性をもち(大規模データに対する複雑なモデルは識別不能
性をもちがち),妥当なモデル選択理論の開発が必要である
妥当でない統計手法を気づかずに使ってしまうことがありますの
で,何か変なことがありましたら(なくても)「九州大学 マス・
フォア・インダストリ研究所」に相談してみてはいかがでしょうか
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日
二宮 嘉行 九州大学
研究所
モデル選択理論と信号検知
年
月
日