PDF(2.05MB

Spatial Analysis
section 1.0
Suzuki M.
Spatial Analysis
1. Introduction
担当:鈴木 牧 (東大千葉演習林)(2006.10.23-24)
1
イントロダクション
生態学的な現象の空間・時間依存性は生態学の概念的枠組みに常に存在しており、最近になって生態
学の理論・サンプリングデザイン・実験デザイン・モデルに明確に採り入れられるようになった。こ
の本は「生態学を学ぶ人のための空間データ解析ガイド」である。
すべての生態学データは「場所 (location)」と「それ以外の属性」を持っている。そのため、解析の
方針が三つある。
• 「場所」を解析し、空間構造・パターンを理解する
• 「場所」は無視して属性データを解析する
• 「場所」も考慮して属性データを評価する
Ripley (1981) や Cressie(1993) などの空間解析法の本は生態学むけではない。この本では事例をつ
かって解析方法の意図や用法を説明する。
生態学で重要と思われる方法のみ扱い、多様性・情報理論・時空間モデルなどは (大変すぎるので)
省略した。
この本の構成:
1. 重要なタームと概念の紹介、あとのセクションでの使われ方 (1 章)
2. 五つの主要な目的別空間分析法
• 個体群データの扱い (2 章)
• サンプリングしたデータの扱い (3 章)
• 境界の検出 (4 章)
• 空間自己相関の扱い方 (5 章)
• 時空間解析 (6 章)
3. 現状のまとめと今後の展望
- 1-
Spatial Analysis
1.1
section 1.1
Suzuki M.
プロセスとパターン
最初のステップは時間・空間的な生態学的パターンを記述し、定量することである (記述自体が目的
ではなく、自然の複雑性への視座を与え、実験やモデルで検討すべき仮説を生み出すためのステップ
として行う)。
(図 1.1) グレーのろうと状の領域はスケールの縮小を表す
「自然」は様々な時空間スケールをもつ
↓
サンプリングデザインを選ぶ=スケールを制限する
(不適切なスケールを選ぶと、空間パターンの認識は歪む)
↓
パターンから仮説を立てる・検定 (テスト) する
↓空間的な洞察・理解に至る
生態学研究は「パターンを定量することで隠れた (生態学的な) プロセスへの洞察を得る」ことのく
り返しである。
パターンとプロセスは完全には対応しない。プロセスの間隔が一定でなかったり、幾つかのプロセス
が同じパターンを形成することもある。
図 1.2 プロセスとパターンの関係。
(a) 確率的なプロセス (火事) の発生頻度が同じでも、環境要因の初期条件
(地形・乾燥度・土壌条件等によって生じる植生の空間依存性) やランドス
ケープ構造の履歴 (植生の空間自己相関パターン) が違えば、結果として生
じる空間パターン (植生の分布パターン) は異なる。
(b) (a) の逆。同じ初期状態 (空間依存性+空間自己相関) から、異なる確率
的プロセス (火事・干魃・哺乳類による採食・昆虫の大発生) によって、異
なる空間パターン (植生の分布パターン) が発生する。
(c) 空間依存性や空間自己相関のパターンが確率的プロセスの発生頻度や種
類に影響して、異なる空間パターン (植生の分布パターン) が生じる……と
いう、パターンとプロセスの相互作用。
「パターン」の定義
• Webster(1989):’a distinctive form’ 検出・記述できるもの
• Fowler & Fowler(1976): ’regular form or order’ (ランダムの対義語)
※これらの定義には、生態学的システムの動的・進化・変化する特性が含まれていない。空間パター
ンは通常 ’a single realization’ で、プロセスの’snapshot’ であるか、ある時間 (断面) において作用
している全プロセスの合成である (静的なパターンから動的なプロセスを探る)。
- 2-
Spatial Analysis
section 1.1
Suzuki M.
範囲と解像度
空間構造の理解は範囲 (extent) と解像度 (grain) に依存する。
範囲が小さいと均質に見え、範囲が大きいと異質に見える (例:extent 大・grain 小では『ひとつの
林分』→ extent 小・grain 大では『林分モザイク』)
広域と局所
対象とする生物の大きさによって『景観』の空間単位が決まるように、広域 (global) と局所 (local)
を定義する物理的な距離も、研究するシステムによって異なる。
図 1.3:空間パターンの種類。
1. 大きいスケールでの傾向 (図 1.3a)
2. 中間∼局所スケールでのパッチ構造 (図 1.3b)
3. 最小スケールでのランダム変動、ノイズ (図 1.3c)
ひとつのデータは 1∼3 が混合されたもの→分解する必要がある。
図 1.4:空間パターンの認識に関係する要素。
• 表現のスケール
• サンプリングデザイン (プロットレベル・景観レベル)
• 空間統計の方法 (局所・広域)
以下のセクションでは、これらの要素についてスケールの観点から紹介する。
サンプリングデザインは重要である。
サンプリングデザイン・解析
ツール
↓ (決定)
観察のスケール
↓ (識別)
パターン
↓ (発見)
パターンのもととなったプロセス
- 3-
Spatial Analysis
1.2
section 1.2
Suzuki M.
空間パターン
空間パターンのとりうる形
1. 傾向 (trend, gradient)
2. 集合 (aggregation)・かたまり (clumping)・パッチ状 (patchy)
3. ランダム
4. 一様 (uniform)・規則的 (regular)・過分散 (overdispersed)
パターンを形成する要因には (解析対象からみて) 外因性のものと内因性 のものがある。
• 外因性 (exogneous or induced) のパターン:興味ある変量や属性とは独立な要素 (外的要
因) によって形成されるパターン。
例 「優占度」のパターンは、撹乱やバックグラウンドの環境条件 (植物の場合は環境傾度、
動物の場合はハビタットの配置など) といった、外的要因への反応によって形成される。
例 土壌条件がパッチ状に分布→植物もパッチを形成する。パッチ内では規則分布か過分散ぎ
みに分布する。この場合、植物個体間の性質は類似しており、パターンは空間構造をもつ
外的要因への反応だけで形成される。
• 内因性 (endogeneous or inherent) のパターン:分散、空間獲得競争、空間的阻害など、興
味ある変量自体の内的なプロセスによるパターン。
地理学の第一原理 (Tobler 1970)
「すべてのものは他のものと関係しているが、近いもののほうが遠くのものより強く関係している」
そのようなパターンは外因性・内因性のプロセスが混合して生じる。
空間依存性と空間自己相関
「空間依存性」(spatial dependence):外因的プロセスに対する反応と内因的プロセスによる
空間自己相関 の両方をさす言葉。
空間自己相関の定義
1. ある変量とそれ自体との空間相関の強さ。
2. ある変量の値同士の関係が、それらの間の空間距離もしくは位置の関数であ
る状態。
「空間自己相関がある」=「データが近いデータと独立でない」
c.f. Bailey and Gatrell(1995, p32) による「一次・二次空間依存性」の定義
一次効果:大スケールの傾向 (図 3a)
二次効果:自己相関 (図 3c)
「誘導された (induced) 空間依存性」
Legndre(1993) は外因性パターンによる空間依存性を「偽の空間自己相関」と呼んでいるが、ふつう
ではない。ここでは「誘導された空間依存性」と呼ぶ。
- 4-
Spatial Analysis
section 1.3
Suzuki M.
外的要因に由来する植物の空間依存性は、「それ自体が空間自己相関をもつ『隠れ変量』により誘導
された空間依存性」と言うことができる。そのようなパターンは、独立変数間に空間構造がある場合
として回帰モデル化できる。
これに対し、内的要因に由来する空間依存性の場合は、内的な (『真の』) 空間自己相関によって個
体同士がパッチ状に隣接する状態。近い点の値が (偶然より) 類似する。そのようなパターンは、二
次の統計量 (空間コバリアンスなど) によってモデル化できる。
Spatial Lag
空間依存性の強さは、一定の距離はなれた点の値を比較することで定量できる。この距離 (間隔) を
spatial lag という。
図 1.6 ある樹木個体からの分散によって種子の空間自己相関が生じている例。
• ソース個体からはなれるほど (A → D) 種子は見つかりにくくなり、空間自
己相関も弱まる。
• ソース個体の近くでは、種子の優占度はソース個体からの距離が近い場所
間で似ている (正の空間自己相関)。比べる場所間の距離が大きくなるほど、
優占度の差も増大する (自己相関が消滅するか、負の自己相関が生じる)。
• 広域でみると、この樹木は二つのスケールの空間構造をもつ (パッチ内の
樹木の空間構造と、パッチ自体の分布構造)
等方性・異方性
地形、傾斜、流れなどが原因で、方向によって空間自己相関の強さが異なることがある (図 1.6, 1.7)。
(図 1.6 の例……北東←南西向きに強い風が吹いていたとすると、風下に種子が飛ばされ、楕円形の
空間パターンが生じる)
このようなパターンを「異方性 (anisotoropic)」と称する。
⇔「等方性 (isotropy)」:どの方向でも自己相関の強さが等しい状態。
※異方性のパターンは、データを収集するサンプリングユニットの形によっても生じる (Sec 1.4.2)
1.3
定常性の概念
空間パターンは様々な時空間スケールで起こる動的なプロセスの総体であり、ある時間断面における
空間構造は、幾つかの起こりうる結果の一つにすぎない。意味のある解釈をするためには、潜在プロ
セスに対して、何らかの仮定をおかねばならない。
空間統計ではふつう、「研究しているプロセスは定常性をもつ」という仮定をおいている (図 1.8)。
プロセスが「定常 (均質) である」=「場所」や「方向」から独立である=平均値や分散が研究対象
地域のどこでも・どの方向についても等しい
(パラメトリック検定における独立性仮定=データは既知の分布に従い等分散、と等価)
- 5-
Spatial Analysis
section 1.4
Suzuki M.
定常性仮定の性質
定常性仮定は、データ自体ではなく、プロセスやモデルの性質に関する仮定である。データの空間構
造を記述するモデルから解釈を導くときに必要となる。
定常なプロセスから (まったく偶然に) 一見、非定常にみえる空間パターンが生じうる (図 7.3 参照
(石井さん解説ありがとう))。そのような場合、傾向を除去することができる。
定常性仮定の適否はスケールに依存する (図 1.8)。データの値が場所によって異なり、平均値や分散
が変わって空間的にヘテロなパターンを作るとき、定常性仮定は満たされず、空間パターンを検出し
ようとしても歪んでしまう。空間統計量は、定常性を仮定できる領域について計算すべきである。
定常性はプロセスの属性なので直接は確認できないが、景観が均質かどうかは、データの平均値や分
散を様々なサイズの移動窓について計算すれば分かる。
プロセスが明らかに定常ではない時 (e.g. 図 1.8, 1.9b,c)、まず空間分割法 (4 章) で均質な領域を検
出する必要がある。
景観解析での定常性 (?)
景観レベルの観測スケールでは、データの空間パターンは変わってもよいが、プロセスの定常性仮定
は、解析のすべての段階で必要とされる。
景観レベルのデータは林分とかプロットレベルのデータと同じ精度では収集できない。リモセンや航
空写真から起こした植生図からとったデータは、ざっくりした分類になっている。
プロットレベルでは、量的データから空間統計量を求めて空間パターンの特徴を調べるのに対し、景
観レベルでは景観インデックスを使ってカテゴリデータの空間形状を表すことが行われる。
広域・局所空間統計量
林分レベルでも景観レベルでも、プロセスの定常性は保証されなければならない。
研究対象の空間プロセス全体に定常性が仮定でき、一つの空間統計量でパターンを表してよい場合、
それを「広域 (global) 空間統計量」という (この本では単に「空間統計量」と呼ぶ)。
非定常の空間パターンを一つの空間統計量で表すと、パターンの誤認やまちがった解釈を生む。そう
いう場合は、サンプリング地点における局所 (local) 空間統計量を使うべきである。
1.4
サンプリング
サンプリングデザインの作り方によってパターン認識が影響を受けるので、意味のある解釈が得られ
るように、以下の一連の段階を踏んで注意深くサンプリングを行うべきである (図 1.1,1.2, 表 1.2, 2
章・3 章)。
サンプリングのステップ
1. 表現したい領域を明確に定義する
2. 解像度がプロセスをとらえられるかどうか判断する
3. 空間解析・統計解析がデータタイプに対して適当かどうか確認する
全部、サンプリング開始前に考えておくべきである。
- 6-
Spatial Analysis
section 1.4
Suzuki M.
適当な時空間領域を決定することは、データ解析の最も重要なステップであり、それによってあとの
統計や解釈が有効かどうか決まる。
1.4.1
生態学のデータ
データには色々な種類がある
• 定性的 (分類)
• 半定量的 (pH, 順序、不等間隔分類)
• 定量的 (優占度、高さ、重さ)
計測値は個体単位 (点データ:離散的なもの、生物個体)、ライン状 (トランセクト)、面的に (面デー
タ)、容積で (xyz 座標をもつ流域中の植物プランクトンの生産量) などいろいろな単位で測られる。
(図 1.10:サンプリング方法。(a) 点データ。左は一種、右は二種。(b) トランセクト (左) と格子 (右)。
(c) 粗い (不連続) トランセクト。)
どのケースでもいくつかの正確性の問題が生じる。
1. 量的指標:道具の精確さ
2. 質的指標:観測者の分類能力
3. 場所の正確さ (個体自体とサンプリングユニットの。計測用具に依存)
4. データを集めてデジタル入力するときの正確さ
5. サンプリングユニットのサイズと変量が対応しているか
すべての誤差を最小にする努力をし、分析時にも留意する必要がある。
1.4.2
サンプリングデザイン
認識される空間パターンに影響しうるもの:
(1) サンプルサイズ (n)
(2) 対象領域の広さ (extent)
(3) サンプリングユニットの大きさ・形
(4) サンプリングユニットの配置 (トランセクト・格子・ランダ
ム・規則的・階層……)
(5) サンプリング間隔 (lag:不連続ユニットなら中心点間かエッ
ジ間の距離、連続ユニットなら中心点間の距離)
- 7-
Spatial Analysis
section 1.4
Suzuki M.
(1) サンプルサイズ
分析方法によって要求される最小の n 数が異なる (表 1.3)。
(例:空間自己相関の検出には 30 点以上必要。空間パターンが非常に強ければもっと少なくてよいこともある
が、例外的。空間構造とモデルパラメタの信頼できる推定を得るためには 100 点以上必要)
(2) 空間スケール (extent)
範囲 (extent) と解像度 (grain) はパターン認識に影響する。
範囲の決め方:
「研究対象プロセスの中で最大のものの 2∼5 倍の大きさが必要」(O’Neill et al. 1996,
1999)
範囲が小さすぎると評価したいことが含めず検出できない⇔範囲が大きすぎると非定常性が問題に
なる (さまざまなプロセスが入ってきて、サブ領域ごとに異なるプロセスが作用したりする)
(とくにリモセンの場合、範囲は自然に決まった均質な領域ではないので問題が起こりやすい)
(3a) サンプリングユニットサイズ (図 1.11b)
リモセンで景観を分析するときは、サンプルユニットのサイズはピクセル解像度であり、解析したい
プロセスの解像度とは合致しないことが多い。
「サンプリングユニットのサイズは、パッチやその他の興味ある形の 12∼15 でなければならない」
(O’Neill et al. 1996, 1999)
1 個体 (点) 以上含める大きさが必要だが、大きすぎると検出力が落ちたり、個体間のプロセスを見落
しやすくなる。
ランダム分布している場合はサンプリングユニットのサイズと形は空間分布健出力に関係しないが、
ランダム分布でない場合は、小さすぎると分散が大きくなり、大きすぎるとばらつき方が減ってしま
う (図 1.11b:この場合は 2 × 2 が適当)。
選べる場合は小さくとったほうがよい (あとで大きいユニットにまとめることができるから)。
(3b) ユニットのかたち
しばしば等方性のユニット (円・正方形・多角形) ではなく、異方性のユニットや三角形を使うこと
がある。これにより、サンプルユニット間の傾向あるばらつきを減らし、人為的にパターンを変えて
しまう。空間パターンが等方性か異方性か事前にわかっていない場合は、小さい等方性のユニットを
使ったほうがよい (3 章)。
(4) ユニットの連続配置と不連続配置
連続配置……データ欠損がない。※データが研究している生態学的プロセスを表せているという意
味ではない。そのサイト範囲における空間パターンを全部表せている、という意味。
不連続配置……データ欠損がある。「粗い (sparse) ユニット」
※配置間隔 (lag) はサンプルサイズと負、サイト範囲と正、解像度と負の関係にある。
(5) サンプリング間隔を選ぶ
サンプリング間隔の選び方は二つある:
1. 空間パターンを検出し、プロセスについて洞察を得たいとき……配置間隔は、パッチサイズや
興味あるプロセス構造のサイズより小さくとる。パッチごとに複数のサンプル点をとる。
2. 二つ以上のデータの関係を見たい、空間構造には興味がないとき……データ間の空間構造は邪
魔なので、ランダムにとる (ただし、ランダムにとったからといって空間自己相関がないとは
- 8-
Spatial Analysis
section 1.5
Suzuki M.
限らない。抽出方法が意図的でないというだけ。そもそも空間的に独立なデータを得ることは
不可能である)
図 1.13:システマチックなサンプリングを行う場合の間隔の重要性。空間パター
ンは 5 m 間隔の周期性をもつとき。
(a) 5 m 間隔でサンプリング……空間パターンの周期とサンプリング周期が完
全に合致してパターンが検出できない。
(b) 4 m 間隔でサンプリング……高低があることはわかる。
(c) 3 m 間隔でサンプリング……空間パターンの周期がわかる。
背景がわからないときは、いくつかの配置間隔をもつ階層的なデザインが望ましい。
エッジ効果
エッジ効果を除去する経験的な方法。
1. サンプリング時にまわりにバッファゾーンを設ける (他のデータの領域より広めに空間情報を
収集する)
・外側にとる方法……つかわない場所まで調べる。
・内側にとる方法……エッジ部分の情報は解析から除外する。
2. サンプリング時に「サイト範囲は均質」と仮定して torus distance をとる (図 1.15b:ドーナ
ツ状の曲面にユークリッド座標を投影して近接点間距離をとっていく) c.f. toroidal shift (→
後述。)
1.5
空間統計
空間統計の目的は様々であり、扱うプロセスやデータタイプ、数学的アプローチも異なる。方法によ
り、仮定や要求や経験則も異なる。
一次統計量と二次統計量
• 一次統計量:種の優占度データに基づく集合度指標など。全体の傾向をみる。空間パターンの
有無はわかるが強さは不明。
e.g. 分散/平均比→ランダムかパッチ状か一様か (ポアソン仮定に基づく)
• 二次統計量:局所パターンを推定する。近傍点間の値の平均値からの偏差 (e.g. 空間バリアンス)
この本では二次統計量のみを扱う。
空間統計量の扱うプロセス
• 個体の実際の位置に作用するプロセス (点過程と呼ばれる)
- 9-
Spatial Analysis
section 1.5
Suzuki M.
• 量値と分布 (連続) に作用するプロセス (空間自己相関係数、空間バリアンスなどで扱う)
• 質的な変化のプロセス (join count statistics などで扱う)
(これらの間にはグレーゾーンがある。)
空間構造から生じる偽相関
記述→モデル化 (予測・補間・データ間の生態学的関係の検定)(3・6 章) の際に、空間構造から生じ
る傾向を除去できているかが重要である。
図 1.16:相関と空間自己相関
(a) 土壌水分量 (左) と植物成長量 (右) がともに位置 (x-y 座標) と相関を示す
とき、空間構造による傾向を除去した (x と y を独立変数として重回帰し
たあとの残差) 土壌水分と植物の間には相関がない。
(b) 植物成長量の生データ (左) と残差 (右) を土壌水分量に対してプロットし
た (左は有意だが右は有意ではない)。
※輪読会での議論:この場合、土壌水分と成長量の相関は、単なる空間自己相関だったのかもしれないが、原
因と結果だったかもしれない。このような場合 (実際そういうことは多い)、そいつの効果はどうやって証明す
ればよいのか。←「実験」(竹中)……そーかもしれないですね……というか、この図では、こーいう解析をやっ
ちゃいけないと言ってるんじゃなくて、こーいう解釈も可能だから注意しな、と言っているだけでした。
空間構造は様々なスケールで生じるので、傾向を除去した後でも自己相関が残っていたりもする (適
切な解析スケールが必要)
1.5.1
生態学データの有意性検定
パラメトリック検定……データが従う参照分布が既知のとき。
ランダマイゼーション検定……データが従う参照分布を生成する必要があるとき。
Null 参照分布の作り方
全地点のデータをランダムに他の地点にふり直す→統計量を計算する (のくり返し)
有意になりやすさはランダマイゼーションの回数に比例する。観察点数が少ないときは全部の置換を
行えるが、多いときは可能な置き換えの一部しかできない。そういう場合は 10,000 回以上のランダ
マイゼーションを実行すべきである。たとえば 1,000 個のデータに対しては、正確性のために 10,000
回以上のランダマイゼーションが必要である。
空間依存性と検出力
データに空間依存性があると検定の精度は低下する (空間自己相関がある場合、近傍点の値がよい予
測因子となってしまうため、仮定より自由度が下がる)。
この問題への対処法としては、傾向を除去してパラメトリック検定を行うか、空間依存性を組み込ん
だモデルを使用することができる (5 章)。
- 10-
Spatial Analysis
section 1.6
Suzuki M.
ランダマイゼーション検定
完全なランダマイゼーションでは「全部の点を置換できる」と仮定するが、空間自己相関がある場合
は、相互置換可能という帰無仮説はおかしい。(図 1.18)
そのような場合、制限つきランダマイゼーションが使われる。方法:
• サブ領域中では空間依存性がないと仮定して、サブ領域単位で入れ換える。
• torus 状態にして、全部の点を横へスライドする (toroidal shift)。一回の試行で 1 lag ずつ動
かす。(データによっては厳しすぎるテスト。)
• データの空間自己相関構造を推定し、そのパラメタを使って、データと同じ空間構造をもつい
くつかの確率空間過程を生成する (条件付きアニーリング、条件付き自己回帰などの方法)。
どの制限がよいかは帰無仮説による (7 章)。
1.6
まとめ
空間統計の主目的は、データが独立かどうか調べ、空間依存性の性質を調べることである。
空間依存性の検出により、生態学的データとその背後プロセスに関して様々な有意義な解釈が得られ
る (Griffith 1992):
• 回帰残差の空間自己相関が存在する……一つ以上のプロセスがモデルに含まれていない、ある
いはモデルの構造がわるい。
• 空間自己相関の強さを、定量できていない変量のかわりに使うことができる (ランダム要因の
イメージ)。
• 空間自己相関がある……誤差の独立性を仮定した検定は不適である。
• 負の空間自己相関がある……サンプルユニットの形やサイズがプロセスを適格にとらえられて
いない。
• 小さい距離では空間自己相関が弱いか、微妙に有意でない……サンプルユニットのサイズや形、
サンプル場所間の間隔などが適切でない。
• 興味ある変数における空間パターンが誘導された空間パターンである可能性。
この本は、生態学者が自然のシステムの空間構造とその発生機構を正確に識別し解釈するためのガ
イドである。
- 11-
Spatial Analysis: A Guide for Ecologists 輪読会
2006.10.23
深澤圭太(横国大・M2)
2006.10.27 改訂
第2章
(前半)
Spatial analysis of population data「個体群データの空間解析」
目次
Introduction
2.1 Mapped point data in two dimensions「2 次元の位置付き点データ」
2.1.1 Distance to neighbours methods
2.1.2 Refined nearest neighbour analysis
属性を持たない位置付き点データの解析
2.1.3 Second-order point pattern analysis
2.1.4 Bivariate data
質的な属性(種名など)をもつ点の解析
2.1.5 Multivariate point pattern analysis
2.2 Mark correlation function
量的な属性(胸高直径など)をもつ点の解析
2.3 Networks of events
2.4 Network analysis of areal units
グラフ理論によるネットワークの解析
Introduction (p.32)
この章では、全数調査された個体群データの解析手法を述べる。そのようなデータは、2
つの形式を取り得る。
1 つ目は、ある区域における特定の生物種の個体のような、すべての点(event)の位置図が
ある場合である。それは樹高などの随伴する情報を持っているかもしれないし、そうでな
いかもしれない。ここでは全数調査データを扱い、サンプリングしたデータの解析は 3 章で述べ
る。生態学では x-y 座標をもつ 2 次元のデータをよく見かけるが、1 次元、3 次元について
も考えることができよう。位置データの解析法は隣接する点間の距離に基づいた計算を基
本とする。また、データ点やランダムに取った点を中心とする円の中にある点の数も用い
られる。ある種の成木の個体群の空間構造を調べる場合、単変量(univariate)の解析となる。
成木と実生個体のように、2 種類の点パターンに興味がある場合、2 変量(bivariate)の解析
となる。多変量(multivariate)の解析は、多種からなる森林群集の研究のように、複数種類
の点からなる対象に適用する。もしも、点が胸高直径のような量的な変量を随伴する場合、
‘マーク付き点過程(marked process)’と呼ばれる解析を行うことができる。
2 つ目の形式は、コドラートのような連続するサンプリング・ユニットにおいて収集された情
報から成る地図である。ユニットの情報は、密度や個体数、またコドラート内の植被率と
して計測されるだろう。解析手法はユニットからの情報をより大きなブロックに組み合わせるこ
と、もしくはある特定の距離にあるすべてのユニットに基づく計算を基本とする。この形式でもデ
ータによって単変量、2 変量、多変量の解析が可能である。この章で記述するすべての方法
は、窓関数すなわちデータを選択・比較するテンプレートを用いたデータ解析の概念によ
って統一される(Dale et al. 2002)。この章の最後には、この説明を私たちが紹介した題材に
ついて図解する表(p.106, Table 2.3)を添付した。
2.1 Mapped point data in two dimensions (p.33)
ここで説明する一連の手法は、調査区域内にあるすべてのデータ点の位置情報についての
図の解析に用いられる。このとき、検定統計量をデータから計算し、complete special
randomness(CSR)の帰無仮説の基で計算された期待値と比較するということがよく行われ
る。点パターン解析の1つのテーマは、ランダムなパターン(CSR)と過小分散(凝集)や過大分
散(均一、離散)なパターンとの違いである。パターンの概観や解釈は、扱う空間スケールによっ
て変化しうることを認めることは重要である(例えば p34.Figure 2.1)。点パターンをただ 3
カテゴリーに分類するだけでは単純化のしすぎと思われる。
2.1.1 Distance to neighbours methods (p.33)
1つの基本的なアプローチとして、近隣点間の距離の平均値が CSR の期待値よりも大きい
か小さいかを調べる方法がある。もし平均距離が期待値より有意に小さければ、点は凝集してい
るという結論になり、逆に大きければ離散しているという結論である。
しかしながら、どの点同士が近傍かを決めるのには多くの方法がある。最もシンプルな
定義は最近隣の点を近傍点とするものだ。場合によっては、点のペアが互いに際近隣となる
が、いつもそうなるとは限らない。調査地におけるすべての点の位置がある地図がある場
合、それをサンプリングしたものを使ってもよいし、すべての点を使ってもよい。
この章は全数調査のデータに焦点を当てているが、初めにサンプリングしたデータ点を想定
した近隣点間の距離に関する統計量について議論する。パターンの研究に距離を用いるとき
は、距離の 2 乗を用いた方が検定統計量を計算するためにはより便利である。例えば、Wi1
を点 i とその際近隣の点間の距離、λを単位面積あたりの点の密度としたとき、
 n

Q = πλ  ∑ Wi12  n (2.1)
 i =1

が平均 1、分散 1/n の正規分布と比較できる(Pielou 1959)。このような方法はこれまでにたくさ
ん提案されており、その中には、データ点から最近隣点までの距離の平均と、ランダムに配置
した点(randomly placed points)から最も近いデータ点(nearest events)までの距離(Xi1)を比較する
ものもある。Upton & Fingleton(1985)はそれらを要約した表を提供している。より洗練さ
れた指標は最も近隣の点だけでなく、2 番目に近隣(second nearest)の点などより離れたものにも
見られる。
Liu(2001)は第 j 近隣(j=1,2,3,4,5)を用いた方法の比較を示している。異なる統計量ごとに異なっ
た長所短所はあるが、Liu は次の式のような Pollard(1971)の統計量の修正版(式 2.2)を推奨してい
る。


 n
 n
P ( j ) = 12 j 2 n  n ln  ∑ X ij2 n  − ∑ ln X ij2 
 i =1
 i =1


( ) [(6 jn + n + 1)(n − 1)](2.2)
CSR において、P(j)=1 となる。1 より小さければ過大分散、1 より大きければ過小分散を示す。
CSR からの逸脱は、
(n − 1)P( j )
を自由度 n-1 のχ2 分布に当てはめて検定する。
例えば、Figure2.1 は 4 分割した調査地の中央部にしか点が分布していない(Clumped な)人
工データである。80 個のランダムな点を発生させてこのパターンの P(j)を計算した。この
ケースでは P(1)=1.11 となり、凝集している傾向を示すが有意ではない。しかし、P(2)=1.31、
P(3)=1.29 となり、どちらも自由度 79 のχ2 検定及びモンテカルロ検定において有意であっ
た。Liu(2001)は P(3)、P(4)、P(5)が好ましいとしている。
位置付き点データを使うとき、サンプリングした点に対して適用可能な手法をそのまま
使いたくなる。もちろん、すべてのデータを使用すると情報源が独立とはもはや言えないため、
それは間違いである。それに加えて、調査地のエッジに近い点をすべて使っていることに注
意を払う必要があり、エッジ効果についての何らかの考慮があるべきである(1 章を参照)。そ
のような注意からは、Diggie(1979)が’Refined’ nearest neighbour analysis と称する、多少異
なるアプローチが導かれる。すべての点の位置に関する全数調査データが与えられたとき、
サンプルには含まれない情報を捨てたいのであれば、私たちはサンプリングしたデータし
か解析に使うことができない。ほとんどの場合、使えるすべての情報を活かすために、全
数調査が使えるよう解析手法を調整するほうが好ましい。
2.1.2 Refined nearest neighbour analysis(p.35)
Refined nearest neighbour analysis においては、データから計算した統計量とそれと同
じプロットのサイズと形・データ数を持つ CSR の実現値から計算した統計量とを比較するため、モ
ンテカルロ法を用いる。Manly(1997)は、Wij(i 番目の点から第 j 位の近隣点間の距離の平均
値、j=1~10)と、CSR の実現値を用いて、そのような手続きを説明している。その例では
マツの実生の解析において第 1,2 位の近隣点からの距離のみが CSR より有意に大きく、そ
れは近距離における競争の抑制作用を示している。
Diggie(1979)が提案した方法はより複雑になる。調査地の境界線からの距離が w 以上
となる点のうち、最近隣点間の距離が w 以下になる点の割合 G(w)を、w ごとに計算する。
それは最近隣点までの距離の累積確率分布の推定値となる。この値は、近隣点間の局所的な
集合・離散に対して敏感である。もし、点がプロット内にランダムに配置されている場合、G(w)
の期待値 E(G(w))は式(2.3)となる。
E [G (w)] = 1 − e − λπw (2.3)
2
考えられる検定統計量の 1 つは、w を変化させたときの G(w)と E(G(w))との差の最大値 dw
である(式 2.4a)。そして、dw は同じプロットで繰り返し発生させたランダムな点配置の値と比
較される。
ランダムに配置した点から最も近いデータ点間の距離 u に基づく検定統計量 du もほとんど
同じように計算できる(式 2.4b)。du は点パターンにおける Gap(多分、点がまばらな部分の
こと)に敏感であるため、’empty space function’と呼ばれる。
期待値と実測値の差を w や u についてプロットすることで、さらなる洞察が得られる(Upton
& Fingleton 1985 を参照)。Diggie(1979)はデータ点-データ点およびランダム点-データ点とい
う 2 つの距離関数の差に基づく、次のような統計量を提案している。
j
S d = ∑ [F ( z i ) − G (z i )] (2.5)
i =1
zi は距離の系列を表す。
統計量の評価は、これもまた多数の CSR から得た実現値の range との比較に基づく。こ
のようなアプローチの利点の 1 つに、CSR 以外の分布を帰無仮説とすることができる点がある。
私たちは式(2.5)よりも、式(2.6)のように絶対値の総和を用いる方がよりよいことを提起す
る。その理由は、randomization envelop(点線)から逸脱していたとしても、Figure 2.2(p.37)
のように正負の逸脱があるとキャンセルされてしまうからである。Figure2.3(p.38)はマツの
幹の位置を例に、F と G の差を z に対してプロットしたものである。図からは大スケールでの分
布の集中が検出できるが、近距離での離散は検出されなかった。
2.1.3 Second-order point pattern analysis(p.37)
ここで述べる手法は、樹木の幹のような平面に配置された点の解析に用いられ、調査地
内における全数調査を仮定している。最も一般的な方法は Ripley’s K(Ripley 1976)と呼ばれ
る。このアプローチは、点の密度がλのとき、中心をランダムに取った半径 t の円内に入る点
の数の期待値をλK(t)とすることに基づく。K(t)は点パターンに依存する t の関数である。例え
ば、点が排他的に分布していれば、K(t)は近距離で 0 に近くなり、遠距離で増加する。
^
t ごとの統計量の計算は、距離が t 以下の点のペアの数え上げに基づく。K(t)は K(t)の推
定量であり、式(2.7a)として表される。
n
n
Kˆ (t ) = A∑∑ wij I t (i, j ) n 2 (2.7a)
i =1 j =1
i ≠ j j ≠i
A は調査地の面積であり、It(i,j)は点 i と点 j の距離(dij)が t 以下で 1、それ以外で 0 とする
indicator function である。wij はエッジ効果補正のための重みづけである。Wij は点 i を中心と
する半径 dij の円の円周のうち、調査地に含まれる部分の長さの割合で代替できる(Diggie
1983)。多くの著者が幾何学に基づく明示的な関数を提案している(Haase 1995; goreaud &
Pelissier 1999)。これらは複雑になりがちであり、円周を例えば 120 個程度のセクタに分け、
調査地内にあるセクタの個数を数えるということで代替できる。
私たちは、重みを点 i と点 j に依存する wij ではなく、点 i と半径 t に依存する ht(i)に置き
換えられることを提起する。ht(i)は中心 i、半径 t の円のうち調査地に含まれる部分の面積の割
合で代替する(式 2.7b)。このアプローチでは組み合わせ数が減るので、計算量を減らすこと
ができる。こちらも幾何学的計算は複雑なので、円の面を例えば 600 個程度のセクタに分
け、調査地内に含まれる点の数を数えることで代替できる(Figure 2.4)。他のエッジ補正の
手法は Ripley(1988), Cressie(1993), Haase(1995), Gignoux et al.(1999)を参照せよ。
もし点の位置が CSR に従う場合、半径 t の円内の点の数は期待値
nπt 2 A
^
のポアソン分布に従う。K(t)は期待値から観測値を引くことで、CSR と比較することができる(式
2.8)。
Lˆ (t ) = t − Kˆ (t ) π (2.8)
^
いくつかのバージョンでは、-1 をかけた値をL(t)としている場合があり、解釈の際にはどち
^
^
らのL(t)であるのか注意が必要である。L(t)は t の関数としてプロットされ、負の値であれば過
小分散、正の値であれば過大分散である。例えば、Figure2.5b はマツの幹の分布図である
Figure2.5a の解析結果である。1m 以内では過大分散であり、大きなスケールでは集合している
というデータの特徴が解析によって明確になった。
^
解析結果はL(t)=0 の近似的な信頼区間によって評価できる(5%信頼区間は±1.42(A1/2)/n、
1%は±1.68(A1/2)/n, by Ripley(1976))。多くの文献においては、有意性の評価にモンテカル
ロ法(cf.Manly 1997)を用いている(Andersen 1992; Hasse 1995)。私たちはこちらを推奨し、
Figure 2.5b の破線は CSR の実現となる点 100 セットから得た 99%信頼区間である。モン
テカルロ法を用いると、少なくとも理論上は CSR 以外の分布パターンを帰無仮説とすること
ができる。例えば、Reich et al.(1997)を含むいくつかの論文で、Neyman-Scott process を
帰無仮説としている。Kenkel(1993)はクローナル植物の Aralia nudicaulis(北米産、タラ
ノキ属)の個体群は個体間の最小距離をシュートの直径に相当する 18cm としたマルコフモ
デルでよく表現されることを明らかにした。
第 1 章では、調査地全体の空間パターンの特徴を要約する global analysis(多分、非明示
に定常性を仮定している)と、調査地の各部のパターンの違いを明示的にした local analysis
を区別した。
Second-order の統計量の議論についてはここまでは global なものであったが、
この手法は空間明示の結果を生成するのに使用することができる(cf. Getis & Franklin 1987)。
おのおのの点 i と半径 t について、円内に含まれる点の数と CSR における期待値を比較したス
コアを割り当てることができる。すると、特定の半径についてスコアのコンターマップを描くこ
とができる。Getis & Franklin(1987)は、データ点の密度がまばらな場所に対処するため、
ランダムまたは一様に配置した点についてもスコアを計算することを提案している(ラン
ダム点-データ点の K 関数)。これは K 関数解析における、’empty space’ function に相当す
る。このような例は、Ripley’s K 関数解析における空間明示な結果を提供してくれる。
Figure2.6 は左下で点が過大分散(5m のハードコア反発)であるが、それ以外は集合また
はランダムである人工データを用いて、このアプローチを図示している。Figure2.6a-c は、
それぞれ 3, 10, 20m における L 変換した K 関数(式 2.8)の値である。このような空間明示の結
果は、点パターンの非定常性(non-stationarity)を明確に示す。
Barot et al.(1999)は、ひとつの方法よりも、相補的な複数の手法を使うことの利点を示し
た。彼らは Diggie’s F & G function(最近隣および empty space function)と Ripley’s K を併
せて使用した。同時に使用することで、他の方法では明らかにならない CSR からの逸脱を明
らかにした。
2.1.4 Bivariate data(p.43)
これまでに述べた方法は簡単に 2 変量データ向けに変更することができる。これによっ
て、オスとメス、開花と非開花、羅病と健康、など 2 つの異なる属性を持つ点同士の空間的な
相互作用を解析する。例えば、Diggie の最近隣関数 G は、属性 1 の点から属性 2 の最近隣
点までの距離を調べることで、2 変量データに適用できる G12 を得ることができ、逆に属性
2 から属性 1 までの距離によって G21 を別に計算することができる。このように非対称な連
関を検出することができるため、母樹と実生のような状況においてとても便利である(Barot
et al. 1999 を参照)。同じように、empty space function もランダム点から属性 1 及び属性 2
の点までの距離を記述する F1, F2 に分けることができる。
2 変量の Ripley’s K 解析における基本的な問いは、
「どのような空間スケールで 2 種の点は
離散または集合するか?」ということである。
n1 n 2
Kˆ 12 (t ) = A∑∑ wij I t (i, j ) / n1 n 2
i =1 j =1
n1 n 2
Kˆ 21 (t ) = A∑∑ w ji I t ( j , i) / n1 n 2 (2.9)
i =1 j =1
G 統計量とは異なり K 関数は対称であるため、エッジ効果がなければ K12 と K21 は同
じものである。
これら 2 つの推定値は期待値と比較するため、式 2.10 によって組み合わされる(cf.Upton &
Fingleton 1985; Andersen 1992)。この値が 0 より大きければ異なる属性同士は集合している
ことを示し、0 より小さければ離散していることを示す。Figure 2.7a, b は林冠木(◆、主に
マツ)と実生(◇、主にトウヒ)の相互作用を示している。林冠木と実生は、近距離では離散
であるが、大きなスケールでは集合している。
これとは似て非なるアプローチが、Diggie & Chetwynd(1991)によって提案されており、
これはそれぞれの属性内ごとの Ripley’s K の差を統計量とするものである(式 2.11&式 2.12)。
有意性の評価にはモンテカルロ法を用いる。この統計量の有用性についてはさらなる調査が
必要である。私たちは非公式な試行によるものではあるが、平方根変換した K 関数を用い
る方がより安定であることを提起する。また、この統計量は他の方法と組み合わせることで
より有用なものとなる。例えば、この統計量が 0 に近ければ 2 つの属性それぞれの分布パタ
ーンが似ていることがわかるが、これだけではそれらがどのようなパターンであるかはわから
ない。
2 変量のパターンはランダマイゼーション検定ができる。点の位置を維持したまま、属性の
みを無作為化する(Figure2.7c)。Dale & Powell(1994)は乾草畑のふちで生育する Solidago
canadensis をゴールの有無によって 2 つのカテゴリーに分けた。K12 に基づく CSR との比
較では、コドラート 5(Figure 2.8a)においてそれぞれのタイプ同士は集合しているが、属性
のランダマイゼーションによってそれがタイプ間の集合によるものではなく、個体群全体
の集合によるものであることが示された(K 統計量は randomization envelop の内部におさまる)。
対照的に、コドラート 10(Figure 2.8b)ではランダム分布のように見えるが、ランダマイゼ
ーションによって、2 つの属性は実際には離散していることがわかる。
2.1.5 Multivariate point pattern analysis (p.47)
2 変量データの解析は、複数の属性からなる点を解析する手法へとさらに拡張される。
Lotwick & Silverman(1982)は基本的な 2 つのアプローチを提案している。
(1) 最近隣または empty space function によるもの(2.1.2 の refined nearest neighbour 法に
よる)
(2) (2.1.4 の Ripley’s K のような)second-order 解析に基づくもの
それらはそれぞれ、次のような概念と深いかかわりをもつ。
(1) データ点、またはランダムに配置した点を中心とする円が他のデータ点に接するまで
にどの程度の大きさとなるか?
(2) データ点を中心とする任意のサイズの円内に、他のデータ点がいくつ入るか?
異なる属性間の従属性を示す要約統計量が Lieshout & Baddeley(1999)により提案され
ている。単変量解析においては、’Event-to-event’関数である G(t)と、’Empty space’また
は’Point-to-event’関数である F(t)は式 2.13 のように H(t)として組み合わせることができる。
H (t ) =
1 − G (t )
(2.13)
1 − F (t )
CSR ではこの値は 1 となり、1 未満で集合、1 より大きいと過大分散のパターンを示す。
この値を多変量のパターンに適用するため、S 種類の属性(種名など)を考え、属性を I,J、
個々の点を i,j として表記する。
GIJ(t)・・・属性 I の点から属性 J の点に対する距離関数
G..(t)・・・属性に関わらず、すべての点同士の距離関数
FJ(t)・・・ランダム点から属性 J の点に対する empty space function
F.(t)・・・ランダム点からすべてのデータ点に対する empty space function
これらより、式 2.14 に示された 2 つの H 関数を定義できる。式 2.14 上の HIJ(t)は属性 I と J
の分布パターンの連関、式 2.14 下の H..(t)は点全体の分布パターンの連関(つまり H(t)と同じ)
を示す。
そして、λI を属性 I の強度(intensity)、λ..を全体の強度とすると、すべての属性間の指
標は式 2.15 の I(t)として定義できる(深澤注:
「強度」は属性ごとの重み付けを表すと思われ
るが、計算方法についての記述はない)。この値は、同じ属性同士が集合していると負になる。
Figure2.9(b)は、(a)に示した人工データから求めた I(t)を示す。全体として異なる属性同士
が離散し、特に 20m 付近で顕著であることがわかる。
Dixon(2002)が提案した多変量点パターンに対するアプローチは、S 個の属性に対して S 行
×S 列の分割表を構成し、I 行の J 列目には属性 I の点の最近隣が属性 J の点であった回数
mij が入るものである。このアプローチは種間関係を検出するための neighbor contact data
の解析によく似ており、それについては Yarranton(1966)、de Jong et al.(1980)、Dale et
al.(1991)など数多くの研究がある。式 2.16 の ZIJ を正規分布近似することで、期待値からの
逸脱を検定することができる。ここで用いられる期待値と分散の計算法は Dixon(2002)にあ
る。Table 2.1 はこの手法の例であり、Reich(1997)の草本植生のプロットのデータを再解析
したものである。Bogr, Agsm, Orhy, Stco は単子葉草本種であり、Forbs は広葉草本種を 1 まと
めにしたものである。すべての単子葉草本において同種の個体が集合する傾向が見られたが、
広葉草本にそのような傾向は見られなかった。Dixon(2002)はまた、同じ属性内の最近隣の
頻度の過剰さに基づく離散の指標 SI(式 2.17)を提供している。
Dixon の方法には、2 つの注目すべき特徴がある。1 つ目は、計算に近隣点間の距離その
ものを用いないこと、2 つ目は分割表を用いているために第 1 最近隣に限らずとも適用可能で
あるという点である。第 1,第 2 最近隣の点数を示す表に拡張することもできるし、それぞ
れについて分割表を作成することもできる。2.3 節では近隣ネットワークの階層性について
述べているが、どのような近隣点の定義に対しても分割表のアプローチは利用可能である。
Dixon の方法の例としてデータを使用した Reich et al.(1997)は、同じ属性の点間の全距離
に基づく解析を行っている。すべての点の数を N として、それらは S 種類の同定されたグル
ープ G1~GS と、未同定のカテゴリー’other’に分類されているとする。N’を同定されている
個体数、nI を GI の個体数とすると、グループ内間距離の平均値ξ(クシー)は式 2.19 のように
表される。
ξI =
N ' −1 N '
∑ ∑ (d
j =1 k = j +1
jk
n 
| j ∈ G I & k ∈ G I )  I  (2.19、本書中の式には誤植あり)
2
検定統計量δは、グループの個体数の割合で重み付けしたξの和である(式 2.20)。
N 個体に S+1 個のカテゴリーを割り当てる際の組み合わせ数に基づく解析的な評価が可
能であるが、モンテカルロ法やランダマイゼーション検定が直接的で解釈しやすい。この方法
の利点は種ごとのξについて解釈できる点、Neyman-Scott のような CSR 以外の帰無仮説と
の比較もできる点である。しかし、パターンに複数のスケール(例えば、近距離で集中、遠
距離で離散など)があると、グループ内平均は有益な指標ではない。Reich(1997)はクラスター
のサイズと関係のある距離の上限を変更することで、複数のスケールを考慮しようとした。この
対処がどれだけ有効であるかは不明瞭である。Ripley’s K やその他の手法による事前の解析
が予備的な段階としては便利かもしれない。
多変量の点パターンについても、単変量の K 関数をグループごとに適用することで解析
できることは明らかである。グループの対の解析についても、2 変量の手法を用いることが
できる。しかし、真の多変量の解析が何を含むかは不明瞭である。毎度のことであるが、
用いられる手法は仮説によって決まる。例えば、「種ごとに見て、すべての種が他種と離散な傾
向があるか?」という問いと、
「全体として、すべての種が他種と離散な傾向があるか?」とい
う問いは異なる。それは、点パターン全体を属性ごとの特性に分けるか、タイプ間の関係に分
けるかの違いである。
Lotwick & Silverman(1982)は「当然のことながら、多変量の点パターンの二次構造の記
述及び推定においては、同時に 2 種類の属性のみを考慮すればよい」という興味深いコメン
トを残している。私たちの立場では、この言明は全く正しくない。なぜなら、KI,~I(t)(グル
ープ I vs. グループ I 以外)や KI.(t)(グループ I vs. 全部)から得られるものもまた多いからであ
る。私たちはすべての点のペアによる K..(t)を、種内のペアのみの統計量 KXX(t)と種間の統計量
KX,~X(t)に分割することを提案する。さらに、KXX(t)は S 通りの KII(t)に分割することができ、
KX,~X(t)は SC2 通りの KIJ(t)に分けることができる。これらの分割された K 統計量は、より簡単
な解釈のために L 関数と等価なものに変換することができる。Figure 2.10a は Figure2.9a
のデータから計算した LX,~X(t), L..(t), LXX(t)(それぞれ、上・中・下段)を図示したものであ
る。この結果は、点の配置自体はランダムであるが、同じ属性の点同士は集合し、異なる属
性同士の点は離散することを示している。Figure 2.10b は、同じ種同士での集合の傾向を種
ごとに示しており、種 1 はランダムと大きな差はないが、種 2 は近距離で強く集合してい
ることがわかる。Figure 2.10c は個々の種とそれ以外の種との L 関数の解析結果を要約した
ものであり、種 3、種 4 が空間スケールに関わらず、他種と強く離散することがわかる。こ
れらはさらに、種 1 vs. 2、種 1 vs. 3 のように 1 対1の関係に分割することができる。
Condit et al.(2000)は、円ではなく幅Δt の円形のバンドまたは輪の中に含まれる点の数に基
づく Ripley’s K の修正版を用いて、複数種の点パターンの解析法を提案した。その統計量は、式
2.21 となる。
{ [
Ω I (t ) = [K II ( t + ∆ t ) − K II ( t ) ] ÷ λ I π (t + ∆ t ) − π t 2
2
]}(2.21)
分母は複雑そうに見えるが、円形のバンドの面積に種 I の密度を掛けたものである。
円ではなく輪を用いるのは、近距離にある点の影響を除外して遠距離にある点のみの評価を
するためである。この手法の欠点は、点の密度が低い場合、距離の階級を大きくしないと輪
に含まれる点がなくなり、カーブが不安定になることである。また、輪の幅がいくらか主
観的になる。輪を使うか円を使うかは、点の間の距離を調べたいのかパターンのスケールを調べ
たいのかということに対応する。
多変量データの解析は使える方法の幅が広く、どれを選ぶかは難しい。Ripley’s K に基づ
く方法は、以下の理由で人気がある。
・ 解釈しやすい
・ ほとんどの点データに使える
・ スケール間にパターンの違いがあっても対処できる
近隣点の階層構造によるアプローチ(2.3 節)は、Ripley の方法のように距離を用いない方法であり、
それらと相補的になる手法である。どの方法も単独では我々の知りたいすべての情報を引き
出すことはできない。複数の相補的な手法を併せて使うのが好ましい。
2.2 Mark correlation function (p.55)
ここから述べる方法は、隣接する樹木個体の相互作用を調べるためにデザインされてお
り、Penttinen et al.(1992), Gavrikov & Stoyan(1995) や Stoyan & Penttinen et al.(1992)
に見られる。このアプローチでは幹直径のような量的な特性 mi を考慮する。
^
μを mi の平均値とすると、式 2.22 より得られるKm(t)と期待値の比較は次の計算(式 2.23)
によって行われる。
Lˆ m (t ) = t − Kˆ m (t ) / πµ 2 (2.23)
^
Lm(t)を t の関数として図示したときに、正の値はマークの過大分散、負の値は近いマークを持つ
点の集中を示す。式 2.22 の mi*mj を(mi-mj)2 とすると、それは 3 章で説明するバリオグラム
と等価になる。Figure 2.11a は、点自体は集中分布していないが関連付けられた値は集中し
ている人工データである。Figure 2.11b に示した K 関数の値からは点の配置が集中している
傾向は見られないが、Figure2.11c の mark correlation の解析では集中が見て取れる。Goulard
et al.(1995)はクリの萌芽株の研究において、このアプローチの有用性を示す例を提供して
いる。
2.3 Networks of events (p.57)
2.1 節では、最近隣というコンセプトで点パターンの解析を議論した。もし地図上で最近
隣の点同士を線で結ぶと、最近隣ネットワークの図が出現する。Figure 2.12 は最近隣点間を線
でつないだ近隣点ネットワークである。この図をグラフ(graph)と呼び、それは辺(edge)
ek=(vi,vj)でつながれた頂点(vertex)vi によって構成される。すべての頂点が辺によって1続き
になっているグラフを連結(connected)と呼ぶ。Figure 2.12 のように、第 1 最近隣点をつない
だグラフが連結になることはほとんどない。1 つの頂点から同じ辺を使わずにたどったときに、
もとの頂点に戻れるグラフをサイクル(cycle)と呼ぶ。サイクルをもたないグラフをツリー
(tree)と呼ぶ。
最近隣の定義は互いに最近隣(Mutually Nearest Neighbours: MNNs)へと狭めることが
でき、それによって Figure 2.12 の太線のように辺の数が減少する。CSR の元では、約 62%
の点が相互に最近隣であるペアに属する(Pielou 1977)。すなわち、1 点あたりの近隣点の数
の平均は約 0.62 となる。
最近隣点のグラフは、いくつかの方法で拡張することができる。例えば、第 1 に加え、
第 2 最近隣を含めるなど。MNNs からデローネー三角網のグラフに至るまで、近隣点の階層
構造を描くことができる(Table 2.2)。解析においていくつかのネットワークを使う利点は、さ
まざまな近隣点の数や近隣点間の距離の平均を使えることである。
3 番目のネットワークは最適木(Minimum Spanning Tree:MST; Figure2.13)である。こ
れは、すべての頂点が 1 続きになったツリーのうち、辺の合計長が最小となるものである。n 個
の頂点からなる全域木(Spanning tree)は n-1 個の頂点を持つため、頂点 1 つあたりの隣接す
る点数の期待値は 2-2/n 個であり、およそ 2 となる。
4 番目のグラフは Relative Neighbour Graph: RNG(Toussaint 1980;
Figure 2.15)であ
り、Figure 2.14 のように両端の頂点を中心とし、半径を辺の長さとする2つの円に囲まれる
範囲に他の点がない辺によって構成される。CSR において、隣接する頂点数の期待値は 2.4
である。
次は Gabriel Graph: GG(Gabriel & Sokal 1969; Figure 2.17)である。Figure2.16 のよう
に、辺を直径とする円内に他の点がない辺によって構成される。Matula & Sokal(1980)は
CSR において隣接する頂点数の期待値が 4 に近づくことを示した。
最も複雑なネットワークの階層は、デローネー三角網(Delaunay Triangulation: DT;
Okabe et al.(1992); Figure 2.19※但し、この図は間違いだらけ)である。3 つの頂点に接する円内に
他の点を持たない三角形によって辺が構成される(Figure2.18)。この三角網は、Dirichlet 領
域、Thiessen 多角形または Voronoi 多角形と言われる多角形のモザイク構造と深いかかわりを
持つ(Figure 2.20)。共通の境界を持つ多角形に含まれる2つの点同士は、必ず辺で結ばれる。
この生態学的な応用は、モザイクが点からの距離が最も近い領域に一致することからくるもの
である。点が植物を表す場合、多角形は植物が先取りできる資源を決定し、定着成功はその多
角形の大きさに依存するだろう(Mithen et al. 1984)。DT グラフの近隣点数の期待値は、点パ
ターンによらず 6 に近づく(Upton & Fingleton 1985)。
ここで述べたすべてのネットワークは上位の階層のネットワークの部分グラフとなるという事実
によって統一される。このことは、下の階層で考慮した近隣点は、ネットワークの階層を上げて
も外されないということである。
例えば、Figure 2.21 は Solidago canadensis の健全個体とゴールを持つ個体を色分けし
て図示したものである(Dale & Powell 1994)。ランダマイゼーションによって、近隣点同士が同
じラベルを持つ回数がどの階層で有意に異なるかを調べた。結果は、NN, MST, DT のみが有意
であった。
近隣ネットワークの階層は、多変量の点パターンやマーク付き点パターンの解析にも使
える。ラベルを付け替えるランダマイゼーションが、結果の有意性を評価する手法となる。
このような近隣点の階層の記述は最良の階層を見つけることを意図しているわけではなく、階層
間の差が価値のある洞察を与えてくれる。生態学者にとって有用である点は、階層的な解析の
結果を散布や死亡といった生態学的なプロセスの実現としてデザインされた人工データと比較で
きる点であろう。
2.4 Network analysis of areal units (p.64)
近隣ネットワークを用いた解析では、ハビタット単位(パッチ)のような地域単位を扱ったり、
2 次元以外の点パターンを扱ったりするといった拡張が可能である。
我々のパッチの解析は、ランドスケープの連結性を調べるグラフ理論的アプローチ(特に、
Cantwell & Forman 1993; Urban & Keitt 2001)によるところが部分的にある。一連の論文
は生態学的な構造を推定する便利な手法として、グラフ理論に新たな注目を喚起した
(cf.Dale 1977; Fortin 1994)。
地域は「パッチ」と呼ばれるハビタット単位のセットとして表現されるという仮定が景観生態学
においてよく見られる。分断化の研究においては、生育に適したハビタットのパッチが不適なパ
ッチの配列の中に位置していると考える。グラフ理論的には、ハビタットのパッチが頂点として表さ
れ、それらの接続は辺によって表現される。
連結グラフにおいて、削除されるとグラフの連結が失われる点を切点(cut-point)という。同
じように、辺については切辺(cut-edge)または橋(bridge)と呼ぶ(Figure2.22)。連結グラフに
おいては、その連結の強さを表す指標として、グラフを分断するのに削除しなければならない
頂点数および辺数の最小値(それぞれ vertex connectivity, edge connectivity と呼ばれる)が
ある。グラフの連結性と、コリドーとパッチからなる分散ルートの数の間には、明らかな類似性が
ある。
グラフにおける辺は長さを持つが、それは物理的な距離であってもよいし、移動の際の抵抗や
コストであってもよい。2 つの頂点間のグラフ理論的距離δij は、最小パス距離である。ある頂点
からの距離が最大となる頂点までの距離は離心度(eccentricity)と呼ばれ、連結グラフにおける
離心度の最大値をグラフの径(diameter)と呼ぶ。
Urban & Keitt(2001)は、辺や点がなくなることの影響から見たランドスケープのグラフの特性
を調べた。彼らは、すべての頂点間に辺をもつ完全グラフ(complete graph)から、閾値に応じ
て 長 い も の か ら 辺 を 削除 し て い き 、 切 断 さ れ て で き た グ ラ フ 要 素 (component)の 数 や 最 大
component の径と頂点の数の変化からランドスケープにおけるパッチ構造の評価を行った。
例えば、Figure 2.23a は広大なミズゴケ地帯に点在する 21 の湖の位置及び大きさと、距
離ベースの MST である。Figure 2.23b はそのデローネー三角網である。Urban & Keitt
のアプローチを用いて、Figure 2.23c-f には閾値を 7km、6km、5km、4km としたグラフを示した。
7km(c)において、グラフは 21 の頂点を持つ 1 つの要素から成る。完全グラフに比べて、グ
ラフの径は少し大きくなる。6km(d)においてはグラフ要素は 2 つになり、径は減少した。
6km から 5km(e)への変化は、2 つの湖が最大要素から外れる程度であるが、それに比べて 5km
から 4km(f)への変化は要素が 9 個に分割される劇的なものである。
Figure 2.23b のデローネー三角網に話を戻すと、個々の辺 eij の重要度についてシンプル
な指標を提案できる。その指標は、辺を失うことによって発生する最小コストであり、辺の両端
の頂点の接続を他の辺で置き換えるときに増加する長さ(式 2.24)またはその割合(式 2.25)で表
される。
頂点の削除を評価するため、Urban & Keitt の提案した指標は辺の削除よりもより生態学
的である。
(1) 加入指数 R
消えたパッチ面積をパッチの質で重み付けした和
(2) 分散フラックス指数 F
消えたパッチ面積を他のパッチに個体が分散する確率で重み付けした和
(3) 横断可能性 T
頂点を消した後の最大グラフ要素の径
彼らは完全グラフから頂点をある基準に基づいて削除することを繰り返した。基準は、ランダ
ムに削除・最小面積のパッチから削除・そのときの最適木における最小面積の’Leaf’(1つしか辺
をもたない端の頂点)から削除、の 3 つであった。すると、当然ながらランダム削除によるネ
ットワークの衰退がより速く進んだ。
辺の削除と同じように、個々の点の重要性の指標を考えることができる。例えば、DT グ
ラフにおいて削除される点に接続していた辺の長さの平均と削除後の DT グラフにて新たに発生
した辺の長さの平均を比較することができるだろう。
グラフが平面上に配置されると、中心部にあるか周辺部にあるかによって頂点を区別するこ
とができる。明確に言えば、凸包(convex hull, Figure 2.23 における湖 4,20,18,16,13,7,6,21)に含ま
れる点を外周点(perimeter vertices)、それ以外を内部節点(interior nodes)と定義できる。すべて
の頂点間に辺のある完全グラフで特定の点の重要度を評価することは難しく、最適木や DT グ
ラフなどを用いることになる。点が外周にあるか内部にあるかということや接続している辺の
長さによって点の重要度は影響を受けるだろう。また、点の削除の影響は、グラフの種類によっ
て大きく変わるだろう。DT グラフにおいては点の削除がグラフの切断につながることはないが、
最適木ではしばしばそれが起こる。
ネットワークの評価は興味深い領域であり、特にパッチネットワークにおけるどのような特性
が個々の生物の分散にとって重要であるかということの評価について、より多くの研究が必要
である。
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
第2章後半:担当竹中
2.5 他の次元での点分布パターン (p75-)
2.5.1 一次元 (p75-)
生態学でも,一次元上のイベントの並びのデータは扱う.以下,全体の長さを1に標準化し,
そこにn個のイベントが分布してると考える.それらで区切られた n+1 個の断片の長さをそれ
ぞれ ui
(i = 1, 2, ... n+1) とする.
n +1
Wn = ∑ u i2
(2.26)
i =1
これは 2 点が近接しがちであれば大きな値となる.また,
n +1
hn = ∑ ui u i +1
(2.27)
i =1
は,2 点が近接してたら3点めも近接してる(そして,2点の間隔が大きければ3点目も離れて
いる)というパターンなら大きな値となる.
Ripley の K 関数の一次元版を考える.長さBの線上に n 個のイベントが分布.
n
Kˆ (t ) = B∑
n
∑ wi (t ) I t (i, j ) / n 2
(2.28)
i =1 j =1
i≠ j i≠ j
wi(t) は,エッジ効果の補正項.It(i, j) は,i 番めと j 番めの点が距離 t 以内にあれば1,そう
でなければ(遠ければ)0.

 n
※ Kˆ (t ) =  ∑
 i =1
 i≠ j



 /(n / B) (2.28 補)
w
(
t
)
I
(
i
,
j
)
/
n
∑ i t

j =1

i≠ j

n
一点ごとに周辺の他点の密度を見るためにまず n で割る. さらに,全体の密度
(n/B) で割って標準化.
K(t)は,任意の点の左右 +/- t の範囲(全長 2t) 内の点の密度.全体の密度で割って標
準化しているから,期待値は範囲の広さ 2t そのもの.2で割ってから t から引けば,期待
値は 0. これが L 関数.
Lˆ (t ) = t − Kˆ (t ) / 2
(2.29)
L が0より大きければ K が小さい → 近所の点密度が低い
→ overdispersion
L が0より小さければ K が大きい → 近所の点密度が高い
→ clumping
1/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
例:川での瀬の分布(Fig. 2.25).
簡単に bivariate 版を考えることができる.(2 種類の点の分布の関係など).
空隙性 (Lacunarity) (p79)
すき間の解析方法はいろいろある.たとえば Allain & Cloitre (1991) の gliding box (moving
window)法.箱をずらしていく.m1 は箱内のイベント数の頻度分布の1次モーメント(要するに
平均),m2 は二次モーメント(要するに分散).空隙性の指標としてΛを計算する.箱の大きさ
を r として,
Λ(r ) = m 2 (r ) /[m1 (r )]2
(2.30)
※箱内イベント数の変動係数の二乗に相当.
Λ(r) と r の関係を両対数のグラフにする(図 2.27) . 集中分布している(空隙が大きくあいて
いる)とΛが大きい.この方法はよく使われるが,Λによるパッチサイズの検出はあまり正確
ではない.
2.5.2 三次元ないしはより高次元 (p81-)
例は少ないが,多次元への拡張は容易.組織の中の細胞の分布とか,細胞内の染色体の
中心体の位置とかの解析に利用. Ripley の K 関数の三次元版は,
n
Kˆ (t ) = V ∑
n
∑ wi (t ) I t (i, j) / n 2
(2.31)
i =1 j =1
i≠ j i≠ j
式(2.29)のB, (2.7) の A がVになっただけ.w は,注目する点を中心とすr半径 t の球の
体積のうち,解析対象空間に含まれる部分の比率.
L 関数にするのは容易.半径 t の球の体積は 4πt3/3 なので,CSR (complete spatial
randomness)なら,球内の点密度の期待値(を全体の密度で割って標準化したもの)は 4π
t3/3 そのもの.したがって,4π/3 で割って三乗根をとれば t となり,これを t から引いたも
の(すなわち L 関数)の期待値は 0,というのはこれまでと同様
Lˆ (t ) = t − 3 3Kˆ (t ) / 4π
(2.32)
bivariate や multivariate への拡張も容易.
三次元版は生態学での利用例は少ないが,こうした解析法がより知られるようになれば,も
っと使われるだろう.たとえば森林のなかでの葉の分布など,よい応用例になるのでは.
# といっても,多くの場合,垂直方向の軸に沿ってさまざまな環境傾度があるので,単純な
応用はむずかしいのでは?
2/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
2.6 隣接ユニット解析 (contiguous units analysis) (p82-)
まずは一次元の話から.並んだn個のマスごとのデータがある(ある種類の生物の,コドラ
ートごとの在・不在とか,個体数とか,相対密度とか).距離ないしはブロックサイズと,データ
の分散の大きさとの関係に注目する(分散が大きい→ブロック間でデータの類似性が低い).
2.6.1 いろいろなコドラート分散法 (p82-)
Hill(1973)の方法2つ.いずれも,出発点をずらしながら計算し,それらの平均を求める.
TTLQV (two term local quadrat variance)
V2 (b) =
∑
i =1
2


x
x
−
∑ j  / 2b(n + 1 − 2b)
j
 ∑
j =i + b 
 j =i
n+1−2b  i +b−1
i +2b−1
(2.33)
出発点は n+1-2b 個.それぞれ,出発点からb個分のマス内のデータの和と,その先のb個
のマス内のデータの和の差をとって二乗.全出発点について計算してから平均する.この値
がもっとも大きくなるようなbが,パターンの変動のスケール.
※パターンの変動スケールよりも b が大きいと,変動がなめされて分散が小さくなる.bが小さ
いと,データの変動が小さいレンジにとどまるために分散が小さくなる.
TTLQVでは,マスの束ね方を変えた(それにともない束間の距離も変わる)が,マスを束ね
ず,2つのマスの距離だけ変えて,そのあいだのデータの分散をみるのが PQV.
V p (d ) =
n−d
∑ ( x i − xi+ d ) 2 / 2(n − d )
(2.34)
i =1
これでも,TTLQV 同様,V が最大になる d がデータの変動スケールだと解釈する.TTLQV
との関係は(ややこしい)式で書ける. → 式 (2.35)
TTLQV も PQV も,2つのマス(の束)のあいだの分散から,3つのマス(の束)のあいだの分
散へと拡張することができる.→ (2.36), (2.37)
TTLQV は,全体がはいてる下駄の影響を排除できる.3束版の 3TLQV は全体の線形の
増加・減少傾向の影響を排除できる.
※N(i-1) - N(i) と,N(i+1) - N(i) とを加えてから二乗する.Nが等差数列だったら,これらはキ
ャンセルアウトしてゼロになる.
前述した空隙性の解析は,これらの方法の1マス(1束)版と見ることもできる.
どの方法も,データが平衡状態でないときは十分に注意して結果を解釈することが必要.
2.6.2 コドラート分散法の有意性テスト (p85-)
統計解析の結果を解釈するとき,ふつうにやるのは統計的な有意性の検定.空間パターン
3/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
解析の場合,統計的な有意性を見積もるのがむずかしい.その理由は,いろいろな非独立性
のため.
1) 近くの区画では似たデータがとれがち.それはそれでパターンの一部ではあるが,このた
めに検定で有意が結果が得られやすくなってしまう.
2) 計算の過程で,個々のデータが複数回使われる.
randomization で有意性を調べる手はある.ただ,完全な randomization ではすべての空
間構造を壊してしまうので,できる検定は,「なんのパターンもない」と考えてよいかいけない
か,だけになってしまう.
※「有意だ」となったとして,言えることは「まったくデタラメというわけではない」というだけ.
これではつまらない.
制限つきの randomization はあり得る.それについては他で.
PQV の検定を考える.まったくパターンなしの均一分布なら,Vp(d) は d に依存せず,おな
じ平均と分散を示すはず.たとえば,(xi が [0, 1]のあいだの均一分布なら)
[
]
E (xi −x j ) 2 = 1/ 6
なので,Vp(d) は,(n-d 個のこういうペアについて計算した差の二乗の平均をさらに半分にし
ているので)期待値 1/12 だろう(同様に分散の予測もできる),そしてその分布は正規分布
に従うだろう,分布が分かれば検定もできるだろう,と考えたくなる.でもそうならない.
これは独立性が不十分だから(たとえば, x1-x4 と, x4-x7 は独立ではない.x4 が小さめな
ら,x1-x4 が,大きめになると同時に,x4-x7 が小さめになる)..また,正規分布にもなならない.
Vp(d)と Vp(d-1) は相関するため.
というわけで検定は難しいが,結果の解釈のしかたの指針はある.ランダムな分布のもとで
は,Vp(d) と d をプロットしたとき,最初の Vp(d) のピークが d= 1 のところに現れる確率は
おおよそ 0.5, d=2 のところに現れる確率は 0.25, 以下,d=n に現れる確率は 0.5d となる.
# だからどうしろというのか,よく分からないが…
もうひとつ注意すること.データ全体が non-random かどうかを検定することと,あるブロッ
クサイズで random 分布からのずれがあるかを検定することは別のこと.
TTLQV だと,PQV よりもずっと独立性が損なわれる(ブロックをいろんなふうに束ねて計算
するから).それらを考慮して分散など計算するとはとても大変.そういう労力は払うに値する
か? 否.そうして計算する平均や分散は,背景にある点の分布パターンに依存する.そして,
そのパターンの真の姿をを我々は知りようがない.
意味のある制限付き randomization を設定して検定できる場合はよいが,そうでなければ,
検定よりも data exploration の道具としてこういう手法は利用されていくだろう.
4/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
2.6.3 複数の種への適用 (p88-)
簡単な拡張は,さまざまなスケールで,2種の分布の共分散を調べること.上で紹介した方
法を2種に拡張するには,2種の分布の共分散が以下の式で求まることを使えば簡単.
Cov ( A, B) = [Var ( A + B) − Var ( A) − Var ( B)] / 2
(2.42)
# この式は簡単に確かめられる.
これを使って,TTLQV を TTLQC にしたり,PQV を PQC にしたりできる. FIg. 2.30 は3
TLQC の例(スゲの 1 種と,ワタスゲとの分布の関係).
個々の種の組み合わせについての解析結果を並べ立てても解釈はむずかしい.多種系全
体としての分布パターンを抽出する方法が工夫されている.
植物の群落は,識別可能なフェーズがモザイク状に組合わさったものだ,という考え方が出
発点.各フェーズ内は完全に均一でなくてもよいし,境界はシャープでなくてもよい.ともかく,
フェーズ間よりもフェーズ内で類似性が高いことと,同様なフェーズ(種組成)のところが複数
あること.群落全体でのスケールは,2点間でもっともよくにた種組成が見つかる可能性を最
大化するような距離(の半分)と定義できる.
コドラート間の共分散の計算と,主成分分析を組み合わせた方法(Noy-Meir & Anderson,
1971 など)がある.k 種の系の場合.ブロックサイズごとに k 種×k 種の共分散行列を計算
する.3TLQV/3TLQC がおすすめ.全部の結果を合せて主成分分析.その結果,各主成分で,
どのブロックサイズのときの分散・共分散の重みがどれだけかを調べて,主成分の貢献度×
その主成分中でのブロックサイズ b の分散の貢献度を,ブロックサイズごとに積算する.こう
するとブロックサイズそれぞれの積算貢献度が求まる.これのピークが,植生のパターンのス
ケールだと考える.
#複雑だ…
大きなブロックサイズの分散の貢献度が高くなる傾向を補正する方法あり.
また,一種がとても優占していると,多種系のパターンというよりも,その種の分布パターン
の影響が強く出てしまう.そういうことが起こってないか,種間での貢献度のバラツキ具合を
表す指標 Ei を求めて検討することができる.
例(Fig. 2.31):アルバータ州の boreal forest の林床のデータ..
2.6.4 2次元ないしはより高次元 (p91-)
コドラート分散法の考え方は,2次元に拡張できる.たとえば tQV なら式 (2.45),というよう
に.イメージは Fig. 2.32 (a). Dale(1995, 1999)の random paired quadrat frequency 法は,二
次元中の任意の二点をとって,その種組成を比べ,ランダムに分布してる場合とくらべる.二
点間の x 座標・y座標の差に応じて,ランダムからどのようにずれるかに注目する.
5/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
SADIE (Spatial Analysis by Distance IndicEes)
並んだコドラート中の点やイベント数のデータの解析法.以下のような操作的な定義で,
「集中してない度合」とか「均一でない度合」の指標を決める.
・全部の点が一区画に集まるには,総計何ステップ動く必要があるか(distance to crowding)
・全部の点を全体に均一にばらかすには,総計何ステップ動く必要があるか(distance to
regularity).
平均より多くの点が分布してる区画が p 個,平均より少ない点を含む区画が q 個あるとする
と,均一な分布へと動かす場際に,pq通りの区画ペアのあいだで点の移動が起こりうる.
個々の移動の距離(区画数)d と,動かす点の数 v との積和
p
D=∑
i =0
q
∑ vij d ij
(2.47)
j =1
を最小にするような移動のしかたを見つけるアルゴリズムがある.
Dを求めて,ランダムなパターンと比べて統計的に検定することができる.この方法の改良
版もいくつかあり.コドラートごとのデータでなく,点の分布データを扱うように変更することも
できる.
二次元分布データの場合,前に紹介した空隙性解析も使える.特に,衛星画像の画素のデ
ータの解析によく使われる.たとえば,リモセン画像から熱帯の景観の分断化を調べるのに,
gliding box アルゴリズムによる空隙性解析をする,という論文がいくつかある.
三次元版も可能だが,生態学の分野ではあまり例がない.三次元の点過程解析のところで
も書いたように,この方法が生態学者にもっと知られるようになったら,これは便利だというの
で,利用されるのではないか.
2.6.5 スペクトル解析と関連手法 (p95-)
密度の空間分布データから,繰り返されるパターンを検出して,どんな周波数成分が観察
データに合うかを捜す.連続ないしは等間隔に並んだデータを使うのがふつう.よく使う手法
はフーリエ変換(三角関数の和に分解する).(Fig. 2.33) 二次元の生態学的データにも使わ
れたし,点過程のデータにも応用できる.
n 個のデータ (x1, x2, ...xn)があるとき,こんなふうに表現する.
xi = x +
n / 2−1
∑ c p cos(2πip / n) + s p sin( 2πip / n)
(2.48)
p =1
係数 cp ,sp は式(2.49) で求める(※フィルターで,特定周波性成分だけ取り出す).関連手
法としては,三角関数のかわりに矩形派を使う方法もあり.(Fig. 2.34)
6/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
2.6.6 ウェイヴレット (p96-)
スペクトル解析に似てるけど,無限に続く三角関数ではなく,幅が有限の wavelet を使う (Fig
2.35 みたいな).データと wavelet の内積を計算する.
T (b, u i ) =
[
1 n
∑ y(u j ) g (u j − ui ) / b
b j =1
]
y はデータで,位置 u の関数.g は wavelet 関数.bは wavelet の幅.
上の式で,T が正の大きい値なら,中心位置が Uj で幅bの wevelet とデータのパターンと
よく一致してることになるし,とっても負なら,とっても合ってないことになる.
# とっても負→逆の変動 ということではなく,無相関ということ.
wavelet 関数のいろいろな例は Fig. 2.36. 'メキシカンハット'を表す式は (2.51).いずれにせ
よ,全域での積分がゼロになることが必要.
wavelet 分散を定義することもできる.ある幅 b の wavelet について,あてはめる場所(の
中心となるマス ui )をずらして計算したたくさんの T の分散.
n
Vw (b) = ∑ T 2 (b, ui ) / n
(2.52)
i =1
wavelet 分散は,wavelet 関数の形によって,前述の TTLQV に相当したり, 3TLQV に相
当したりする.また,これらは矩形波を使ったスペクトル解析とも関連する.wavelet に三角関
数を使えば,フーリエ解析の局所版になる.
式(2.42)をつかえば,bivariate 版への変形もできる.
二次元 wavelet を使えば,二次元の分布データの解析もできる.
2.7. 外接円法 (p98-)
二次元平面状の任意の三点について(これらが一直線上にある場合をのぞき),これらの3
点を通る円が定義できる.この円のなかに含まれる点の数に注目する解析法.
2.7.1 一変数の解析 (p99-)
全域の面積が A,そこにn個の点があるとすると,その中の3点で定義される三角形中の点
の密度の期待値 ek は,(n-3)ak/A.(※頂点となる3点は含めないのでマイナス 3). いっぽう,
実際は nk 個の点があるとする.期待値と観測値から,Freeman-Tukey の偏差 (式 2.54) を
求め,この円内は有意に点が多いか(あるいは少ないか)を調べる.
この円に外接した,同面積のリングを考える.この中の点密度についても同様に偏差を調
べる.中の円の点密度(の偏差)と,外のリングの点密度(の偏差)の差(Z)が大きいほど,そ
の円は周囲から際だって点が集中したパッチだ(あるいは点がすくないギャップだ)ということ
7/8
Spatial Analysis (Forin & Dale, 2005)
輪読会レジュメ
2006-10-27 版
になる.Z2 と円の半径との関係をプロットして,ピークになるところがパッチなりギャップなりの
サイズを反映しているだろう.Z が正の場合だけ,あるいは負の場合だけについて同様のグラ
フを書けば,それぞれパッチとギャップのサイズを反映するだろう.
パッチやギャップとなった円の中心位置をグラフにプロットして等値線を引くと,パッチやギ
ャップの空間分布図が得られる(図 2.38).
2.7.2 二変数の解析 (p100-)
K関数などと違って(#),2種間の関係の解析で,互いが対称ではないこと(種1の点が作る
円に種2がどのように含まれるかと,種2が作る円に種1がどう含まれるかは違う).林冠ギャ
ップが(さらにギャップのサイズが)実生の分布に影響するか,といった解析に使えるであろう.
おたがいに影響しあうようなケースなら,両方(種1が作る円内の種2の分布と,種2が作る円
内の種1の分布)の解析をすればよい.
# K 関数でも,有限の空間を対象とする場合,エッジ補正のかかり方は2種類の点のあいだ
で対象ではないので,計算で出てくる値は多少異なる.
2種の共分散と,円のサイズの関係を調べるという解析もある.共分散を求めるには,例に
よって式 (2.42) を使えばよい.具体的な手順は式 (2.57)から式(2.61)まで.
空間明示的な分布図が欲しければ,一定の半径について,とくに点があつまる円の中心,
とくに点が少ない円を図にプロットすればよい.
2.7.3 多変数の解析 (p103-)
これまでの解析と同様,multivariate への拡張は簡単だが,その解釈は複雑になる.同種
内の関係,ある種とそれ以外の種の関係,個々の種のペアの関係,というように分けて考え
るのがよいだろう.
図 2.39 は,カエデ属内の関係と,カエデ属とその他の樹種との関係.近距離では,カエデ属
の樹種がまとまっていることと,そこには他の樹種が少ないことが見て取れる.
2.8 おわりに (p103-)
この章でとりあげた内容のなかに,3つの主題がある.
まず,さまざまな手法がたがいに関連していること(概念的にも,数学的にも).
つぎに,CSR(まったくランダム)以外にどのような帰無仮説が考えられるかということ.
3つめに,解析的な手法でうまくいかないときにモンテカルロ法や randomization が有用だと
いうこと.これはコンピュータの進歩のおかげで,本書全体の通奏低音ともなっている.
どの解析方法を使うかの選択は,データと,知りたいこととに依存する.ともあれ,データの
重要な性質を見逃すことがないように,複数の方法を使ってみることを薦める.
8/8
Spatial analysis –A guide for ecologists §3(前半)
3
黒江
美紗子(生物多様性)
Spatial analysis of sample data
2 章では点過程によってパターンを分析する手法を紹介←すべてのデータに関して XY 座標が必要。3
章では、個々の木のように点として分離することのできない、土壌湿度のような連続的なデータを扱う(表
面パターン法あるいは、区画パターン法と呼ぶ)
。※点過程と区画パターン法は、点過程のほうがより詳細なデータともいえ、点過
程のデータは区画パターンに変換することもできる。
空間を扱う場合、調査地全体を調べることは労力的に難しい。その場合、サンプルデータをどのように
処理すれば、空間パターンを特徴づけ、モデルを構築することができるのか?
2 章での「近接」:境界線を共有して隣接しあったサンプルユニットが対象(パッチ構造や境界を仮定しない)
3 章で扱う「近接」
:ユニット間に空間的距離が存在(景観を分類している)
※空間解析時には、
空間に配置されたサンプルユニットの扱いや計測の統計的手法は複数存在することに留意(しかも併用は不可)
。
格子データで扱う解析
・ 距離や共有する境界の長さを元にした近接性の定義や最近接距離の算出。
・ Moran や Geary の相関係数を用いた空間的自己相関の算出や検定。
・ 共分散構造に条件付自己回帰モデル、同時自己回帰モデル、移動平均モデルを仮定した空間回帰。
3.1 近接性の決定
サンプル間の近接性を評価するには、トポロジー空間とユークリッド空間という二つのタイプの空間表
現が存在する。
トポロジー空間:相対的な位置関係のみが重要で、互いのユークリッド距離に意味はない。
ユークリッド空間:サンプル間の相対的な距離が意味を持つ。
連結性行列 Connectivity matrix
あるサンプル間の位置関係や距離を示すために用いられる。
[fig.3.1] データの配置と連結性行列
ある配置を示すサンプル同士(a)の距離に対して数値を設定し、総当りでの行列図を作成
(b) 直接リンクしている→1、直接リンクしていない→0
A にとって近接するユニットである B,C,D,E は 1、それ以外は 0。
(c) リンク状況によって階層をつける
直接リンクしている→1、
ある 1 つのユニットを介して間接的にリンク→2
ある2つのユニットを介して間接的にリンク→3
サンプル間の距離だけでなく、位置関係を考慮するには、サンプル間の方向性に制限を設ける。
連結性の性質を定義:連続的なコドラートを設定し、近接(neighborhood)を以下の 3 タイプに定義
[Fig.3.2] チェスでの駒の進め方に例えて…
Rook→縦横に連結している格子のみ
Bishop→斜めに連結している格子のみ
Queen→縦横斜めに連結、つまり角あるいは辺が接している格子すべて。
この連結性の定義によってサンプル間の連結性行列の数値は変化する。
-1-
Spatial analysis –A guide for ecologists §3(前半)
Bishop
黒江
Rook
美紗子(生物多様性)
Queen
[Fig.3.3] ユークリッド法で示した場合と 2 進法の連続性行列を用いた場合の空間隣接行列
Euclidean distance matrix
Connectivity matrix
Distance class matrix
格子の中心点から隣接する(ここでは Bishop)格子の中心点までのユークリッド距離
隣接する格子までのトポロジー距離
ユークリッド距離に基づき階級分けした行列
Weighted matrix コネクティビティ行列を重み付けした行列
※
重み付け行列での重み付けは、1/d
あるいは 1/d2 でされることが多い。
距離階級の設定
n 個のデータサンプルのうち、2 個体の組み合わせ(join あるいは pair)数は n(n-1)/2 通り。これらの組み合
わせを以下の基準に基づいていくつかの距離階級に区分。
・スタージェスの公式(Legendre 1998)…ヒストグラムの階級(柱の数)を決定するときに用いる sturge’s
rule を用いて行列に使用する距離の階級を設定(式 3.1)。サンプル N に対し 3.1 の式から導き出される D 個
の階級を設定
・ 等間隔距離階級…サンプル間距離(ユークリッド距離)を検討して等間隔に設定[Fig.3.4a]
・
頻度階級…サンプル間距離のとして出現する数値の頻度を検討して設定[Fig.3.4b]←1
箇所での結果を外挿
できないのであまり一般的ではない。
等間隔距離で設定した場合は、一番小さい階級の距離≧ユニット間の最短距離、に設定。近接ユニットは
最大 4 個 [Fig.3.4]。
最小階級を小さく設定→階級数が大きくなり、各階級でのサンプル数が減る。
最小階級を大きく設定→階級数は少なくなるが、重要な空間構造を除去してしまう。
距離階級を設定するという手法は、後述の Moran’s I での検定に関わってくる。
3.2 Join Count 統計量
格子データだけでなく、多角形あるいは 3.5(b)のような曲線からなる境界線によって区切られた区画の
データを扱うことができる。この場合、近接性は 2 区間のジョイン(join)によって定義(格子データでの近
接性の処理→3.1 で扱ったチェスの例えを参照)。
◇2 進法 Join Count 統計
Black-White Join Counts とも呼ばれ(0,1)の 2 進法で表現される。
※遺伝型の変異を扱うときに用いることが多く、Standard Normal Deviates=SND とも呼ばれる。
黒同士、あるいは白同士といった同じカテゴリーの join と白と黒といった異なるもの同士の join に分ける
(つまり、ジョインタイプでサンプルをホモとヘテロに分ける)
総 join 数は以上の三つの join の合計である
(式 3.2)
←2 つを決定すれば残りは自動的に決定(式 3.3,3.4,3.5)。
帰無仮説:「分布パターンが完全にランダムである(CSR)」(E(J)=0 となる)に対して実測値の Z 値に有意
-2-
Spatial analysis –A guide for ecologists §3(前半)
黒江
美紗子(生物多様性)
差があるかどうかを検定。
[Fig.3.6] シミュレーションによって設定された空間の Join count 統計量と z 値
Rook と Bishop では帰無仮説「空間との関連性が存在」が棄却できるが、Queen で設定すると棄却できない(patch タイプのときは棄
却できる)。
3.2.1
検討と他の Join count 統計量
2 進法のデータ以外のものも分析できる。最近接地点だけでなく、サンプル間の距離を設定する近接ネットワーク
位相学やユークリッド距離を用いることで、様々な近接関係のデータを処理できる。(式 3.6,3.7)
3.3 広域空間統計
空間的に分布する変数の相関という概念が中心的
(各地点間に有意な関連性が存在する場合、空間的自己相関があ
るといこと)
◇ピアソンの相関係数(式 3.8)
2 変数 xy(量的データ)に相関があるかどうかを 2 変数の分散を用いて検定する方法。共分散を各変数
の偏差で標準化した値。
空間パターンはいくつものプロセスの結果である。現時点で観察できる事象の空間配置は、空間構造上
に様々なプロセスと空間的自己相関が作用した結果であり、分離は難しい。空間統計でまず始めに行うこ
とは、得られたパターンに、空間自己相関がどのくらいの割合で含まれているかを推定すること。
※ここでの空間自己相関は、先天的な空間構造によるものと、変数自体が空間構造に誘引されるものとに分離できないことに注意。
空間自己相関の有無を調べる
空間自己相関の及ぶ範囲(spatial lag)の計測
3.3.1 Moran’s I・Geary’c
3.3.2 バリオグラム・異方向モデル
3.3.1
1 変数に対する空間自己相関共分散
空間的自己相関があるかどうかを確かめる。
◇Moran’s I(式3.13)
※教科書にはこの式で載っているが、実際は分母のルートは間違い
空間的自己相関共分散を標準化した統計量(1から−1を変動、ランダムのときは0)
空間的に連続する点や面に適用。Peason相関に対応した値。ある距離階級において、着目した形質の座標
との相関を検出する。
欠点:対象調査区内の局所的なクラスターの抽出には不向き
各座標の平均値を用いているため、クラスター内のサンプル間で高い自己相関が生じているとき、クラ
スター間でも有意な空間自己相関が生じてしまう可能性がある。
◇Geary’s c (式:3.14)←Moran’s よりも local な指数
Moran で用いている共分散を使わない。
-3-
※こちらも分母のルートは間違い
Spatial analysis –A guide for ecologists §3(前半)
黒江
美紗子(生物多様性)
0 から2の間を変動し、期待値となる 1 の場合は空間自己相関が存在しない。
欠点:近接性を二乗することで値のばらつきが大きくなり、バイアスがかかってしまう。
◇ コレログラム
自己相関値とラグをプロットし、空間関係の変化を図示したもの。
[Fig.3.8 コレログラム] 縦軸:自己相関係数、横軸:lag h ←急な変化や微妙な勾配は拾えない。
クレログラムのピーク値の 0 からの有意差を統計的に検定する。サンプルはデータに 0 が少ないもので、50 個以上。
検証時の条件 1)等間隔データであること
2)変化の傾きやデータのトレンドを除去してある
3)残渣が正規分布
◇定常性
isotropy
定常性とは、与えられたn 個の点の組が、互いの相対的位置関係を保ったまま他の部分に移動して
も特徴が不変であるということ(ベクトルや絶対位置は関係ない)。空間統計学では大前提。
3.3.2
Variography
この章では、Variography についての概要を記す(本来は 1 章分くらいの厚みがある分野)。
バリオグラムを図示→距離だけの関数である経験バリオグラムを求める→経験バリオグラムに基づいた理論バリオグラムを求める
◇バリオグラム(一般的にはセミバリオグラムと同じ)
サンプル間の距離と分散との関係を明らかにするための統計的手法。
2 点間の距離と方向にどのような関係性があるか(空間的相関)を測定する。バリオグラムのモデルを特
定することで、サンプルデータの空間解析や空間予測をすることができる。
セミバリアンス (式 3.21)
[Fig3.10]
経験バリオグラム:地点間の距離とセミバリアンスの関係をプロットした図(variance croud)
ナゲット効果(nugget effect) :γ(h) の h=0 のときの値。小さなスケールの変動。 計測誤差によって生じることが多い。
シル(sill) :h→∞にしたときの γ(h)。
ナゲットとシルの差はデータユニットにおける空間依存性に基づいた全分散の割合を反映。
レンジ(range) :自己相関がなくなる距離
・
サンプル間の相対距離 h をどう設定するか?
・
空間 lag(サンプル間の間隔)をどう選ぶか?
◇ バリオグラムと共分散関数
セミバリオグラムと共分散関数は同じ情報を有しており、入れ替えて用いることができる。図示すると鏡
のように線対称になる。
◇異方性と等方性
セミバリオグラムが距離のみの関数であるとき、等方的(isotropy)であるという。
特定の方向に対する空間自己相関を考慮する場合に用いるのが異方性(anisotropy)。
[Fig.3.11] 様々な理論バリオグラム:モデル化に使用するバリオグラムの例
3.3.3
フラクタル次元 Fractal dimension
-4-
Spatial analysis –A guide for ecologists §3(前半)
黒江
美紗子(生物多様性)
線で描けるような景観構造物を扱うには、それらの空間構造を特徴づけたり定量化したりする必要があ
る。もっとも基本的な手法が、フラクタル次元である。
◇位相次元
物体は整数次元のユークリッド空間に存在する。
点は 0 次元、線は 1 次元、面積は 2 次元、体積は 3 次元で表される。
◇フラクタル次元
非整数で表される次元。クラスターは 0~1 次元、曲線は 1∼2 次元、表面は 2∼3 次元、体積は 3∼4 次元。
部分と全体とが自己相似しており、空間における物体の複雑性を測定することができる。空間統計学では
このフラクタル次元という概念を、パッチの特性把握や空間構造のモデリングに応用。
・ある物体の長さを様々な仕切りで計測する。
1∼2 次元:曲線を直線の繰り返しとして分割(Fig.3.1a)
2∼3 次元:曲線を含む面の繰り返しとして分割(Fig.3.12b)。
3∼4 次元:物体をある大きさの箱の積み重ねによってできていると見立てる。
「一辺が r の立方体をーD 乗すると物体 N になる」←このときのーD がフラクタル次元数
(式 3.30)
空間的分散(variogram)とフラクタル次元には直接的な関係がある(式 3.31)
↑空間自己相関とフラクタル次元にも直接的な関係が存在(Fig.3.13)
※
フラクタル次元は、バリオグラムが非線形のときにその複雑性を除去してしまうので、あらかじめバリオグラムを図示する。
[Fig.3.14] セミバリオグラオムをフラクタル次元に変換すると、右図のように大きく傾きが変わる地点(プロセスの存在)を見つ
けることができる。
-5-
Spatial Analysis
section 3.3
Suzuki M.
Spatial Analysis
3. サンプルデータの空間解析 (後編)
担当:鈴木 牧 (東大千葉演習林)(2006.10.23-24)
3.3.4
空間パターン評価におけるサンプリングデザインの効果
サンプリングデザイン (サンプルサイズ (n)、サンプルユニットサイズ、空間配置) が検出力を左右す
る。三つのうちひとつ決めると、他の二つは影響をうける。通常、サンプルサイズ (n) を最初に決め
る (サンプリングエフォートに如実に関係しているから)。
地理統計では 100 点以上のサンプル地点が推奨されるが、生態学ではそんな多点データはめずらし
い。空間 (パターンの) シグナルが非常に強ければ 50 点でも検出可能であるし、サンプリングユニッ
ト間の間隔がきちんとパターンの空間範囲におさまっていれば、20∼30 点のサンプリングでもパター
ンの本質を捉えることは可能。
なるべく少ないサンプル地点で空間パターンを明らかにする必要がある
図 3.15 コレログラム……空間自己相関の値を距離クラスごとにプロットしたもの。
n = 84 で 17.4 m ごとにプロットしていったのとき (a の⃝) のみ有意 (黒) な空間自己相関が
検出されている。
パターンが検出できないからといってパターンが存在しないのではなく、サンプリングデザイ
ンの再検討が必要なのかもしれない。
サンプリングデザインの改善
1. サンプルユニット間の間隔を変える。サンプルサイズが許す限り大きくあける。サンプルサイ
ズが小さいときは 1 lag 以上空けるとパターンを捉えやすくなる。
2. ユニットサイズを変える。
※ランダムな配置を使うと、様々なサンプリングユニット間隔のデータがとれることにより、有意な
パターンを抽出しやすくなる。
ユニットサイズの検討
はじめの距離クラスで空間自己相関が有意ではない (バリオグラムで言うと nugget 効果が高い) か、
もしくは負の空間自己相関があるときは、ユニットサイズがパターンの範囲より大きい、またはユ
ニットサイズが一つ以上のパターンを含んでいると考えられる。もっと小さいユニットをとるべき。
事前情報がまったくない時は、一つ以上の対象を含む最小サイズを選ぶべき (1 章)。最小解像度が細
かいデータは、あとで解像度の粗いデータに直すことができるから。
- 1-
Spatial Analysis
section 3.3
Suzuki M.
図 3.16 ユニットサイズ効果。
5 m × 5 m → 10 m × 10 m → 15 m × 15 m → 20 m × 20 m とサンプルユニットサイズを
広げていくと、自己相関の強さは 0.113 → 0.250 → 0.303 → 0.154 と変化する。 5 m × 5 m
は小さすぎて 1∼2 本の幹しか入っていないが、20 m × 20 m は大きすぎて一つ以上のプロ
セスを含んでしまっている (ランダムノイズが入ってくるほど大きい) ために自己相関が検出
できていない。
サンプルサイズ (n) が同程度である図 3.15 の n = 42 のとき (10 m × 10 m) と 図 3.16 の n = 36
(15 m × 15 m) を比較すると、空間自己相関は 後者のほうが大きい。この場合、ユニットサイズは
15 m 四方のほうが妥当。
なお 20 m × 20 m で n = 21 のときは全部調べているけど、それでも空間パターンは検出できてい
ない (適当なサイズというものがあるということ)。
サンプルユニットのサイズによって空間依存性や自己相関の強さが変化することを、地理統計では
MAUP(modifiable area unit problem) とか change of support という。
MAUP は生態学的解釈の誤謬につながる。例えば、サンプルユニットレベルで記録したデータを使っ
て (個体レベルの情報はないのに) 個々の木に関する結論を得ようとしてはいけない。この問題はど
んな空間データの解析でもつきまとう。
3.3.5
二変量間の空間関係
二変量間の空間的相互作用、二変量の関係に基づく一変量の空間パターンなどに興味があるとき (2
章の Ripley’s K、3.5 節のコクリギングなど参照) に使える指標の紹介。
• クロス相関 (Moran’s I を二変量に拡張したもの、式 3.32):
n n
i=1
j=1 wij (d)(xi − x̄)(yj − ȳ)
1
i=j
j=i
] Ixy (d) = [
n
n
W (d) [ 1
(x − x̄)2 ][ 1
(y − ȳ)2 ]
n
i=1
i
n
j=1
j
• セミバリアンス関数の二変量拡張 (式 3.33):
n
1 γ̂uv (h) =
[zu (xi ) − zu (xi + h)][zv (xi ) − zv (xi + h)]
2n(h) i=1
※クロス相関をやってくれるパッケージは少ないが、クロスバリアンス関数は地理統計パッケージに
よく入っている。
3.3.6
多変量間の空間関係
セミバリアンス関数と空間自己相関係数を拡張して、多変量データの空間構造を解析できる。
- 2-
Spatial Analysis
section 3.3
Suzuki M.
Mantel 検定
Mantel (1967) は同一地点における多変量データの時空間解析を行っている。このアプローチを応用
して、二つの相称的な行列の関係を調べる (式 3.34):
ZM =
n
n wij xij
i=1 j=1
i=j j=i
ZM :Mantel 統計量
wij :結合度 (connectivity) 行列またはユークリッド距離
xij :サンプル地点の「変量間の非類似度」行列または距離行列
3.34 式を行列で書くと 3.35 式:
ZAB = A · B
A:ユークリッド距離行列
B:非類似度行列
ZAB は右辺の行列 A, B の全要素間の積の総和。
ZAB は有界集合ではないので、解釈しやすくするため、有界な rM 統計量 (−1∼1) を求めることに
より各行列を標準化する
Mantel 統計量は二つの行列の距離値の関係を評価するものである。ただし、データ自体ではなく距
離指標を使って計算するので、ピアソン相関係数とは異なる。クロス積を計算する前に距離指標を序
列化すれば、Spearman 相関分析に等しいことができる。
Mantel 検定の帰無仮説
「行列 A (サンプル地点ペア間の距離行列) は行列 B の値と独立である」
この帰無仮説を使って t 検定やランダマイズ検定を行う (完全ランダマではなく、サンプル地点間の
関係を固定した制限ランダマ。←ユークリッド距離行列の行と列を入れ換えていく方法……たぶん)
Mantel 検定量は帰無仮説が真なら参照分布の中央付近にくるが、帰無仮説が偽なら参照分布の端に
くる。ランダマイゼーションはやはり 10,000 回以上行うべきである。
Mantel 検定量は生データではなく距離指標に基づいているので、生データより効果の大きさが小
さい。
Mantel 検定量が計算しているのは距離指標間の関係であり、サンプル地点間のペアは同程度の非類
似性をもつ。このため rM (rAB ) の大きさは相関の強さを示す絶対的な指標ではない。Pearson 相関
や Spearman 相関のように扱うのではなく、他の rAB 値との比較に用いるべきである。
Mantel 検定の利用例
Mantel 検定量を使って、同じ場所でとった 2 セットの変量の関係を調べる。
表 3.1:14 種の樹木の優占度と相対標高の関係 (Fortin 1992)。
A が 14 種の樹木の優占度データのユークリッド距離 (非類似度) 行列、B は相対標高行列。
rAB = +0.255 で有意……二地点間の標高が近いほど群集構造は似ている。
B を地理的距離 (サンプル地点間のユークリッド距離) にすると rAB = +0.232……この値は
樹木群集の平均的な等方性空間構造の強さを表す。
B を結合度行列に変換すると Mantel コレログラムが書ける (図 3.18)。これにより、傾向が確認さ
れる距離の範囲が分かる (?意味が分かりませんでした……)。
- 3-
Spatial Analysis
section 3.4
Suzuki M.
Mantel 検定量の三次元拡張
部分 Mantel 検定……三番目の要素 C の効果を除去して A と B の関係を調べる。
方法 1 :行列 C の効果を直線回帰で除いた残差の Mantel 検定量を計算する (ResA|C と ResB|C )。
方法 2 :偏 Mantel rAB.C を計算する (式 3.36):
rAB − rAC rBC
rAB.C = 2
2
1 − rAC
1 − rBC
Mantel 検定の応用
Mantel 検定や偏 Mantel 検定を使って因果関係をテストできる。
三番目の行列 C をデザイン行列 (処理・コントロールの場所を示すダミー変数の行列) や共変量行列
として、ANOVA の対照行列として使うとか、地理的座標をランダム要因として使うとかすること
で、特定の仮説を検定できる。
例 (表 3.1):
『地形は樹種の優占度に影響しない』という帰無仮説で部分 Mantel 検定。座標 C を固
定し、樹木優占度 A と地形 B の偏 Mantel 検定量を計算。rAB.C = 0.113 → 有意に高いとはいえな
い。すなわち、樹木の群集構造と地形の相関は空間自己相関で説明できてしまう。
偏 Mantel 検定に関する注意:
第三要因行列 C(たとえばサンプル地点間のユークリッド距離) をコントロールするとき、サンプル
地点間の相対距離を制御しているのであって、A と B の空間自己相関を制御しているわけではない。
二変量間の空間自己相関が強いときは、行列要素を入れ換えるランダマ検定をやると (全パターンの
起こりやすさは実際には均等ではないわけだから)、きびしすぎる検定になってしまう。
Mantel 検定の問題点
複数の変量の情報が一つの距離や非類似度に要約されているので、生じた結果に寄与した変量がど
れかはわからない。それを区別するには CCA や RDA が必要である (多変量回帰を使って、環境変
量の線形結合が種のバリアンスを最大化するような分類軸を立てる方法)。
種と環境変量の関係は、気候・地形・史的イベントなど他の要因にも左右される。それらの要因をコ
ントロールするには部分 CCA や部分 RDA が使われる。
(主軸化は生データで計算する分、Mantel 検定よりも情報が多い。)
重要な問題の一つは、サンプル地点の x-y 座標だけを使って空間の効果に関する情報をどう翻訳す
るかである。
x-y 座標の多項式を使えば大きいスケールの傾向は反映できる (trend surface analysis; Borcard et
al. 1992, see Sec 3.5) が、局所的なパッチ構造は反映されない。これを解決するには局所接合度や結
合度に基づく近傍行列を使う手がある (Plletier et al. 1999)。
PCNM(主成分近傍行列:Borcard and Legendre 2002):サンプル地点間の空間構造をスペクトル分
析する方法 (詳細不明)……など。
3.4
局所空間統計
研究対照の空間範囲が広くなるほど、データは定常性仮定を満たしづらくなっていく。そういうデー
タセットの広域統計量は、局所的な空間の異質性をマスクした平均的な値になっていて、あまり意味
- 4-
Spatial Analysis
section 3.4
Suzuki M.
がない。「平均的な空間自己相関」は、空間依存性の強さやパターンの局在について、何の情報もも
たらさない。
(例) 樹木の優占度が斜面の上方∼下方に沿った傾向を示しつつ、ギャップが形成されたところだけ局所的な優占
度の低いパッチができるとする。広域統計量は大きい傾向の方は検出できても、局所パターンの方は平均化さ
れてしまうので見つからない可能性が高い。
研究対象地域の様々な部分に幾つかのプロセスが異なる強さで作用している場合、平均的な空間依存
性の値は、プロセスに対する誤解を生みやすい。
→局所空間統計量 (LISA:local indicator of spatial auto-correlation, sensu Aselin 1995) の必要性。
LISA は局所空間構造を検出するための道具として使える。
Moran’s I や Geary’s c のような広域空間統計量は、各サンプリング地点における (平均値や近傍点
の値からの) 偏差を計算して総和をとったものであり、すなわち、サイト全体における局所空間統計
量の平均的な値である。これらはちょっと加工すれば局所空間統計量になる。
local Moran’s I(式 3.37):
n
Ii (d) =
(xi − x̄)
wij (d)(xj − x̄)
n
1
2
i=1 (xi − x̄ ) j=1
n
j=i
n
j=1
j=i
wij は重み行列 (規定半径 d の局所近傍サーチによる)。重みはサンプル地点間の結合度 (1 or 0)
か IDW 係数 (1/d or 0)。
完全ランダマイゼーションにおける Ii の期待値 (式 3.38):
n
E(Ii ) =
−1 wij
n − 1 j=1
広域 Moran’s I はどこで計算しても値が同じになるが、局所 Moran’s I は場所によって値が異なる
(近傍点の数が違うから)。
Ii を正規分布で有意性検定できるよう標準化する (式 3.39):
[Ii − E(Ii )]
zIi = V ar(Ii )
※ Var(Ii ) の計算方法は Boots(2002)) を参照。
局所 Moran’s I もサーチ距離 (d) を色々変えて計算できる。Bonferroni 相関を使ってサンプル地点
数とサーチ距離を適正化することも理論的には可能だが、膨大な数の多重比較になるのできびしす
ぎる検定になってしまう。
局所 Moran’s I を使うと、定常性仮定が満たされていないことを示せる。
local Moran’s I の性質
• Ii > 0 …… 地点 i における値と近傍点における値が、平均値からの偏差において似ていると
き。(平均値より大きいか小さいかが揃っているとき)
- 5-
Spatial Analysis
section 3.4
Suzuki M.
• Ii < 0 …… 平均値より偏差が大きいか小さいかで、地点 i における偏差は近隣点における偏
差と違う符合をもつとき。
• Ii 0 …… 平均値の値に近いとき。局所空間構造がないか、弱すぎて検出できないとき。
図 3.20:図 3.8 と同じシミュレーションデータによる LISA。図 3.20a は Ii の分布。
左 図 3.8d(等サイズ 16 パッチの規則分布)
中 図 3.8e(等サイズ 9 パッチの不規則分布)
右 図 3.8f(異サイズ 9 パッチの規則分布)
左ではパッチ中心で正の自己相関が検出されるが、中と右ではあまり情報が得られない (値の
高低が表現されないから)。生データをみないとどのクラスタの値が高い・低いのかわからな
い。→ local Moran’s I の欠点
local Geary’s c(式 3.40):
ci (d) =
1
n
n
1
wij (d)(xi − xj )2
2
(x
−
x̄)
i=1 i
j=1
n
j=i
Moran’s I との違い:I は地点 i 付近における平均値からの偏差を見ているが、ci は地点 i と周囲
の点における値の偏差を見ている。
完全ランダマイゼーションにおける ci の期待値 (式 3.41):
n
E(ci ) =
2n wij
n − 1 j=1
※ Var(ci ) は Boots(2002) を参照。
• ci > 0:地点 i の値が周囲と似ている。
• ci < 0:地点 i の値が周囲と似てない。
Getis の Gi , Gi *
Gi 、Gi * :局所空間移動平均、すなわち i 近傍もしくは i における局所平均の全平均に対する比。
n
j=1 wij (d)xj
j=i
n
Gi (d) =
. . .(3.42)
j=1 xj
j=i
n
j=1 wij (d)xj
n
Gi ∗ (d) =
. . .(3.44)
j=1 xj
完全ランダム時の期待値 (E(Gi ), E(Gi *)):
n
E(Gi ) =
1 j=1
j=i wij
n−1
- 6-
Spatial Analysis
section 3.5
Suzuki M.
n
1
E(Gi ) =
wij
n j=1
Gi 、Gi *は Moran’s I と同じく「局所空間平均がないのか、局所平均が全平均に等しいのか」を区
別できない。
近傍サーチ距離 d が増加するほど、local G 統計量は左右相称正規分布に近づく (標準化可能となる)。
符合の正負により hot spot と cold spot を区別できる。
(例:図 3.20b……Gi *はどの空間パターンでも hot spot と cold spot をうまく表している)
図 3.20c,d:local G* を各所でいろいろな d について計算し、各所における最大の G* と、そ
れが得られたときの d 値をマッピングしていくと、各地点における空間依存性の強さがわか
る。(c) ではパッチ中央が+で表され、(d) では局所空間の範囲が示されている
G や G* もやはり全平均に対する相対的な量なので、大きな傾向の有無に左右される。広域的パター
ンに影響されない量として H Moran 統計量 (3.2) がある。カテゴリカルデータに対しては LICD
(local indicator for categorical data) が使えるが、量データに対しては、広域の傾向を説明しつつ局
所パターンをも検出できる方法はいまのところ存在しない。
3.5
補間と空間モデル
空間補間法でパターンをモデル化することにより、サンプリング地点以外における値を推定する。空
間モデルはできるだけ少ないパラメタで空間パターンを要約しようとする。主要な空間シグナルを
モデル化し、誤差を最小化してフィッティングする。どんな補間法でも、サンプリングしなかった点
に対しては平滑化された推定値を計算することになる。
補間法の分類
• 広域的:単一の補間関数を用いて対象範囲全体の値を補間する。推定結果は平滑面となる
(傾向のみ)。一つのデータ値の変化が推定関数に影響し、全体の推定に影響する。……
trend surface analysis
• 局所的:限られた局所地点のみに補間関数をあてはめる。推定結果は平滑であるが広域
と局所の両パターンを含む。一つのデータ値の変化は近傍地点のみに影響する。……
proximity polygons, IDW, kriging
• 近似的:サンプル地点で観測値と推定値が一致しない …… trend surface analysis
• 正確:サンプル地点の観測値と推定値が完全に一致する ……proximity polygons, IDW,
kriging
その他の分類基準
• 一点に対し推定値が複数か (kriging) 一個か (それ以外)
• 面補間か (proximity polygon,kriging) 点補間か (それ以外)
- 7-
Spatial Analysis
section 3.5
Suzuki M.
MA (移動平均法)、SAR(同時自己回帰)、CAR(条件つき自己回帰) などの方法はここでは説明しな
い (シミュレーションで使われることが多い。See 7 章)
3.5.1
proximity polygons
「サンプリングユニット中の値はユニット中のサンプリング地点と同じで均一」という仮定を拡張し
たもの。
x-y 平面上で領域をデータ地点からの距離に従ってポリゴンに区切って補間。ここで「距離」は空間
配置と潜在的な相互干渉強度に依存する。
ボロノイポリゴン:たんに地点間を等距離に区切っていく。
3.5.2
Trend surface analysis
x-y 座標を独立変数に入れて回帰する。たとえば 式 3.46:
ẑ(x0 ) = b0 + b1 x + b2 y
広域スケールの空間パターンをこのような一つのモデル式で表し、その式を使って面全体を補間する。
空間パターンが非線形な傾向をもつときは (x,y) の多次元で回帰することにより近似する。パターン
が平滑・単調・曲面 (凹型か凸型) であれば 2 次曲面、鞍型であれば三次曲面で回帰する。
図 3.22:(x, y) の一次∼四次曲面での回帰。
二次式 (3.47):
ẑ(x0 ) = b0 + b1 xi + b2 yi + b3 x2i + b4 xi yi + b5 yi2
三次式 (3.48):
ẑ(x0 ) = b0 + b1 xi + b2 yi + b3 x2i + b4 xi yi + b5 yi2 + b6 x3i + b7 x2i yi + b8 xi yi2 + b9 yi3
あまり高次元で回帰するとモデルが複雑化し、この方法の美点である単純さが失われる。この方法は
あくまで全体の傾向をみるためのもので、局所パターンのモデル化に使うべきではない。
Trend surface analysis による補間の美点と欠点
美点:
• 空間パターンについて経験的な事前情報を必要としない
• 重回帰、多項回帰などは多くの統計パッケージに入っている。F 検定や回帰の有意性検定が可
能。また F 検定で何次の回帰が最適かを調べることも可能。
欠点:小パッチ性があると正確な推定はできない。データ地点の観測値と推定値が一致しない。
3.5.3
Inverse distance weighted
(IDW)
- 8-
Spatial Analysis
section 3.5
Suzuki M.
「近い場所の値は近い」という法則をもとに、既知のデータ点との「近さ」で補間値を重みづけする
(式 3.49):
ẑ(x0 ) =
m
wj z(xj )
j=1
近傍点の数 (m) は補間対象点からの距離 (半径) などで定義される。重み wj は
m
j=1
wj = 1 となる
ように決める。
もっとも一般的な IDW 式 (式 3.51):
m
ẑ(x0 ) =
−k
j=1 z(xj )dij
m −k
j=1 dij
※ k は 0∼1 の実数。k が大きいほど近い点のデータにひっぱられる。dij はサンプリング地点と近
傍点の距離。
• IDW による補間の美点:局所パターンの複雑性を保存する。分布に関する事前情報がいらな
い。簡単である。→マッピングだけなら最良の方法。
• IDW による補間の欠点:補間値と「真」の空間パターンの一致性については何の情報も得ら
れない → その点では Kriging の方が優れている。
3.5.4
Kriging
Kriging とは
データの空間依存性に関する事前情報 (経験バリオグラムで推定した空間パターン) に基づく線形方
程式による補間。鉱物資源の分布を推定するという特殊用途のために発展した。サンプルが点データ
でも面データでも二次元領域に補間でき、海洋学や気象学の分野に浸透した (生態学での利用は遅れ
ている)。
Kriging の方法
(訳者注:このパートは初学者が読んでわかるようには書かれていないので、かなり砕いて補足しまくり
で書きます。原著にない記載とか不正確な表現だらけです。Kriging についてちゃんと知りたければ本
読んだほうがいいかも。)
データの空間共分散から計算される分散を最小化するように、各サンプルデータの重み (寄与率) の
最良な組み合わせを決定する。
まず大前提として、データの空間構造に関する事前情報があるものとする。すなわち、研究対象領域
で定常性仮定が成り立っていて、その空間自己相関パターンが経験バリオグラムモデルで記述できて
いるもの、とする。
ある地点 x0 における推定値 z(x0 ) を、周囲の m 個の地点 {x1 , x2 , . . ., xm } におけるデータ値
{z(x1 ), z(x2 ), . . ., z(xm )} からの補間により求めるとする。
z(x0 ) の期待値 ẑ(x0 ) は、データ {z(x1 ), z(x2 ), . . ., z(xm )} の重みつき平均値である、とする。j 番目
m
のデータに対する重みを wj とし、 j=1 wj = 1 となるように重み値を決めると、ẑ(x0 ) の期待値は
- 9-
Spatial Analysis
section 3.5
式 3.52 のように書ける:
ẑ(x0 ) =
m
Suzuki M.
wj z(xi )
j=1
簡単のために、とりあえず「期待値には広域的な (線形モデルなどで予測可能な) トレンドはなく、空
間依存性としては、データ値間の空間自己相関だけ考えればよい」という状況を考える。地点 x0 に
2
おける推定誤差 σE
(x0 ) は (式 3.53):
2
σE
(x0 ) =
m
wi γ(xi , x0 ) + λ
i=1
2
式 3.53 の右辺第一項は空間共分散に由来する誤差、第二項はそれ以外の誤差を表している。σE
(x0 )
を kriging 分散とか kriging 誤差とか呼ぶ。
これが最小になるように重み行列 w = [w1 , w2 , . . .wm ]T を決めておき、その w を使って式 3.52 か
2
ら ẑ(x0 ) と推定誤差 σE
(x0 ) を求めるのが kriging 補間である。
地点 xi と地点 x0 の空間共分散 γ(xi , x0 ) は:
γ(xi , x0 ) = w1 γ(xi , x1 ) + w2 γ(xi , x2 ) + . . .wm γ(xi , xm )
つまり、地点 xi と他のデータ点との空間共分散の、重みつき平均値になっている。そうすると
γ(x1 , x0 ), . . ., γ(xm , x0 ) はそれぞれ
w1 γ(x1 , x1 ) + . . .wm γ(xm , x1 ) + λ = γ(x1 , x0 )
..
.
w1 γ(x1 , xi ) + . . .wm γ(xm , xi ) + λ = γ(xi , x0 )
..
.
w1 γ(x1 , xm ) + . . .wm γ(xm , xm ) + λ = γ(xm , x0 )
と書ける (λ はこの連立方程式の解を求めるためのラグランジュ乗数として加えてある)。γ(xi , x0 ) =
γ(di0 ) というように、共分散の値は二点間の距離からバリオグラムをもとに推定される。上の連立
方程式を行列で書くと (式 3.55):






γ(d11 )
..
.
γ(dm1 )
1
γ(d12 ) · · ·
..
..
.
.
γ(dm2 ) · · ·
1
···
 
γ(d1m ) 1
w1
 .
..
.. 
 .
.
. 
· .
 
γ(dmm ) 1   wm
1
0
λ


 
 
=
 
 
γ(d10 )
..
.
γ(dmo )






1
左辺第一項 (サンプル地点間の分散共分散行列) を C、第二項 (重み行列) を w、右辺を c とおくと
Cw = c
(式 3.54) と書け、これを変形すると
w = C−1 c
となる。すなわち C の逆行列を計算することにより重み行列 w を求めることができる。
※各補間対象点に対して一つずつ w を決めていくわけだから、計算量はかなり大きい。分散共分散行列 C が
あまり大きすぎると計算が遅くなる。
- 10-
Spatial Analysis
section 3.5
Suzuki M.
※ちなみに、期待値が広域トレンドをもつような場合はどうするかというと、「期待値は独立変数に座標を含む
線型結合で、誤差は上と同じ」と考える。たとえば geoR だったら、予め likfit() でトレンドの回帰パラメタと
経験バリオグラムパラメタを同時に求めておき、そのパラメタ群を使って kriging を実行する、というふうにや
ればよい。
重み行列 w の値は、分散共分散の推定に使ったバリオグラムの形とデータ点数 m に依存する。
多くの地理統計パッケージでは、m の個数を 2 タイプの規則で選べるようになっている。
1. サーチ距離:バリオグラムの range を超えない距離を設定すべき。
2. サーチ個数:バリオグラムの range 中だとデータ地点が非常に少ないとき。一定の個数が得ら
れるまでサーチ半径を増やす。
通常、一地点の補間に 15∼20 地点のデータを使うが、range を超えた値を使うような場合は補間結
果がやたら平滑化されたパターンになることに注意。なお、近傍は等方性でなくてもよい (楕円や球
でもよい)。
Kriging は trend surface analysis と同様に範囲全体を一つのモデルで補間し、また IDW と同様に
局所で補間を実行する。重みがデータの空間分散とサンプル地点間距離の両方に比例するとすれば、
kriging は正確な補間法であり、観測点における推定値は観測値と等しくなる。
モデルの頑健性を確かめるのに cross-varidation が行われることがある (観測値を一個ずつぬいてそ
の場所の kriging を実行し、観測値と推定値の差から信頼性を評価する)。
もう一つの精度確認法は、推定値と推定誤差を地図化することである。
図 3.24:kriging 分散 の値がデータ値と同じサンプルユニットにあるとすると、
エラーの大きい場所がわかる。こういう場所が生じる理由として、補間に使える
サンプル地点がその付近で少ないか、バリオグラムモデルの選び方が不適切であ
るなどが考えられる。
どんなバリオグラムモデルを使うかで kriging の誤差が変わる。もし選んだモデルが最良であれば、
エラーの大きい場所はサンプリングエフォートがたりなかったと言える。
Kriging のバリエーション
• pucnctual kriging:座標点への補間
• brock kriging:領域への補間
• simple kriging:二次定常性が仮定できるとき (平均値が既知)
• ordinary kriging:本質的定常性が仮定できるとき (平均値は未知)
• universal kriging:大きな傾向を除去した上で残差を補間する
• non-linear kriging:空間パターンが非線型でしかも (x,y) の多項式では表せないとき
異方性への対処
• geometric anisotoropy (sill は同じで range が方向によって異なるとき)……距離行列を調整する
- 11-
Spatial Analysis
section 3.6
Suzuki M.
• zonal anisotoropy(range は一定で sill が方向によって変わるとき)……共分散行列を調整する
(階層構造にするなど)
距離の関数として異なるバリオグラムモデルを階層的に用いることができる。
さらに「層別 kriging」(異なる空間分散をもつ領域を補間する) なども可能 (詳細は不明)
定量困難な量 z1 の分布を、z1 との相関関係が明らかであり比較的定量しやすい量 z2 の分布をもと
に co-kriging で補間することができる。ただし、z2 だけが分かっている場所で z1 と z2 の線形関
係が成り立っているという仮定が必要である。z1 の推定結果は z2 のミラーイメージになりがちであ
り、どれくらい z1 の真のパターンを表せているかは疑問。
個体ではなく種集合とか群集の空間構造に興味がある時は多変量 kriging (教科書 Wackrnagel 2003)
が可能。
測定誤差があるとか、変量の反応域値があるとか、在・不在データなど、定量的データを質的デー
タとして扱いたい kriging のときは、indicator バリオグラムを計算して indicator kriging を行う
(Todd et al. 2003)。
条件つきアニーリングによる確率シミュレーション
決まった空間依存性のある空間データシリーズを生成することにより、観測されたサンプルデータが
有意な空間パターンを持つかどうかを検証する。
経験バリオグラムからバリオグラムモデルのパラメタを生成し、確率シミュレーションで同程度の空
間依存性をもつデータを生成する。
シミュレーションデータはくりかえしプロセスで作られる (サンプル地点の値を固定しておき、ア
ニーリング法でくり返しデータ値を生成する)
空間自己相関のあるデータの有意性検定が行える。
3.6
まとめ
サンプルデータの空間依存性を評価する方法はどれも「興味ある変数値の間の空間共分散を決める」
という同じ本質を持っている。
データ解析の目的が、研究対象地域全体の空間構造を要約することであるか、局所空間構造を定量す
ることかによって、解析方法が異なる。プロセスの定常性に関する事前情報がない場合は、両方やっ
て結果を比較し、定常性が保たれているかどうか調べるべきである。
広域的な解析を行いたいとして、Moran’s I は Pearson 相関に対応する意味をもつという美点があ
るが、はずれ値に対して過敏であるという弱点をもつ。そういう意味では Geary’s c やセミバリアン
ス γ のほうが好まれる。
局所空間依存性指標は、全体のパターンに影響されて、偏りのある推定になることに注意。これを回
避する新しい方法に H Moran や LICD がある。全体の構造がなければ、標準化された local G* が
解釈の容易な局所的指標である。
空間統計量は、広域でも局所でも、空間構造についての情報しか与えない。パターンの背後にある
原因プロセスに興味があるときは、Mantel 検定 や部分 Mantel 検定が使える。多変量なら (部分)
RDA, CCA などの部分序列化が最も情報が多い。
- 12-
Spatial Analysis
section 3.6
Suzuki M.
空間パターンを地図化するだけの目的で補間を行うなら IDW がシンプルで良い結果を得られる。ス
プライン法などの平滑化アルゴリズムを適用すればもっと視覚的によい結果を得ることもできる。一
方、サンプリングしなかった地点の真の値に関する情報が推定誤差つきで欲しいときは、kriging 法
バリエーションのどれかがよろしい。Kriging で有意義な補間を行うには経験 (やる人の) が必要で
ある。成功の秘訣は短い距離での空間分散の強さや range をとらえることにあるようである。なお、
kriging 誤差はデータ自体ではなく補間に用いた理論モデルとパラメタに依存することに注意すべき
である。つまり、kriging の結果はモデルの妥当性に依存する。
同じデータから様々な距離で空間依存性を調べたときの有意性検定の問題 (2 章) は未解決である (→
7 章で再度議論する)
- 13-
2006 年 10 月 22 日(日)・23 日(月)空間統計ゼミ
石井潤
「Spatial Analysis: A Guide for Ecologists」 Fortin, M.-J. and Dale, M.
4
Spatial partitioning of regions: patch
なり得る。これは、分割方法のかなりの部
and boundary
分が記述的であり、解釈に主観が入る余地
があることに起因している。この章では、
Introduction
生態学者に適した空間クラスタリングと境
界線検出の方法について述べる(図 4.3)。
複数のスケールにおける生態学的プロセス
境界検出(edge detection)の分野は、最近、
を理解するために、しばしば、広い面積を
リモートセンシングや医療分野のコンピュ
対象とした研究が行われる。この場合、異
ータービジョンや画像解析法において、急
なる時空間スケールで作用する生態学的プ
速に発展しつつある。ここでは、生態学の
ロセスが同時に働く(Dungan et al. 2002)
データと目的に合った分析ツールに焦点を
結果、プロセスの定常性(stationarity)
(す
当てる。
なわち、同じ平均、分散、等方性を持つこ
と。1 章を参照)を仮定することが難しく
4.1
Patch identification
なる。したがって、広い面積を対象とした
4.1.1 Patch properties
解析では、同じ生態学的プロセスが働いて
いるとみなせる、より範囲を限った空間的
パッチは、少なくとも1つの変数がカテゴ
に均一な区分(すなわちパッチ)に分割す
リー(例えば、森林かどうか)あるいは量
ることが推奨される。これを階層的に分類
(例えば、樹齢)的に同じ属性を持った、
しておけば、資源のモニタリングや管理に
空間的に均質な場所と定義することができ
も役立つ。空間の分割には主に2つの方法
る。そのため、必然的に、隣のパッチでは
がある。
少なくとも1つの変数の属性が異なってい
る。パッチは、地域レベル(the regional
(1) 空 間 ク ラ ス タ リ ン グ (spatial
level)ではモザイク状に配置され、それぞれ
clustering):クラスター分析と空間的
のパッチは、面積(例.小さいか大きいか)、
情報を組み合わせて、空間クラスターを
形(例.円、楕円、正方形、湾曲、半島状)、
発生させてグルーピングを行う(図 4.1)
隣のパッチとのコントラスト(例.落葉樹
(2) 境界線検出(boundary detection):非類
林と混交林では低く、森林と農地では高い)
似度に基づいて境界線を引き分割する
のような構造的な特性によって特徴付けら
(図 4.2.4.2 節を参照)
れている。パッチの特性は景観基質
( landscape metrics )( Li & Reynolds
これら2つの方法は、理論的には同じ結果
1995; Gustafson 1998; Tischendorf 2001;
が得られるはずであるが、実際には多少異
Fortin et al. 2003; Turner et al. 2003)を
-1-
使って記述することができる。また、上記
ラスターを作ることができる。最短距離法
のパッチの定義は、データ駆動型(data
の場合は、もっとも類似性の高い対の類似
driven)となっている。パッチは、政策あ
度に基づき、クラスターとしてグルーピン
るいは行政区分などによって人為的に定義
グされる。メディアン法の場合は、2 群の
されることもあるが、このようなとき、パ
中央値に基づいてグルーピングされる。最
ッチ内の空間構造は、弱い単調傾向がある
長距離法では、もっとも類似性の低い対の
場合から強い空間自己相関をとる場合まで、
類似度に基づいてグルーピングが行われる。
様々な構造をしている可能性があり、パッ
最後に、重心法であるが、この方法はメデ
チ内に空間構造がある場合は、境界線の検
ィアン法に似ているが、各群のサンプリン
出力が低下してしまう(Burrough & Frank
グ場所の数の違いを考慮して、重心間の類
1996; Csillag et al. 2001; Edwards &
似度に基づいてグルーピングが行われる点
Fortin 2001)。
が異なっている。以上のような階層的凝集
法の長所としては、異なるクラスターが決
4.1.2
Spatial clustering
してオーバーラップしないことが挙げられ
る。その逆に、短所は、類似度をどの方法
パッチは、実質的には、サンプリングを行
で求めるかが主観的になることである。
った場所の中で、空間的に隣接し(すなわ
階層的凝集法以外にも、空間クラスター
ち空間クラスターを形成)、類似の値を持つ
を作るのによく使われてきた方法として、
場所のクラスターである。このクラスター
k-means 法 が 挙 げ ら れ る ( Legendre &
は類似度に基づいて作られる。クラスタリ
Fortin 1989)。この方法では、先にクラス
ングの方法にはいくつかある(Legendre &
ターの数を決めておいた上で、サンプリン
Legendre (1998)に詳しい)が、空間クラス
グ場所とそれが属するクラスターの重心と
タリングを行う際も、これらの方法が適用
の類似度を計算し、これを繰り返し行って、
できる。その中でもっともよく使われる方
クラスター内の誤差の平方和を最小にする
法 は 、 階 層 的 凝 集 法 ( the hierarchical
重心を選ぶ。クラスターの数を予め決めて
agglomerative methods; 例.最短距離法、
おくときには、やはりある程度主観が入っ
メディアン法、最長距離法、重心法)であ
てしまう欠点がある。
り、すべてのサンプリング場所を、類似度
サンプリング場所間の空間的な制約
に基づいてより大きなグループへグルーピ
( spatial constraint ) の 程 度 は 、 the
ングしていくことによってクラスターを作
connectivity network あるいは neighbour
る。これまでに、生態学のデータの特性(例.
network(2 章参照)で決めることができる。
有り無しデータ、希少種がする場合、ダブ
これらのネットワークでは、どのサンプリ
ルゼロのデータ)をより正確に表すために、
ング場所がお互いに隣接しているのかが分
いくつかの類似度・非類似度行列が開発さ
かる(図 4.1)ため、サンプリング場所をグ
れてきた(Legendre & Legendre 1998)。
ルーピングするときの空間的な制約として
研究者はアプリオリに類似度を定義し、ク
用いることができる。こうして、空間クラ
-2-
スター、すなわちパッチを作れば、同時に
40 個のときであった(図 4.4)。これは、サ
パッチ間の境界線まで判明する。しかし、
ンプリング場所が 84 箇所であったことを
その境界線の正確な場所や幅までは知るこ
考えると、多すぎる数である。しかし、調
とができない。これは、空間クラスタリン
査地に関する知見(Fortin 1992)に基づい
グ法の弱点の1つとなっている。一方、空
て、さらに3~5の空間クラスターに集約
間クラスタリングの強みは、空間クラスタ
することができた。比較のために、適合度
ーを、どんなデザイン(連続的なサンプリ
指数が局所解で最大となる空間クラスター
ングか否か。図 4.3)のどんなデータタイプ
の数 5,10, 20, 40(図 4.4)のケースを取
(質的か量的か、単変量か多変量か)から
り上げてみる(図 4.5)
。図 4.5 では、階層
でも、作成することができることにある。
的凝集法の 1 つである重心法と k-means 法
空間クラスタリング法の主な問題は、2
に基づいたときの空間クラスターをそれぞ
点挙げられる。1 つ目は、アプリオリな情
れ示してある。階層的凝集法と k-means 法
報すなわち生態学のデータとは独立した情
では、多少類似した結果になっているが、
報がない場合、研究者は類似度を求めるた
前者の方が、1つのサンプリング場所だけ
めに、階層的凝集法か k-means 法のいずれ
で構成される空間クラスターの数がより多
かを選んで、空間クラスターを作り生態学
く作られている。全体のパターンとしては、
的な解釈を行う必要がある。この選択のた
図の上側は比較的均質なのに対して、下側
めに、Gordon (1999)は、どのくらいの数の
は空間的にヘテロ性がより高いことが分か
クラスターを選べばどのくらいクラスター
る(例えば、空間クラスターの数が 20 の図)。
内の変動性(W)に対してクラスター間の
階層的凝集法(重心法)の利点は、クラス
変動性(B)の誤差平方和が最小化できるか
ターの数が増えたとき、先のクラスターを
という適合度指数 goodness-of-fit index を
階層的に分割することにあるが、k-means
作った。これは、以下の式で表される。
法には、必ずしもこのパターンは見られな
い。理由は、k-means 法では、最初のクラ
B / (k - 1)
スターの k 個の中心位置の決定がランダム
W / (n - k)
に設定されるからである。この問題による
k はクラスターの数であり、n はサンプリン
影響を小さくするためには、階層的な分割
グ場所の数を示す。この適合度指数の値は、
法を k-means 法の最初のステップに組み込
空間クラスターの数を決める際の判断基準
めばよいだろう。
となる。kを決めるためには、研究のゴー
2 つ目の問題点は、空間クラスタリング
ルや調査地に関する知識が不可欠である。
と境界線検出の両方の特徴で、あるはずの
例として、3 章で紹介した、10×10mの
ないクラスターや境界線を作ってしまうこ
方形区を用いた調査で得られた 26 樹種の
とがあることである。分かりやすい例とし
アバンダンスのデータ(Fortin, 1997)につ
ては、なだらなか勾配があったときにでも
いて、ベストな分割を検討してみた。もっ
クラスターや境界線を作ったり、データの
とも高い適合度指数は空間クラスターが
ローカルなノイズを反映させてしまう場合
-3-
さえある。さらに、ある条件では、空間ク
ができる。この値は’possibility’と呼ばれて
ラスターが非類似度の高いサンプリング場
いる。あるクラスターのメンバーである
所間で構成されてしまう可能性もある。そ
Possibility は、expert knowledge(直訳す
して、その逆に、類似度が高いのに空間ク
れば専門知識であるが、具体的には他のデ
ラスターが形成されない場合さえある。例
ータソース・知識を指す)か空間的な場所
えば、気候(図 4.6)や水深(図 4.7)など
情報の不確実性のいずれかにに基づいて評
の要因によってサンプリング場所間の類似
価される。メンバーシップ関数は、ある変
度が高くなっても、空間的に接していなけ
数の値の取りうる範囲内において、いくつ
れば、空間クラスターは形成されない。こ
かの形(線形、S字状、対称、非対称)を
のようなときは、connectivity network の
取る。ファジィクラスタリング法の有利な
トポロジーだけでなく、物理・環境条件も
点は、生態学的なプロセスや環境条件に対
用いて空間的な制約を修正する方が良いか
する種の応答をより適切に反映させられる
もしれない。
可能性があることである。逆に、不利な点
は、それらプロセスに関してより多くの情
4.1.3
Fuzzy classification
報が必要であり、またユーザーによる定義
は主観が入って、最適なクラスターが得ら
4.1.2 節で紹介してきたような、あるクラス
れない可能性もある。この主観の程度を減
に属するかどうかの二分法によるクラスタ
じ る た め に 、 fuzzy k-means 法 ( fuzzy
リングは、量的なデータを分離できない(例.
c-means 法 と も い う 。 Burrough &
落葉樹や針葉樹が優占する混交林)
、空間的
McDonnell 1998)という方法が提案されて
な場所が不確か、データを記録する際近似
いる。この方法では、k-means 法と同様に
値を用いている(例.クラスごとにまとめ
クラスター内の変動性を最小化するための
られた植生の被度データ)などの理由によ
プロセスを繰り返し行うが、各サンプリン
って、どんな場合においても本当は適切と
グがクラスター間でオーバーラップできる
いえないかもしれない。このような場合の
ように、fuzzy exponent が導入されている
より適した方法として、ファジィクラスタ
(具体的には、k-menas 法では、メンバーシ
リ ン グ ( fuzzy classification ) と fuzzy
ップ値 u が 0 か 1 のいずれかの値をとった
k-mens 法 ( 計 算 の 詳 細 は Burrough &
が、fuzzy k-means 法では、メンバーシッ
McDonnell (1998)を参照)が提案されてい
プ値を um として表す。この m が fuzzy
る(Jacquez et al. 2000)。これらの方法は、
exponent となる)。fuzzy exponent が 0 の
Fuzzy set theory(ファジィ理論?)
(Zadeh
ときは、k-means 法と同じになる。Fuzzy
1965)に基づいており、あるクラスターに
exponent の初期値は、McBratney & de
帰属するかどうか(帰属度)を表すメンバ
Gruijter (1992)によって、”2”が提案されて
ーシップ関数というものがあり、この値が
いる。先ほどの樹種のデータを使って、k=5,
0(属さない)か 1(属する)の 2 値的でな
fuzzy exponent=2 として、fuzzy k-means
く、0 から 1 までの間の真の値を取ること
法による分割を行うと、k-means 法とは異
-4-
なる結果が得られる(図 4.8)。明瞭な空間
クラスターは少なくなり、勾配のあるファ
ジィメンバーシップの値が示されている。
図 4.8 では、ファジィメンバーシップの取
りうる値として、5 つのカテゴリー、すな
わち、1(1.0), 2(0.5~0.9), 3(0.3~
0.49), 4(0.1~0.29), 5(0.0)で表示さ
れている。fuzzy k-means 法は、メンバー
シップ値の値から、境界線(fuzzy boundary
zones)を同時に決められることが長所とな
っている。
Fuzzy set theory(ファジィ理論?)は、
この境界域(fuzzy boundary zones)を検
出するために、よく応用されている(Leung
1987; Edwards & Lowell 1996; Brown
1998; Burrough & McDonnell 1998)。そし
て、Jordan (2002)は、2 つの fuzzy set 法
で あ る fuzzy classification と fuzzy
boundaries とを比較して、両者が相補的で
あることを見出している。
-5-
Spatial Analysis 輪読会
担当: 国環研 石濱
4.2 Boundary delineation
いくつかの分野で境界を検出する方法が開発されてきたが(リモセン・医学=物の輪
郭を検出)、ここでは生態学に関連するものだけを扱う。
4.2.1 Ecological boundaries
生態学では移行帯の描出のための方法が長い伝統を持つ。
移行帯の構造的な性質は、移行帯を生み出したり維持しているプロセスのタイプ・
強さに大きく影響される(表 4.1)。 境界の検出可能性は、対象とする生態学的プロセ
スと、サンプリングデザイン、分析手法に依存する。境界だけでなく、それを挟むパッチ
もカバーされるような十分なサンプリングサイト数が必要。
表 4.1
環境および景観構
境界を形成・維持す
境 界 の タ イプ (明
造の変化
るプロセス
瞭・永続的か)
急激な環境変化
地形・地勢・生物地
明瞭・幅が狭い・
多様性や個体数の急激な変
質化学・気候
永続的
化は検出可能
地形・気候・種の分
不鮮明・幅広い・
バイオマスや個体数の変化は
布域(生理的限界)・
永続的または一
検出が難しい、組成の変化は
種間相互作用
時的
可能
大規模な撹乱中の
火事・嵐・旱魃・種
明瞭から平滑、一
撹乱の強さに依存する
空間的異質性
間相互作用・遷移
時的
小さなギャップ内の
倒木・種間相互作
不鮮明、一時的
ノイズが大きく、検出困難
空間的異質性
用・遷移
環境の変化なし
種間相互作用・分
明瞭・永続的
種間相互作用のタイプに依存
漸進的な環境変化
散能力
4.2.2 Boundary properties
用語の定義
Boundary sharpness
1
端を検出可能かどうか
Edge: 明瞭な境界。画像解析では大きく 3 タイプ。
Step edge: ほぼ均質な異なるタイプのパッチが接する境界、理想的
Roof edge: 一方か両方のパッチ内に空間自己相関がある
Spike edge: 局所的に強度の急激な変化がある。生態現象では稀。
生態学では edge は主に step edge を指す。Boundary は edge (line)も gradual (zone)
demarcation も指す。この本でも、boundary は sharp, gradual 両方を対象にする。
Step edge ≈ sharp, crisp, line boundaries (Fig. 4.9 a,b)
⇔ gradual, intermediate, fuzzy boundaries, transition zones (Fig. 4.9 c,d)
Boundary width
境界に沿って幅が非対称に変わることも生態学ではよくある(Fig. 4.9 c,d)。
Open or closed
特定の場所でだけ生態学的プロセスが明瞭な場合、閉じた領域にならない局所的
な境界(difference または open boundaries, Fig. 4.9b-d) を生じる。反対は area また
は closed boundaries (Fig. 4.9 a)。
Degree of straightness/sinuosity 人工的なものはまっすぐになりやすい。フラクタル次
元で計ることが出来るが、サンプリング単位の空間解像度に大きく影響される。
境界の構造的・機能的特性はスケール依存的なので、対象とする生態学的プロセス・
空間解像度・サンプリング単位・調査区の規模を明示することが必要。
4.2.3 Boundary detection based on several variables
量的・質的データどちらでも検出可能。それぞれ、以下のように境界を定義できる。
量的データ: 一連の変数の強度の変化が最も大きい空間上の位置
質的データ: 種のターンオーバーが最も大きい空間的位置
4.2.3.1 Multivariate methods
α多様性:特定の生息地/群集内の種多様性
質的データ(種数)の指標:
移行帯は種多様性の変化(通常は増加)
で特徴付けられ、固有の群集または生態系
を形成する。
β多様性は種のターンオーバーの高い場
所を特定するための指標とされてきた。
2
β多様性:ひとつの生息地から他のタイプへの
勾配に沿った種の変化の指標(分化多様性)
γ多様性:複数の生息地タイプを含んだ地理
的スケールでの多様性
量的データ(種ごとの個体数など)での指標:
Half-change :半減期のイメージ。勾配の両極端での主要な種の種数を評価。勾配
にそった変化率を求めることができないのが欠点。
Gleason:勾配に沿った種のターンオーバー率を再縮尺したもの。勾配に沿って連続
的に種が入れ替わると仮定。再縮尺には DCA(detrended correspondence analysis)を
よく使う。撹乱で勾配の連続性が失われたり、勾配が 1 つ以上ある場合には不適切。
4.2.3.2 One-dimensional transect data
移動分割窓(moving
split-window)
移動分割窓
・
窓の中を半分にわけ、部分間の差をもとめる。窓のサイズは2点だけ含む最小
のものから自由に変えられる。
・
差の指標は判別関数, Mahalanobis 距離や平方ユークリッド距離(SED)など様々
なものが使われるが、SED が最も普通に使われる。
p
SED(x1, x2) =
∑ (z
1i
− z 2i ) 2
i =1
x1, x2 はサンプリング点、p は変数の数、z はそれぞれの地点での変数の値
・ 例:Fig. 4.10 窓の半分がそれぞれ1点を含む場合。SED のプロットに高い幅の
狭いピークがあれば sharp boundary, 低く幅の広いピークなら gradual boundaries。
・ 移動窓は本質的に局所な境界の検出法なので、局所的なノイズに敏感なのが欠
点。窓のサイズを大きくすればノイズの効果は減らせる。
・
在・不在データにも同様な方法がある。観察された種数をモンテカルロ法で生
成した乱数と比較する。Dale(1986,1988)の方法はそれぞれの位置で空間的な
重なりを計算し、McCoy ら(1986)の方法はサンプリング地点間の確率的な類似
性に基づく。
・
一次元のデータでは、境界の明瞭さと幅しか検出できない。全ての性質を明ら
かにするには二次元のデータが必要。
4.2.3.3 Two-dimensional area data
二次元データは完全な格子か面のサンプリングがありえるが、ここでは間隔が一定の
格子点データを対象とする。大きく 2 つの方法に分けられる。
3
移動窓 (moving windows):
:
Fig. 4.11 (a) 正方形を形成する隣接した地点( 図では 2×2) から、差の程度を計
算(詳細は lattice-wombling)。調査区全体を窓を移動させれば、全部で n 行 m 列の
格子データがある場合、変化率は n-1×m-1 個求められる。
Kernel filter
Fig. 4.11 (b) 正方形を形成する様々なサイズのカーネル( 3×3、5×5、・・・) を窓
同様、移動させていくが、値は中心のセルに割り当てられる。そのため、変化率は n
×m 個、計算される。
Lattice-wombling
量的な格子データの場合、隣接した 4 地点の差(変化率) は偏微分で計算できる
( 4.3 式)。ここで、f(x,y)は(4.4) 式のような双線形関数。ただし、zi は地点 i での変数
の値、x,y は空間座標。 *つまり f(x,y)は 4 地点を通る曲面、m は面の傾き(Fig. 4.12)
2
 ∂f ( x, y ) 
 ∂f ( x, y ) 
+
m= 


 ∂x 
 ∂y 
2
(4.3)
f(x,y) = z1(1-x)(1-y)+ z2x(1-y)+ z3xy+ z4(1-x)y
(4.4)
・ 多変量の場合、m は各変数の平均 m を求める。
・
変化の方向も求められる(式 4.5,6)。多変量での平均は、逆方向の勾配がキャン
セルアウトするのを避けるために、θを 2 倍した後で平均し、最後に 1/2 にする。
  ∂f  
  
 o
 ∂f 
, if   ≥ 0
0 −1   ∂x  
θ = tan
+ ∆ , ただし ∆ = 
 ∂x 
  ∂f  
o

, otherwise
   
180   ∂y  
(4.5), (4,6)
・
問題は境界を検出する閾値。任意の値(例えば上位 10%)を使った場合、潜在
または候補境界と呼ぶ。その後、4.2.4 節で紹介する境界特性で評価する。
・
閾値の選択は文脈(境界の強さと数)やサンプリング地点数に依存する。
Fig. 4.13 樹木26種の個体数データの lattice-wombling による解析例。変化率は
(14-1)×(6-1)=65 個、そのうち 7 が上位 10%。同じ値の変化率があったら、同じ順位に
する。隣接する候補境界を結んだのが 4.13 a。境界は”difference/open”。順位 2,3,4 の
境界は、Fig. 4.5 の k-平均クラスタリング法の結果(ドットで示されている)と一致。2 つの
方法は補完的に使える。
4
Fig. 4.14 1 次微分である変化率は勾配の最も急なところを境界として検出するが、境
界の幅のより良い指標は 2 次微分。変化率同様、二次微分の上位 10%を選ぶと(Fig.
4.13a のドット)、境界の終わりがわかる。この例では境界の方向(Fig. 4.13b)はあまり参
考にならない。(局所的なギャップがあるため。規模が大きければ役立つ?)
境界の有意性の検定
・
制限無作為化検定を推奨する。
・
完全空間無作為化検定は、データの独立性を仮定しているため、過剰に保守
的 (本来、パッチ内では同じような値が近くに現れることが多いが、完全無作為
化では違うパッチの値が隣あう場合が生じ、非常に大きい変化率になる)
・
多変量の場合は、二項検定が可能。たとえば、10%閾値の場合は、それぞれの
変化率が選ばれる確率は 0.1。b 個の変数のうち、a 個が候補境界になった場合、
b
二項確率は: Pr (a | b ) =  0.1a 0.9 b − a
a
双線形アルゴリズムがうまく機能しない場合
・
鞍点(図 4.12): 重心での勾配はデータを誤って解釈する
・
パッチ内の空間自己相関: 程度によっては、パッチ内に境界を検出していまい、
パッチ間境界の検出が困難になる。いくつかの空間解像度で分析し、境界の持
続性を明らかにすることで、改善できる。
Triangulation-wombling
・
野外データは完全な格子ではなく、不規則な間隔で取られることが多い。補完
するとスムージングがかかってしまうので薦められない。
・
Delaunay アルゴリズムで決めた隣接 3 点からなる三角窓による方法(Fortin 1994)
では、平面 f(x,y)をあてはめ、変化率 m は格子 wombling と同じ 4.3 式で求める。
f ( x, y ) = ax + by + c
(4.7)
a   x1
b  =  x
   2
 c   x3
(4.8)
y1 1  z1 
y 2 1  z 2 
y 3 1  z 3 
 x + x 2 + x3   y1 + y 2 + y 3 
重心の位置は  1

, 
3
3



・
鞍点の問題は起こらない。
5
(4.9)
・
完全な正方形の場合、2 つの組み合わせが可能になり、4 点の値が著しく違う場
合はどちらを選ぶかが結果に影響してしまう。
Fig. 4.15 26 樹種のデータを用いた三角 wombling の例。実線の四角で表した 42 地
点のデータから作成。64 の三角形(灰色の破線)ごとに変化率が求められる。10%を閾
値とした場合の候補境界が太線。左下にあり、格子 wombling の結果(図 4.19)と一致。
Categorical-wombling
・
一致・不一致の指標から、種の在/不在のようなデータについて境界を引く方法
・
隣接したサンプリング地点間の不一致値(種が違うか、ある種のいるいない)を全
てのカテゴリー値(ここではそれぞれの種)について合計する。
・
26 樹種のデータを使って、不一致値に順位をつけたのが Fig. 4.16。10%閾値に
よる候補境界の数は格子または三角 wombling (Fig.4.13, 15)より多いが、左下
の境界は一致する。
・
1 種のみの在・不在データを扱うにはカテゴリーwombling は不適切。カーネル
法に基づいた行動圏描画法(Blundell et al. 2001)を使うべき。
4.2.4 Boundary statistics
境界もクラスター同様、恣意的。境界統計量は結合性の高い(cohesive)境界の望まし
い特性を把握するのに役立つ。
境界数 (Fig. 4.17a A,B,C,D の 4 つ) 結合性が高いほど少ない
単独(singleton)候補
候補境界
単独
候補境界の
境界の数 (1 つ=D) 結合性が高いほど少ない
最大境界長 調査範囲内にある境界で最長の長さ (A の長さである 6 候補境界要
素) 結合性が高いほど長い
平均境界長
平均境界長 (6+3+2+1)/4=3
最大直径 5 (A) 直線なら境界長と等しくなり、円なら小さくなる。2章参照。
平均直径 (5+3+2+1)/4 =2.75
過多統計量(
過多統計量 superfluity statistics) 調査区内をパッチに分割する候補境界の割合。
まず、境界候補に順位をつける。Fig. 4.17 b では、右上の境界は第 18 位までの候
補境界要素を含む。18 のうち、この境界に含まれているのは 7 つだけなので、過多
統計量は(18-7)/18 =11/18。中央の境界は 35 位まで含んでいるので、同様に 16/35
結合性の境界はこれらの統計量が有意に大きい(最大境界長、平均境界長、最大直
径、平均直径)または有意に小さい(境界数・単独境界数)だろう。この場合の検定も、
空間自己相関を用いた場合に比べ、完全無作為化は保守的になる(Oden et al. 1993)
6
4.2.5 Overlap statistics
結合性の高い境界が決まった後、異なる変数に基づいて作成した境界どうし(e.g. 森
林の境界と動物の分布)の関係を調べるための統計量。
直接重複
直接重複統計量
重複統計量 同じ位置にある境界の数(Fig.4.18,VA で表した境界要素 Os=7)。
どちらの境界からみても同じ値(対称性)
平均最短距離統計量
平均最短距離統計量 非対称な統計量。一方のタイプの境界要素からみて、最も
近くにある他方のタイプの境界要素までの最短距離の平均。Fig.4.18 では、V から
A に向かって引いた矢印が動物から植生への最短距離。この平均が Ov、逆が OA
n1
O1 =
∑ min( di.)
n1 が境界タイプ 1 の候補境界数、
i =1
min(di.)が境界要素
n1
全体平均最短距離統計量 双方の境界からみた最短距離の平均。対称。
n1
n2
i =1
j =1
∑ min( d i .) + ∑ min( d .. j )
O12 =
n1 が境界タイプ 1 の候補境界数、
n1 + n 2
min(di.)が境界要素
・
Os は同じ場所にあるものしか考慮しないのに対して、O1,O2,O12 は空間的に関連
性のある、または互いに反発しあう境界を判別できる。
・
検定の際には、調査データそのものではなく、変化率をランダマイゼーションし
たほうがよい。変化率は空間構造の情報をもともと含んでいるため。
Fig.4.19: 高木種と低木種の境界候補(20%閾値)では、Os=6 (p=0.1089), Otree=8.6m
(p=0.0990), Oshrub=17.4 (p=0.2178), Otree-shrub=13.0m (p=0.1188) 。有意ではないが、
Oshrub=17.4 に対して Otree=8.6m なので、低木の分布には高木のギャップが影響してい
るが、低木の分布は高木の分布に関係ないことがわかる。
重複統計量を用いた例としては、森林の分布と土質の不連続性(Fortin et al. 1996)、
鳥類と木本の分布の関係(Halls & Maruca 2001; St-Luis et al. 2004)などの例がある。
4.2.6 Boundary detection based on one variable
1 変数のみの量的データでは、格子 wombling はうまく境界を検出できない場合がある。
局所境界検出法なので、局所的なノイズや空間自己相関に影響を受けやすいため。
7
4.2.6.1 Hierarchical global partitioning using wavelets
・
Wavelet はトランセクトや面的調査の量的データに適用できる。 2 章で紹介した
wavelet 分散は画像圧縮などにも使われ、画像の比較的均一な部分領域は少数
の係数でモデル化できる。この特性を利用して、境界を検出する。
・
部分領域への分割は、“四分木 quadtree”分解(Csillag & Kabos 1996)と呼ばれる
階層的手続きで得られる。比較的均一な部分領域が得られるまで、4 分割を繰り返
す。得られた部分領域は四分木分割の”葉“と呼ばれる。
・
分割ごとに、分割の構造と階層(スケール)とを表すために必要な wavelet 変換の係
数が追加される。葉ごとに 1 つの方程式がある。
・
モデルの適合度を高めるためにはより多くの waveforms(wavelet 変換係数)を残す
必要がある。データ量と解像度はトレードオフ。
Fig.4.20 格子 wombling を使った 26 樹種データの分割。方程式により多くの係数を
残すほど部分領域の数は多くなる。(a)10% の係数だけ残した場合。(b)40% の係数を
残した場合。左下の境界は a,b ともにあるが、b は左上にも境界がある。データ量が少
ない(13 行×5 列=65 値)なので、分割は 2 階層までしかできない。
Fig. 4.21 ケベックのクロトウヒの被度データはデータ量が多い(425 行×350 列)ので、4
階層まで分割ができる。白い部分が高い被度、黒い部分が低い被度。右上は密度の
高い場所と低い場所が並列しているので、分割が集中している。
4.2.6.2 Edge enhancement with kernel filters
・
Kernel フィルター検出法は、ものの輪郭を検出するために、隣接したセル間のコン
トラストを強調するために使われる。オペレータと呼ばれる、いくつかのアルゴリズム
があり、大抵の GIS やリモセンのソフトウェアには含まれている。
・
最初に開発されたのは、隣接した画素間の勾配を 1 次と 2 次微分係数を用いて測
る、ラプラスフィルターなどである。2 次微分ラプラシアンの、3×3 不連続近似カー
ネル版は下のとおり。(Fig. 2.32 の9TLQV のテンプレートと同じ)
1
1
1
1
-8
1
1
1
1
・
このようなフィルターをかけると、境界のはじめと終わり以外では値がゼロになる。
・
ラプラシアンのようなオペレーターはノイズに敏感なのが欠点であり、最初にデータ
の平滑化が必要。
・
平滑化の方法は、隣接セルの凝集(データ数は減る)や、ガウスフィルター、境界も
8
同時に検出する Canny 適応フィルター(Canny 1986)やラプラスアルゴリズムやガウ
スアルゴリズムを用いた階層空間的手法などがある。階層空間的方法では、サイズ
を増加させながらガウスカーネルを使った一連の平滑化を行い、境界のスケール
間での持続性を検出することができる。
Fig. 4.22 ガウスフィルター(スケールファクター40 セル)で平滑化したデータに、ラプラ
スフィルターで境界を引いた。大域的である wavelet 分析での分割(Fig. 4.21)に比べて、
ずっと多くの局所的な境界線が引かれている。ラプラス法は境界が強かろうと弱かろう
と、カーネルの合計がゼロでない場所を境界と検出するため。カーネルが大きすぎて
も、画像を等方的に平滑化してしまうために、空間分割を歪めてしまう可能性がある。
他にも非線形や大域閾値カーネルなどある。興味があったら、リモセンや医学で適用
される、画像認識の文献を読んでほしい。
4.3 Concluding remarks
・
この章で紹介した境界検出法は、生態学者が開発したりよく使う方法に限っており
(Table 4.2)、氷山の一角に過ぎない。
・
画像認識やスムージングのために開発された多数の洗練された方法は、1変数の
みの場合に有効。しかし、ノイズを消すためにカーネルサイズを大きくすると空間
・
パターンを歪めてしまう可能性があることに注意が必要。
生態学では、多変量から移行帯や生態学的な境界を検出するので、変数の重み
づけなどが問題になる。たとえば希少種や遍在種のデータは、指標種や特定の環
・
境条件に反応する種ほどには重要でないかもしれない。
方法論的視点からは、ベクターデータやラスターデータから境界間のオーバーラッ
・
プを評価する新しい方法が必要。
統計検定と生態学的概念の統合が最も大きな問題。最適な制限無作為化の方法
はどのように決めたらよいか。制限無作為化は生態学的知識に基づいて決定すべ
きだが、通常、複数のプロセスが関わっている(パッチの形成、境界の形成、境界
の両側それぞれ)。このような問題については、7 章で詳しく議論する。
9
1
5 Dealing with spatial autocorrelation -前半
担当
赤坂
Introduction
よく知られているパラメトリック統計はそれぞれの観測の独立性を前提にしている.しかし,生
態学のデータはこの前提をしばしば犯していることから独立性が保たれないと,どういうことが起
こるかを理解する必要がある.
独立性の欠如は,自然界では近い場所での物事(サンプル,観察)は、しばしば離れたところで
行うよりも結果が似てくる傾向がある.-Tobler's Law see Ch.1&3
このような独立性の欠如を,原因に係わらず空間依存(Spatial dependence)と呼ぶ.
空間自己相関のタイプ
・Inherent autocorrelation (autogenic-, true -): ある種の分布や量がその生物の移動能力や散布能
力の制限のため空間的な自己相関を示すなど
・Induced spatial dependence:観測値(e.g.種の量)自身が自己相関している潜在的な変量(e.g.
土壌水分)に関数的な依存を示すなど.
…両者は一つの事象に対して同時に起こりうる
本章では,Inherent autocorrelation, Induced spatial dependence に注目し,その特性と影響を少し掘り
下げてみてみる.
自然体系ではほぼ全ての場合で patchiness や傾度の形で空間的自己相関がある.
自己相関:統計的検定に悪影響を与える厄介者
生態学的過程に対する空間構造の重要性を示す新しい知見
…いづれにせよ生態学者は空間的自己相関の対処方法を学ぶ必要がある
空間的自己相関は,他の生態学的現象と同じく,スケールや規模依存である.
-近い場所では期待するより値が似ていて,遠いと似ていない.
空間自己相関を扱う第一歩として,空間的自己相関が距離により異なるいくつかの場合を考える.
まず,n の場所での下記の構造をもつ,x1, x2, … xn の観察を考える.
Model 1a: 完全に独立 (図. 5.1a, 式 5.1a)
xi = εi, εi ≈N(0, σ2ε) …(5.1a)
εi:ある統計分布 (この場合は平均 0,分散σ2εの正規分布)に従う独立な誤差
・それぞれの観察の空間的自己相関は 0 (分布は他の分布でもよし)
Model 1b: 空間独立 (図. 5.1b, 式 5.1b)
xi = βzi + εi
zi = ξi
…(5.1b)・
εi, ξi:統計分布に従う独立の誤差
β:線形回帰の係数
・関数依存性はあるが空間独立は保たれている.隣接する x 間や z 間の相関は 0 (ref. 図 5.1)
Model 2: Inherent autocorrelation (図. 5.2, 式 5.2)
2
xi = ρxi -1 + εi
-1≤ρ≤1 …(5.2)
εi, :統計分布に従う独立の誤差
ρ:自己相関の強度を決めるパラメータ
・隣接する変数間の相関はρ
Model 3:
Induced autoregressive (図. 5.3, 式 5.3)
xi = βzi + εi
zi = ρzi-1 + ξi
where ξi ≈N(0, σ2ξ) …(5.3)
εi, ξi:正規分布に従う独立の誤差
β:線形回帰の係数
ρ:自己相関のパラメータ
・隣接する変数 x 間の相関は 0 ではないが,βとρの関数.
Model 4: Doubly autoregressive (Inherent + Induced autocorrelation) (図. 5.4, 式 5.4)
xi = βzi + ρxxi-1 +εi
zi = ρzi-1 + ξi …(5.4)
ρx,ρz:それぞれ x, z の自己相関パラメータ
・Inherent と induced の両方の空間自己相関構造をもつ
‐‐‐‐‐‐‐‐‐‐
Model 1(1a, 1b 両方)では x はそれぞれ独立.Model 2 は一次自己回帰構造(First-order autoregressive
structure)と呼ばれる構造で,最も頻繁に扱われている自己相関の形である.この場合,任意の二変
数 xi と xj の相関は,両者がどのくらい離れているかにのみ依存する.つまり両者の相関は,
Cor(xi,xj) = ρ|i-j|
.…(5.5)
で表される.この一次自己回帰構造は k 次自己回帰構造の最も単純な形で一般的には,式 5.7 のよう
に示される.
Model 3 では x に見られる依存は z への線形の依存性と z の Inherent autoregressive structure
に起因する.このモデルにおける xi, xj 間の相関は,
Cor(xi, xj) ∝ ρ|i-j|, for i≠j
…(5.8)
で,示される.n×n の分散共分散行列は Model2, Model3 それぞれ表 5.1, 5.2 となる.
‐‐‐‐‐‐‐‐‐‐
これらのモデルは,今までのところ空間的というよりも時間的な連続に関するもののような印象
がある.しかし,この明らかに方向性があるモデルでも,式 5.5 からわかるように,いずれの2変数
間の相関もその距離にのみに依存し,方向性は関係ない.
ここで次の思考実験をしてみる:Model2 による作成したデータセットとそれを逆さまにしたセッ
トをつくってみる.このとき元のデータ作成の仕方を理解できるであろうか?実際は Model2 は式
5.5 によって生成できるが,違う方法でも生成できる (Cressie 1991).例えば,孤立した木本から散
布される花粉の量は距離 d に対して(1/2)d で減少する場合,1m 間隔で測定した結果は model2 と
似てくるかもしれないが Model2 はそのパターンがどのように生じたかをちゃんと記述できている
とは言えない.それゆえに,これまでに示したモデルは,発見した相関構造を生成させる内在プロ
セスがわからないような空間依存の特徴の調べるときに使うことにする.
‐‐‐‐‐‐‐‐‐‐
3
一つの空間データセット(一時期にある変数に対して n 回の観察を行ったデータなど)しかない
ときは,一度きりの観察なので,2 つの値の共分散を計算できないが,観察値を距離(距離 1,距離 2
…)で区切って共分散などを計算することができる. この場合間隔(lag) d における共分散の推定値
Cx(d)は,式 5.9 となり,標本平均は先頭,末尾からそれぞれ n-d 個の値を利用する(例として図 5.5 で
は n = 12, d = 3 のとき x4-x12, x1-x9).従って相関係数は式 5.10 となるが,この式だと推定がよくなく
て,式 5.11 とすると推定結果が良いのでこれを自己相関に計算につかう.
ここまで一空間次元について議論をしてきたが,その考え方は 2 次元以上のデータに対しても同
様に当てはまる.しかし多次元になると技術的に煩雑になる.
‐‐‐‐‐‐‐‐‐‐
さらに一次元の自己相関モデルの特徴を把握するために,具体例をコンピューター上で作って検
定してみる (表 5.3). Model1a, 1b の結果は期待どおりになるが,Model2, 3(x)から解るように
induced ,inherent を問わず自己相関があると,有意となる回数がかなり多くなる.つまりに正の空間
自己相関があると統計検定は寛大になりすぎる (Model2 は有意になる回数が 4 倍など).直観的には,
観察が互いに独立ではないため使える情報は n 単位すべての情報よりも少なくなると理解できる.
有効標本サイズ n'は n よりも少ないため t 統計量を求めるのに s/n'ではなく s/n をつかっていること
で,検定により有意な差が多く出る.これからこの状況の対処方法を素朴な応急処置から適用範囲
の広い頑健性のある洗練された方法まで,いくつかの紹介する.
5.1
Solutions
5.1.1Quick fixes
最も簡単な方法は,空間自己相関の存在を認めて有意水準αをもっと保守的な値(e.g.α'=α/5)に調
節することである.
Dale & Zbigniewicz 1997 の適用例:1001 個の連続するコドラートの植物密度データを
t 検定を用いて比較するときに, 有意水準を 5%でなくて 1%に設定した.
(自由度 5 の 5%棄却限界が,自由度∞の 1%と類似するから,有効標本サイズが自己
相関により減少し,5 になってもα=0.05 を保証できるという発想)
しかし,これでは真の誤差率がわからないのでどの程度誤差率を調節すればいいか不明確で,最
善の方法とはいえない.さらに対象データの真の自己相関の構造によっては保守的すぎる検定とな
る危険性がある(これについては後述).
‐‐‐‐‐‐‐‐‐‐
一次自己回帰構造(Model 2)は,空間自己相関の強さが距離が離れると指数関数的に減少するとい
う特徴がよくみられる.つまり,ある一定の距離以上離れれば,空間自己相関は実質 0 で独立と扱
える.もしこの考えが正しくて,また大量にデータがあれば,離れた点のデータだけを使って解析
をすることで,独立性を保証できる.
この方法には難点が二つある.1)データの無駄が大きい.2)弱く有意ではない(0 ではない)自己
相関の効果があるかもしれない(これについては後述)
5.1.2
Adjusting the effective sample size
正の自己相関は有効標本サイズを減少させるので,空間自己相関の程度を推定することにより,
4
有効サンプル数を調べることができる.空間自己相関のない場合,標本平均の分散は標本分散を標
本数で割ったものになる(式 5.13).空間自己相関があるときは,式 5.13 の n は n’となり,その推定
値についての式である式 5.15 を得る.
これから自己回帰パラメータがρの一次自己回帰構造(表 5.1)で,n が十分に大きいとき n’は式 5.17
となり,Θ = (1-ρ) (1+ρ)とした,このΘが apporximate correction factor になる.これを用いると例
えば,n = 1000 でρ = 100 の時は n’ = 429 となる.疑似データを用いた検討から,この方法は一,二
標本の t 検定,ペアード t 検定,と ANOVA の F 検定での正確さが検証されている.
この方法は使い易いのだが,自己回帰モデルは自己回帰構造をよく記述していいなければならず,
この手法はモデルを作成する時点から頑健でなくてはならない.頑健性については実際のデータ解
析で有効サンプルサイズを調節に利用する際に,非常に重要なので後述.
‐‐‐‐‐‐‐‐‐‐
次に有効標本サイズを相関行列 R と各間隔距離(lag distance) r(d)ごとに計算された要素 rij を元に考
えてみる.個々の値同士の相関は出せないので,それぞれ n-d ペアの各間隔 d ごとに値を求める.
表 5.2 のように相関行列は対角要素が n 個の 1 で,それぞれの側に同じものがあるので,相関行列が
R のときの n’は,式 5.18 となる.
有効標本サイズ n'(R)を評価するために,さらに他の自己相関構造を検討する.
例えば First-order serial autocorrelation 構造では,R は表 5.4 のようになり有効標本サイズは n' =
n2/(n+2(n-1)ρ) となる.
Model 5: 一次移動平均モデル(First-order moving average model)
xi = εi
+ εi -1
(図 5.6 参照) (5.19)
この場合,ρ = 0.5 で n が十分大きければ,n' = n/2 となる(図.5.6).これは xi の情報の半分が xi-1
に含まれていて,残りの半分が xi+1 に含まれていることから,n 個の x のうちの,一個おき x の情報
しか含まれていないために n'=n/2 となる.このモデルでも方向性は関係なし.Model5 は k 次の移動
平均モデルの最も単純な(k=1)形である.より一般的には式(5.20)と表される.
さらに 2 次の移動平均モデルを考えてみると,ρは,ρ1 とρ2 を考えることになり(図 5.8 参照),
有効標本サイズ n’は式 5.18 より k = 2 の場合:
n' = n2 / [n+2(n-1)ρ1+2(n-2)ρ2] (5.21)
である.このモデルでは:
Model 6: Second-order moving average mode
xi = εi
+ εi -1 + εi -2 …(5.22)
ρ1 = 0.67, ρ2 = 0.33 となる(このとき n' = n/3).
‐‐‐‐‐‐‐‐‐‐
表 5.5 に Model5, 6 と同じような自己相関構造をとった場合の有効標本サイズをいくつか示した.
一番下から 2 行以外は,有効標本サイズは表 5.3 と同様のシュミレイションで’正しいこと’を確認済.
注目すべきは,3 行目以下の負の自己相関を加えた場合である.(下から 3 行目のモデルは,xi = εi
+
εi -1 - εi -2 - εi -3 - εi -4 であり,データに周期性があるように見られるが lag 5 以降は自己相関が
0 なため非周期的である )これから,パラメータに依存して決まる公式を使って有効標本サイズを求
めると,実際には有効標本サイズを n より大きくしてしまう可能性があることがわかる.つまり,
小さいスケールでの強い自己相関がみられても,もしより大きいスケールで負の自己相関を生み出
5
すような周期的なパターンがあるときは,必ずしも統計検定の信頼性が下がっているとは限らない.
実際には意味のある統計検定をするためには,場合によって標本サイズ大きくする必要もある.(Dale
& Zbigniewicz 1991 はα=.05 ではなく.01 を採用し自己相関の影響を補正を試みたが,短距離の正の
自己相関に基づいた過剰な補正により,長距離の負の自己相関の影響を見逃した可能性がある.)
‐‐‐‐‐‐‐‐‐‐
重要な点は,個々が有意でなくても,すべての間隔における自己相関が有効標本サイズの計算に
用いられなくてはならないということである.有意な変数だけを使うことは合理的はあるように見
えるが,間違いを引き起こすことになる.例として,一次自己回帰モデル (Model2)のρ = 0.3 の場
合: n = 400 の時の有効標本サイズ n’は 400*0.7/1.3 = 215.4 である.一方,有意でない自己相関を考慮
に入れないと n’=250.2 となる.従って,有意な自己相関係数だけを使った場合,全部の係数を使っ
た場合よりも有効標本サイズが 16%大きくなる.更に極端な例を示すと間隔に応じて自己相関係数
が,1, 0.3, 0.1, -0.004, -.0004, -0.004...-0.004 となる場合,有意な係数だけを使うと,n' = 22.5 となる
が,全ての小さな負の値を考慮に入れると n' = 1840 となる.これから有意ではない自己相関を無視
することは,有効標本サイズに大きな影響を与えるということがわかる.
それぞれ異なる間隔の検定がそれぞれ独立でないことを考慮に入れて,Bonferroni 型(第三章参照)
の補正を棄却限界を決めるときに適用しても状況はかわらない.というのは,この補正により厳格
な判断をすることになるので,より多くの有意ではない係数を排除することになるからである.
これらからわかるのは,遠距離間の弱い自己相関が,近距離間の強い自己相関の効果を打ち消すこ
とがあるということである.この状況は,対象としている系が正と負の自己相関が繰り返しみられ
るようなパッチ状になっているときによく見られる.
‐‐‐‐‐‐‐‐‐‐
表 5.5 で示した一連のモデルの n' の正確さから,正確な n'を求めるための解決方法は,データか
ら自己相関行列 R を計算した値を用いて求めることである,と言いたいのだか… 残念ながら空間自
己相関をもつデータの補正を実際にやろうとすると現実的な問題がでてくる.
現実的な問題とは,例えば非常に単純な xi = εi +εi-1 という構造(表 5.5 の一番上の行)によって
作られたデータの n'は推定値のばらつきが大きいことである.例えば n = 500, 1000 回試行の結果の
平均値は 302 でそれなりの結果になるが,試行ごとで見ると値は 48~492 までばらつく.これから,
この方法は非常に単純な内在構造の架空データに対しても使えず,実際のデータは複雑で恐らくよ
くわからない構造をしているため適応するのはさらに危険なことがわかる.
もう一つの現実的な問題は,単純な代数のルールから∑Σρij は 0 未満にはならないが,データ
の推定値は稀に 0 になる.∑Σρij が 0 未満にならないことの根拠は式 5.25 の通りであり,負の値
を取り得ない.表 5.5 の最後の 2 行のモデルにおいて期待される自己相関の和は非常に 0 に近い (例
えば表の一番下の行は図 5.7 の 4 次の移動平均モデルの結果).
データから有効標本サイズの推定値を得る根拠がないことから,この方法を諦めたほうがいいの
かと思ってしまうが,これから示すようにそういう訳でもない.しかし,一般的な解決方法につい
て(もしあれば)示す前に,空間自己相関を示す他のモデルを重要な基礎知識として記述しておく.
5.1.3
Other kinds of models
これまでは暗黙のうちに連続変数を扱ってきた.今後は不連続変数(例えば 0,1 のどちらかをとる
6
変数)の空間自己相関も扱えるようにしていく.そのようなデータへの自己相関の導入には,例えば
値が 1 となる確率が,1 が連続して現れると減少するようなモデル(Markov model)を考えればよい.
さらにこれまでは,方向性をもったモデル(例えば xi は xi-1 の関数)を考えてきた.この方向性は,
時系列では合理的だが,一次元ではなく,2 次元の空間データに直感的理解しにくい.一次元モデル
の一方向性は一次自己回帰モデル(Model 2)で視覚的によくわかる.
xi = ρxi-1 +εi …(5.26)
空間モデルでの問題は,前と後の隣接値を両方とも考えなくてはならないということで,例えば,
xi = ρxi-1 + εi + φxi+1
…(5.27)
のようなモデルを考える.
この構造を実際に利用するには同時に n 個の値のための方程式を n 個,同時に扱うことが必要.
この一次元の例では各位置は 2 つの隣接値をもつが,二次元では規則的格子であれそうでなくても
さらに多くの隣値を考える必要があり,さらにその位置の効果(location value)は隣接値の位置と距離
により重みが違う.この重みはしばし近接行列(proximity matrix)W で表され,その要素 wij は位置 i
の値が位置 j の値と独立でなければ 0 より大きくなる.例えば正方格子上で,チェスのクイーンの
動く範囲にある隣接値(行もしくは列が対象と一致しているか,その対角に位置する値)が同等に
加重(例えば 1/8 など)されて,それ以外の加重が 0 というような行列である.
二次元データに空間統計を導入するには多数の方法があり,これから最も単純な 2 つのアプロー
チである同時自己回帰モデル(Simultaneous autoregressive model = SAR)と条件付自己回帰モデル
(Conditional autoregressive models = CAR)を紹介する.これらアプローチは行列(太字で表示)を使うこ
とで簡単に説明できる. SAR の説明については,このモデルを明快に説明している Bailey & Gatrell
1995 の解説を借用した.
‐‐‐‐‐‐‐‐‐‐
SAR モデルの概念は式 5.27 であり,xi は xi-1 と xi+1 に規定され,それぞれの x が他の x を含んだ値
により定義される.そのため,連立方程式系を解く必要がある.まずベクトル X として与えられる
測定値 x が,ある独立な内在変数(underlying variables) z1, z2, z3 からなる行列 Z に線形従属していると
いうモデルを考える.
X = Zβ+u …(5.28)
u:平均が 0 で分散共分散行列 C となる,場合により非独立な誤差を示すベクトル.
このモデルに空間自己相関を組み込むには u を自己相関させればよい.
u =ρWu+ε…(5.29)
ε:独立な誤差項(ε≈N(0,σ2ε))
W:上記の近接加重行列(列の合計が 1 になるよう基準化).水流,卓越風などの自己相関の
影響に方向性がある要因にも対処できるようにするため対象行列である必要はない.
これによりモデルは,
x = Zβ+ρW(x - Zβ) +ε
…(5.30)
となり,u と関連する分散共分散行列は
C = σ2[(I-ρW)T(I-ρW)]
…(5.31)
となる(誘導の仕方は Bailey & Gatrell 1995 を参照).例えば,n = 3, ρ= 0.5 で(図. 5.10 a 参照),W が
式 5.32 のように規定されれば,分散共分散行列 C は式 5.33 のようになる.この例では,分散(主行
7
列の対角成分)は全てが等しくないが,分散が他の変数との相関により増加して 1 以上である.x3 の
分散が最も大きくなるのは隣接加重が最大のため.
‐‐‐‐‐‐‐‐‐‐
この SAR モデルは,量的地理学?(qualitative geology )で積極的に利用されてきたが,多くの統計
学者が技術的な理由から,替わりに条件付自己回帰モデル(CAR)を使うことを推奨している.CAR
モデルは隣接する値個々の位置に対する値に対する隣接値の値に線形依存する訳ではなく,個々の
値がとる確率は,隣接値の条件によってきまる.
P(xi = x) = P(xi = x|{xj; wij > 0})
…(5.34)
このモデルは SAR モデルと大きくは違わないが,加重行列 V が対称であることが必要で,
x = Zβ+u …(5.35)
u:平均が 0 である誤差のベクトルで,自己相関のパラメータφを含む分散共分散行列は:
C = σ2 (I-φV)-1
…(5.36)
となる.CAR の n = 3 の場合の単純な例は,図 5.10b に示されていて(この値は全て等しい必要なし),
V は式 5.37 となり,φ=1/3 の時 C は式 5.38 となる.この場合も対角要素は 1 より大きくなるが,
その程度は同じである.もう少し現実的な例を 5.39 に示した.このとき,φ=0.625 なら C は式 5.40
となる.
CAR と SAR は似ていて,
V = W + WT - WTW
…(5.41)
が成り立つ.しかし,逆は成り立たない.
‐‐‐‐‐‐‐‐‐‐
空間解析の分野では,移動平均の使用は非常にまれであるが,Haining1978 はその有用性を主張.
格子データでは,移動平均(行,列いずれかが一致しているもの全てが平均の対象)を使うほうが,し
っくりくる.つまり,
xij = εij + ρ(εi-1,j, εi+1,j, εi,j-1,εi,j+1 ) /4 …(5.42)
移動平均 (MA)モデルは,距離に応じて急激に自己相関が減少してほとんど 0 になるようにモデ
ル化できる点が有利である (自己回帰モデルではより広い距離まで自己相関が大きい).自己回帰モ
デルは一般化すると.
x=Zβ+ρWε+ε
で,その分散共分散行列は
C = σ2[(I-ρW)T +
(I-ρW)] …(5.44)
となる.これは SAR モデルと似ているようだが,式の中に逆数がない.同じ対称な隣接加重行列 W
でも.これら 3 つのモデルから生成された分散共分散行列は概して異なる.これら 3 モデルについ
ての詳細は,Ripley 1981, Upton & Finglton 1985, Griffith 1988, Cressie 1991, Bailey & Gatrell 1995 など
他にいい参考文献があるので,その詳細については触れない.これらのモデルは内在プロセスが未
知でもモデルのパラメータを推定が可能ということを理解する助け点を指摘しておく.実際のデー
タに対しては,隣接加重行列 W すらわからない.しかし,示したモデルの別の使い方は,既知の構
造をもつ架空データを作り,自分の解析する観察データと対比させることである.このようなタイ
プのモデルを利用もしくは対比させることが,空間自己相関を取扱うの唯一のやり方だと思われる.
1
Spatial Analysis, Fortin MJ & Dale M, 2005, Cambridge
Ch. 5. Dealing with spatial autocorrelation
後半 (pp.234-55)
紹介:藤田剛 (東大・農・生物多様性)
2006 年 10 月 23 - 24 日
5.1.4. Particular examples
Test for proportions
− 割 合 の 検 定 は 、 contingency table と ピ ア ソ ン の χ 2 や 尤 度 比 な ど goodness-of-fit
statistics を用いて行われる
−Markov model が使える
−同じサンプリングユニットに2種がいるかいないかを見る 2x2 の contingency table
の例
− λ s (式 5.45)をもとに、deflation 値 Φ (式 5.46)を計算。普通の方法で求めた統計値
をこの Φ で割る(Tavaré 1983)
−有効サンプルサイズ n’ = n/Φ とするのも、数学的には同じこと
−k 種以上が同じサンプリングユニットにいる場合、2 k の表を用いることになる
−Porteus (1987) が Tavaré のアプローチを踏襲した方法を提唱 (式 5.48)
−contingency table 全体をテストしたあと、有意性にどのセルが効いているのかを調
べるために、standarized residudal を計算することが多い
−Freeman-Tukey srandarized residual: z =
o + o + 1 + 4e + 1
2
−2x2 の表では、この値を x / 4 と比較する (Sokal & Rohlf 1984)
−Dale et al. (1991) は、全体のテストのためのどのような inflation factor Φに対して
も、standarized residual は、 Φ で補正できるとしている
−この方法一番の問題点は、Markov model によるデータの記述力
−同じ値が続く推移の分布は、短い回数続く場合がたくさんあり、長く続く場合がほんの少し
だけといった幾何分布をとる (図 5.11)
−この補正法の頑健さを調べた(表 5.6)
−データが幾何分布をする場合にだけ、正しい significance rate を示した
Correlation and liner regression
− ρ 1 と ρ 2 のパラメータ値をとる2つの自己回帰相関構造をもつ独立変数の相関係数
は式 5.49 で近似される
−これから、有効サンプルサイズは式 5.50 で求められる
−Tavaré & Altham (1983)は、帰無仮説のもとでは r 2 /s r 2 は χ 2 に近づく
−どちらかの自己相関がない場合は、補正は不要
−Cliffor et al. (1989) が提唱し、Dutilleul (1993b)が改良した自己相関構造のある条件
での相関係数の補正法
−サンプルの共分散の分散を計算する
−自由度を補正する: n’ = 1+s r -2
−この過程で、距離のクラスに基づいて推定した x と y の共分散行列を計算する
5章後半
2
−式 5.51
5.1.5. Restricted randomization and bootstrap
−ランダマイゼーションは、データそのものを使って reference distribution を生成し、
仮説検証を行う方法
−制限付ランダマは、データの構造(空間、時間、遺伝的なものなど)を維持できる
制限を明らかにしようとする方法なので、空間相関のあるデータのテストに便利で
ある(例:図 5.12)
−20x20 セルでの密度分布。a. データ、b. 完全ランダマ、c. 制限付ランダマ。デー
タと同じパターン(式 5.52 の関係)を維持している
−データがトランセクトの場合、一次元「キャタピラ」ランダマイゼーションがある
(図 5.13)
−contiguity-constrainded permutaiton test (Legendre et al. 1990):ANOVA の枠組
みで行う制限付ランダマ。数値実験から ANOVA が空間自己相関に対する感度が高
くないことが示された
−ランダマのもうひとつの応用法は、ジャックナイフで信頼区間を推定すること
(Lele 1991, Heagerty & Lumley 2000)
−ブートストラップも、別のランダマ応用法。データを複数回サンプルしてもよいラ
ンダマ。serial correlation のある複数変数の比較には、これががよい (Cohn 1999)
5.1.6. Model and Monte Carlo
−自己相関構造のモデルをつくり、モンテカルロシミュレーションで生成したデータ
を観察値と比較する方法
−信頼区間推定にモンテカルロを使う (Manly 1997)
−例:表 5.7
− 例 え ば xi = 0.4xi-1-0.2xi-4+εi を 用 い て 10 回 シ ミ ュ レ ー シ ョ ン (realization,
n=100) を行う
−より一般的な式 5.53 をモデルとし、ベストフィットするサブモデルを maximum
likelihood backward selection で選択する
−オリジナルモデルに「近い」モデルが選択されたが、推定有効サンプル数 n’ は、実
際の有効サンプル数 65 の 1/3 から2倍。ベストフィットモデルは、それを生成し
たモデルにならない場合がある
5.2. More on induced autocorrelation and the relationships between variables
−この章では、自己相関と自己回帰のちがいを明確にしてこなかった。
−一般的に相関は、誤差推定可能な2変数の正負の関係を見る。2者の因果関係は分
かっていない (Sokal & Rohlf 1995)
−相関は、2変数の共分散と分散の関係 (式 5.54)。
−3変数 (x, y, z) で z を一定にした場合の x と y の偏相関は式 5.55 になる
−図 5.14 は x と y が、z とは正の相関関係にあるが、互いには負の相関がある場合を
示している
−これに対し線型回帰では、モデル (たとえば式 5.56) を underlying hypothesis とし、
従属変数が独立変数に依存する強さを評価する
−x が z に依存する部分を取り除くと残差 x’が得られる (式 5.57、図 5.15)
−自己相関が存在する場合の x と y の相関係数をテストする Dutilleul (1993) の方法
−式 5.60 の関係を想定
−自己相関を x と y、z に移動平均の形 (MA) か自己回帰 (AR) の形で加える
5章後半
3
−結果は表 5.8
−(1) この結果から、z の影響をコントロールしても x と y への空間自己相関の影響を
除去できない
−(2) z の自己相関は重要ではない
−(3) MA と AR は質的にちがった挙動を生み出す
−(4) MA と AR、どちらがデータの記述に良いのかが明確でない場合、有意な相関の
解釈をすることは困難である
5.3. Models and reality
−stationary な条件であっても、n が小さい場合、あるモデルから生成される結果は大
きく違ってくる
−サンプリングや実験デザインの話に入る前に、生態学的データに見られる空間自己
相関の共通構造を調べるのに有効な情報について検討する必要がある
−Dale & Liang は、320 のバリオグラムに関する論文を調べた。そのほとんどは3つ
の geostatistical model のいずれかにフィットさせていたが、これは距離が大きく
なると飽和するパターンを示す。しかし、実際には変動するパターンが繰り返し見
られた
−著者らは、残差の符号や増減を調べ、そのテストを行った
−計算上の独立性の欠如 (PQV,pp.86-7) から明確には結論できないが、生態学的デ
ータのバリオグラムでは、距離が大きくなると飽和する傾向は無く、距離に対して
ランダムでないパターンが生じることが示唆された。これはたぶん、自然界に存在
するパッチ性由来のものだろう
−正の自己相関が有効サンプルサイズを減少させる効果を、負の自己相関が緩和させ
ている可能性がある
5.4. Considerations for sampling and experimental design
5.4.1. Sampling
−パッチ状の環境 (図 5.16b)で生じる空間自己相関 (trend と directionality の問題) の
影響を最小にするサンプリングデザイン:Fibonacci spiral の full rose (図 5.17)
−部分集合を使うことができるのが、このやり方の優れたところ (図 5.18)
−例:各点を 0.035 の確率で使うかどうかを決める。55 個ごとに点を選ぶ
−空間構造による野外調査や実験デザインへの影響に関する最近の発見 (Legendre et
al. 2002, 2004)
−環境変数と従属変数の両方に空間自己相関があると、従来の検定結果に影響をおよ
ぼし、タイプ I エラーが起こりやすくなるが、片方だけだとそうではない
−空間構造を明らかにする pilot study が有効
5.4.2. Experimental design
−基本的にサンプリングデザインと同じ。ただし、実験ユニットへの操作の効果 τ を
組み込む必要がある (式 5.63)
−以下のことが分かっている
(1) ブロックデザインが良い。ランダムに選んだ位置にユニットを配置してはならない
(2) 小さいブロックをたくさん配置する方が良い
(3) short-range 空間自己相関は long-range よりも ANOVA 検定結果に影響をあたえる
5.5. Concluding remarks
5章後半
4
−ちょっとこんがらがったこの章であつかったテーマ:
・空間的自己相関は生態学的に重要な特徴のひとつだが、見かけ上有意ではない検定
結果などに影響する無視できないもの
・空間的自己相関がある場合でも、データを削るのはもったいない
・有効サンプルサイズを明らかにすることはひとつの解決策。ランダマイゼーション、「モ
デルとモンテカルロ」などが使える
・サンプリングや実験デザインに先立ち、空間自己相関の特徴を明らかにしておくことが
重要
− 1993 年 に Lengendre は 、 「 空 間 自 己 相 関 は 、 ト ラ ブ ル な の か 新 し い パ ラ ダ イ ム な の
か?」と問いかけた。10 年後の今の答えは、「そりゃ両方だよ」である
5章後半
2006/10/23-24
Spatial Analysis 輪読ゼミ
6章 6-1∼6-5
担当:奥村忠誠
6
空間的-時間的な解析
はじめに
Watt の概念
生態学的システムにおいて、空間構造と時間変化の間の親密な関係は、Watt (1947)により書
かれた植物群落のパターンと過程に関する論文に詳細に記されている。植物群落では動態的過
程として様々な段階が共存し、互いに存在を示す空間的関係を持っている(図 6.1 参照)。動物の
群集においては、資源を求めて空間構造を使うことや捕食者を避けるように空間的な位置と動態
的プロセスの関係はより明確となる。個体群レベルでは分布密度は一様ではなく、それは生息環
境の影響を受け、個体レベルでは、周辺のより近い時間間隔での出来事に影響を強く受ける。ど
んなシステムを考える時でも、空間構造の概念とその重要性は、明示的でなくとも暗示的にも含ま
れている。
空間的-時間的な解析
この章で扱う空間的-時間的な解析は、一般的なことよりもやや技術的なことに比重を置いてい
る。空間明示動態モデルはこの教科書の領域外であり、それ自身が一冊の本になる(Diwckmann
et al. 2000 など参照)ため広範囲なモデルの議論を避け、統計解析的な議論に限った。
空間的-時間的な解析で使うデータは多くの異なる方法で分類されるが、重要な基準は時間に
おいてや空間において連続か不連続かどうかによる。例えば、保護区の中に置かれた温度計は
時間的には連続だが、空間的には不連続。GPS 発信器で追跡されたデータは空間的には連続
だが、時間的には不連続。これらの時には、温度計間の状況はどうか、動物の位置の間の状況は
どうかなどの補間について仮定する場合がある。常時プロットのような場合には、補間の必要性は
なく、すべての重要な出来事と変化を再確認するための十分なデータがあるので、観察と空間的時間的なパターンの解析はとても密接なものとなる。
空間的-時間的な自己相関
この章の議論の基礎となる概念は、空間的-時間的な自己相関である。簡単な例として、Setzer
(1985)は(ヒロハ)ハコヤナギのアブラムシの虫癭間の空間と時間の距離を分析するために Mantle
test(3 章参照)を使った。その結果、空間的に近いこぶは時間的にも死滅する時期が近いことが
わかった。このような例で、より複雑なものとしては、日周的な移動や動物プランクトンの垂直移動
のような周期行動を伴う場合である。そこでは、狭い範囲での自己相関は短い時間間隔では明確
で、時間間隔が長くなりと不明瞭となるが、さらに時間間隔が長くなると再び明確となる。
1
空間的自己相関のための様々な計測法(Moran’s I; Geary’s c)があるように、空間的-時間的な
自己相関についても、たくさんの異なる指標が使える。その一つに Griffith の空間-時間指数
(Griffith 1981; Henebry 1995)がある。
T
I s −t = (nT − n )
n
n
∑∑∑ w
t = 2 i =1 j =1
T
n
n
z z jt −1
ijt −1 it
T
n
∑∑ ∑ w ∑∑ z
t = 2 i =1 j =1
ijt −1
t =1 i =1
(6.1)
2
it
ここで、T は時間単位、n は空間単位、wijt は加重値、z は観察の全体平均からの偏差を表して
いる。Moran’s I を用いると期待値はサンプル数の負の逆数の関数となる。
E ( I s −t ) =
− (T − 1)
T (nT − 1)
(6.2)
図 6.2 は人工データ(図 6.2a と図 6.2b)と Law et al. (1997)により紹介された Nardus stricta L.
(図 6.2c と図 6.2d)に、この指標を適用した例を示す。この解析で問題なのは空間を計測するのに
使われた単位と時間を計測するのに使われた単位が比較できない場合があるという空間的-時間
的な非等方性の可能性である。
この章では、4 種類の空間的-時間的な解析について話を進める。それらは連結数、集団変化
検出、多角形変化、空間の間の移動である。次節以降の方法では、樹木の定着、成長や死亡、ク
ローナル植物の移動や地衣類群落の境界のような、それら自身のプロセスによって作られる記録
を分析できる状況を見ることによってプロセスとパターンを一緒に結びつけることを試みる。
6.1 空間統計における変化
変化を対象とした時空間解析の研究例
・森林の分断化
最も単純な空間的-時間的な解析はその変化を分析することである。小さい変化は同じプロセス
を持つ変化で説明できるが、大きな変化はプロセス自体が変化しているかもしれない。変化を見る
研究はこれまでにもよく行われており、例えば、Wu et al. (2000)はスケールの関数として空隙曲線
を使って、tiger bush における分断化の進行具合を複数年で比較した。その結果、1960 年から
1992 年の間で空隙が増加したことを見いだした(図 6.3)。これは森林植生の分断化が続いている
ことを示している。
・カンジキウサギ
Dale & Zbigniewicz (1997)は、より小さなスケールでやや似たような研究をした。彼らはカンジキ
ウサギの冬の食物量がその密度に与える影響を調べるため、ユーコンのクルエーン湖の近くの低
木が優占する群落、で 100m 四方の中に隣接する 10×10cm のコードラードを作った。カンジキウ
サギの密度は周期的に変動しており(Krebs et al. 2001)、密度が最大になる前の 1988 年とピーク
後の 1993 年に調査を行った。彼らは 3TLQV と NQV(Galiano 1983)を使って、低木林の大きさと
2
パッチサイズを検証した。仮説ではカンジキウサギが増えたことで、パッチの分断化が起こり、より
小さなパッチの形成と低木林の減少が起こっていると考えた。しかし、結果は広範囲に激しく採食
されているにもかかわらず、パターンの基本的な特徴はすぐに回復した。これは、低木が優占する
地域の空間パターンの特徴は 10 年間変わらないことを示唆する。
・樹木の動態
Vacek & Leps (1996)はチェコ共和国の山地で 18 年間に渡って 5 つの常設プロットで樹木の生
存と死亡における周辺の樹木の影響を調べた。その分析の中で 50×50m プロット内のヨーロッパ
トウヒの空間パターン調べるため、Ripley の k 関数解析を用いた。その結果、プロットのほとんどの
樹木は 1976 年の時点ではほとんど空間パターンに差はなかったが、1993 年にはそのパターンは
周囲に大きい樹木を持つ樹木はより高い死亡率となる傾向を示し、分散の幅が 2∼5m の規模に
まで変化した。Kenkel et al. (1997)はマニトバで調査したバンクスマツで似たような傾向を報告して
いる。植えた当時は集合パターンだったが、30∼40 年経って、その分布がランダムになった。それ
はさらに過分散の方向に進む傾向がある。これらについては、6.6.1 でさらに詳しく説明する。
・ヨコバイ
Nestel & Klein (1995)はイスラエルの果樹園で生産期にヨコバイの成虫の空間的-時間的なパ
ターンを Moran’s I を使って分析した。一種目の Asymetrasca decedens は、はじめは集中分布であ
ったが世代を繰り返すごとにランダム分布に変わっていった。二種目の Edwardsiana rosae L. は
集中分布のままであった。このことから、著者はこれらの昆虫が引き起こす虫害の管理戦略に、両
種が生産初期には共に集中分布しているという知識が利用できると提案している。
より情報を持った解析へ
ここで紹介したような空間的-時間的な解析に関する一般的アプローチはとても役に立つ。長期
間の研究を続ける際や計画する際にはこれらの解析アプローチがより重要となる。しかし、ここまで
の例にあるような集合を対象にした解析やそれを元にした変化の検出は、空間構造で実際に起こ
っている変化の中でも重要な部分を見逃しているかもしれないことである。例えば、特に害虫の管
理においては一般的な集合の程度や広がりに加えて、集団の大きさ、空間配置、密集具合、位
置を知ることは重要であるということである。
6.2 空間的-時間的な連結数
植物生態において空間的-時間的なパターンの概念は少なくとも Watt (1947)まで遡る。Watt
(1947)はある同一の植生タイプは空間的時間的に近くで生育する傾向があることを示した。その
現象の一つの要因はクローナル植物にある。栄養生殖の型はしばしば時空間的な植物の定着の
パターンに関係する。ファランクス型はラメットの空間構造が密集しており、ゲリラ型はよりばらばら
にラメットが配置している。これら二つの型は植生連続体の終点であり、一般的な成長型はラメット
3
の空間配置から説明できる。
空間的-時間的なパターンを解明するのに使われる方法は二つのラグ(すなわち、時間と空間
の軸に沿った間隔)により分けられた要因を考慮するために単一要因の自己相関分析のために
開発された。このような方法の一つが Griffith の空間-時間指数であり、この指数は植物密度のよう
な連続変数の分析に適用できるが、もし個体群がいるいないのような二値変数であるなら連結数
統計が使われる。
連結数統計は格子やグリッドに分布するデータの関係を計測する方法である(Cliff & Ord 1981
3 章参照 p118)。ここではそれぞれの格子に白黒のような二値データの内のどちらかが入っている
データセットを考える。連結は定義されたセルパターンの組(例えば黒黒というような)の間の特定
のラグの結合として定義できる。図 6.4a は連続した黒セルの接合が 7×7 グリッドで数えられる簡単
な例である。空間的-時間的なアプローチでは、二次元格子が、コードラード n と時間間隔 m を持
つ一つの空間次元を表す。黒いセルは植物の定着や少なくとも特定の種の一個体の存在を示し
ている。定着を表しているとしたら、おなじコードラードにおける異なる樹齢の植物の存在は格子
の縦列で表すことができる(図 6.4b)。結合の長さは軸に沿った間隔の組み合わせで記すことがで
きる。例えば、(d=2, t=3)は空間軸において 2、時間軸において 3 の長さを示す。空間的-時間的な
関連は期待値と実測値を比較することで決まる。簡単な帰無仮説(H01)は観察数がランダムな生
起により説明できることである。もし特定のクラス(d, t)の連結が期待されるよりも多く起こっていなら、
これは空間における d と時間における t でその樹木の特徴を分けることができる傾向があることを
示している。
このアプローチをさらに改善したものとして、Little & Dale (1999)はそれぞれのコードラードに定
着する最初の樹木に関心を持った。これは図 6.4b では列ごとにたった一つの黒いセルを持つ格
子で示されている。そのことから、さらに二つの帰無仮説が作れる。そこでは、黒いセルはランダム
に配置し、列で一つだけ持つことが仮定されている。同一行モデル(H02)では、それぞれの n 列が
黒いセルを持つ確率は r であり、黒いセルの確率はその列のセルでは均一である。上部黒モデル
(H03)では、黒いセルは格子のどのセルでも確率 p で起こる可能性があるが、それぞれの列の最も
高い行にある黒いセルだけが(最も早く定着したことを表している)、維持される。
それぞれの連結クラスで、10000 の格子データをランダムに発生させた。そこから確率分布と期
待値を計算した。それぞれの連結クラスの関連統計値は期待と実測(図 6.4b:バルサムポプラの
定着)の連結頻度の差を評価した(図 6.4c)。完全なランダムモデルは(0.5, 1)、(0.5, 3)、(2.0, 4)、
(2.5, 4)に高い値を持つ。他の二つのモデルは(1.0, 2)、(2.0 4)に高い値を持つ。後者はおそらく
共鳴ピークであろう。全体的にみて、その結果は年齢で 2 歳、とトランセクトでは 1m で分けられる
のが一般的であることが提案され、クローンが 2 年に 1 度の単位で進行することが示されている。
この技術は Dale(1995; 1999 2 章参照)の地衣類のモザイク法を空間に適応したものと一緒であ
るが、この場合の重要な違いはいくつかの帰無モデルを使ったことである。我々が 2 章でコメントし
ているように、我々の空間分析はより精巧になることができ、そのためさらに役に立つ。そのための
一つの方法が、結果の比較のための単純なランダムでなくいくつかの帰無モデルを使うことであ
4
る。
6.3 集団と伝染の空間的-時間的な解析
この節の解析は人間の病気の発生源の集団とその拡大についての研究に基づく。そのため、
その分野の専門用語が多く出てくるが、その方法は病気、病原体、寄生虫だけでなく、着生植物
や窒素固定細菌などの空間的なものなどの多くの生態学分野に適用できる。基本的なアプロー
チで時間を伴わないものを、集団検出と呼ぶ。リスクを持つ個体群が判らない病気集団を検出す
るための方法は、本来一変量のポイントパターン分析で説明できる。ここで問題なのは病気のケ
ースがその個体群の中での地域的な変異個体の出現というもので説明できる以上に大きな集団
となっているかどうかである。このアプローチは二変量のポイントパターン分析で説明でき、「虫癭
を持つ Solidago 植物は全体のパッチで説明できるよりも集中しているか?(Dale & Powell 1994)」
というような生態学の問題に共通するものがある。
Wakefield et al. (2000)は空間疫学の分野での集団検出の方法の総説をまとめている。その方
法はいくつかのカテゴリーに分類される。『伝統的な』方法は、適合度検定を使って異なる地域ご
とに期待値と実測値の単純な比較を行う。『距離:近接法』には連続地域での割合のための
Moran’s I やポイントデータのための Ripley’の二変量 k 関数解析を Diggle & Chetwynd(1991)が
変形したものを含む。『地域に特化した方法』は moving window approach(動的枠法)や risk
surface estimation(リスク表面評価)を含む(詳細は Wakefield et al. (2000)を参照)。
図 6.5 は 4 時期で病気が拡大していく様子を表している。明らかに、病気は左下の角から広が
っている。単純なアプローチは時間的そして空間的に『近いもの』と『遠いもの』の閾値を設定する
ことである。図 6.5 を基に病気の発生についての分割表を p268 の上部に示した。この表から統計
を用いて評価できる(Knox 1964)。多くが時間的に近く空間的に離れているにもかかわらず(特に
図 6.5d)、適合度検定では高い有意差がみられた。
この章のはじめにで我々は(ヒロハ)ハコヤナギの虫癭を例に空間的-時間的な集団を決めるた
めの Mantel test について述べた。Mantel test は二つの距離行列を比較する(3 章参照)。ここでい
う距離とは事象の空間と時間の分類のことである。この関係を使って、Mantel test が単なる『近いも
の』と『遠いもの』という関係というよりも、計測された距離を使って Knox の手法の拡張として捉える
ことができる(Baily & Gatrell 1995)。
n −1
ZM = ∑
n
∑d
i −1 j =i +1
s
ij ij
(6.3)
ここで、dij は空間における二つの事象の分離点を sij は時間における二つの事象の分離点を表す。
統計的評価は最も簡単な確率検定で行う。図 6.5 で示した例では、観察された Mantel 統計量は
ZM=1219.14 であり、確率検定で有意な差が認められた。
我々の初期の約束にもかかわらず、リスク個体群の情報を使っていないことに気づく。実際、次
に紹介する Ripley の k 関数解析でも注目する事象(ここでは病気の発生)だけが扱われ、それぞ
れの事象の距離 t で時間 τ 内の注目される事象の数が数えられる。観察値と期待値は通常の方法
5
で比較され、t と τ の関数として描かれる。この手法には多くの潜在的問題が含まれている。一つ目
は、既に議論したように時間と空間は同じ基準で測れないことである。二つ目は、もし観察が長期
間でないなら、時間的なエッジ効果がその結果に重要な影響を与えることである。三つ目は、時
間は一方向に進んでいるわけだから、p76 の図 2.24 のように事象の前後を見るような t バーよりも
むしろ一方向枠を使うべきである。
文献によると二変量の時空間分析に Ripley の k 関数を使うのは間違いであるらしい。この分野
はさらなる発展が必要で、その発展が期待される。
6.4 多角形変化解析
空間解析の基礎的な方法を紹介した 2 章で、平面でのポイントや事象の分析について多くの
議論をしたが、不規則な多角形の分析についてはほとんど触れなかった。同様に、これまでに出
ている論文でも、例えば、目的が樹木の動態に関するものや病気の発生源の位置に関するもの
である時には、多角形よりもむしろポイント事象に関連したものが多い。それは多角形のデータ自
体が複雑であるため、多角形の解析はポイントの解析よりもかなり複雑なものとなる。多角形の分
析の複雑さは多角形の中心を持ったポイントで表すことで避けることができる。そのポイントには、
多角形の大きさや形に関する情報やポイント間のラインによって表された多角形間の関係に関す
る情報を付加することができる。これらのネットワークは Moran’s I や Geary’s c のような統計を使っ
て近隣との自己相関を分析できる。例えば、図 6.6a の多角形は隣接関係と面積の情報だけを持
たせて、図 6.6b のように簡略化できる。この図から、自己相関解析では面積に関して周囲との間
に有意な類似性があることを示しているが、多角形の他の情報については失っている。
我々が多角形の動態システムを分析することを考慮する時は、近隣との関係としてその位置、
大きさ、形だけでなく、多角形の消失や発生も考慮するため問題がより複雑になる。一つのアプロ
ーチとして、観察時ごとに要約統計を計算することであり、その要約の変化を調べることである。例
えば、Peralta & Mather(2000)はアリゾナでの森林伐採の研究において、その変化を要約するた
め lacunarity 指数、パッチネス指数、面積-周縁フラクタル累乗指数を使った。要約統計を一つ以
上使うことに利点があるのははっきりしているが、たとえそうでも、多角形の多くの詳細な特徴は失
われてしまい、その失われた特徴には潜在的に重要な情報の消失も含まれている。
Sadahiro & Umemura(2002)は多角形変化の分析のための新たなアプローチを開発した。ここ
では、多角形は固定されたものとして扱われるため、動物の個体や群れには適していない。また、
変化は不連続に起こるため、連続的に縮んだり拡大したりする一時的な淀み(水たまりのようなも
の)も対象外とする。これらの例外を除けば、解析法は役に立つ。図 6.7 に示すように、彼らは多角
形の動きを 6 タイプに分けた。
(1) generation(出現:新しい多角形が現れる)
(2) disappearance(消失:多角形の消失)
(3) expansion(拡大:面積の増加)
(4) shrinkage(縮小:面積の減少)
6
(5) union(結合:二つの多角形の結合)
(6) division(分割:多角形の分割)
2 時期の変化はこの 6 タイプにあてはめることができる。2 時期の観察から 2 つの多角形データ
セット Γ1 と Γ2 が新しい多角形データセット Γu を作るために重ねられた(図 6.8)。これらの新しい多
角形は 3 つのグループに分類できる。すなわち、Ω0 は観察された二つの多角形データセットの両
方に見られる。Ω1 は 1 回目の観察では見られたが、2 回目の観察では見られない。Ω2 は 1 回目の
観察では見られなかったが、2 回目の観察では見られた。さらにそれらに含まれる線分が 2 つの時
期でどのように存在していたかを4つの状況(境界、分割、多角形の内側、存在しない)の組み合
わせを基に 12 のグループに分類される。図 6.9 ではそれらのクラスを示す。これら 2 つの分類を
基にした変化の数は Me で表され、次式は変化数 Me を多角形の全体数で標準化している。
me =
Me
Γ1 + Γ2
(6.4)
改良として著者らは実際の事象を数える代わりに、事象の種類に対する特別な関数 fx で重み
付けすることを提案している。例えば、出現や拡大は拡大した面積によって重み付けができ、縮小
や消失は減少した面積によって重み付けができる。分割や結合での重み付けは 0 とする。この場
合、面積指数は次式で与えられる。
me =
A(Ω1 ) + A(Ω 2 )
A(Γ1 ) + A(Γ2 )
(6.5)
このアプローチは新しいため適用例はほとんどないが、今後の解析にとって明らかにたくさんの
有望性がある。一方で、多角形データの動態が扱えるが、解析では形のような特徴が含められな
いなどの多くの問題点がある。加えて、この扱いにおいて、研究対象の多角形が調査地域を満た
す完全なモザイクを形作るならば、変化の種類はより限られたものとなる。平面を完全に覆う多角
形などのモザイクの分析はさらなる研究や探求に値する他の関連領域である。
6.5 移動の解析
個体の移動に関して興味を持つ生態学的研究はたくさんある。疫学における病原個体や媒介
動物の拡大、野生動物生態学における行動圏の同定、新しい生息地へのクローナル植物の拡大
などである。これらの移動に関する量的分析は移動そのものが、連続か不連続かどうかによる。も
し移動が連続的であれば、観察された 5 分間ごとの位置のようにある基準を用いてデータを分割
することが多い。
通常、移動の解析は移動単位の長さとその間の角度に基づき行われる(図 6.10)。データを解
析する上で重要なことは角度の平均の計算方法を理解することである。Cain(1989)は生態学の多
くの著者が間違えていると指摘している。ここでは距離のような直線で使うような単純な平均を取る
ことができない。例えば、0°から 360°のスケールで測るなら、90°と 270°の平均は 180°、−
180°と 180°の平均は同じ値、90°と−90°の平均は 0°となる(Upton & Fingleton 1989 の 9
章参照)。
7
図 6.10 で αi として示されている絶対角度であろうと、δi で示されている旋回角度であろうと、その
角度は長さのベクトルと座標で表され(図 6.11)、平均ベクトルの座標は次式で表される。
x=
1 n
∑ cos(α i )
n i =1
y=
and
1 n
∑ sin (α i )
n i =1
(6.6)
極座標では次式で表される。
(x , y ) = (ra cos ϕ , ra sin ϕ )
−1
ここで、 ϕ = tan ( y / x )
2
  n

1 2 2
1  n
ra = x + y =
n x + n2 y 2 =
 ∑ cos α i  +  ∑ sin α i 
n
n  i =1
  i =1

2
2
2
(6.8)
計測値 ra は負の値を取ることはできないので、角相関の計測法として使われるべきでない。角
一致や角集中の計測法としてより適正に参照される(Zar 1984)。Alt(1990)は’parallelicity’として使
った。すべての角度が一緒であれば、ra は 1 の値をとり、ベクトルが互いに相殺する時は 0 の値を
とる(Upton & Fingleton 1989)。例えば、図 6.11 では角度の方向に良い調和があり、ra は 0.75 であ
った。円の標準偏差にあたる角偏差 s は次式で表される。
s = 2(1 − ra )
(6.9)
この例では s=0.71 で、180˚/π (Batschelet 1981)を掛け合わせることで、度に変換でき、この値は
41°となる。
角自己相関
図 6.10 に描かれたような動き(道)を考慮し、ラグ間の角自己相関の計測法を探す時、旋回角
度のコサインの平均が良い候補である(Batschelet 1981)。2 つのステップが同じ方向に並ぶ時、相
関は 1.0、直角に並ぶ時は 0、そして真反対の時は-1.0 となる(図 6.12)。Turchin(1998)は、旋回角
度は概して 0 の周りに集中しており、二つの連続的な旋回角度間の違いは、たとえ自己相関がな
くても 0 に近くなるので、使われるべきでないと主張している。しかし我々は意見が異なり、0 近くに
集中する旋回角度はデータの特徴としての本来の自己相関を表していると説得するだろう。移動
データの予備的な解析としては、ラグの半径(距離)と角相関を計算することを提案する。図 6.13
は異なる種類の自己相関を持つ 5 つの人工データの分析結果である(ラグの関数として純変位の
自己相関も見ることができた)。Turchin(1998)は移動データをより認識しやすい区切りや変わり目
を持つ動きにまとめることを議論しているが、これは予備解析段階では必要がないかもしれない。
すでに、ラグの関数として半径と角相関の評価は必要な情報を提供しているし、角相関グラフは
右や左に曲がる傾向があるかどうかの評価の指標にもなるからである。
実際のフィールドデータを扱う上で最も難しい問題はデータの解像度(時間や空間の間隔?)
やサンプル数にある。それはその過程の非定常性によるものである。例として、2 時間間隔にデー
タを取得する GPS 発信器を用いてエルクの追跡を行い、約 3000 点の位置データを共同研究者
8
が我々に提示した。データの 10 分の 1 でさえ約一月で取得されており、季節の変わり目の急速な
山地植生の変化につれて、その月の前半と後半でどのようにエルクの行動が変化しているかを想
像することはたやすい。このこれまででは考えられないデータ数による影響は解析と解釈において
考慮する必要がある。
ランダムウォークモデル
観察された特徴を比較するための簡単な帰無仮説として、ランダムウォークが考慮される。ラン
ダムウォークの帰無モデルは移動のそれぞれのユニットの方向がすべての方向からランダムに選
ばれていて、ユニットの長さはデータから予測されるユニット長の分布から描かれることである。ラ
ンダムウォークの結果、個体の期待される変位や角度の分布のような他の特徴を計算することは
簡単であるが(期待される純変位は 0)、一般にクローナル植物や移動する動物の経路(繋がり)に
は当てはまりがよくない。180°近くの角度は一般的でなく、このモデルにおいて変位はより大きく
なる傾向がある。
ランダムウォークモデルの代替として、相関ランダムウォークモデル(CRW)を使った比較が普及
している(Kareiva & Shigesada 1983)。このモデルでは、期待される純変位はランダムウォークと同
様に 0 のままだが、ユニットの自己相関を考慮するため、その他の特性は異なる。このモデルはい
つも移動のユニットの長さと方向の一次自己相関を見て、観察値と期待値の純二乗変位と経路の
曲がり(tortuosity, Wiens et al. 1993)や経路の湾曲(sinuosity, Williams 1992; Sanuy & Bovet
1997)を比較する。CRW モデルをあてはめた他の評価方法としては、モデルから予測された純変
位と n ステップ後の実際のデータの純変位を比較することである。カリブー、クローバー、アキノキリ
ンソウ、ヒキガエルの移動を評価するための多くの研究でこれらの方法が使われている(Cain
1990; Cain et al. 1995; Sanuy & Bovet 1997; Bergman et al. 2000; Doak 2000)。Kareiva &
Shigesada(1983)は動きの連鎖を考えることも奨めている。それは移動がその 2 つ 3 つ以上前から
も影響を受けているだろうからである。例えば、図 6.13f は厳密なサイクルを持つ行動であるが、高
次マルコフモデルを使えばランダム性を持たない同じサイクル行動をより現実的にモデル化でき
る。他の方法として偏向相関ランダムウォークがある。これはある生息地の要素に対して絶対的か
相対的かどうかの指向性が含まれる(Turchin 1998)。そのため、期待される純変位は 0 ではない。
このアプローチは移動の各ユニットに絶対的な指向性を加えるモデルに成りゆき任せ(drift)を加
えることに似ている(Wiens et al. 1993)。
フラクタル
移動の空間的な複雑さを特徴づける時、多くの著者は分配(divider)法を使ってか、再標準化
手順に基づく方法かのどちからによる、経路のフラクタルの計測を主張する。Turchin(1996)はもし
経路が自分に対して似ていないならば、そのためフラクタル次元が空間スケールの範囲を超えて
不変のままであるならば、この手順は危険であるとアドバイスしている。このアドバイスは適切で、リ
スクを理解して使うべきである。さらに、Schultz & Crone(2001)はフラクタル次元(や tortuosity)の
9
記述的な計測は個体群の分布や動態の予測に役に立つ移動に関するパラメータに置き換えるこ
とが難しい(不可能?)と指摘している。これらの方法を使う野生動物生物学者にとって予測はど
れだけ説明できるかであるので、これは重大な欠点となる。
その他の重要なテーマは、生息地のタイプごとに動物の位置情報と移動経路の特徴との関係
を調べ、それとともに、異なる生息地の選好性や生息地の利用を評価することである(図 6.14b)。
この種の解析で難しく、議論の的となっている点は、生息地のタイプに対する動物の移動の関係
にどのような統計検定を用いるかである。その点については Manly et al. (2003)が役立つ総説を
提供している。
反復とユニット
この議論をし始める前に、我々は Hurlbert(1984)の偽の反復と生態学野外実験のデザインに関
する論文を見直して、ユニットと反復に関する理解を確かめる必要がある。それを読むと、ロケー
ションデータを統計検定する場合に、実験ユニットの独立性(独自性)と 1 回の実験の独立性(独
自性)を考慮する必要があることを思い出させる。また、そういった注意を持ってデータの解析に
取り組む必要があることも思い出させる。
生息地利用
動物の位置と生息地のタイプ間の関係を検定することに話を戻すと、その最も簡単なアプロー
チは移動経路の特性は考慮せず、動物の位置だけ見ることである。Neu et al. (1974)は生息地全
体における利用可能な生息地タイプに対する特定の生息地タイプに動物がいる頻度を比較する
ために簡単な適合度検定を推奨している。例えば、二つの生息地タイプ A と B だけがある生息地
内にあり、その割合は 2:1 であることが知られている。タイプ A で 175 点の位置データが取得され、
タイプ B では 125 点の位置データが取得された。その時、次式で比較される。
Χ2 =
(175 − 200)2 + (125 − 100)2
200
100
= 9.375
(6.10)
統計検定 X2 は自由度 1 の χ2 分布で比較され、この例での結果は高い有意性がみられた。そ
の結論は、タイプ B を有意に好んで使っているということである。この適合度検定は全体のサンプ
ル数に敏感であり、割合が同じで、観察数が 60 点だけの場合、その数はタイプ A で 35 点、タイプ
B で 25 点であり、その結果は有意ではなくなる。観察数の合計が 10000 点の場合、この検定結果
は有意となる。
二つ以上の生息地タイプを考えるならば、Freeman-Tukey 標準化誤差が計算でき、生息地タイ
プごとに実測値と期待値が比較され、全体の有意性に対する貢献が決定される。2.0 以上の値は
全体の有意性に対し重要な貢献を示しているが、生息地ごとに有意性をみることはできない
(Bishop et al. 1975 参照)。表 6.1 では実測値と期待値の間に明らかな有意差を持っており、全体
の有意性に貢献しているのはタイプ C を避け、タイプ D と E を好んで使っていることを表している 3
つである。
10
この表は 5 つの生息地タイプの面積割合が扱える状況に基づいている。もし期待される利用回
数が 400 のランダムサンプルを基にした生息地タイプの頻度を表していたら、この解析は困難とな
る。今、帰無仮説は観察された利用回数と期待される利用回数が同じ頻度分布から見積もられ、
そのため期待値がその頻度分布型から計算できることである。例えば、両方の列にとっての期待
値とタイプ A が 190 である。その時、X2=26.5 で自由度 4 で、Freeman-Tukey 標準化誤差でタイプ
E だけが 2 以上の絶対的値を持った。生息地評価がサンプルに依存するという事実は統計検定
の価値をより下げ、タイプ E の不釣り合いなオーバーユースに集中するだろうという結果に解釈を
変えた。この種の適合度検定はもっとも間違った検定手順であるという Hurlbert の指摘を思い出
す時、複数個体のデータを含むような場合、実験ユニットとして、また、一回の実験として何を定義
するのかについて関心を持つかもしれない。Thomas & Taylor(1990)は適合度検定の間違った利
用の可能性について話し、いくつかの他の問題も含めて指摘した。これらの事柄を無視した場合、
それは致命的な欠点を持つ。
移動データの自己相関
もちろん、問題は標準的な適合度検定を使う時、データで自己相関は説明できないことである。
ポジティブな自己相関は統計検定を寛大にし、実際よりも有意な差が出やすい。我々は前章で十
分にこの一般的な問題を議論した。しかしながら、同種の考えが時空間自己相関にも適用される。
Neu のアプローチを進める際に、White & Garrott(1990)はどのように解決できるかの提案がなく自
己相関の問題に言及している。
楽観的な点はもしあなたのデータが少なく、分析で使われる観察が時間や空間においてもっと
もっとまばらであるならば、それらは互いに独立になる。これは、行動生態学の文献で注目された
独立までの時間の概念である(Swihart & Slade 1985, 1986; Solow 1989; Salvatori et al. 1999)。そ
れは一個体を研究する場合にはあまりよくあてはまらないようだ。それでも、同じ個体の場合、特
異性などのため個体間で比較するよりも一致する場合がある。使われたアプローチの違いは一個
体か個体群かどうかによる(Manly 2003)。Millspaugh et al. (1998)は自己相関や観察の独立性を
評価する時、個体の生物学的特徴を考慮することが重要だと強調する。次に、行動は周期的なパ
ターンを示すかもしれないし、行動の周期的なパターンはあるラグ(時間や空間)において弱い自
己相関を導くかもしれない。サンプルと観察の両方において独立性を示さない。
前章を繰り返すまでもなく、この問題の解決は難しく、それを消せる独立までの時間は単純では
ない(Rooney et al. 1998)。自己相関は有意に 0 とは異ならないという事実は、0 になることを示し、
それ故それなりに扱われることができるという意味ではない。前章で、些細な自己相関が累積によ
る大きくなることの好例を示した。Minta(1992)は独立までの時間は多くの種にとって実際には達
成できないことかもしれないと結論づけた。そして Rooney et al. (1998)は豊富なデータセットを作る
ために時間的サンプリング間隔を短くすることを推奨した。Otis & White (1999)は生息地選択の
分析で自己相関の重要性に関係する論文において意見の相違がみられることを指摘した。彼ら
は、自由度の数がそれぞれの動物のロケーション数によって影響されない個体の間の変化に基
11
づく統計を使うことを進めた。例えば、もし、10 個体が使う生息地が生息地の選好性の 10 のランク
を作るために使われることができるならば、そのランキングはノンパラメトリック検定で比較できる
(Friedman 1937; Conover 1980)。ここでは何が実験ユニットになり、何が独立性を持った 1 回の実
験となる?もちろん、使われる動物が同じ家族の一部であったり、同じ群れであるならば、偽の反
復を持つ問題はユニット間の独立性の欠如からまだ引き起こされる。Manly et al. (2003)は資源選
択の詳細なアドバイスを供給した。
コンパクトさの解析
しかし、選好する生息地の利用を見るために一個体の経路の特徴を使う方法があるかどうかの
問題は残っている。これから一つのアプローチを説明する。それは好きな生息地において、移動
はより頻繁により小回りを持って曲がるという事実に基づく。これは純変位を少なくし、これらのパッ
チでの滞在時間がより長くなることを導く(Turchin 1998)。k ステップを持つ移動経路は湾曲の指標
を与える。言い換えれば、我々はそのコンパクトさを表す。たくさんの異なる計測法がこの目的の
ために使えるが、我々が新しいと思う方法を説明する。コンパクトさの指標は経路の一部を囲む凸
状多角形の最も小さいもので表される。ここで m は凸状覆いの直径(多角形で最も長い線)を表し、
L はその中に含まれる経路長の合計であり、経路湾曲の簡単な計測法は L/m である(Claussen et
al. 1997)。同著者らは回転角度による計測法も議論しているが、これらは間隔のおかれた観察の
ようなそのサンプルだけでなく全体の経路が分析に使える時だけ使うことができる。図 6.15 はこの
計測法の 2 例を示しているが、多くの他の計測法もこの目的のために使える。
経路においてそれぞれのポイント i、整数 k として、我々は中心を i とする長さ k の副経路につい
てコンパクトさを計算できる。異なる生息地間や副経路の中心点がある植生タイプ間で、その測定
法の値を平均することによってか、もしくは空間明示的な方法で比較することができる(図 6.16)。
統計検定は経路自身を重ね合わせることでできる。経路はランダムに移行、回転、反転され、そ
れを 1000 回命じて、値を再計算する。最初の経路図とランダム後の経路図の値を比較し、このよ
うに、有意性が評価される。
生息地利用を評価するために位置データを使う議論をする時、動物の行動圏やなわばりの正
確な評価の文献が多くある。さらに、データでの自己相関の存在は考慮されなくてはならない重
要な特徴である。我々は行動圏評価の技術面についてはコメントをしないが、空間と時間におけ
る自己相関が動物の行動圏の概念に内在するであろうことを指摘する。より多くのデータがはっき
りとした答えを導くが、自己相関はこれらの答えの決定において評価される必要があるという Solla
(1999)と Rooney et al. (1998)の提案に同意する。
ここでは触れていない個体の移動の分析に関する話題は他にもある。例えば、標識再捕獲法
については議論していない。たいてい、その目的は研究対象の個体群の時間的な動態に関連し
た密度や他の特徴を見積もることであるが、このようなデータからある空間情報を引き出すことは
やさしく簡単である。一般的なコメントとして、個体の移動の時空間分析の話題は重要であり、方
法やその応用に関するさらなる調査をする価値がある。
12
2006 年 10 月 23 日−24 日
担当者:角谷拓
6.6.2 植物の移動性
2006 年 10 月 28 日改定版
草本を対象にした研究では、年輪に代わって地下
Spatial Analysis: a guide for ecologists
茎やランナーなどがクローン生長などの履歴を
記録するパターンとして用いられる。
6 章:後半
例えば、Evans & Cain (1995) は、クローン植
6.6 プロセスとパターン
物(チドメグサの一種)の草本パッチに対する“採
6.6.1 樹木の更新、生き死に
餌行動”に関する研究を行った。地下茎の伸長パ
撹乱による更新後の樹木の生き死にや、自己間引
ターンを草本パッチへの指向性にもとづいて、草
き効果、個体密度と死亡率の関係、さらに、収量
本パッチに向かうもの、避けて曲がるもの、曲が
を最大化するために必要な植え付け密度や間引
らないものの三つに分類した。カテゴリー番号を
きのタイミング、混交林における異なる樹種の比
振って、contingency table analysis を行ったと
率を調整するのに必要な管理のタイミングや頻
ころ、草本のパッチ性が強い時には、地下茎はそ
度などといった問題を分析するには、永久プロッ
のパッチから離れる傾向を持つことがわかった。
トを用いた長期間の個体の生死についての観
Cain & Damman(1997)はカナダアオイ(林床
察・記録が役に立つ。永久プロットでの観察から
性草本)の繁殖とクローン生長を遷移段階の初期
得られた樹木個体の成長量や死亡率の分析は、樹
と後期の樹林で比較した。時間変化にともなう地
高、林冠サイズなど当該個体に関する変数に加え
下茎伸長と分枝角度の間の自己相関をそれぞれ
て、近接個体までの距離や密度などの空間的な要
相関係数によって検討した。その結果、地下茎伸
因を説明変数とする重回帰や多変量ロジスティ
長には自己相関がみられたものの、尖角には自己
ック回帰モデル(目的変数が率の場合;Woollons
相関は観察されなかった。しかしながら、外側角
1998)で分析されることが多い。
には負の自己相関が観察された。つまり、前回と
永久プロットが使えない場合でも、年輪を用い
異なる方向に分枝使用とする傾向があったこと
て樹林の履歴を再現することで、現在から過去ま
になる。この研究は、分枝線形構造の空間解析に
での樹木のサイズや位置、死亡率といった情報を
関する生態学では比較的少ない事例である。
得ることが可能な場合もある。例えば、Carrer &
これらの例から、データ分析において自己相関
Urbinati (2001)は、森林限界付近の樹林(イタリ
の有無の検討や定量化が分析の重要なステップ
ア、アルプス地方)の構造や年輪の調査で観察さ
になることがわかる。このステップで観察された
れた正の自己相関は微環境の違いを反映したも
時間−空間的なパターンを生み出すプロセスの
のであるが、幹径の増加の空間構造は極端な気象
性質に関する洞察を得られる場合もある。
イベントへの反応であることを明らかにした。ま
た、Brodie ら(1995)は、ケベックにあるポプラの
6.6.3 地衣類パッチの境界線
クローン生長の履歴をすべての同一クローン個
樹木や草本以外のシステムでの、パターンからプ
体の樹齢、幹径、位置から再構築を試みた。その
ロセスを再構築するアプローチの例として、岩の
結果から、クローンの分布拡大様式やコホート内
上に生育する固着地衣類を取り上げる。地衣類は
競争による密度依存的死亡プロセスの存在など
菌類や藻類の集合体であり、非常に変異性に富ん
が推測された。これら二つの例は、空間解析によ
だ生長形態や色、生態的特長を持つことが知られ
って生態学的プロセスも含む多くの情報が得ら
ている(Brodo et al. 2001)。固着地衣類は葉状体
れることを如実に示している。
とよばれるコロニーを形成する。コロニー同士が
生長にともなって衝突した時には、コロニー間に
境界線が出現する場合が多い(図 6.17)。以下で
ど広い興味を引く生態学的な事象ではないかも
(1985)にもとづいて、コロニー間の境
しれないが、時間−空間分析における一般的な問
界線の形状から、コロニーの生長様式や生長量を
題に密接に関連しているのは事実である。すでに
推定する方法について説明する。
説明したように、適用されるモデルに関わらず、
は、Dale
最初に、コロニー生長率のサイズ(半径)依存
それぞれのコロニーの初期サイズが等しい場合、
性の違いにもとづくモデルについて考える。
その境界線は直線になる。したがって、平面状で
(1)モデル A:生長は径と独立で一定。
複数の繁殖子が同時に同じ速度で生長を始める
dr / dt = a.
(6.11)
(2)モデル B:生長率はサイズに比例で指数関数的。
dr / dt = ar.
と複数の直線の境界線が形成される(図 6.19)。
この生長が平面全体を埋めるまで続くと、ディリ
(6.12)
クレ、ボロノイ、ティーセンといった名でよばれ
(3)モデル C:成長率はsまではサイズに比例。径
るよく知られたタイプのモザイク模様が形成さ
が s を超えると一定。
れる(Okabe et al. 1992 および本稿 2 章参照)
。
dr / dt = ar | r < s;
dr / dt = as | r >= s.
多くの植物もこれら地衣類と同様に空間や資源
(6.13)
を「早い者勝ち」で獲得するために(Mead 1966)、
(4)モデル D:生長率はサイズに比例するが s を超
このようなモザイク模様を生み出すプロセスは、
えたあとは減少。
植物個体群生態学分野においても、競争や自己間
dr / dt = ar | r < s;
dr / dt = q < as | r >= s.
引きといったプロセスを扱う研究で暗に用いら
(6.14)
れていることが多い。例えば、占有範囲の狭い実
(5)モデル E:生長率は指数関数的から線形へ徐々
生は、得られる資源が少ないために高い死亡率に
に変わる(Hill 1981)。
さらされることになる(Watkinson et al. 1983;
dr / dt = ars / (r + 2s).
(6.15)
二つのコロニーのサイズが同じだった場合は、
Mithen et al. 1984; Owens & Norton 1989; cf.
Kenkel 1991)。
どのモデルであっても境界線は直線になる。サイ
同じような状況で、繁殖子の生長開始のタイミ
ズが異なる場合は、モデル A では小さい方に開い
ングが異なる場合には、境界線の構造は生長モデ
た双曲線、モデル B では円分になる(図 6.18a, b)。
ルに依存することになる(図 6.20)。Boots(1980)
モデル C の場合は明確な移行点を持った境界が
と Frost&Thompson(1988)は、多くの異なる曲線
形成される(図 6.18c)。モデル D では、折り返し
上の境界線を持ったモザイクパターンを調査し
のある境界線が形成される(図 6.18d)。Hill のモ
た。しかし、これまでに述べたような生態学的な
デルでは、楕円形の境界線が形成され、片方のコ
興味での研究は数少なく(Kenkel 1991 参照)、
ロニーが小さい場合は完全に周囲を囲まれてし
空間生態学的な研究の余地が多く残された分野
まう(図 6.18e)。
であるといえる。
カナディアンロッキーの岩上に生育する地衣
類では、同じサイズのコロニー同士では直線の境
6.7 空間的、時間的な秩序と空間的同調性
界線が、違う場合には小さいコロニー側に開いた
空間的、時間的自己相関とは、空間的、時間的に
切れ目のない滑らかな曲線の境界線が多いこと
近いもの同士が、遠いもの同士より似ているとい
が観察された(Dale 1985)。その後のより詳細な
うのが基本的な考え方である。パッチの密度や個
調査から、生長はモデル E に従うことが推測され
体群動態などの周期的なパターンは、小さなスケ
た(Armstrong 1992; Armstrong & Smith 1996)。
ールでの周期的な自己相関構造にあわせて、大き
確かに、地衣類の径依存的な生長自体はそれほ
なスケールでも同調性(シンクロニー)による自
己相関構造がみられることがしばしばある。これ
は大変興味深い現象である。
Hanski&Woiwod(1993)は、単一の時系列デ
ータを用いて同様な分析を行った。イングランド
周期性のあるシステムにおける同調性を分析
のガとクモを対象に、種ごとに 6.18 式で得た残
する手法はいくつかある。ここでは基本となる手
差のサイト間での相関を計算し、サイト間の距離
法について紹介する。
との関係を調べた。さらに、相関係数を距離で直
ある場所 i ごとに個体密度の時系列データがあ
線回帰したときの切片をそれぞれの種の同調性
るとする。Ni = Ni1,…, Nit,..., NiT。分析の前に密
の指標と考え、その指標と個体群の変動性との関
度データをログ変換する。
係を比較した。その結果、クモと夜行性のガにつ
Xt = log(Nt + 1).
(6.16)
いては、同調性と変動性との間に正の関係が認め
Hanski & Woiwod(1993)の方法では、これにあわ
られた、シャクガ類については認められなかった。
せて、一次時間的自己相関を以下の式で回帰する
n×n 行列の相関係数を n×n 行列の距離と直接
ことによって取り除いている。
Xt+1 = a + bXt
比較するという手法もある。このような比較を行
(6.17)
うには、通常、マンテル検定が使われる(本稿3
それからさらに、この回帰から得られた残差を以
章)。この手法では、両者の関係の有意性はラン
降の分析に用いている。
ダマイゼーションにより検定される。
Rt = Xt – (â + bXt-1)
Koenig&Knops(1998)はペアワイズの比較は、
(6.18)
一般的なアプローチとしては、2つのデータセ
相関係数の数がサイト数よりも多くなるので「偽
ットの同一時間同士の相互相関係数を計算する
の反復が検定結果にバイアスをもたらす危険性
というものがある。2 つの長さ T の時系列データ
は無視できない」としている。彼らはさらに、自
x1 と x2 があったときに、相互相関は以下のように
己相関は距離とともに減少することが当然期待
計算される。
されるので、マンテルコレログラムが、単に距離
T
r12 (0) =
∑ (x
1t
t =1
T
∑ (x
t =1
1t
とともに自己相関が減少することを示している
− x1 )( x 2t − x 2 )
(6.19)
− x1 ) 2 ( x 2t − x 2 ) 2
だけならば、そこから生態学的に意味のある結果
を引き出すことは難しいとしている。図 6.21a は、
アルバータ北部の、カナダトウヒの年輪の幅間の
2つの時系列データをもった地点数が多数あ
相関と地理的な距離との関係をしめしたもので
る場合は、時系列間の相互相関に対する空間的距
ある(Peter 2003)。この各サイト 2 本、合計 5
離の影響を検討することも可能である。例えば、
サイトの結果を見る限り、一様に相関が減少して
Tobin&Bjornstad(2003)は害虫であるイエバエと
いるわけではなく、Koening&Knops(1998)がい
捕食者のクロチビエンマムシとの間の時間−空
ったような単純な状況ではない。実際、距離とと
間的な関係を分析した。複数の地点間(鳥小屋 108
もに、相関が単調に減少するという現象は彼らが
ヶ所およびその他 162 ヶ所)におけるハエとエン
いうようほど一般的な事象ではない。
マムシ両者の相互相関を計算したところ、どの距
Koening&Knops(1998)は、
「修正版コレログラ
離においても単一のカーネル関数で相関係数を
ム」を使うようにも提案している。これは、ある
説明できることが明らかになった。また、アブ個
距離クラス内で、ランダムに選ばれた時系列デー
体群が指数関数的な増殖フェーズにあるときは、
タ間の相関の平均値をプロットするものである。
局所的な空間スケールにおいて、エンマムシの個
さらに、この手法では偽の反復の問題を防ぐため
体数と被食者であるアブの個体数との間には強
に、各サイトは一度しか使用しない。Ranta ら
い負の相関が観察された。
(1997)は、偽の反復の問題を避けるために、サイ
ト間の同調性を調べる際に、特定のサイトに対す
予測不可能で非周期的な挙動であるにも関わら
る相手のサイトをランダムに選ぶという手法を
ず、「カオス」はランダムや確率的な挙動とは異
用いている。図 6.21b は、図 6.21a と同じデータ
なるものである。カオスの最も顕著な特徴の一つ
を、重複なしサンプリングでペアを選ぶ方法で再
は、条件の変化に対する感度が非常に高いことで
解析した結果である。両者の結果に大きな違いは
ある(いわゆるバタフライ効果、Schroeder 1991)。
ない。同じ場所に複数のデータがある場合の相関
まず、時間的、空間的分析手法に関係する話題
も同様に計算することができる(Koenig&Knops
から例を交えながら紹介する。ある時間・場所に
1998)。しかし、同じデータを何度も使うことが
おける個体群密度 Nt の動態を記述する差分方程
実際にどれほど問題なのかは不明な点が多い。2
式を考える。密度 Nt は時間 t、個体群増殖率 r、
章ですでに述べたように、多くの探索的解析手法
環境収容力 K の関数である。
は同じデータを繰り返し使うものである。
TTLQV はその極端な例であるとえる(本稿 2 章)
。
一般的に、独立性と利用可能な情報を効果的に使
Nt = rNt-1(K – Nt-1)/K,
この式は以下のように書きなおせる。
nt = rnt-1(1 – nt-1).
(6.20)
うこととの間にはトレードオフがあるといえる。
この方程式は、個体群のロジスティック増加を記
Bascompte&Sole(1998)は、空間明示的な動
述する。この方程式から得られる個体群の振る舞
態モデルにもとづく個体群密度の螺旋や波形の
いは、内的増加率 r に依存する。たとえば、r = 2.5
自己組織化の予測の検証を行うためのデータセ
の場合は、個体群密度は初期条件にかかわらず
ットの分析方法を提案した。それ以降、密度の進
0.6 に収束する(図 6.22a)。r = 3.2 になると、不
行波についての記述が多くなされるようになっ
安定平衡点 0.6875 をもち、個体群密度は 0.513
た。進行波は、時間−空間データから空間共分散
と 0.7995 の間を振動することになる(図 6.22b)。
の異方性を探索することで見つけることができ
r = 3.4 のとき、個体群密度は 4 点(およそ 0.875、
る。進行波が存在する場合は、波面に対して垂直
0.383、0.827、0.501)を循環することになる(図
方向では、相関は距離とともに急速に減少し、波
6.22c)。もう少し r を大きくするとサイクルの長
面に対して平行方向では相関は減少しない。この
さが倍になり、すぐに非周期的になる(カオス)。
ような距離に対する相関係数のプロットではい
この単純なモデルの例では、カオスに至るための
くつかの方角クラスに分割し違い比較すること
必要な r の値が、非現実的な大きさになるものの、
になる。Lambin ら(1998)は、進行波の速度や方
非線形的な動態の潜在的な重要性を示している。
向を推定し、統計的な有意性を検定する手法を提
時間−空間解析の視点からの最初の疑問は、個
案している。
この節では、時間変化にともなう空間パターン
体の位置の時系列データからどのようにカオス
を検出するか、また自然界のシステムが実際にカ
の一致性や空間上での時系列パターンの同調性
オス的であるか否かをどのように判定するかと
を分析するための手法を紹介した。パターンを把
いうものである。Sole
握した後には、それを生み出している生態学的プ
は、「生態学的データにおけるカオスの検出は現
ロセスについて考えることになる。
代生態学の重要な課題であるといえる。時系列動
&
Bascompte(1995)
態が複雑であるということだけでは、不十分であ
6.8 カオス
り、もっと総合的なアプローチが必要とされてい
「カオス」は、時間的・空間的に生じる不規則な
る。自然界におけるカオスの問題はその多くが未
システムの挙動であり、非常に複雑にもかかわら
解決である。
」と述べている。それ以降 10 年で、
ず決定論的に決まるという特徴をもつ。つまり、
多くの努力がなされてきたものの、完全な成功に
至ってはいない(Stone & Ezrati 1996; Perry et
数が 0 の場合は、図 6.23 に示すような周期的な
al. 2000 参照)。
変動をすることになる。このように、データから
さらに、カオスが実際に生態学的なシステムの
中に存在しているとして、次に来る疑問は、複数
カオスか否かを判定するには、Lyapunov 指数を
求めれば良い。
の場所におけるカオス的な時系列データ間の関
しかし、信頼性の高いλの推定値を得るために
係はどのようなものであるか、またその関係は空
は、生態学の研究では得ることが難しい、長い時
間的な要素をもつのか否かというものである。ま
系列データが必要とされる。さらに、生態学のデ
た、別の疑問としては、そのような空間的なカオ
ータには、決定論的なカオスに加えて、確率的な
スがあるとして、それをどのように検出したらよ
要素も加わることになり(Dennis et al. 2001)、
いか、また、その動態はどのような性質をもつか
このノイズに影響を受けてしまう分析手法もあ
というものである。また、カオス的なシステムに
る(cf. Ellner & Turchin 1995)。たとえ長期の時
おける時間と空間との関係、またその関係をどの
系列データが得られたとしても、個体群増殖率の
ように検出するかということも問題となる。
変動があると、λは定数ではなくなってしまう。
まずはじめに、単一の時系列データからカオス
したがって、Ellner & Turchin(1995)が結論づ
を検出する方法について考える。カオス的な時系
けたように、「システムがいつ、どのくらいの頻
列データは、確率的データとの区別が難しい点で
度でカオスになっているのか」という問いのほう
ある。カオスの検出には、小さな変更が増幅され
が「カオスかどうか」という問いよりも相応しい
るというカオスの基本的な性質を利用する。例と
のかもしれない。
して式 6.20 を利用する。
初期値をそれぞれ n = 20,
他にも、カオスを検出する手法については様々
m = 21 とした場合のΔi = |mi - ni|の変化につい
なものが提案されている。詳しくは、Stone &
て考える。r = 3.95 でカオスになるときは、差は
Ezrati(1996)と Perry et al. (2000)を見てほしい。
拡大するが、r = 3.25 でカオスにならないときは、
Perry ら(2000)によれば、現実の多くのシステム
むしろ差は小さくなることがわかる(表 6.2)
。
が、Lyapunov 指数が 0 付近の、
「カオスの縁」に
図 6.22 と同様に、nt と nt+1 をプロットしてみ
あることが示唆されている。自然界で、カオスが
ると(位相空間図とよばれる)、カオスの場合は
稀な事象であるということが明らかになった場
アトラクターがしばしば(常に?)フラクタルの
合でも、時間および空間を含むシステムの動態を
形をとることが知られている。
調べる際には、システムの挙動がカオスになる可
カオスの場合は、近い点から始まった軌跡は位
能性を想定しておくことが大切である。
相空間内でどんどん広がっていくが、カオスでな
時系列のみのシステムでカオスが生じること
い場合は、収束する。数学用語を使うと、時間 t
はわかったが、空間構造を含めた場合にはどうな
においてε離れた軌跡が時間 t + τにおいて離
るのだろうか?空間を含める最も簡単な方法は、
れている距離はετ=εeλτと書ける。ここでλは、
単純な動態モデルに、二つ以上のメタ個体群を導
システムの性質をあらわす定数であり、
入 す る こ と で あ る 。 Gonzalez-Andujar &
Lyapunov 指数と呼ばれる。表 6.2 でカオスの場
Perry(1993)は、複数の個体群を個体の分散でつ
合の Lyapunov 指数は、約 0.6、カオスでない場
なげた場合には、カオスが生じにくくなるとして
合 の 指 数 は 、 − 1.15 と 計 算 さ れ る 。 実 際 、
いる。Debeli & Ruxton(1998)は、メタ個体群動
Lyapunov 指数はカオスかどうかの判定に使うこ
態に範囲を拡大し、長距離分散には動態を安定さ
とができて、指数がゼロより大きい場合はカオス
せる効果が、短距離分散には動態を不安定化させ
が存在し、小さい場合には収束点が存在する。指
る効果があることを示した。
これらの効果を示すのに、式 6.20 に従う 2 つ
の個体群の系を考える。r=3.58 を固定した上で
6.9 結論
いくつか異なる状況を考える。初期値 n = 0.50, m
時間−空間解析とそこで対象とされる現象は、今
=0.80 で分散を考えない場合は、個体群動態はカ
日、生態学においてもっとも魅力的で発展の著し
オスになり、アトラクターは図 6.24a のようにな
い分野の一つである。この分野は空間パターンと
軌跡を描く。同じ初期値で個体群サイズの 5%が
時間プロセスのみならず、空間動態と時間パター
分散することを想定すると個体群動態は 2 周期に
ンの生態学的な理解に非常に重要な要素となる。
なる(図 6.24b)。このシステムは「カオスの縁」
たとえば、空間的な同調性についての研究は、個
にあるために、少しの初期値の変化でも結果が変
体群動態や群集間の相互作用を決める基本的な
わる。初期値を n = 0.90, m = 0.80 にすると、4
要因に対する示唆を与えるものである。動物の分
周期になる(図 6.24c)
。n = 0.80, m = 0.85 にす
散やそれがどのようにハビタット構造と関連し
ると二つの局所個体群は一つのものとして振舞
ているかも、これから急速な発展が期待される分
うようになり、挙動は図 6.24a に戻ってカオスに
野であるし、
「ポリゴン変化」の解析もこれから
なる。この単純な例は、空間構造を導入すること
なされるべき仕事が多い分野である。
で個体群間の相互作用が生じ、より複雑性がます
ことを示している。
理論的には、時間的にカオスを生むモデルは空
6.9.1 アドバイス
空間−時間解析は、多量のデータが必要とされ、
間的にもカオスを生むことができることが示さ
また、それらを扱う必要がある分野である。この
れている。しかし、どのくらい現実のシステムに
種の研究において、統計学的検定を行う際には、
おいてこのようなモデルが応用可能なのかはわ
常に、空間的、時間的自己相関とその影響、また
かっていない。Petrovskii & Malchow(2001)は、
それらを生み出したプロセスについて注意する
空間明示的な捕食−被食モデルにおいて、一部に
必要がある。
「観察間の独立性の欠如」はこの本
生じたカオスが系全体に波及していく様子を記
全体を通じてのテーマである。独立性の欠如およ
述している。純粋な空間的カオスは、セルオート
び自己相関の存在は、統計学的検定では問題にな
マトンモデルで作り出すことができる。たとえば、
るものの、一方で外挿や内挿などを通じた時間的、
Wolfman(2002)は、さまざまな決定論的なルール
空間的な予測の根拠にもなる。
を適用することで、非周期的なカオスが生じるこ
問題になるにせよ、有用な情報を提供するにせ
とを示している(たとえば、p227 のルール 150、
よ、時間的、空間的自己相関は、どのような空間
図 6.25)。初期値への感度の高さという点で、カ
―時間解析においてもかならず考慮されるべき
オスに良く似たセルオートマトンもある。
ものである。筆者らは観察値の独立性を確保する
Wolfman のルール 73 では、初期条件を変えるた
ために、データをそぎ落としてしまうのには賛成
びに質的にことなるパターンが生じる(図
できない。それはあまりにも、無駄遣いというも
6.26a,b,c)。
のである。時間に独立、距離に独立といった概念
いずれにせよ、生物学的なシステムを対象にす
に固執するのは誤っており、目的に応じて、デー
るときには、非線形的な挙動を常に可能性として
タに独立性が欠如していることの利点をうまく
考えておくべきであるし、カオスやそれに関係す
活用すべきである。使える情報はすべて使ったほ
る分析アプローチも観察された挙動を説明する
うが良いし、自己相関の性質も、分析により把握
ために必要となる場合もあることを知っておい
し後の分析に生かしたほうが良い。
たほうが良い。
2006 年 10 月 22 日(日)・23 日(月)空間統計ゼミ
石井潤
「Spatial Analysis: A Guide for Ecologists」 Fortin, M.-J. and Dale, M
7
spatial randomness)からのずれをほとん
Closing comments and future
directions
ど示さないかもしれないが、スコアを図示
する Getis’の方法では、空間的な傾向を表
Back to basics
せられる可能性がある(2 章参照)
。5 章で
紹介したように、筆者らが、生態学のデー
本書は、問題へのアプローチが視覚的に理
タに対してバリオグラムのモデルを適用し
解できるように努めてきた。データを図示
た研究を分析した結果では、不適切な適用
し、分析結果を図示し、モデルを当てはめ
例が数多くあることが分かった(例.図 7.1)。
たときは残差を図示することによって、問
モデルを当てはめたら、今度は残差を図
示しよう。モデルを当てはめるための仮定
題解決の洞察が可能となる。
どんな分析でも、最初のステップとして、
の1つとして、残差が正規分布しているこ
データを図示することから始まる。空間デ
とがしばしばあるが、図 7.2 のように図示
ータを扱う際よくある間違いとして、x 軸
すれば、すぐに確認できる。
と y 軸の扱い方の間違いがあるが(例えば、
データの解析方法を理解することと同様
GIS ソフトによって、左上隅原点になる場
に重要であるのは、データの保存と解析の
合もあれば、左下隅が原点になる場合もあ
アルゴリズムの理解である。いくつかの統
る)が、これはデータを図示することで回
計ソフトや GIS ソフトのパッケージでは、
避できる。原点を間違えれば、ソフトによ
ユーザーフレンドリーになりすぎて、アル
っては結果が変わってしまう可能性がある。
ゴリズムについて詳しく知らなくても解析
さらに、データを図示すれば、次にどんな
ができてしまう。プログラムを理解してお
空間解析の手法を使えばよいかが検討でき
けば、例えばウェブサイトからプログラム
る。このような検討を最初にしておけば、
のソースをダウンロードして使用する際で
後の結果の解釈も容易になるだろう。
も、もしかしたらあるかもしれない間違い
データを分析したら、結果を図示するこ
を見つけることができるだろう。本書で紹
と が 重 要 で あ る 。 大 域 解 析 ( global
介した空間解析は、以下のパッケージソフ
analysis ) で は 、 定 常 性 の な い デ ー タ
トで行うことができる。
(non-stationary data)のパターンはほと
Passage
ん ど 検 出 で き な い が 、 spatially explicit
BoundarySeer
local analysis(空間明示局所解析)を使え
ClusterSeer
ば記述できる可能性がある。例えば、point
Splus+Spatial
pattern analysis(点パターン解析)におい
GS+
て、Ripley の K-function は CSR(complete
Surfer
-1-
CANOCO
続的に配置するようなトランセクトを1つ
IDRISI
を設置するだけではトランセクトの調査と
ArcGIS
しては短すぎるだろう。しかし、このよう
い ず れ も 、 Fortran 、 VisualBasic 、
なとき、サンプリングの単位を小さくして
QuickBasic のいずれかのコンピュータ言
数を多くすることが解決策となりうる。し
語で書かれている。
たがって、2 次元を対象とした研究では、
自分が関心を持ったプロセスを研究する
サ ン プ リ ン グ の 範 囲 ( extent ) と 単 位
際は、適切な空間の範囲(extent)と単位
(grain)のトレードオフが、限られた研究
(grain)を選ばなければならないが、この
時間・労力・資金の条件のもとで、重要な
とき、パターンの時空間的な応答のスケー
問題となる。
ルと同様に、プロセスの時空間的な領域
一方、サンプル数の多いデータが、いつ
(domain)についての情報が必要となる。
も良いデータとも限らない。そのようなデ
このような情報は予備調査を行って得るこ
ータを扱う研究として、景観レベルの研究
とができる(Legendre et al. 2002)。予備
が挙げられる。このような研究では、航空
調査のサンプリングデザインや実際のフィ
写真やリモートセンシングデータを使って
ールドワークを楽にするために、時間のな
広域にわたって多量のデータを得ることが
いときには、様々なほかの情報が役に立ち
よく行われるが、手法的に精度や解像度の
得る。例えば、航空写真、リモートセンシ
問 題 を 有 し て い る ( Burrough &
ング画像、植生地図、デジタル比高地図、
McDonnell 1998)ことに加え、いくつかの
水文学的地図、等深線図、報告書・論文な
環境要因や生態学的プロセスが生じる大き
どの先行研究からの情報、専門家の意見な
な面積で得られたデータは、非定常性が仮
どが挙げられる。
定される(7.2 節を参照)。このような場合
もう1つ重要なことは、サンプル数が多
は、空間的に均質な区分に分割しない限り
くなればなるほど、分析の検出力が向上す
(4 章)、大域解析(global spatial analyses)
るだけでなく、分析の選択肢も増えること
(2 章と 3 章)は行えない。筆者らは、局
である。これは、パラメトリックな解析が
所解析(local spatial statistics)
(3 章)を
できないときには特に重要で、このような
お薦めする。
ときランダマイゼーションテストがもっと
7.1
も有効な解析手法のように思われる。生態
Programming skills
学のデータでは、往々にして、サンプル数
が 30 以上になることは珍しいが、サンプル
プログラミング技術をいくつか身につけて
数が 100 以上でも解析のためには少なすぎ
おくことは重要である。計算方法を知らな
る場合もある。データの空間構造をモデリ
いばかりに、間違ったソフトの使い方をし
ングする場合はたくさんのサンプル数が必
てしまう可能性があるからである。1 例を
要となり、同様に、空間パターンを検出す
挙げると、あるポピュラーな解析パッケー
るためには、例えば、40 のコドラートを連
ジでは、バリオグラムを求める際に割る n
-2-
が、2 点間の距離が h となる組の数 nh では
の場合、前もって帰無仮説が棄却できる空
なく、すべての距離の組の数 n となってい
間パターンの強度(strength)を決めてお
る。プログラミングを学べば、必然的に計
くと、調査のデザインや解析方法の選択に
算方法の理解も深められる。また、プログ
役立つだろう。
ラミング技術が身につけられれば、解析の
あるデータセットに対して、5 章で紹介
幅が広がり、柔軟に解析方法を改良するこ
したような AR モデルないし MA モデルあ
とができる。新しい解析方法は、ソフトウ
るいは両方を組み合わせたようないくつか
ェアとして販売されるまでにタイムラグが
のモデルを当てはめる場合でも、同様の問
あることも理由となるだろう。
題が生じうる。空間的に短いデータシリー
ズでは、モデルの精度が低下するかもしれ
7.2
Stationarity
ないし、逆に長ければ、より大きな空間の
範囲が必要となることに加え、真の非定常
定常性の仮定や非定常性の検出について考
性が検出されるリスクもある。弱い空間パ
えるとき、定常性のあるプロセスが、扱っ
ターンを検出するためには、より多くのデ
ているスケールや、プロセスやモデルをど
ータセットが必要かもしれない。
れだけ現実に近づけられるかによっては、
7.3
均質でない(inhomogeneous)あるいは明
Null hypotheses
らかに非定常性のパターンを生じさせるこ
とがあることに注意しなければならない。
生態学の分野では、1つの単純な帰無仮説
例えば、Poisson-Poisson あるいは Neyman
だけが、特に面白かったり役に立つという
Type A process は 、 イ ベ ン ト の 凝 集 塊
ことはない。むしろ目的に合った帰無仮説
(clump)を生じさせるが、少数の凝集塊
を単純なものから改良して特殊化させた方
のみだと平面上で同じ場所に生じてしまう。
が良い。
例えば、図 7.3 では、ランダムに発生させ
1 例として、4 プロット×8トランセクト
たパターンが、非定常性のようなパターン
/プロットのサンプリングデザインを考え
になってしまっている。5つのイベントの
てみる。4 プロットのうち、3 プロットは火
塊がいずれも左半分にしか生じなかった。
事が起こっていない森林のものであり、残
この確率は、1/24=0.0625
り 1 プロットは火事が起こった森林に設置
のようなもので、
決して生じないとはいえない。
されたとする。ある特定の種の量を各プロ
以前にも強調したように、フィールドで
ットごとに記録し、火事の有無によって量
得られたデータセットは、せいぜい1つの
が変わるかどうかを分析する。シンプルな
モデルを実現できる程度のものであり、明
方法としては、火事の起こっていない森林
らかな不均質性が認められた場合は、実は
の 3 プロットのデータをランダムに並び替
定常性のプロセスの結果であるかもしれな
えて平均値を求めることを 1000 回繰り返
い。このとき、どのくらいの検出力で帰無
して、平均値の分布を求めるランダマイゼ
仮説を棄却したかがポイントとなる。多く
ーションテスト法が考えられる。この分布
-3-
データと火事の起こった森林のプロットの
方法論的な問題に対しては、数値解法
データを比較して、5%水準の両側検定で有
(numerical solutions)が役に立つ。1 例
意性を評価することができる。しかし、こ
として、Ripley の K-function 法によるエッ
の方法は、実はベストなものではない。
ジ補正(edge correction)を考えてみる。
表 7.1 を見ると、火事の起こっていない
単純な正方形あるいは長方形プロットに対
森林のプロットでは、いずれも平均値が 6
しては、index point の位置と円の半径 t に
であった。これに対して、火事の起こった
基づいたエッジ補正というのがある。研究
森林のプロットは平均が 5 であり、前者の
エリアが長方形でなかったり、境界線が曲
平均値の分布の外側にあったために、先の
線となっている場合は、エッジ補正の式は
方法では結果的に有意差が検出された。と
非常に複雑なものになるだろう。このよう
ころが、両者のデータはかなり重複してお
なとき、2 章で紹介したような数値解法を
り、もしかしたら誤った結論である可能性
用いるのが良い。計算量が多くなっても、
がある。
パソコンの処理速度の向上が著しい現在に
このように、帰無仮説をどうするかで、
おいては大きな問題とはならないだろう。
検定結果が変わりうる。上に挙げた例にお
このようなコンピュータ技術の進歩は、空
いて、より適切な帰無仮説は「火事の起こ
間自己相関を検定するときに用いられる
った森林のプロットの平均値は起こってな
Monte Carlo 法などのような解析手法の幅
い森林のプロットの平均値と異ならない」
を広げたり、生態学におけるモデルの扱い
であり、2つの森林プロットにおける平均
方にまで影響を与えている。コンピュータ
値が同じであるとして、帰無仮説における
を使えば、前提条件を満たすことが不確か
分布を求めることが望ましい。具体的には、
なモデルを信頼の上に当てはめるより、む
すべてのプロット間でランダムにデータを
しろある現象についての理解のもと特定の
並び替えて、火事の起こっていない森林と
構造の効果を探索することができる
起こった森林における平均値の差(オリジ
(Legendre et al. 2002)。
ナルデータでは、6-5=1)の分布を帰無仮説
本書では、実験デザインや ANOVA など
の分布とする。最終的に、この解析の結果、
の古典的な問題については、多くを触れて
有意差は検出されなくなった。さらに、ト
いない。この問題は難しく、生態学者は統
ランセクト内で傾向がある場合は、トラン
計学者と同じレベルで理解する必要はない
セクト内でもランダマイゼーションを行う
だろう。ANOVA 以外のほかの方法を検討
べきである。実際にこれを行ってみると、
する必要が生じたときは、1つの方法とし
今度は高い有意性が検出された。
て、データを自分で作ってみてテスト解析
を行い、ガイダンスとすることが有効であ
以上のことから、帰無仮説はよく検討し
る。これは、特に新しい分析を行うときに
て、解析を行うべきである。
は役に立つだろう。
7.4
Numerical solutions
研究者に求められることとして、帰無仮
説を正確に知るということに加え、本当に
-4-
自分の目的にあった空間統計の解析をして
分布はロバストだが、χ2 分布は影響を受け
いるかを正確に理解しておくことが挙げら
やすいため、状況に応じて、どの統計手法
れる。例えば、Mantel test は、観察ペア間
を用いるかはよく検討する必要がある。
の類似度係数間の関係性の程度を評価する。
生態学でよく使われる有意水準 5%も意
したがって、空間自己相関は考慮せず、サ
思決定のために存在するということを覚え
ンプル間の相対的な空間配置を対象として
ておかなければならない。多くの場合、名
いるため、これと混同しないようにしなく
目上の有意水準 5%は空間自己相関のため
てはならない。
に実際は 9%か 2%であるという事実は、デ
ータの解釈に大きな影響を与えないかもし
7.5
Statistical difficulties
れない。加えて、より大きなサンプルサイ
ズはやはり重要で、これによって信頼でき
地球統計学(geostatistics)者は、人によっ
る統計量の分布も得ることできる。しかし、
て、もっとも適した統計手法を選ぶ能力が
残念ながら、ほとんど場合、選んだ分布が
まちまちである(Englund 1990)が、これ
妥当であるかは分からないため、統計手法
は空間統計学者も含めて、統計学者に共通
の頑強性に頼らざる得ないことも事実であ
のことといえる。このようなことから、生
る。
態学者自身も、自分の空間解析と解釈に責
7.6
任を持つ必要がある。統計的な有意差は、
Randomization
and
restricted
randomization tests
ある重要な生態学的プロセスのみから生じ
る訳ではない。例えば、2つの個体群間で
空間的なパッチの程度に差があったとして
7.3 節で述べたように、生態学的な仮説から
も、それは、ある断片化した景観において
どのように統計解析の帰無仮説を立てるか
種の移動能力に限界があったからではなく、
は、どんな研究においても必ず行うことで
ハビタットの空間構造の違いによって生じ
ある。ステップとしては、以下のようにな
た場合もあるだろう。その逆に、有意差が
る。
なかったとしても、やはり重要な意味をも
(1)生態学的な仮説の決定
っている場合もある。これは特に正の空間
(2)統計解析における仮説の設定
自己相関がある条件下で空間パターンを検
(3)適切な統計手法と手順の選択
出しようとするときがそうで、統計解析の
パラメトリックテストの場合は、すでに仮
ための十分な自由度が得られないという手
説、方法、手順が決まっているので、これ
法の問題による(5 章)
。このようなときは
は逆に解決できる問題の領域を狭めている
隣り合うサンプリングユニット間の類似度
といえるかもしれない。
一方、マンラマイゼーションテストは、
を調べれば、空間構造がサンプルユニット
魅力的な統計手法である。この手法の重要
より大きいことが分かるだろう。
いくつかのパラメトリックな統計手法は
な特徴の1つは、観察データから発生させ
空間構造の影響を受けやすい。例えば、 t
た分布に基づいて有意性を評価するので、
-5-
パラメトリックな手法では扱えない少数デ
く、高木層なしかつ低木層ありが 7 サンプ
ータでも統計解析を行うことができる。さ
リングユニットで観察された。このデータ
らに、ランダマイゼーションテストは改良
を、Caterpiller randomization として知ら
しやすく、自分の実験に合った解析が行え
れる 1 次元のトーラス法を用いて解析して
る(例.4 章の境界線の解析)。
みると、有意な高木層と低木層のオーバー
ランダマイゼーションテストではほとん
ラップは検出されなかった。しかし、この
ど仮定は置かないが、データを再配列した
データではもう少しトランセクトを長くす
とき同じ確率で起こるようなデータの独立
れば、実は有意となっていたのである。
性は必要となる。空間解析では、これは CSR
toroidal shift 以外の条件つきランダマイ
(complete spatial randomness)の帰無仮説
ゼーションテストの方法でより有効なもの
のことを指す。空間自己相関がある場合、
は、Monte Carlo 法あるいは確率空間モデ
この仮定は満たされないため、空間構造を
ル(stochastic spatial model)によって統
考慮した条件つきランダマイゼーションテ
計量の分布を発生させる方法である(5 章;
ストが提案されている(Legendre et al.
Manly 1997; Fortin & Jacquez 2000;
1990; Sokal et al. 1993; Manly 1997)。
Fortin et al. 2003)。この方法では、調査エ
条件つきランダマイゼーションテストに
リアの定常性を仮定として置いているが、
はいくつかの方法があり(Mainly 1997;
境界線の研究では例えばパッチの定義から
Fortin et al. 2002)、もっとも早くから提案
して問題とならない
されてきたものに toroidal shift がある(1
これらのランダマイゼーションテストの
章と 5 章)。この方法では、条件として、ラ
使用の際の注意点としては、本節の最初に
ンダマイゼーションがサンプリング場所レ
述べたように帰無仮設について十分に理解
ベルで行われるのでなく、調査エリア全体
しておくことである。
で行われる。
2 次元のトーラスが作成され、
さらに、帰無仮説と解析手順においては、
ランダムにトーラスをスライドさせて統計
解析の焦点を明確にすることが重要である。
量の分布を得る。空間自己相関を保持した
例えば、4 章で紹介したように、overlap
ままの解析となり、調査エリアの内部と外
statistics は、2つの境界線の場所が重複す
部で空間プロセスが定常性を有しているこ
るかどうかを2つのデータセット(例.植
とが前提となっている。
物と動物)に基づいて検定を行うが、この
ランダマイゼーションテストのもう1つ
とき、帰無仮説は植物と動物の境界線は空
の潜在的な問題点について理解するために、
間的に関係しないことが帰無仮説となる。
次の状況を考えてみよう。100 個のサンプ
帰無仮説と対立仮説を以下に示す。
リングユニットからなるトランセクトで、
H0 = 関係なし
高木層と低木層の有り無しデータを記録し
H1a = 正の関係
し、その結果、高木層と低木層はそれぞれ
H1b = 負の関係
90 および 10 サンプリングユニットで観察
この検定は、いくつかの方法で行うことが
されたとする。両者は同時に観察されにく
でき、その1つにトーラス法(Fortin et al.
-6-
1996)がある。もう1つは境界線を調査エ
関して、さらに詳しく見てみる。
リアにランダムに配置する方法(Sokal et
もっとも単純な例として、1次元の空間
al. 1988)である。生態学的プロセスとして
構造のデータで、川に沿って出現する滝や
は、2つの問いが立てられる。
ライントランセクト上で観察されたシロア
(1)それぞれの種の空間構造(空間依存性と
リの巣のようなデータを考えてみよう。非
空間自己相関)
ランダムネス(non-randomness)の検出の
(2)ある群集構造における植物あるいは動物
ためには統計量 Wm 、イベントの凝集性
の空間的な種間相互作用
、過(大)
(clumping)の検出には hm(2 章)
(1)の場合は、種ごとに別々にランダマイ
分散(overdispersion)あるいは過小分散
ゼーションを行うことになり、(2)の場合は、
(underdispersion)のスケールの検出には、
種ごとのランダマイゼーションをリンクさ
Ripley の K-function を使うことができる。
せる必要がある。
もし凝集性が検出されれば、もっとも大き
本節の結論としては、ランダマイゼーシ
な 凝 集 塊 を 見 つ け る た め に Ripley の
ョンテストは、パラメトリックテストでで
K-function のスコアをプロットしたり、
きなかった新しい問題や、生態学のデータ
Dale (1999)の probability calculation を使
に生来的に見られる空間構造の解析を可能
うこともできる(図 7.4)。
もう1つの例は、すべての木の位置、種、
とする。
直径が地図化された 2 次元の森林プロット
7.7
Complementarity of methods
を考えてみる。最初の分析では、ある種・
あるサイズの木に過(大)分散が見られる
空間解析に使われる方法の多くは、お互い
かどうかを、改良した Ripley の K-function
に、概念的にあるいは数学的に密接に関連
を使って調べる。続いて、特定の距離クラ
している(Dale et al. 2002)。この関係を
スが認められるかどうかを、円よりむしろ
理解しておけば、記述統計と推理統計のよ
リングに基づいて、単変量バージョンの
うに、相補的に解析方法を選び使用するこ
Condit のΩ-function の解析を行う。もし
とができるようになるだろう。相補的な関
全体的なパターンがパッチ状であったら、
係としては、グローバル vs.ローカル、ポイ
Getis’
ント vs.サンプリングユニット、TTLQV あ
circumcircle score mapping を使って、パ
るいは Ripley の K-function のように累積
ッチとギャップの位置を特定する。2 つ目
的であること(blocking)vs. PQV あるい
の分析は、mark correlation analysis で、
は Condit のΩ-function のように非累積的
距離の関数に対して木のサイズの分布パタ
であること(例.個々のユニットを使う)
ーンを見る。3 つ目では、2 章で紹介した
が挙げられる。また、
(境界線検出のような)
multispecies analysis approach を使えば
ある時間の個々の点での評価と(polygon
種間関係が解析できるが、距離に関する解
change analysis のような)時間的な変化と
析法は既に使っているので、相補的なアプ
いう関係もある。次に、最後に挙げた例に
ローチとして、観察した数と期待される数
-7-
score
mapping
あ る い は
を比較する Dixon method のような種ペア
検出する(4 章)。研究の目的によっては、
の join count を 見 る た め の neighbour
クリギングのような補間法(interpolation
network が使えるだろう。さらに、データ
techniques)を使って、調査エリア全域の
は、分析の結果得られたサイズの二乗値
変数の推定値を求め、距離の関数として空
(square units)を使って、カウントある
間自己相関を調べる。最後に、この分析に
いは他の量的データのラスターフォーマッ
よって分散が大きく予測精度が低いエリア
ト に 変 換 さ れ 、 multiscale ordination
が判明したら、subsidary sampling による
(MSO; 2 章)により multispecies pattern
補間法の改善を行う(図 7.7)。
の有無について調べる(図 7.5)。
最後の例では、発信機をつけた動物の 1
連続的にコドラートを配置したトランセ
時間ごとの位置のデータとそのデータから
クトにおけるある種の量のデータの場合は、
作成したハビタット地図を考える。最初の
3TLQV あるいは Mexican hat wavelet を
分析では、6 章で紹介したように、間隔の
使ってパターンのスケールを調べ、NQV 法
関数として、距離と角度の自己相関を定量
によってさらにより小さいフェーズのサイ
化する。次に、局所的な自己相関のスコア
ズを調べる。もし量がパッチ状であれば、
あるいは tortuosity measure によって、デ
wavelet や moving-split window (MSW)を
ータの非定常性の検出ができるだろう。最
使って、高密度と低密度の領域の間のエッ
後に、もし定常性を仮定する合理的な理由
ジを見つける。緯度のような環境要因が同
がある(すなわち piecewise stationarity)
じサンプリングユニットで記録されたら、2
なら、Monte Carlo 法によってモデル化し、
章で紹介したような covariance method
実際のハビタットの利用と Monte Carlo 法
(3TLQC あるいは wavlet covariance)を
により作成したデータとを比較して、検定
使って、種の量が環境の変数に対して共分
を行う(図 7.8)。
散するスケールを明らかにする(図 7.6)。
この節では、すべての相補的な分析の例
空間構造のある場所から得られた 1 変数
を紹介した訳ではなく、考えられる多様な
の量的データでは、色々な空間の特徴を評
組み合わせの 1 部を示したに過ぎない。図
価するための手法がある(3 章)。例えば、
7.9 では、Dale et al. (2002)の「関係」の概
全方向性のコレオグラムやバリオグラムが、
念図を参考にして、本節で紹介した分析例
距離の関数として(等方性の)空間自己相
の関係性を表してみた。この図からもさら
関を評価するのに使われる。ついで、LISA
に多くの組み合わせが考えられることは明
によって、局在化した場所をプロットする。
らかである。
相補的な方法では、実際の距離を使わず、
neighbour
network
の
first-order
7.8
Future work
neighbour の相関を見る方法もある。その
後は、spatially constrained clustering に
空間解析の手法はさらなる発展が求められ
よって類似の値のグループを見つけるか、
る 。 い く つ か の 例 を 挙 げ る と 、 polygon
triangulation-wombling によって境界線を
change analysis 、 自 己 相 関 を 扱 う
-8-
spatio-temporal analysis、カテゴリーデー
approach 、
空間パターンを比較する場合は、後者は同
multispecies point pattern の解析法など
じプロセスが働いていると考えてよいが、
がある。生態学者の重要な研究課題は、プ
前者はそのようには考えられない。さらに、
ロセスとパターンだが、それらの現状での
ある空間パターンはプロセスのある1つの
理解や知識が、解析方法の選択や実践にお
結果に過ぎないため、同じプロセスでも場
いても大いに役に立つだろう。
所が違えば異なるパターンになるかもしれ
タ に 対 す る
entropy
や、同じエリアでも異なる時期のデータの
それでもなお残る問題としては、分析前
ない。これらの問題は、部分的には、
の detrending ( ト レ ン ド 除 去 ) と
stochastic spatial modelling(3 章。Fortin
pre-whitening(事前の白紙化?)を行った
et al. 2003)によって調べることができる。
データに関する問題がある。すべてのプロ
5 章では、特に学習ツールとしての空間
セスと種の応答が線形でかつ加法的である
自己相関のモデルについて、かなりの議論
とき、これらの方法は直接的であると考え
をした。パッチの程度は、AR-MA structure
られる。非線形(方形区、円形、単峰形、
においてモデル化されるが、どのくらい生
多峰形)のときは、トレンドを除去するこ
物学的に現実を反映しているかは分からな
とによって、残差がゆがんだ偽の空間構造
い。そこで空間自己相関をもたらす生態学
を含むように、embedded patterns(埋め
的プロセスについての検討が重要となる。
込まれたパターン?)を取り除く。
この問題に関して、ここでは2つの例を挙
detrending と pre-whitening との関係およ
げよう。多くの統計学の教科書には以下の
び空間自己相関の効果の取り扱い方は直接
分散分析の式が載っている。
的ではなく、同時に使うときには十分に検
Xij = Bi + Tj + εij
討が必要である。Haining (2003)が指摘し
Xij:観察値、Bi:ブロックの効果、Tj:処
ているように、一般的に、pre-whitening
理の効果、εij:誤差項とする。誤差項が、
だけでは空間依存性によって生じる問題を
土壌の栄養や湿り気あるいは光の強さのば
うまく解析することはできないからである。
らつきを示す場合は、自己相関は 5 章で紹
も う 1 つ 未 解 決 で あ る の は 、 spatial
介した induced structure(Model 3)とよ
indices(空間指標?)と有意性の評価法に
く似たものになる。一方、Franco & Harper
ついての問題である。2 章で議論したよう
(1988)は、有名な植物の競争実験で、一番
に、有意性の評価は、データに独立性がな
目の近隣個体の大きさは負の相関を示し、2
い場合や、適用した統計手法(TTLQV、
番目の近隣個体の大きさは正の自己相関す
Moran’I、Geary’s c、セミバリアンス)に
ることを明らかにした。つまり、大きい個
よっては非常に複雑になる。したがって、
体の周囲には小さい個体が生育し、小さい
条件付ランダマイゼーションテストで言え
個体の周囲には大きい個体が生育していた
ば、
「パターンがない」というような、単純
のである。この場合、負のρを持つ
な帰無仮説にすることがもっとも賢明な使
first-order autoregressive model (Model2)
い方であろう。同様に、2つのエリアの間
が生物学的に現実的な空間構造のモデルに
-9-
なるだろう。このように、多くの生態学の
例では、変数が示した自己相関がもともと
あった場合と誘導された(induced)場合が
あることが期待される。しかし、生物学的
および物理学的プロセスが分かっていない
ことは少なくないので、現実的なモデルを
作ることは容易ではない。
本書では、生態学のデータの空間解析に
関連した問題を幅広く取り上げたが、種多
様性や種間関係に関連した問題には触れら
れなかった。Dale & John (1999)、Plotkin
et al (2000)、Shimatani (2001)を参照され
たし。
最後に、次の空間解析の大きな課題は、
生態学的プロセスの空間ダイナミクスの理
解を深めるために、時空間データとパター
ン、モデルを1つにすることである。
- 10 -