NUMEROS.docx ver. 2015.1.25 言語研究のための 数値データ分析法 2 015 これは 1 学期間の授業用テキストです。 随時更新します。 (c) 上 田 博 人 ( 東 京 大 学 ) Hiroto Ueda (University of Tokyo) 0. はじめに こ の テ キ ス ト は 後 期 課 程 (情 報 学 環・言 語 情 報 科 学 『 ) 言 語 の 変 化・変 異 』、 『 言 語 デ ー タ 分 析 』お よ び 大 学 院( 学 際 情 報 学 環: 言 語 情 報 科 学 専 攻 )『 言 語情報解析』の授業のために作成しました。 内容は、言語の変化・変異を数量的に観察するときに有用だと思う方法 を取り上げました。数値が並ぶデータ行列を前にして、目視だけではよく わからない状況を、さまざまな分析手法を用いて明らかにしていきます。 私たちは文系なので、この分野(行列とベクトル、線形代数)を高校の 数学で習っていないのですが、その基礎のはじめの部分だけでも学習して おくと、数理の理解も、行列関数を使ったプログラミングの作業も容易に なります。さらに、このテキストでは、一般に定義されていないような行 列演算をあえて導入しました。そのような演算を各所で活用しますので確 認してください。このテキストで扱う内容は基本的なことばかりで、難易 度はそれほど高くはありません。 学 部・後 期 課 程 で は .基 礎 的 な こ と を 中 心 に 、そ し て 大 学 院 の 授 業 の た め に作成してきたプログラムを応用します。大学院では基礎的の内容を確認 した後、主としてプログラム開発の練習をします。 ここで扱う方法は一般によく使われているものばかりですが、各所で私 たちが独自に開発してきた方法も紹介します。おおまかに「~とよばれま す」という受動文であれば周知の方法を指します。一方、「~とよぶこと にします」のような能動文で紹介する方法は、私たち独自の方法(または 呼 称 )だ と 思 い ま す が 、す で に 開 発 さ れ て い る 方 法 で あ る か も し れ ま せ ん 。 一応、各種の統計学書で確認しているのですが、すべてを見渡すことは不 可能なので、既存の同じ方法をご存じの方はぜひご教示ください。 授業で扱った内容について考察したこと、確認したこと、自分の 言語数 量データに応用したことなどを書いたレポートを毎回提出してください。 それらをまとめて、最終レポートを提出してください。 質問があれば、授業中に発言するか、またはレポートの中に書いてくだ さい。そのとき具体的なデータがあるとわかりやすいと思います。 学期期間中は、このテキストとプログラムのコードを毎週更新していま す。常に最新のファイルをダウンロードしてください。 *ダウンロードサイト: http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/index.html 2.3. NUMEROS: 数 量 デ ー タ 分 析 用 プ ロ グ ラ ム NUMEROS para análisis de datos cuantitativos 1 1. 行 列 はじめに行列のさまざまな演算について確認します。一般の行列・線形 代数で扱われる演算のほかに、このプリントで特別に定義する演算も含み ます。これらを理解すると、数値データ処理の意味と利用法がわかり、応 用範囲が広がります。また、少ないコードでプログラムが書けるのでプロ グラミング開発の能率が高まります。 手元の言語データから 1 つの数値、たとえば、ある地域に特有の語の出 現頻度が得られたとします。この 1 つの数字そのものが、異常に高い数値 であるのか、または、ほかの地域でも多く見つかるのか、調べなければな り ま せ ん 。 L1, L2, L3, …と い う 地 域 で 比 較 す る と 、 そ の 分 布 の 特 徴 が わ か り ま す 。さ ら に 関 連 す る ほ か の 語 w1, w2, … の 頻 度 も 調 べ る と よ い で し ょ う。そうすると、地域と語からなる頻度分布表が出来上がります。 O.S. L1 L2 L3 L4 L5 w1 10 19 14 7 12 w2 11 7 10 0 1 w3 0 0 1 12 1 w4 0 1 2 3 3 以下では、このような頻度分布表の分析法を扱います。 例としてあげた 分 布 表 は 小 さ な も の ば か り で す が 、 実 際 は 数 千 行 ×数 十 列 の よ う に 大 き な 行列を扱うこともあります。 1.1. 単位ベクトルと単位行列 下 左 表 の よ う に 成 分 が す べ て 1 の 列 ベ ク ト ル は 「 単 位 ベ ク ト ル 」 Unit vector と よ ば れ ま す 1 。 下 右 表 は 横 に 並 ん だ 行 ベ ク ト ル で す 。 U n1 1 1 1 2 1 U 1p 1 2 3 1 1 1 1 こ の プ リ ン ト は 上 左 表 の よ う な 列 ベ ク ト ル を n 行 1 列 の 行 列 U n1 と 見 な し 、 上 右 表 の よ う な 行 ベ ク ト ル を 1 行 p 列 の 行 列 U 1p と 見 な し ま す 。 数 値 (スカラー)は M のように、添え字の n も p もつけません。 次 の よ う に 「 対 角 成 分 」 ( U(1,1), U(2,2)の よ う に 行 番 と 列 番 が 同 じ 位 置 1 「単位ベクトル」には他の定義もありますが、ここでは以下でよく使う この定義(成分がすべて 1 のベクトル)を採用します。 2 の成分)がすべて 1 で、非対角成分がすべて 0 である正方行列(行数と列 数 が 同 じ 行 列 ) は 「 単 位 行 列 」 (unit matrix, identity matrix)と よ ば れ ま す 。 以 下 で は 単 位 行 列 を U pp の よ う に 表 記 し ま す 。 一 般 に 、 添 え 字 の n, p は 表 記されませんが、以下の演算ではこれを意識すると理解が深まるので付記 することにします。 U pp 1 2 3 1 1 0 0 2 0 1 0 3 0 0 1 1.2. 行列成分の演算 1.2.1. 行 列 と 行 列 の 演 算 行列間で対応する成分について加減乗除の演算をします。 X np 1 2 + Y np 1 2 = Znp 1 2 1 1 4 1 7 10 1 8 14 2 2 5 2 8 11 2 10 16 3 3 6 3 9 12 3 12 18 X n p + Y np = Z np , Z n p = A(X n p , Y n p ) こ の 加 算 の 演 算 X n p + Y np = Z np は 一 般 の 行 列 演 算 で 定 義 さ れ て い ま す 。 上 左 式 で は 、 た と え ば X np の よ う に 「 大 文 字 + 小 文 字 + 小 文 字 」 で 行 列 を 示 し 、 普 通 体 の n と p は 行 数 と 列 数 を 示 し ま す 。 上 右 式 Z n p = X(X np , Y n p ) は プ ロ グ ラ ム の コ ー ド で X は 引 数 1 (=X n p )と 引 数 2 (=Y n p )の 和 を 返 す 行 列 のユーザー定義関数です。 次 は 行 列 成 分 間 の 乗 算 (*)を 示 し ま す 。こ れ は 一 般 の 行 列 演 算 で は 定 義 さ れていませんが、この演算は以下の章で頻用するので、ここで定義してお き ま す 。M は 対 応 す る 行 列 成 分 間 の 積 を 成 分 と す る 行 列 を 返 す ユ ー ザ ー 定 義 関 数 で す 。こ の 行 列 成 分 間 の 乗 算 は 後 述 す る「 行 列 積 」(X)と は 異 な り ま すから注意してください。 X np 1 2 * Y np 1 2 = Znp 1 2 1 1 4 1 7 10 1 7 40 2 2 5 2 8 11 2 16 55 3 3 6 3 9 12 3 27 72 X n p * Y n p = Z n p , Z np = M(X n p , Y np ) 3 このテキストではベクトルを行、または列が 1 である行列とみなします ので、次のように演算とプログラミングの手続きを統一することができま す。 X n1 1 * Y n1 1 = Zn1 1 1 1 1 4 1 4 2 2 2 5 2 10 3 3 3 6 3 18 X n 1 * Y n 1 = Z n 1 , Z n 1 = M(X n 1 , Y n1 ) 1.2.2. 行 列 と 数 値 の 演 算 行 列 ( や ベ ク ト ル ) の 成 分 全 体 に 「 ス カ ラ ー 」 (scalar)と よ ば れ る 数 値 を 足 し た り (行 列 関 数 A)、 引 い た り (行 列 関 数 S), 掛 け た り (行 列 関 数 M)、 割 っ た り (行 列 関 数 D)す る こ と が で き ま す 。 X np 1 2 * 5 = Znp 1 2 1 1 4 1 5 20 2 2 5 2 10 25 3 3 6 3 15 30 X n p * 5 = Z n p , Z n p = M(X n p , 5) このような行列とスカラーの積算は一般に定義されています。一方、次 のような加算は一般に定義されていませんが、ここに定義します。 X np 1 2 + 5 = Znp 1 2 9 1 1 4 1 6 2 2 5 2 7 10 3 3 6 3 8 11 X n p + 5 = Z np , Z np = X(X n p , 5) 以 下 で は 加 算 (+, X)や 積 算 (*, M)だ け で な く 、 減 算 (-, S)、 除 算 (/, D)、 指 数 (^, E)・ 対 数 (@, L)の 演 算 も 含 め て 統 一 的 な 行 列 成 分 の 演 算 を 定 義 す る こ とにします。次のようなベクトルを対象にした場合も同様です。 4 X n1 1 ^ 2 = Z n 1 1 1 1 1 1 2 2 2 4 3 3 3 9 X n 1 ^ 2 = Z n 1 , Z n1 = E(X n 1 , 2) 先述のように、このテキストではベクトルを 1 列または 1 行の行列と見 なします。そして、数値(スカラー)も 1 行 1 列の行列と見なすことがで きます。このように考えればさまざまな演算を、数値、ベクトル、行列と いう異なったデータどうしを統一して計算できるようになります。 こ こ で「 一 様 行 列 」 (homogeneous matrix)と い う 概 念 を 提 案 し ま す 。 た と え ば 、 次 の よ う な 行 列 + 数 値 の 演 算 で 、 数 値 (5)を 下 の Y np よ う な 成 分 を も つ 行 列(「 全 体 一 様 行 列 」homogeneous matrix in all を よ び ま す )と す れ ば 、 一般に認められている行列の加算ができるようになります。 X np 1 2 + 5 = X np 1 2 + Y np 1 2 = Znp 1 2 1 1 4 1 1 4 1 5 5 1 6 9 2 2 5 2 2 5 2 5 5 2 7 10 3 3 6 3 3 6 3 5 5 3 8 11 そこで、行列成分演算では次のようにスカラーと全体一様行列は同等と と見なします。 5 = Y np 1 2 1 5 5 2 5 5 3 5 5 1.2.3. 行 列 と ベ ク ト ル の 演 算 行列成分とベクトル成分の演算をします。この演算は一般の行列の計算 で行われませんが、以下で多用するので次のように定義しておきます。 次 の よ う な 縦 ベ ク ト ル を 用 い た 演 算 で は 、「 2 列 一 様 行 列 」(homogeneous matrix in 2columns)で あ る Y n p を 使 え ば 、 す べ て の 演 算 が 可 能 に な り ま す 。 5 X np 1 2 + Y n1 1 = X np 1 2 + Y np 1 2 = Znp 1 2 1 1 4 1 7 1 1 4 1 7 7 1 8 11 2 2 5 2 8 2 2 5 2 8 8 2 10 13 3 3 6 3 9 3 3 6 3 9 9 3 12 15 同様にして、次のような横ベクトルを用いた演算では、それを「行一様 行 列 」(homogeneous matrix in row)に し ま す 。下 の Y np は 3 行 一 様 行 列 で す 。 X np 1 2 + Y 1p 1 2 = X np 1 2 + Y np 1 2 = Znp 1 1 4 2 3 1 7 8 1 2 1 1 4 1 7 8 1 8 12 2 5 2 2 5 2 7 8 2 9 13 3 6 3 3 6 3 7 8 3 10 14 このようにベクトルを一様行列に変換するのは、行列演算を可能にする ための方法に過ぎません。元のベクトルとそれぞれの一様行列の間に数値 の本質的な変化はない、と見なすことができるでしょう。 Y n1 1 = Y np 1 2 1 7 1 7 7 2 8 2 8 8 3 9 3 9 9 Y 1p 1 2 = Y np 1 2 1 7 8 1 7 8 2 7 8 3 7 8 ●四則演算の一般化 以上のように考えれば、たとえば、X * Y = Z ならば Y = Z / X である、 というような一般の四則演算の導出も可能になります。この導出は数値ど うしの演算、ベクトルどうしの演算、行列どうしの演算では次のように可 能です。 2 *3 =6 → 3 =6 /2 X n1 1 * Y n1 1 = Zn1 1 → Y n1 1 = Zn1 1 / X n1 1 1 1 1 7 1 7 1 7 1 7 1 1 2 2 2 8 2 16 2 8 2 16 2 2 3 3 3 9 3 27 3 9 3 27 3 3 6 X n1 1 2 1 1 2 3 * Y n1 1 2 4 1 7 2 5 2 3 6 3 = Z n1 1 2 10 1 7 8 11 2 9 12 3 → Y n1 1 2 40 1 7 16 55 2 27 72 3 = Z n1 1 2 10 1 7 8 11 2 9 12 3 / X n1 1 2 40 1 1 4 16 55 2 2 5 27 72 3 3 6 それでは、数値とベクトル、数値と行列、ベクトルと行列のような異種 の デ ー タ 間 で も 同 じ よ う に 演 算 の 導 出 が 可 能 に な る か 、試 し て み ま し ょ う 。 X 1 2 1 1 2 * 5 = Z 1 2 4 1 5 2 5 2 3 3 6 3 X 1 2 1 1 2 3 → Z 1 2 20 1 5 10 25 2 15 30 3 Y 1 = Z 1 2 4 1 7 1 7 2 5 2 8 2 3 6 3 9 3 * 5 → = / X 1 2 20 1 1 10 25 2 15 30 3 Y 1 = Z 1 2 28 1 7 1 7 16 40 2 8 2 27 54 3 9 3 A 1 2 4 1 5 5 2 5 2 5 5 3 6 3 5 5 / = = B 1 2 X 1 2 28 1 1 4 1 7 7 16 40 2 2 5 2 8 8 27 54 3 3 6 3 9 9 上の最初の表の右端の行列 A は全体一様行列ですから、先述のように、 数 値 ( ス カ ラ ー ) (=5)と 見 な す こ と が で き ま す 。 ま た 、 下 の B は 2 列 一 様 行 列 な の で 、1 列 行 列( 縦 ベ ク ト ル )の Y と 同 じ と 見 な す こ と が で き ま す 。 よって、以上のすべての場合で X * Y = Z ならば、Y = Z / X であることが 確認できました。このことは、乗算と除算の演算だけでなく、加算と減算 の演算、指数と対数の演算でも基本的に同じです。 X の 成 分 に ゼ ロ (0)が あ る と 先 の 行 列 の 割 り 算 Z / X が で き な く な り ま す 。 し か し 、上 の 演 算 で X の 成 分 が 0 な ら ば Z の 対 応 成 分 も 0 に な る の で 、0 / 0 という計算が行われます。この計算は一般にできないことになっていま すが、これを 0 / 0 = 0 と決めておけば、これも可能になります。 1.3. 行列積 「 行 列 積 」(matrix product)は 先 述 の「 行 列 成 分 の 積 」(multiplication of matrix elements)と は 異 な り ま す 。 一 般 に 「 行 列 の 積 」 と い え ば こ の 「 行 列 積 」 を 指 し ま す 。こ の 演 算 は「 積 和 」sum product と い う 少 し 複 雑 な 計 算 を し な け れ ば な り ま せ ん 。そ こ で 簡 単 な 行 ベ ク ト ル と 列 ベ ク ト ル の 積 か ら は じ め て 、 少しずつ複雑になる行列とベクトルの積、行列と行列の積という順番で進 みます。 7 1.3.1. ベ ク ト ル と ベ ク ト ル の 積 行ベクトルと列ベクトルの積は、それぞれ対応する 成分の積の和になり ま す 。 た と え ば 次 の 例 で は 、 X 1 3 Y 3 1 = 1*4 + 2*5 + 3 *6 = 32 に な り ま す 。 下 左 の 行 列 計 算 で は 行 列 間 に +, -, *, …な ど の 演 算 記 号 ( 算 術 演 算 子 ) を つ け ま せ ん 。下 右 の 行 列 関 数 で は X と い う 関 数 名 を 使 う こ と に し ま す 。表 と 表 の 行 列 積 を 示 す と き は 、 2 つ の 表 の 間 に ×を つ け る こ と に し ま す 。 X 1 3 Y 31 = Z, Z=X(X 1 3 , Y 31 ) X 13 1 2 3 × Y 31 x = Z11 1 1 2 3 1 4 2 5 3 6 1 x 32 逆に、列ベクトルと行ベクトルを掛け合わせると、それぞれの 成分の積 か ら な る 行 列 を 作 り ま す 。た と え ば 、Y 3 1 X 13 の 積 の 行 列 Z 3 3 の Z1(第 1 行 ) [4, 8, 12]は Y 31 の Z1: 4 に X 13 の [1, 2, 3]を 掛 け た も の で す 。 Z 33 の Z2(第 2 行 ) の [5, 10, 15]は Y 31 の 5 に X 13 の [1, 2, 3]を 掛 け た も の で す 。 X 3 1 Y 13 = Z 3 3 , Z 3 3 = X(X 31 , Y 1 3 ) Y 31 x × X 13 1 2 3 = Y 31 X 13 1 1 4 2 3 1 1 2 3 2 3 1 4 8 12 5 2 5 10 15 6 3 6 12 18 1.3.2. 行 列 と ベ ク ト ル の 積 行列のそれぞれの行に列ベクトルを掛けます。この計算はデータ行列に 重みベクトルを掛けた合成ベクトルを作るときに使います。 X 3 2 Y 21 = Z 3 1 , Z 3 2 = X(X 32 , Y 2 1 ) 8 X 32 1 2 1 1 2 3 × Y 21 1 2 1 3 4 2 5 1 = Z31 1 2 1 8 3 2 18 3 13 ●行列と単位ベクトルの積 行 列 に 単 位 ベ ク ト ル (U p 1 )を 右 か ら 掛 け る と 行 和 縦 ベ ク ト ル が 得 ら れ ま す。 X 32 1 2 1 1 2 3 × U 21 1 2 1 3 4 2 5 1 = Z31 1 1 1 3 1 2 7 3 6 逆に、次のような単位行ベクトルと行列の積では、列和横ベクトルが得 られます。 U 13 1 2 3 × X 32 1 2 = 1 1 1 1 1 1 4 2 2 5 3 3 6 Z12 1 1 2 6 15 ここで、行列積に関わる行列の行数と列数について確認します 。次の 2 つの式を見てください。 X 3 2 U 21 = Z 3 1 U 1 3 X 32 = Z 1 2 どちらの式でも左の行列の列数と右の行数が同じです。これが異なると 行 列 積 が で き ま せ ん 。ま た 、行 列 積 の 結 果 の 行 列 (Z)の 行 数 は 左 の 行 列 の 行 数 と な り 、 行 列 積 の 結 果 の 行 列 (Z)の 列 数 は 右 の 行 列 の 列 数 に な り ま す 。 1.3.3. 行 列 と 行 列 の 積 行列と行列の積の成分の位置は左行列の行番号と右行列の列番号と同じ で す 。 た と え ば 、 次 の Z(1, 1)の 成 分 は X の 1 行 (1, 2)と Y の 1 列 (7, 8)の 積 和になります。 X 3 2 Y 23 = Z 3 3 , Z 3 3 = X(X 32 , Y 2 3 ) 9 X 32 1 2 × Y 23 1 2 3 1 1 2 1 7 9 2 2 3 4 2 8 1 3 3 5 1 = Z33 1 2 3 = Z33 1 2 3 1 1x7+2x8 1x9 + 2x1 1x2 + 2x3 1 23 11 8 2 3x7+4x8 3x9+4x1 3x2+4x3 2 53 31 18 3 5x7+1x8 5x9+1x1 5x2+1x3 3 43 46 13 *行列積の注意 行列積は第 1 行列の列数と第 2 行列の行数が同じでなければ計算できま せ ん 。行 列 積 の 結 果 の 行 列 は 第 1 行 列 の 行 数 と 第 2 行 列 の 列 数 に な り ま す 。 次の式のそれぞれの添え字に注意してください。 Xnp Ypm = Znm *行列積の交換 一 般 に 行 列 積 X n n Y nn 行 列 積 Y n n X n n と は 異 な り ま す 。 そ こ で 、 行 列 積 の 演 算 で は「 X nn に Y nn を 右 か ら 掛 け る (X n n Y n n )」や「 X nn に Y nn を 左 か ら 掛 け る (Y n n X n n )」と い う 表 現 を 使 い ま す 。以 下 で は 、そ れ ぞ れ「 右 積 す る 」「 左 積する」という表現を使うことにします。 ●単位行列の積 行 列 に 単 位 行 列 (U p p )を 右 積 し て も 左 積 し て も そ の 結 果 は 元 の 行 列 は 変 わりません。 (a) A p p U pp = A p p App x y z × U pp x y z = App x y z 1 1 2 3 1 1 0 0 1 1 2 3 2 4 5 6 2 0 1 0 2 4 5 6 3 7 8 9 3 0 0 1 3 7 8 9 (b) U p p A pp = A p p U pp x y z × App x y z = App x y z 10 1 1 0 0 1 1 2 3 1 1 2 3 2 0 1 0 2 4 5 6 2 4 5 6 3 0 0 1 3 7 8 9 3 7 8 9 1.4. 転置行列 行 列 の「 転 置 」 (transposition)と は 、行 列 の 成 分 X(i,j)を X(j,i)と 交 換 す る こ と で す 。 行 列 X n p の 転 置 行 列 (transposed matrix)は X n p 'と 表 記 さ れ ま す 。 An1 1 1 1 2 2 3 3 An1 ' 1 2 3 x An p 1 2 1 2 3 An p ' 1 2 3 1 1 4 1 1 2 3 2 2 5 2 4 5 6 3 3 6 こ の プ リ ン ト で は X np 逆 行 列 X n p 'を X pn と 書 く こ と も あ り ま す 。 X n p ' = X pn 転置行列には次の性質があります。これらは行列演算でよく使う演算で す。 (a) (X n p ')' = X n p X np 1 2 X np ' 1 2 3 (X np ')' 1 2 1 1 4 x 1 2 3 1 1 4 2 2 5 y 4 5 6 2 2 5 3 3 6 3 3 6 (b) (X n p + Y n p )' = X np ' + Y n p ' X np 1 2 + Y np 1 2 = R np 1 2 R np ' 1 2 3 1 1 4 1 7 10 1 8 14 1 8 10 12 2 2 5 2 8 11 2 10 16 2 14 16 18 3 3 6 3 9 12 3 12 18 11 X np ' 1 2 3 + Y np ' 1 1 2 3 1 2 4 5 6 2 1 2 3 = R np 1 2 3 7 8 9 1 8 10 12 10 11 12 2 14 16 18 (c) (X n p Y n p )' = Y np ' X n p ' X np 1 2 × Yn x = Rn x 1 1 4 1 1 a 9 2 2 5 2 2 b 12 3 3 6 c 15 Rn' 1 1 Yn' 1 2 × X np ' 1 2 3 = X 1 1 1 2 1 1 2 3 2 4 5 6 1 2 3 9 12 15 2 3 9 12 15 1.5. その他の関数 よく使う次の関数を用意しました。 Ms(X11): 行 列 (1:1)を ス カ ラ ー に 変 換 Sm(X): ス カ ラ ー ( 数 値 ) を 行 列 (1:1)に 変 換 SumR(X n p ): 行 和 縦 ベ ク ト ル SumC(X n p ): 列 和 横 ベ ク ト ル SumA(X n p ): 行 列 成 分 の 総 和 ( ス カ ラ ー ) 「 行 和 縦 ベ ク ト ル 」 SumR(*)と 「 列 和 横 ベ ク ト ル 」 SumC(*)の 導 出 に は 、 転 置 行 列 と 行 列 積 の 行 列 関 数 を 使 っ て い ま す 。総 和 は ス カ ラ ー な の で 、 「行 列 を ス カ ラ ー に 変 換 」 Ms(*)を 使 い ま す 。 SumR = X n p U p 1 SumC = U n 1 ' X n p *線形代数の基礎(行列とベクトル)については次を参照しました:足立 (2005), 井 上 (1998), 井 上・広 川 (2000), 三 野 (2001), 奥 村 (1986), 小 林 (1967), 芝 (1975), 白 井 (2009), 縄 田 (1999), 長 谷 川 (2001)。「 単 位 ベ ク ト ル 」の 定 義 に つ い て は 芝 (1975)に 従 い ま し た 。 12 2. 統 計量 行列演算を使ってデータ行列全体の性質を要約する「和」「平均」「分 散 」「 標 準 偏 差 」な ど の 統 計 量 statistic measure を 計 算 し ま す 。要 約 す る 対 象の行列を「列」「行」「全体」の中から選択します。 2.1. 和 デ ー タ 行 列 D np の 横 和 、 縦 和 、 全 体 の 和 を 計 算 し ま す 。 デ ー タ 行 列 D n p の 横 和 ( 行 和 ) Sn 1 は 、 次 の よ う な 行 列 積 で 計 算 し ま す 。 S n 1 = D np U p 1 Up 1 は P 個 の 成 分 を も つ 縦 ベ ク ト ル で す 。 D 1 2 3 X Uv 1 = D Uv 1 1 6 8 5 1 1 1 19 2 7 10 6 2 1 2 23 3 8 4 8 3 1 3 20 4 9 7 2 4 18 5 10 9 4 5 23 縦 和 ( 列 和 ) S1 p は 、 次 の よ う な 行 列 積 で 計 算 し ま す 。 S 1 p = U n1 ' D n p = U 1 n D n p こ こ で U n 1 'は 単 位 ベ ク ト ル U n1 を 転 置 さ せ た も の で す (=U 1 n )。 Uv' 1 2 3 4 5 X D 1 1 1 1 1 1 1 2 3 = Uv' D 1 1 6 8 5 40 38 25 2 7 10 6 3 8 4 8 4 9 7 2 5 10 9 4 1 2 3 最 後 に 行 列 全 体 の 総 和 S は 、横 和 S n 1 ま た は 縦 和 S 1p 'の 和 に な り ま す 。次 は 、 縦 和 Sp'の 総 和 S を 求 め る 式 で す 。 S = S1 p Up 1 13 Uv' D 1 1 2 3 40 38 25 Uv 1 Uv' D Uv 1 1 1 1 103 2 1 3 1 ●群(グループ)の中の統計量 下 左 表 の よ う な デ ー タ 列 (v1, v2, v3)+ 群 列 (Group)か ら な る 入 力 行 列 を 群の分類内で各種の統計量を求めます。下右表は統計量として和を求めた 結果です。 D1 1 2 3 Group 和 1 2 3 1 5 2 7 a a 5 2 7 2 3 3 2 b b 5 3 4 3 2 2 b c 7 14 12 4 4 2.000 2 c 5 2 4 3 c 6 1 8 7 c 2.2. 最大値・最小値・範囲・中間値 デ ー タ 行 列 の「 最 大 値 」(maximum)、 「 最 小 値 」(minimum)、 「 範 囲 」(range)、 「 中 間 値 」 (mid)を 計 算 し ま す 。 範 囲 は 最 大 値 か ら 最 小 値 を 引 い た 値 で す 。 中 間 値 は 範 囲 / 2 の 値 で す 。中 間 値 は「 範 囲 中 央 」ま た は「 ミ ッ ド レ ン ジ 」 mid-range と よ ば れ ま す が 、こ こ で は 簡 単 に「 中 間 値 」と よ ぶ こ と に し ま す 。 D 1 2 3 縦軸 1 6 8 5 最小値 6 4 2 2 7 10 6 最大値 10 10 8 3 8 4 8 中間値 8 7 5 4 9 7 2 範囲 4 6 6 5 10 9 4 範 囲 : 最 小 値 -最 大 値 1 2 3 4:6-10 6:4-10 6:2-8 2.3. 中央値 「 中 央 値 」median は デ ー タ を 昇 順 ま た は 降 順 に 並 べ 替 え て 、そ の 順 位 の ちょうど中央にあるデータの値です。データの個数が偶数のときは中央の 2 つのデータの平均をとります。 14 D 1 2 3 縦軸 1 6 8 5 中央値 2 7 10 6 3 8 4 8 4 9 7 2 5 10 9 4 1 2 3 8.000 8.000 5.000 中 央 値 -中 間 値 (中 央 値 -中 間 値 )/範 囲 .000 1.000 .000 .000 .000 .167 2.4. 平均値 平 均 値 average, mean: Ave は デ ー タ の 和 を そ の 個 数 で 割 っ た 値 で す 。 Ave = Sum(Dnp) / Num(Dnp) D 1 2 3 縦軸 1 6 8 5 平均値 2 7 10 6 3 8 4 4 9 5 10 1 2 3 8.000 7.600 5.000 平 均 値 -中 間 値 .000 .600 .000 8 (平 均 値 -中 間 値 )/範 囲 .000 .100 .000 7 2 平 均 値 -中 央 値 .000 -.400 .000 9 4 ●調和平均値 速度、濃度、平均、比率など、割り算を使って算出された値の平均は、 そのまま合計して個数で割るとうまくいきません。たとえば、次のような ケースの平均時速を計算してみましょう。あるグループがハイキングで一 定 の 行 程 を 往 復 し 、往 路 は 時 速 6 km/h、復 路 は 時 速 4 km/h だ っ た と し ま す 。 こ の と き 往 復 の 平 均 時 速 を 算 術 平 均 で 出 す と (6 + 4) / 2 = 5 に な る か ら と い っ て 、 平 均 時 速 を 5(km/h)と し た の で は 、 不 都 合 な こ と が 起 こ り ま す 。 往 復の距離を平均時速で割っても時間が正しく出てこないのです。たとえば 片 道 12km だ と す る と 、24(km) / 5(km/h) = 4.8(h)に な っ て し ま い ま す が 、実 際 の 往 路 は 12 (km) / 6 (km/h) = 2(h) で あ り 、復 路 は 12 (km) / 4 (km/h) = 3(h) で 、 往 路 と 復 路 を 併 せ て 5(h)に な り ま す 。 そ こ で 、 次 の よ う な 「 調 和 平 均 」 (Harmonic average: H. Ave.)が 使 わ れ ま す 2 。 片 道 の 距 離 を a (km)と す る と 、 a(km) / 6(km/h)が 往 路 の 時 間 に な り ま す 。 同 様 に 、 復 路 の 時 間 は a (km) / 4(km/h)で す 。 往 路 と 復 路 の 平 均 時 間 (Ave.h)は 2 た と え ば 池 田 (1976: 40-41)を 参 照 。「 調 和 平 均 」は Harmonic mean と よ ば れ て い ま す が 、こ こ で は Harmonic average と し ま す 。 「 平 均 値 」(mean), 「 中 央 値 」 (median), 「 中 間 値 」 (mid)の イ ニ シ ャ ル が す べ て m と な る の で 紛 ら わしいためです。 15 H.ave. = (a / 6 + a / 4) / 2 = [(1 / 6 + 1 / 4) / 2 ] a = [(2 / 12 + 3 / 12) / 2] a = [5 / (12 * 2) ] a = (5 / 24) a = (1 / 4.8) a この第 2 式と最後の式を取り出すと、 [(1 / 6 + 1 / 4) / 2 ] a = (1 / 4.8) a (1 / 6 + 1 / 4) / 2 = 1 / 4.8 1 / [(1 / 6 + 1 / 4) / 2] = 4.8 調 和 平 均 H.ave.を 一 般 式 で 書 く と 次 の よ う に な り ま す 3 。 H.Ave.(x, y) = 1 / [(1 / x + 1 / y) / 2] な お 、こ の 調 和 平 均 は 次 の「 分 数 平 均 」(F.ave.: Fractional average)の 特 殊 な ケ ー ス で す ( 分 母 が 同 数 ) 。 分 母 が 異 な る と き は 次 の 分 数 平 均 (F.Ave) を使います。 ●分数平均 比 率 R 1 と R 2 の そ れ ぞ れ の 分 子 (A 1 , B 1 )と 分 母 (A 2 , B 2 )が わ か っ て い る と き は (R 1 = A 1 / B 1 , R 2 = A 2 / B 2 )、 R 1 と R 2 の 分 子 の 和 (A 1 + B 2 )を 平 均 の 分 子 と し 、R 1 と R 2 の 分 母 (B 1 + B 2 )の 和 を 平 均 の 分 母 と し た 分 数 を 使 う こ と も 考 え ら れ ま す 。 こ れ を 「 分 数 平 均 」 (F.av: Fractional Average)と よ ぶ こ と に し ま す 4。 F.av. = (A 1 + B 2 ) / (B 1 + B 2 ) それぞれの平均の結果は類似することがありますが、比率としての分数を 扱うとき、分数平均は 2 つの分数の元の数に遡って計算するので、他の平 均より正確です。また、結果の解釈もわかりやすいと思います。ちょうど 濃度と量の異なる食塩水を混ぜ合わせた食塩水の濃度のようなものになる か ら で す 。 た と え ば 1/4 と 2/5 と い う 比 率 の 平 均 は 簡 単 な 算 術 平 均 (A.av.) ならば、 A.Ave. = (1/4 + 2/5) / 2 = 0.325, 3 こ こ で は 2 つ の 値 の 調 和 平 均 を 説 明 し ま し た が 、2 個 以 上 で も 同 様 で す 。 H.av. = 1 / {[Σ (1 / x i )] / n}, こ こ で x i は そ れ ぞ れ の 値 を 示 し 、n は x i の 個 数 を示します。 4 一 般 に 「 加 重 算 術 平 均 」 (Weighted arithmetic mean)と よ ば れ て い ま す 。 16 幾 何 平 均 (G.av.)な ら ば G.av. = ( 1 x 2 / 4 x 5) 1 /2 ≒ 0.316 調 和 平 均 (H.av.)な ら ば 、 H.av. = 1 / [(4 / 1 + 5 / 2) / 2] ≒ 0.308 になります。どちらも分子と分母の大きさに関わりなく一義的に計算され ま す 。こ こ で 提 案 し た 分 数 平 均 (F.av.)を 使 う と 、次 の よ う に 計 算 さ れ ま す 。 F.av. = (1 + 2) / (4 + 5) ≒ 0.333 10/40 と 4/10 の そ れ ぞ れ の 平 均 を 比 べ て み ま し ょ う 。 平均 1/4, 2/5 10/40, 4/10 算 術 平 均 A.Ave. 0.325 0.325 幾 何 平 均 G.Ave. 0.316 0.316 調 和 平 均 H.Ave. 0.308 0.308 分 数 平 均 F.Ave. 0.333 0.280 このように、他の平均と比べて、分数平均では第一項の分子と分母を大 きくすると、全体的に薄まって数値が下降していることがわかります。 次の表は、調和平均の説明によく使われる往復(ハイキングなど)の平 均速度の計算を示すものです。この表が示すように、距離と時間のそれぞ れの和から速度を計算すると、調和平均と分数平均は正しい平均値を出し ます。 同距離 昨日 今日 和 算術平均 調和平均 分数平均 距離(km) 12 12 24 時間(h) 2 3 5 速度(km/h) 6 4 4.80 5.00 4.80 4.80 しかし往復ではなく、二日目は一日目の道を引き返すのではなく、さら に先に進むような場合、次のように両日の距離が異なるのがふつうです。 異距離 昨日 今日 和 算術平均 調和平均 分数平均 距離(km) 12 15 27 時間(h) 2 3 5 速度(km/h) 6 5 5.40 5.50 5.45 5.40 このとき、調和平均は距離と時間の和から算定される速度を正しく示し て は い ま せ ん 。分 数 平 均 は 、そ の ま ま 距 離 と 時 間 の 和 か ら 算 定 さ れ る の で 、 17 直感的に理解できると思います。 このように分数平均は、分子の値の和を分母の値の和で割る、という簡 単な操作で求められます。2 つの値だけでなく、次のように N 個のデータ でも、同じ計算方法を使うことができます。 F.av. = (X 1 + X 2 + …, + X n ) / (Y 1 + Y 2 + …, +Y n ) = Sum(X n ) / Sum(Y n ) こ こ で Xi は そ れ ぞ れ の 分 子 の 値 、Yi は そ れ ぞ れ の 分 母 の 値 を 示 し ま す 。 そ う す る と 、Y i が す べ て 1 で あ る と き が 算 術 平 均 に な る こ と が わ か り ま す 。 F.Ave. = (X 1 + X 2 + …, + X n ) / (1 + 1 + …, +1) = Sum(X n ) / N ●切除平均値 デ ー タ の 中 に 極 端 に 大 き な 値 や 小 さ な 値 ( 「 外 れ 値 」 outlier と よ ば れ ま す)があるとき、それが作用して平均値が代表値として役に立たない こと が あ り ま す 。 た と え ば 、 {1, 55, 5, 2, 4}の よ う な デ ー タ で は 55 が あ る た め に 、 全 体 の 平 均 値 が 13.4 に な り 、 こ の 平 均 値 が 対 多 数 を 占 め る {1, 2, 4, 5} からは大きく外れた値になり、代表値として適していません。 そこで外れ値の影響を除くために中央値が使われます。そのためにデー タ を {1, 2, 4, 5, 55}の よ う に 大 小 順 に 並 べ 替 え 、そ の 中 央 に あ る 値 4 を 選 び ます(データ数が偶数のときは中央にある 2 つの数の平均を使います)。 しかし、中央値には中央値以外のデータの大きさは考慮されていません。 た と え ば 、 {2, 3, 4, 6, 9}で も 、 {2, 3, 4, 7, 12}で も 、 中 央 値 は 同 じ 4 に な り ます。このような場合には中央値よりも平均値の方がデータの代表値とし て適しているように思われます。 このように平均値と中央値には一長一短があり、データの代表値として どちらを採用するか迷うことがあります。そこで、平均値と中央値の 2 つ の 考 え 方 を 総 合 し た 「 切 除 平 均 値 」 (trimmed mean [average])と い う 数 値 が 使 わ れ て い ま す 5 。切 除 平 均 値 を 計 算 す る た め に は 、は じ め に デ ー タ の 平 均 値を計算し、次にデータから最大値と最小値を除いたデータの平均値を計 算し、さらにデータがあれば、同様に最大値と最小値を除いたデータの平 均値を計算します。こうして、データがなくなるまで平均値を計算して、 集めた平均値の合計をその平均値の数で割ります。 実際の計算では、最大値と最小値を簡単に探すために、データを大小順 に 並 べ 変 え て お く と よ い で し ょ う 。以 下 に 先 の 例 {1, 55, 5, 2, 4}を 使 っ て 具 体的にプロセスを示します。 (1) (1 + 2 + 4 + 5 + 55} / 5 = 13.4 5 芝 ・ 渡 部 ・ 石 塚 編 『 統 計 用 語 辞 典 』 (新 曜 社 1984)で は 「 切 除 平 均 値 」 は 「調整平均値」と訳されています。 18 (2) (2 + 4 + 5) / 3 = 3.67 (3) (4) / 1 =4 (4) (13.4 + 3.67 + 4) / 3 = 7.02 次は、ほかのデータ例を使ってそれぞれの平均値、 切除平均値、中央値 を比べた結果です。 Inp L1 L2 L3 L4 L5 Inp Average Trim.ave. Median d1 10 19 14 7 12 d1 12.400 12.133 12.000 d2 11 7 10 0 1 d2 5.800 6.267 7.000 d3 0 0 1 12 1 d3 2.800 1.489 1.000 d4 0 1 2 3 3 d4 1.800 1.933 2.000 切 除 平 均 値 (T.ave.)の 計 算 の 過 程 で 、最 初 は 全 体 の 平 均 値 を と り 、最 後 の 平均値は中央値になります。そして途中の平均値は外れ値である可能性が ある最大値と最小値を徐々に取り除いて計算します。そうすると、外れ値 は切除平均値の計算に除外されませんが、考慮される回数が少なくなりま す。逆に中央値に近い数値は考慮される回数が多くなります。 L = Int( 𝑁+1 2 ) T.ave. = [∑𝐿−1 𝑖=0 1 𝑁−2𝑖 ∑𝑁−𝑖 𝑗=1+𝑖 𝑋(𝑗)] / L こ こ で 、 L は (N+1)/2 の 整 数 部 (Int)、 N は デ ー タ 数 、 X(j)は ソ ー ト さ れ た データを示します。 ●大数平均値 データの外れ値の影響を少なくする方法として前出の「 切除平均値」が 考案されました。しかし、切除平均値を計算する過程で各段階の平均を算 出する際、徐々にデータ数が減少し、初めはデータ全体を含みますが、最 後は中央値だけになり、それぞれの平均の母数が異なるので、中央値(付 近)のデータの影響度が非常に大きくなります。 そこで、各段階で最小値と最大値をトリムするのではなく、データ数の 半数以上が含まれるグループを左から徐々に切り出しながら、各段階の平 均 値 を 求 め 、 そ の 和 の 平 均 を 求 め た 「 大 数 平 均 値 」 (Majority average)と い う 数 値 を 考 え て み ま し ょ う 。以 下 に 先 の 例 {1, 55, 5, 2, 4}を ソ ー ト し た デ ー タ (1 + 2 + 4 + 5 + 55}を 使 っ て 具 体 的 に プ ロ セ ス を 示 し ま す 。 デ ー タ 数 は 5 なので、過半数は 3 個になります。 (1) (1 + 2 + 4} / 3 = 2.33 19 (2) (2 + 4 + 5) / 3 = 3.67 (3) (4 + 5 +55) / 3 = 21.33 (4) (2.33 + 3.67 + 21.33) / 3 = 9.11 次は、ほかのデータ例を使ってそれぞれの平均値を比べた結果です。 大 数平均値でも中央値付近のデータは重視されますが、それでも過半数の広 がりの中で平均を求めているので、より「平均性」が高い、と言えるでし ょう。 Inp L1 L2 L3 L4 L5 Row Average Trim. ave. Major ave. d1 10 19 14 7 12 d1 12.400 12.133 12.222 d2 11 7 10 0 1 d2 5.800 6.267 6.000 d3 0 0 1 12 1 d3 2.800 1.489 1.889 d4 0 1 2 3 3 d4 1.800 1.933 1.889 次 が 大 数 平 均 値 (M.ave.)の 算 出 式 で す 。 L = Int( 𝑁+1 ) 2 M = Int( 𝑁+2 2 ) 𝑖+𝐿−1 M.ave. = [∑𝑀 𝑋(𝑗)] / (L * M) 𝑖=1 ∑𝑗=𝑖 ここで、L は過半数の幅、M は最後のデータセットの開始位置を示しま す。 ●歪度 平均値を中心にして、データの左右の偏りを計る指標として、「歪度」 ( わ い ど ) (skewness: Sk)が 使 わ れ ま す ( 芝 ・ 渡 部 ・ 石 塚 1984: 282) 。 歪 度 を 算 出 す る た め に 、 初 め に デ ー タ を 「 標 準 得 点 」 (Standard score)に 変 換 し なければなりません(後述→「標準得点」)。標準得点はそれぞれの数値 から平均を引き、標準偏差で割った値です。歪度は、標準得点の 3 乗和を データ数で割った値です。 Sk = Sum{E[(Dn – Ave(Dn)) / Sd(Dn), 3]} / Ctn(Dn) こ こ で 、 Sum(X n p )は 行 列 X np の 成 分 の 総 和 を 示 し 、 E(X np , Y)は 行 列 X n p の 成 分 を そ れ ぞ れ Y 乗 に し た 行 列 を 示 し 、 Ave(Dn), Sd(Dn), Ctn(Dn)は 、そ れ ぞ れ Dn の 成 分 の 平 均 、 標 準 偏 差 、 個 数 を 示 し ま す 。 データの標準測度は平均よりも大きければプラスになり、小さければマ イナスになるので、その 3 乗もプラスとマイナスの符号は変わりません。 20 標準測度をそのまま使わずにそれを 3 乗にする理由は、標準測度の分子が 偏 差( デ ー タ 値 –平 均 )な の で 、そ の ま ま 総 和 を 出 す と 、ど の よ う な デ ー タ でもゼロになってしまうからです(後述→●「偏差の和はゼロ」)。 歪度は標準測度の 3 乗和の平均なので標準測度が正規化されていないた め ( –1 ~ 1 の 範 囲 に な ら な い ) 、 歪 度 も 正 規 化 さ れ て い な い こ と を 次 の デ ータで確認しておきましょう。 横軸 平均値 歪度 A L1 L2 L3 L4 L5 d1 10 19 14 7 12 d1 12.400 .367 d2 11 7 10 0 1 d2 5.800 -.192 d3 0 0 1 12 1 d3 2.800 1.465 d4 0 1 2 3 3 d4 1.800 縦軸 L1 L2 L3 L4 -.363 L5 平均値 5.250 6.750 6.750 5.500 4.250 歪度 .014 .775 .183 .263 1.049 ●偏差の和はゼロ 偏 差( デ ー タ –平 均 )の 和 (SumDv)が ゼ ロ に な る こ と は 感 覚 的 に 理 解 で き ますが、数理で確認しておきましょう。 Ave(Dn) = Sum(Dn) / N … Dn の 平 均 =Dn の 和 / N Dv = Dn – Ave(Dn) …偏 差 ベ ク ト ル Sum(Dv) = Sum[Dn – Ave(Dn)] …偏 差 の 和 = Sum(Dn) – N [Ave(Dn)] …2 項 の 和 を 分 離 す る = Sum(Dn) – N [Sum(Dn) / N] …Ave(Dn)は Dn の 平 均 = Sum(Dn) – Sum(Dn) = 0 …2 項 と も Dn の 和 ■言語データの L 字型分布 身長や学力などの「正規分布」とよばれる分布を示すデータの頻度とそ の順位は下図(行:順位、列:頻度)のようになります。つまり、順位の 最下位と最上位の数は少なく、中央値が平均値にほぼ一致して高頻度とな ります。一方、言語データ(文字、音韻、語彙、など)は、高順位のデー タ(少数)の頻度がきわめて高く、低順位のデータ(多数)の頻度がきわ めて低い、という特徴を示します。これは「L 字型分布」とよばれていま す 。以 下 で 示 す よ う に 、正 規 分 布 を 示 す デ ー タ と L 字 型 分 布 を 示 す デ ー タ は扱い方が異なります。 21 2.5. 最頻値 デ ー タ の 中 で 最 も 多 く 現 れ る 数 値 は 「 最 頻 値 」 (Mode)と よ ば れ ま す 。 横軸 最頻値 12 d1 No mode No mode 0 1 d2 No mode No mode 1 12 1 d3 No mode No mode 2 3 3 d4 3 3: 2 D L1 L2 L3 L4 L5 d1 10 19 14 7 d2 11 7 10 d3 0 0 d4 0 1 最頻値:頻度 こ の デ ー タ の d1 と d2 は ど れ も 異 な る 数 値 な の で 最 頻 値 が あ り ま せ ん 。 d3 は 0 と 1 が そ れ ぞ れ 2 回 ず つ 現 れ て い る の で 、最 頻 値 が 決 定 で き ま せ ん 。 d4 で は 、 3 が 2 回 現 れ て い る の で 、 こ れ が 最 頻 値 に な り ま す 。 ●大数最頻値 最頻値はそれぞれのデータが異なる数値を示しているときには役立ちま せ ん 。 ま た 、 最 頻 値 と 2, 3…番 目 に 頻 度 が 高 い 値 が 離 れ て い る と き は 、 そ の最頻値だけが「最頻性」を代表している、とは言えないでしょう。そこ で数値が集中しているデータの探し方として、データの過半数ができるだ け狭い範囲に集中しているデータセットの平均を、集中した数値として代 表 さ せ る 方 法 を 考 え ま す 。こ れ を「 大 数 最 頻 値 」Majority mode と よ ぶ こ と にします。ここで、「最も多く存在する同一の値」という「最頻値」とい う概念を「最も多く存在する、近い値の中心」という概念に拡大します。 た と え ば d1 = {10, 19, 14, 7, 12}を ソ ー ト し た {7, 10, 12, 14, 19}と い う 行 に つ い て 、次 の よ う に 個 数 =5 の 過 半 数 3 個 で 一 番 小 さ い 数 値 範 囲 の デ ー タ セット(下線)を探します。 1: {7, 10, 12, 14, 19} 範 囲 : 12 – 7 = 5 2: {7, 10, 12, 14, 19} 範 囲 : 14 – 10 = 4 3: {7, 10, 12, 14, 19} 範 囲 : 19 – 12 = 7 22 こ こ で 、2:の 範 囲 (14-10=4)が 一 番 小 さ い の で 、こ の デ ー タ セ ッ ト の 10, 12, 14 の 平 均 12 を 大 数 最 頻 値 と し ま す 。 最 小 の 範 囲 が 複 数 あ る と き に は 、 セ ッ ト の 幅 を 3, 4, 5 の よ う に 1 つ ず つ 増 や し て 検 索 を 続 け ま す 。極 端 な 場 合 と し て 、 {3, 4, 5, 6, 7}の よ う に 連 続 す る デ ー タ セ ッ ト で は 、 ど の よ う な 幅 のデータセットをとっても集約させることができません。そのときは最大 の 幅 と し て デ ー タ の 大 き さ (5)を 使 う こ と に な り 、こ の 場 合 は 平 均 値 と 等 し くなります。 横軸 大数最頻値 大数最頻値:範囲 D L1 L2 L3 L4 L5 d1 10 19 14 7 12 d1 12.000 10.000 - 14.000 d2 11 7 10 0 1 d2 9.333 7.000 - 11.000 d3 0 0 1 12 1 d3 .500 .000 - 1.000 d4 0 1 2 3 3 d4 2.667 2.000 - 3.000 2.6. 分散・標準偏差 分 布 の 様 子 ( 散 ら ば り 方 ) を 示 す 指 標 と し て の 「 分 散 」 (Variance: V)と 「 標 準 偏 差 」 (Standard deviation: Sd)が 使 わ れ ま す 。 分 散 (V)は そ れ ぞ れ の デ ー タ 値 (Dn)か ら 平 均 (Ave)を 引 い た 偏 差 の 2 乗 和 を デ ー タ の 個 数 で 割 っ た 値 で す 。 標 準 偏 差 (Sd)は 分 散 の 2 乗 根 で す 。 Ave = Sum(Dn) / N V = Sum(Dn – Ave) / N Sd = V 1 /2 統計量 分散 a.効果がある b.楽しい 統計量 全体 分散 846.96 667.11 759.44 標準偏差 25.83 27.56 標準偏差 29.10 変動係数 0.37 0.59 変動係数 0.50 集中度 0.14 0.22 正規変動係数 0.13 拡散度 0.86 0.78 拡散度 0.87 ●変動係数・正規変動係数・拡散度 標準偏差は個々のデータの規模(平均)が大きくなると、それに応じて 大きくなる性質があります。そこで、こうした規模の違いを超えて比較で き る よ う に 標 準 偏 差 を 平 均 で 割 っ た 値 が 「 変 動 係 数 」 (Coefficient of variation: Cv)で す 6 。 標 準 偏 差 も 平 均 も デ ー タ の 規 模 を 反 映 し て い ま す か ら 、 標準偏差を平均で割った変動係数はデータの規模に左右されることなく、 6 芝他『統計用語辞典』(新曜社) 23 だいたいのばらつき具合がわかります。 次 に 、標 準 偏 差 を [0.0 ~ 1.0]の 範 囲 を も つ 値 に し た も の を「 正 規 変 動 係 数 」 (Normal coeficient of variation: N.C.V.)と よ ぶ こ と に し ま す 。 標 準 変 動 係 数 は 標 準 偏 差 (Sd.)を そ の 最 大 値 Sd.max で 割 る こ と で 求 め ら れ ま す 7 。 N.C.V. = Sd. / Sd.max 先 に 見 た よ う に 標 準 偏 差 Sd.は 次 の よ う に 定 義 さ れ て い ま す 。 Sd = {[(x 1 –m) 2 + (x 2 – m) 2 + … + (x n – m) 2 ] / n} 1 /2 Sd = Sqr(V) = Sqr[Sum(Dn – Ave) / N] こ こ で 、 た と え ば {10, 0, 0, 0, 0}と い う よ う な 1 つ だ け に 数 値 が あ る デ ー タを考えましょう。このようなときが変動係数が最大値になるときです。 こ こ で 一 般 化 し て {K, 0, 0, …, 0}と い う N 個 の デ ー タ を 考 え ま す 。 そ う す る と 、 上 の 式 の 分 子 の 第 1 項 だ け が (K – Ave) 2 に な り 、 残 り N – 1 個 は ど れ も (0 – Ave) 2 = Av 2 に な り ま す 。 よ っ て 変 動 係 数 の 最 大 値 は 、 Sd.max = {([(K – Ave) 2 + (N – 1)Av 2 ]} 1 /2 このとき K 以外にデータがないので K が総和になります。よって、 K = Sum(Dn) = N Ave という関係がわかります。よって Sd.max = {[(N Ave – Ave) 2 + Ave 2 (N – 1)] / N} 1 /2 = {[(Ave (N – 1)) 2 + Ave 2 (N – 1)] / N} 1 /2 = {[Ave 2 (N – 1) 2 + Ave 2 (N – 1)] / N} 1 /2 = {(Ave 2 (N – 1) [(N – 1) +1] / N} 1 /2 = {(Ave 2 (N – 1) N / N} 1 /2 = [(Ave 2 (N – 1)] 1 /2 = Ave (N – 1) 1 /2 よ っ て 、 正 規 標 準 偏 差 (N.S.D.)は 、 N.C.V. = Sd. / Sd.max = Sd. / [Ave (N – 1) 1 /2 ] 正 規 変 動 係 数 (N.C. V.)と 変 動 係 数 (C.V.)の 違 い は 、正 規 標 準 偏 差 の 分 母 に (N – 1) 1 /2 を 掛 け て い る こ と で す 。デ ー タ 行 列 は 一 般 に N の 数 値 が 大 き い の で、正規標準偏差は小さくなります。そのような場合には正規標準偏差は 7 この正規化の方法は以下でもしばしば使います。 24 個体間の得点の変動ではなく、むしろ比較的少数の変数間の変動を見ると きに使うべきです。 ■語の使用度 A. Juilland and E. Chang and Rodríguez. Frequency dictionary of Spanish words, (The Hague: Mouton, 1964)は 5 つ の 分 野( 演 劇 、小 説 、随 筆 、科 学 技 術 文 、報 道 文 )の 言 語 資 料 で 使 わ れ る ス ペ イ ン 語 単 語 の 頻 度 辞 典 を 作 成 し 、 単 語 の 「 使 用 度 」 (Usage: U)を 示 す 数 値 と し て 、 U =Fx D と い う 式 を 提 案 し ま し た 。 こ こ で F は 単 語 の 頻 度 (Frequency)を 示 し 、 D は 分 野 間 の 「 拡 散 度 」 (Dispersion)を 示 し ま す 。 つ ま り 、 単 語 の 使 用 度 を 見 る た め に は 頻 度 (F) だ け で な く 、 各 分 野 に 均 等 に 使 用 さ れ て い る 度 合 ( 拡 散 度 : D)も 勘 案 す べ き だ と い う 考 え 方 で す 。 そ し て 、 次 の よ う な 拡 散 度 (D) の式が提示されました。 D = 1 – 標 準 偏 差 / (2 x 平 均 値 ) 分 母 に あ る 2 は (分 野 数 5 – 1) 1 /2 の こ と だ と 思 い ま す 。 よ っ て 次 の よ う な 関係になります。 拡 散 度 (D) = 1 – 正 規 変 動 係 数 (N.C.V.) 2.7. 弁別度・対立度 たとえばある言語の古文献に i と j という文字が用いられ、どちらも 同 じ 条 件 で /i/ と い う 音 韻 を 示 し て い た と し ま す 。 そ れ ぞ れ の 頻 度 (F) が F(i)=32 と F(j)=2 の 間 の よ う に 大 き な 差 が あ れ ば 、 ほ と ん ど の ケ ー ス で j が使われたことになるので、その弁別する力は強かったと判断できます。 一 方 、そ れ が 32 と 28 の よ う に 僅 差 で あ れ ば 、i ~ j は ほ と ん ど「 自 由 変 異 」 (free variation)で あ っ た 、つ ま り 両 者 は 弁 別 さ れ て い な か っ た と 考 え ら れ ま す 。 そ こ で 、 「 弁 別 度 」 Distinction grade : Dg を 次 の よ う に 定 義 し ま す 。 Dg(i, j) = [F(i) – F(j)] / F(i) こ こ で F(i)は i の 頻 度 を 示 し 、F(j)は j の 頻 度 を 示 し ま す 。F(i)と F(j)が 等 し い と 弁 別 度 は ゼ ロ に な り 、F(j)が ゼ ロ に な る と i の 弁 別 度 は 1 に な り ま す 。 こ の 弁 別 度 は バ リ ア ン ト が 2 つ の 場 合 に つ い て 計 算 し ま し た 。さ ら に i, j だけでなく y が現れる文献では、次のように計算します。 Dg(i : j, y) = {F(i) – [F(j) + F(y)] } / F(i) 25 一 般 に Fn = F(1, 2, …, n)の 中 の F(1)の 弁 別 度 Dg(1)は 、 Dg(1) = {F(1) – [F(2) + F(3) + … F(n)] } / F(1) = {F(1) – [Sum(Fn) – F(1)] } / F(1) = [2 F(1) – Sum(Fn)] / F(1) = 2 – Sum(Fn) / F(1) F(1)を F(1, 2, …, n)の 最 大 値 (Max(Fn))と す れ ば 、 Dg(Max(Fn)) = 2 – Sum(Fn) / Max(Fn) と な り ま す 。 こ の 弁 別 度 は 、 成 分 の 最 大 値 F(1) = Max(Fn)が 他 の 成 分 の 和 ( [F(2) + F(3) + … F(n)])よ り も 小 さ い と マ イ ナ ス に な り 、そ の 理 論 的 最 小 値 が一定になりません。そこで、先の弁別度の分母を次のように対照型にし て 、 新 た に 「 対 立 度 」 (Opposition grade: Og)を 設 定 し ま す 。 Og(i, j) = [F(i) – F(j)] / [F(i) + F(j)] = [F(i) – F(j)] / Sum(Fn) 一 般 に F(1, 2, …, n)の 中 の F(1)の 対 立 度 (Og(1))は 、 Og(1) = {F(1) – [F(2) + F(3) + … F(n)] } / {F(1) + [F(2) + F(3) + … F(n)] } = {F(1) – [Sum(Fn) – F(1)] } / Sum(Fn) = [2 F(1) – Sum(Fn)] / Sum(Fn) = 2 F(1) / Sum(Fn) – 1 F(1)を F(1, 2, …, n)の 最 大 値 Max(Fn)と す れ ば 、 Og(Max(Fn)) = 2 Max(Fn) / Sum(Fn) – 1 となります。 一般に、成分の最大値が他の成分の和よりも大きいときには弁別度を使 用し、そうでないときは対立度を使用するとよいでしょう。 ■ 16-17 世 紀 の ス ペ イ ン 語 の u と v 従 来 の 研 究 で は 15-17 世 紀 ス ペ イ ン で 発 刊 さ れ た 書 籍 で は u と v が 弁 別 せ ず に 使 わ れ て い た 、 と 説 明 さ れ て い ま す 。 次 は 15-17 世 紀 に ス ペ イ ン で 発刊された 6 冊の本(初頭から 2 万字に限る)について、文字 u と v の頻 度と弁別度を計算したものです。 26 全体 1.Nb 2.Rj 3.Lz 4.Cv 5.Qv 6.Gc Total u 949 820 1.040 1250 1051 849 5959 v 165 139 191 194 209 402 1300 0.826 0.830 0.816 0.845 0.801 0.527 0.782 弁別度 このように全体を見るとたしかに比較的弁別度が低いことがわかります。 ところが、文字の現れる位置について、それぞれの弁別度を計算してみる と 、 次 の よ う に な り ま し た 8。 位置 1.Nb 2.Rj 3.Lz 4.Cv 5.Qv 6.Gc Tot al #_V 0.974 1.000 0.942 1.000 1.000 1.000 0.996 #_C 1.000 1.000 0.985 1.000 1.000 1.000 0.896 V_V 0.625 1.000 1.000 1.000 1.000 0.939 0.757 V_C 0.971 0.429 0.917 1.000 1.000 0.978 0.929 C_V 0.967 1.000 0.998 1.000 0.998 0.901 0.980 C_C 0.995 1.000 1.000 1.000 0.996 0.997 0.998 た し か に 、 複 数 の 本 を 取 り 上 げ れ ば 全 体 的 に u-v の 弁 別 が な い よ う に 見 えます。しかし、それぞれの本の中では、下線のような弁別度が低い本も ありますが、それを除けば文字の位置によって比較的統一されていたこと がわかります。一般に、データの分布にさまざまな要因が隠れているにも かかわらず、それを見ないで全体的な把握をすると、弁別や対立の真の姿 を見失うことがあります。 ●検索 データ行列の特徴的な値を観察するために特定の条件に一致したセルの文 字 色 や 背 景 色 を 変 え ま す 。た と え ば 、「 A 以 上 」と い う 条 件 に つ い て「 A」 に あ た る 部 分 を 「 A:」 の コ ン ボ ボ ッ ク ス か ら 選 択 し ま す 。 「 平 均 」 を 選 択 すると「平均以上」が条件になりまる。ここで「指定」を具体的な数値に すると、その数値以上の値を持つセルを検索します。 データ データ v-1 v-2 v-3 v-4 v-5 d-1 10 40 70 50 20 d-2 20 40 60 50 20 d-3 100 400 700 500 200 8 ここでは最大値を示すバリアントの弁別値を計算したので、すべてプラ ス の 値 に な り ま し た 。v が 使 わ れ る ほ う が ふ つ う の 位 置 で は 、u の 弁 別 値 が マイナスになります。 27 条 件 : A 以 上 、 A:平 均 結果 データ v-1 v-2 v-3 v-4 v-5 d-1 10 40 70 50 20 d-2 20 40 60 50 20 d-3 100 400 700 500 200 次 は「 文 字 色 」と「 背 景 色 」を「 不 変 」と し 、「 変 換 」の「 一 致 」を「 v」、 「不一致」を空白とした場合の入力と出力です。 項目 a.役立つ b.楽しい 項目 a.役立つ b.楽しい A.文法解説 86 29 A.文法解説 v B.ビデオ 53 78 B.ビデオ v C.活動 48 53 C.活動 v D.映画 43 96 D.映画 v E.音読 110 42 E.音読 v F.筆写 93 11 F.筆写 v G.観察 37 50 G.観察 H.小テスト 89 15 H.小テスト v v ■異常値と欠測値 サンプルのデータ行列は小さなものですが、実際の言語データ分析では 行数も列数もかなり大きな行列を扱うことがあります。そのとき、それぞ れ の セ ル の デ ー タ は 全 体 の 中 に 紛 れ て し ま い 、貴 重 な 情 報 が 見 失 わ れ ま す 。 とくに「異常値」とよばれるデータに注目しなければなりません。そこ に何か特別なことが生じているためです。一般にデータ分析では普通では ないデータを異常値として退けるのではなく、むしろそのようなデータが 特別な「情報」をもっている、とも考えられます。逆に普通のことにはあ ま り 情 報 が あ り ま せ ん 。そ こ で 平 均 か ら の 距 離 が 大 き な 値 や 上 位 N 番 な ど をマークして注目するのです。 デ ー タ 行 列 の「 欠 測 値 」(missing value)も 異 常 値 の 1 つ と 考 え ら れ る で し ょ う 。次 の サ ン プ ル デ ー タ で は 、10 点 満 点 の テ ス ト で 欠 席 の ケ ー ス x で マ ー ク し て あ り ま す が 、「 指 定 」「 N:x」で さ ら に 背 景 色 や 文 字 色 を 変 え て み ました。このようにデータを視覚化すると、欠測値を見失うことはありま せん。欠測値については後述します。. 28 29 3. 変 換 データ行列の成分全体を一定の規則で変換することがあります。変換す るための規則にはデータ分析の目的によってさまざまなものがあります。 3.1. 得点 こ の 節 で は 、デ ー タ を 構 成 す る 個 々 の デ ー タ の「 得 点 」(Score)に 着 目 し 、 データ内のそれぞれの値の特徴をデータ全体の中で観察します。以下で扱 う得点の中には「度数」という用語を使って「相対度数」「期待度数」の ように一般によく使われるものもありますが、「加重得点」「限定得点」 「 代 表 得 点 」「 卓 立 得 点 」は 一 般 に 使 わ れ て い ま せ ん 。「 標 準 得 点 」は「 標 準スコア」「標準測度」などとよばれますが、ここではデータの個々の数 値を変換した値を成分としてもつ行列をすべて「得点行列」という用語で 統一しました。 3.1.1. 修 正 得 点 実測値に適当な数値を加減乗除したり、指数化したり、対数化したりす ることがあります。とくに、言語数量データは指数関数のような頻度分布 を示すことが多いので、そのようなときは対数変換が有効です。このよう に 実 測 値 に 一 定 の 修 正 を 加 え た 得 点 を 「 修 正 得 点 」 (Modified Score: M.S.) とよぶことにします。 下 左 図 は 実 測 値 Observed Score: O.S. 、下 右 図 は 実 測 値 .に 2 を 加 算 し た 修 正得点行列です。 O.S. L1 L2 L3 L4 L5 w1 10 19 14 7 12 w2 11 7 10 0 1 w3 0 0 1 12 1 w4 0 1 2 3 3 M.S.Add L1 L2 L3 L4 L5 w1 w2 w3 w4 12 21 16 9 14 13 9 12 2 3 2 2 3 14 3 2 3 4 5 5 こ の よ う に 、デ ー タ 行 列 Dnp の 個 々 の 成 分 に 一 定 の 数 値 (2)を ス カ ラ ー と して加える、という操作を行列演算式と行列関数で示すと次のようになり ます。 D n p + 2 = R np , R n p = A(D n p , 2) こ こ で 、 Dnp が 上 左 表 (O.S.)に 対 応 し 、 Rnp は 上 右 表 (M.S.Add.)に 対 応 し ます。A は行列、ベクトル、数値の加算を示す行列関数です。この行列関 30 数 は 、 こ の 演 算 に 必 要 な 2 つ の 引 数 (argument)を 受 け 取 る と 、 そ の 和 と な る 1 つ の 行 列 を 返 し ま す (return)。こ の よ う な プ ロ グ ラ ム の 作 成 法 に つ い て は、後述します。 下 左 図 は 実 測 値 の 対 数( 底 =2)を 示 す 修 正 得 点 で す 。左 図 の #NUM!が 示 す よ う に 、 ゼ ロ (0) の 対 数 は 定 義 さ れ ま せ ん が 、 NUMEROS で は Log(0) が Log(1)=0 よ り も 小 さ な 数 、と い う 考 え 方 で Log(0)=0 と 定 義 し て ま す 。こ れ は数学的には正しくありませんが、大きな数を含むデータ全体を見渡すと きに、実測値 0 を外すわけにはいかない、という実際的な理由によるもの です。 M.S.Log. L1 L2 L3 L4 L5 M.S.Log. L1 L2 L3 L4 L5 w1 3.32 4.25 3.81 2.81 3.58 w1 3.32 4.25 3.81 2.81 3.58 w2 3.46 2.81 3.32 #NUM! .00 w2 3.46 2.81 3.32 .00 .00 w3 #NUM! #NUM! .00 3.58 .00 w3 .00 .00 .00 3.58 .00 w4 #NUM! .00 1.00 1.58 1.58 w4 .00 .00 1.00 1.58 1.58 ■語彙の文法カテゴリーと出現頻度 次 は セ ル バ ン テ ス『 ド ン ・ キ ホ ー テ 』(1605, 1615)の 全 出 現 語 彙 を 文 法 カ テゴリーと頻度のランクによって分類したものです。頻度のランクは出現 度 数 を 対 数 に 変 換 し 、 そ れ に 従 っ て 1( 最 小 頻 度 ) か ら 10( 最 大 頻 度 ) に 分類しました(後述の「限定得点」による)。それぞれのセルには該当す る異なり語数を示しています。 31 Grammatical category (Members) and Rank (1 – 10) Category / Rank Noun 1 2 3 4 5 6 7 8 9 10 Total 1656 973 579 349 171 70 10 2 4 Verb 631 399 271 183 93 41 16 9 2 Adjective 562 279 191 122 39 25 5 2 1 8 4 169 Adverb 55 36 20 17 18 11 Interjection 10 7 3 1 1 Numeral 7 8 8 8 Demonstrative pronoun 1 2 Indefinite pronoun 2 2 1 Interrogative 1 2 22 1 3 1 36 1 1 1 6 8 3 16 2 1 2 2 1 1 1 3 2 2 2 1 4 4 1 3 2 3 21 11 10 5 4 3 2 39 1 4 3 2 13 Unstressed personal pronoun 3 7 Relative 1 3 Personal pronoun tonic 1 Preposition 3 Determinant Conjunction 4 1 1 1 8 12 3 13 1 5 語彙は冠詞や前置詞・接続詞などの「機能語」(一般に高頻度で小数メ ンバー)と、名詞、形容詞、動詞などの「内容語」(一般に低頻度で多数 メンバー)に分類されます。しかし、上の表を見ると、機能語であっても 比較的低頻度の語があり、また、内容語であっても比較的頻度が高い語が あります。そこで、二分される文法カテゴリーと段階的な頻度について、 次のような 4 分割をしてみました。 Lexicon type / Frequency High Frequency Low Frequency Function Words Grammatical Words Instrumental Words Content Words Common Words Specific Words 一般に、高頻度語は短縮しやすく、また、高頻度の不規則変化形が保持 されやすい、と言われます。しかし、短縮化と語形の保持というのでは、 一見、反対方向の変化のように思われます。そこで、それぞれのメンバー を調べると、傾向として、語彙の短縮化はむしろ高頻度の機能語 ( Grammatical Words: 強 勢 ア ク セ ン ト が な い た め 弱 化 ) で 起 こ り や す く 、 一 方 、 不 規 則 変 化 の 保 持 は 高 頻 度 の 内 容 語 ( Common Words: 強 勢 が あ る ので弱化しない)の特徴だということがわかりました。そこで、言語変化 の直接的な要因として頻度を考えるのではなく、むしろ、語の機能の違い が、語彙の頻度や語形の(不)変化を引き起こしている、と考えたほうが よいと思います。 32 3.1.2. 相 対 得 点 先に見た実測値の問題点は、行と列ごとにスケールが異なるため、比較 が 難 し い と い う こ と で す 。た と え ば 、w1 の 11 と w4 の 10 を そ の ま ま 比 較 することができません。それぞれの和と平均が異なるからです。そこで有 効 に な る の が 「 相 対 得 点 」 (Relative Score: R.S.)( 割 合 ) で す 。 そ れ ぞ れ の 得 点 x を 和 Sm で 割 る こ と で 算 出 で き ま す 。 x = 0 の と き R.S.の 最 小 値 は 0 で 、 x = Sm の と き 最 大 値 1 に な り ま す 9 。 R.S. = x / Sm R.S.: [0.0 (x = 0) ≦ 0.5 (x = Sm/2) ≦ 1.0 (x = Sm)] データを相対化することによって、さまざまな性格をもつデータを一定 の範囲で比較することが可能になります。 は じ め に Excel 関 数 SUM を 使 っ て 、行 和 (Sm.r)、列 和 (Sm.c)、総 和 (Sm.a) を用意します。 実測値 L1 L2 L3 L4 行和 L5 w1 10 19 14 7 12 62 w2 11 7 10 0 1 29 w3 0 0 1 12 1 14 w4 0 1 2 3 3 9 列和 21 27 27 22 17 114 (1) 行 と 列 の 相 対 得 点 R.F.r. L1 L2 L3 L4 L5 R.F.c L1 L2 L3 L4 L5 w1 .16 .31 .23 .11 .19 w1 .48 .70 .52 .32 .71 w2 .38 .24 .34 .00 .03 w2 .52 .26 .37 .00 .06 w3 .00 .00 .07 .86 .07 w3 .00 .00 .04 .55 .06 w4 .00 .11 .22 .33 .33 w4 .00 .04 .07 .14 .18 相 対 得 点 は 行 に つ い て も (Relative Score in row: R.S.r.)、 列 に つ い て も (Relative Score in column: R.S.c.)、 そ れ ぞ れ 計 算 す る こ と が で き ま す 。 行 相 対 得 点 (R.S.r.) = x / Sm.r 列 相 対 得 点 (R.S.c.) = x / Sm.c こ こ で 、 x は そ れ ぞ れ の セ ル の 値 で す 。 Sm.r が 行 (row)の 和( 行 和 )を 示 し 、Sm.c は 列 (column)の 和( 列 和 )を 示 し ま す 。た と え ば 、相 対 得 点( 行 ) 9 こ の 数 値 に 100 を 掛 け た 値 が 「 百 分 率 」 (percent)で す 。 33 の w3 で は x = 11 な の で 、 そ れ を Sm.r (= 29)で 割 る と 11 / 29 = 0.38 になります。 ◆ Excel で は す べ て 参 照 を 使 い ま す 。相 対 得 点( 行 )で は 、 = B18 / $G18 の よ う に 分 母 の 列 文 字 ( こ こ で は G) を 絶 対 参 照 し ま す 。 分 子 は 列 も 行 も 相 対参照します。それを全範囲にコピーします。次がその結果です。同様に し て 相 対 得 点 ( 縦 列 ) を 作 成 し ま す 。 こ の と き 、 分 母 Sm.c.は 最 下 行 の 和 の セ ル を 参 照 し ま す 。 相 対 得 点 ( 列 ) で は 、 = B18 / B$22 の よ う に 、 分 母 の行番号を絶対参照します。 (2) 行 列 と 全 体 の 相 対 得 点 R.F.b L1 L2 L3 L4 L5 R.F.a. L1 L2 L3 L4 L5 w1 .24 .43 .31 .17 .30 w1 .09 .17 .12 .06 .11 w2 .44 .25 .36 .00 .04 w2 .10 .06 .09 .00 .01 w3 .00 .00 .05 .67 .06 w3 .00 .00 .01 .11 .01 w4 .00 .06 .11 .19 .23 w4 .00 .01 .02 .03 .03 行 と 列 を 総 合 し た「 行 列 相 対 得 点 」Relative Score in matrix: R.S.m. を 次 の ように定義します。 R.S.m. = 2 Xnp / [NumR(Xnp) + NumC(Xnp)] こ こ で 行 の 相 対 得 点 と 列 の 相 対 得 点 の「 分 数 平 均 」 (→「 統 計 量 」「 平 均 値 」 ) を 使 う こ と に し ま す 。 つ ま り 、 行 の 相 対 得 点 Xnp/ NumR(Xnp)と 列 の 相 対 得 点 NumC(Xnp)の そ れ ぞ れ の 分 子 を 足 し た も の を 分 子 と し( こ こ で は分子は同じなので、それぞれもセルの値を 2 倍します)、それぞれの分 母 を 足 し た も の を 分 母 と し た も の で す 。た と え ば w1:L1 の 分 数 平 均 は 行 の 平 均 が 10/62、 列 の 平 均 が 10/21 な の で 、 (10 + 10) / (62 + 21) = 0.24 に な り ま す 。◆ Excel で は =2*B4/($G4+B$8)の よ う に 、そ れ ぞ れ の 行 和 、列 和 を 複 合参照し、分子を相対参照します。 「 全 体 相 対 得 点 」 Relative Score in all: R.S.a. は 、 そ れ ぞ れ の セ ル の 値 を 全 範 囲 の 和 Sm.a で 割 っ た も の で す 。 上 右 図 の よ う に 数 値 が 非 常 に 小 さ く な る 傾 向 が あ り ま す 。◆ Excel で は = B18 / $G$22 の よ う に 、分 母 を 絶 対 参 照にして動かしません。 R.S.a. = x / Sm.a. 割 合 や 百 分 率 な ど の 相 対 得 点 (R.S.)の 問 題 点 は 、デ ー タ の 規 模 が 大 き く な る と 分 母 が 大 き く な る の で 、 R.S.が 小 さ な 数 値 に な り や す い こ と で す 。 と く に 全 体 相 対 得 点 (R.S.a.)が 小 さ な 数 値 に な る 傾 向 が あ り ま す 。 34 ●相対値と対照値 数 値 X と 数 値 Y を 比 較 す る に は 、 「 差 」 (X – Y)と 「 比 」 (X / Y)が 使 え ま す 。 さ ら に 、 X / (X + Y), Y / (X + Y)と い う 式 も 考 え ら れ ま す 。 こ れ は 、 分 子 の X や Y を 全 体 (X + Y)の 中 で 相 対 化 し て い ま す 。 こ れ を 「 相 対 値 」 (Relative value: R.v.)と よ ぶ こ と に し ま す 。 相 対 値 (R.v.) = X / (X + Y) 相 対 値 は [0.0 ~ 1.0]の 範 囲 を 持 ち ま す 。 最 小 値 (0.0)は X = 0 の と き 、 最 大 値 (1.0)は Y = 0 の と き に 発 生 し ま す (X / X = 1)。中 間 値 は X = Y の と き に 発 生 し ま す (X / (2 X) = 1/2)。 ま た 、 (X – Y) / (X + Y)と い う 計 算 も よ く 使 わ れ ま す 。 こ れ を 「 対 照 値 」 (Contrastive value: C.v.)と よ ぶ こ と に し ま す 。 対 照 値 (C.v.) = (X – Y) / (X + Y) 次 が 先 に 扱 っ た デ ー タ の 行 相 対 得 点 (R.F.r)を 対 照 値 (R.F.r.+c)に 変 換 し た 結果です。ここで Y は横和から X の値を引いた値になります。 R.F.r. L1 w1 w2 w3 w4 .16 .38 .00 .00 L2 L3 L4 L5 R.F.r.+c L1 L2 .31 .24 .00 .11 .23 .34 .07 .22 .11 .00 .86 .33 .19 .03 .07 .33 w1 w2 w3 w4 -0.68 -0.24 -1.00 -1.00 -0.39 -0.52 -1.00 -0.78 L3 L4 L5 -0.55 -0.77 -0.61 -0.31 -1.00 -0.93 -0.86 0.71 -0.86 -0.56 -0.33 -0.33 対 照 値 の 範 囲 は [-1.0 ~ 1.0]に な り ま す 。0.0 を 中 心 に し て 、正 負 が 対 照 的 に な り ま す 。 最 小 値 (-1.0)は X = 0 の と き 、 そ し て 最 大 値 (1.0)は Y = 0 の と き に 発 生 し ま す 。中 間 値 は 0.0 で す が 、や は り X = Y の と き に 発 生 し ま す 。 このように、対照値の最大値と最小値はそれぞれ「割合」と同じ条件で発 生しますが、その範囲が異なります。 相対値と対照値は次の関係があります。 相 対 値 ×2 – 1 = 対照値 2 [X / (X + Y)] – 1 = 2X / (X + Y) – 1 = [2X – (X + Y)] / (X + Y) = (X – Y) / (X + Y) この 2 つの値は便利なモデルなので、あえて「相対値」と「対照値」と い う 名 前 を つ け て お く こ と を 提 案 し ま し た 。相 対 値 は 一 般 に「 割 合 」(ratio) ともよばれていますが、割合は「X / 全体」という式で示されます。ここ 35 で「 相 対 値 」と よ ぶ 概 念 は 本 質 的 に は 割 合 と 同 じ で す が 、分 母 の 中 を X と Y, つ ま り 、 比 較 す る も の と 比 較 さ れ る も の を 分 け て 考 え ま す 。 そ の よ う に見ると、以下で扱うように、いろいろなことがわかるからです。割合で は隠れて見えなかったことが、相対値にすると、自己を含めた全体と比べ る、ということからわかることがあるからです。 一 方 、 対 照 値 は 「 自 己 と 他 者 の 差 」 (X−Y)と 「 自 己 と 他 者 の 和 」 (X+Y) を比べるわけですから、それにどのような意味があるのか、一見しただけ ではよくわかりません。そこで、相対値が数値をポジティブに評価するた めのもの、対照値が数値をポジティブにもネガティブにも評価するための もの、と考えます。対照値を直感的に納得するには、次のように式を変形 するとよいでしょう。 (X – Y) / (X + Y) = X / (X + Y) − Y / (X + Y) つ ま り 、対 照 値 は X の 相 対 得 点 と Y の 相 対 得 点 の 差 を 求 め た こ と に な り ます。よって X と Y を対照的に評価することになります。 ●卓立化 [1] 行 と 列 の 卓 立 化 「自分(セル)が他のメンバー(セル)たちと違う」ことを示す「卓立 得 点 」 Prominent score: P.S.と い う 数 値 を 提 案 し ま す 。 こ こ で は 1 つ の セ ル の 値 (x)、 た と え ば w1:L1=10 を 取 り 出 し て 説 明 し ま し ょ う 10 。 実測値 L1 L2 L3 L4 L5 和 Sm.r. 個数 Cn.r w1 10 19 14 7 12 62 5 w2 11 7 10 0 1 29 5 w3 0 0 1 12 1 14 5 w4 0 1 2 3 3 9 5 和 Smc. 21 27 27 22 17 114 個数 Cn.c. 4 4 4 4 4 20 こ こ で 、 x の 実 測 値 (=10)を 、 横 行 の 他 の 値 全 体 の 和 (Sm.r. – x = 62 - 10 = 52)と 比 較 し ま す 。 こ の と き 、 そ の ま ま 比 較 す る の で は な く 、 X に 行 数 (p) 1 = 5 - 1 = 4 を 掛 け た 値 (Cn.r. – 1) X と Sm.r. – X を 比 較 し ま す 。こ れ は X (1 個 )の 大 き さ を 、他 の セ ル 全 部 (p - 1 個 )と 比 べ る と 不 利 に な る か ら で す 。そ こ で 、 セ ル の 数 を 同 じ と 見 な し た と き の X の 値 (Cn.r. – 1) X を 考 え ま す 。 (Cn.r. - 1) X を (Sm.r. – X)と 相 対 化 し た 値 は (Cn.r – 1) X / [(Cn.r. – 1) X + 10 こ こ で 扱 う 式 は 少 し 複 雑 な の で 、 こ れ ま で の よ う に Sm.r., Sm.c., Sm.a., Cn.r., Cn.c., Cn.a. で は な く 、 そ れ ぞ れ s, t, N, p, n, pn を 使 い ま す 。 36 (Sm.r. – X)]で す 。 こ れ を 行 の 「 卓 立 相 対 得 点 」 (Prominent Relative Score in row: P.R.S.r.)と し ま す 。 卓 立 係 数 (P.S.)は 相 対 値 X / (X + Y)な の で 、 [0.0 ~ 1.0]の 範 囲 に な り ま す 。 P.R.S.r. = (Cn.r. – 1) X / [(Cn.r. – 1) X + (Sm.r. – X)] = (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.] こ こ で 、 P.S.は X と X 以 外 の メ ン バ ー の 平 均 (s – X) / (p – 1)を 要 素 と す る 相 対 値 X / (X + Y)に な っ て い る こ と が わ か り ま す 。そ こ で 、最 小 値 (0.0) は X = 0 の と き な の で x = 0 の と き に な り ま す 。最 大 値 (1.0)は Y = 0 の と き な の で s- x = 0 の と き で す 。そ し て 、中 間 値 (0.5)は X = Y の と き で す か ら 、 (p – 1)X = (p – 1) (s – X) / (p – 1)、 よ っ て X = (s – X) / (p – 1)の と き で す 。 こ れ は 、 X が 他 の メ ン バ ー (s – X)の 平 均 (s – X) / (p – 1)の と き で す 。 つ ま り 、 P.S.は 自 身 と 他 の メ ン バ ー の 平 均 を 比 べ た 値 で す 。 そ れ よ り も 小 さ け れ ば 0.5 以 下 に な り 、 大 き け れ ば 0.5 以 上 に な り ま す 。 P.S.: 0.0 (X = 0) ≦ 0.5 [(Cn – 1) X = (Sm – X)] ≦ 1.0 (X = Sm) セ ル の 数 が 多 く な る と 、相 対 得 点 (R.S.)は 小 さ く な り が ち で す が 、卓 立 得 点 (P.S.)で は セ ル の 数 (Cn)の 大 小 に あ ま り 左 右 さ れ な い 数 値 が 得 ら れ ま す 。 こ れ は P.S.の 式 の 分 子 に も 分 母 に も Cn X が あ る た め で す 。 同 様 に 、 行 と 列 の そ れ ぞ れ の 卓 立 得 点 ( P.S.r.; P.S.c.) は P.S.r. = (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.] P.S.c. = (Cn.c. – 1) X / [(Cn.c. – 2) X + Sm.c.] P.R.F.r.p L1 L2 L3 L4 L5 w1 0.43 0.64 0.54 0.34 0.49 w2 0.71 0.56 0.68 0.00 w3 0.00 0.00 0.24 w4 0.00 0.33 0.53 P.R.F.c. L1 L2 L3 L4 L5 w1 0.73 0.88 0.76 0.58 0.88 0.13 w2 0.77 0.51 0.64 0.00 0.16 0.96 0.24 w3 0.00 0.00 0.10 0.78 0.16 0.67 0.67 w4 0.00 0.10 0.19 0.32 0.39 [2] 行 列 と 全 体 の 卓 立 化 行 と 列 の 卓 立 得 点 の 分 数 平 均 を 求 め 、こ れ を「 卓 立 得 点 」 ( 両 軸 : Prominent score in matrix: P.S.M.と 定 義 し ま す 。 P.R.S.m. = [(Cn.r. – 1) X + (Cn.c. – 1) X] / {[(Cn.r. – 2) X + Sm.r.] + [(Cn.c. – 2) X + Sm.c.]} = (Cn.r. + Cn.c. – 2) X / [(Cn.r. + Cn.c. – 4) X + Sm.r + Sm.c] 全 体 の 卓 立 得 点 Prominent Score in all: P.S.a は X を 行 列 全 体 の そ の 他 の メ 37 ン バ ー と 比 較 し ま す 。そ の と き 、X に は 行 列 全 体 の 個 数 Cn.a. – 1 を 加 重 し て不利にならないようにします。 P.S.a. = [Cn.a – 1) X / [(Cn.a. – 2) X + Sm.a.] P.R.F.m. L1 L2 L3 L4 L5 P.R.F.a. L1 L2 L3 L4 L5 w1 0.53 0.72 0.62 0.41 0.60 w1 0.65 0.79 0.73 0.55 0.69 w2 0.73 0.54 0.66 0.00 0.14 w2 0.67 0.55 0.65 0.00 0.14 w3 0.00 0.00 0.15 0.88 0.19 w3 0.00 0.00 0.14 0.69 0.14 w4 0.00 0.17 0.30 0.46 0.51 w4 0.00 0.14 0.25 0.34 0.34 ■相対頻度とパーミル比 次 は 中 世 ス ペ イ ン 語 (公 証 文 書 )の 鼻 音 と 流 音 の 2 重 文 字 を 有 す る 語 の 頻 度 の 実 測 値 (O.)で す 。 O. 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500 nn 550 66 143 57 1 2 2 4 4 1 0 2 30 ll 2310 1166 4524 1354 243 367 325 571 902 217 439 589 776 rr 625 327 1563 846 109 309 283 533 290 181 152 249 273 こ の 3 者 nn, ll, rr)だ け を 比 較 し た 列 相 対 得 点 は 次 の よ う に な り ま す 。 R.. 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500 nn 0.158 0.042 0.023 0.025 0.003 0.003 0.003 0.004 0.003 0.003 0.000 0.002 0.028 ll 0.663 0.748 0.726 0.600 0.688 0.541 0.533 0.515 0.754 0.544 0.743 0.701 0.719 rr 0.179 0.210 0.251 0.375 0.309 0.456 0.464 0.481 0.242 0.454 0.257 0.296 0.253 次 は 年 代 ご と の す べ て の 文 書 の 総 語 数 (W.)を 示 し ま す 。 W 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500 & 62549 29396 114499 44040 6000 11732 10506 19276 27990 8131 15952 20792 27048 先 の 実 測 値 (O.)を 総 語 数 (W.)で 割 り 、 1000 を 掛 け る と と 次 の パ ー ミ ル 比 が 得 ら れ ま す (M.)。 こ の 計 算 で は 本 節 の 行 列 演 算 (行 列 (O.)の ベ ク ト ル (W.) に よ る 除 算 と 、 行 列 (O./W.)の 数 値 1000 に よ る 積 算 )を 使 い ま し た 。 M n p = O np * 1000 / Wp M. 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500 nn 9 2 1 1 0 0 0 0 0 0 0 0 1 ll 37 40 40 31 41 31 31 30 32 27 28 28 29 srr 10 11 14 19 18 26 27 28 10 22 10 12 10 38 相 対 得 点 (R.)で は 比 較 す る 相 手 が 自 分 を 除 い た 2 者 に 限 ら れ ま す が 、 全 数 を 母 数 と す る パ ー ミ ル 比 (M.)を 使 う と 、 全 体 の 語 数 (W.)の 中 で そ れ ぞ れ の 2 重 文 字 語 の 趨 勢 を 見 る こ と が で き ま す 。 14 世 紀 に nn が急減したのは、 これが n の上に省略記号の~を付けた形に変わったためです。これがスペ イ ン 語 特 有 の 文 字 エ ニ ェ (ñ)の 起 源 に な り ま し た 。 ■中世・近代スペイン語の前置詞 次 は 中 世 ・ 近 代 ス ペ イ ン 語 で 起 き た 前 置 詞 の 形 態 変 化 pora > para(「 ~ の た め に 」 と い う 意 味 : 英 語 for)を 示 す 相 対 頻 度 と 対 照 頻 度 の 比 較 で す 。 相 対頻度を使うと、それぞれの形に注目して変化を観察することができ、対 照 頻 度 を 使 う と 、両 者 を 同 時 に 対 照 さ せ て 変 化 を 観 察 す る こ と が で き ま す 。 相 対 頻 度 : Pora 相 対 頻 度 : Para 39 対 照 頻 度 : Pora - Para 3.1.3. 加 重 得 点 絶対頻度と相対頻度はそれぞれの特徴があるので、データを観察すると きに併用されることがあります。それぞれの頻度を比較するときは、分母 を等しくするために相対頻度が使われます。そのとき、分母の規模が極端 に異なるとき比較が困難になることがあります。その 1 つの解決法を提案 します。 (1) 行 と 列 の 加 重 得 点 行 列 た と え ば 、w1L2 の 19 は 横 和 が 62 で す か ら 、こ の 相 対 得 点 は 19/62 = .31 に な り ま す 。一 方 、w4L4 の 3 の 相 対 得 点 は 3/9 = .33 に な り 、w1L2 よ り も 大 き な 値 に な り ま す 。し か し 、私 た ち の 直 感 で は 前 者 の 19 の ほ う が 後 者 の 3 よりも「重い」値だと感じられます。 実測値 L1 L2 L3 L4 行和 L5 w1 10 19 14 7 12 62 w2 11 7 10 0 1 29 w3 0 0 1 12 1 14 w4 0 1 2 3 3 9 列和 21 27 27 22 17 114 こ の よ う に 実 測 値 の 得 点 を 比 較 す る と き 、 そ の 実 測 値 (O.S.)と 相 対 得 点 (R.S.)の 積 に す る と 、実 態 を 表 す 数 値 と し て 直 感 的 に 納 得 が い く こ と が あ り ます。実測値に相対得点という重みを与えたからです。たとえば、上表の w1L1 の 10 に は 10/62 と い う 重 み を 与 え 、 w2L3 の 10 に は 10/29 と い う 重 み を 与 え ま す 。そ こ で「 加 重 得 点 」W.S.: Weighted Score と し て 次 の 式 を 提 案 し ま す 。加 重 得 点 は X=0 の と き に 最 小 値 ゼ ロ に な り 、X = 和 (Sm)の と き 、 つまりデータの中に X 以外の数値がないときに最大値 X になります。 W.S. = O.S.×R.S. = X X / Sm = X 2 / Sm W.S.: 0.0 (X=0) ≦ 0.5 (x 2 = Sm / 2) ≦ X (X = Sm) 次 が 行 (W.S.r.)、 列 (W.S.c.)の 加 重 得 点 で す 。 W.S.r. L1 L2 L3 L4 L5 W.S.c. L1 L2 L3 L4 L5 w1 1.61 5.82 3.16 0.79 2.32 w1 4.76 13.37 7.26 2.23 8.47 w2 4.17 1.69 3.45 0.00 0.03 w2 5.76 1.81 3.70 0.00 0.06 w3 0.00 0.00 0.07 10.29 0.07 w3 0.00 0.00 0.04 6.55 0.06 w4 0.00 0.11 0.44 w4 0.00 0.04 0.15 0.41 0.53 1.00 1.00 40 (2) 行 列 と 全 体 の 加 重 得 点 行 列 W.S.m. L1 L2 L3 L4 L5 W.S.a L1 L2 L3 L4 L5 w1 2.41 8.11 4.40 1.17 3.65 w1 0.88 3.17 1.72 0.43 1.26 w2 4.84 1.75 3.57 0.00 0.04 w2 1.06 0.43 0.88 0.00 0.01 w3 0.00 0.00 0.05 8.00 0.06 w3 0.00 0.00 0.01 1.26 0.01 w4 0.00 0.06 0.22 0.58 0.69 w4 0.00 0.01 0.04 0.08 0.08 行 列 加 重 得 点 (Weighted Score in matriX: W.S.m.)の 式 は 行 の 加 重 得 点 と 列 の加重得点の分数平均です。 W.S.m. = (X 2 + X 2 ) / (Sm.r + Sm.c.) = 2 X 2 / (Sm.r + Sm.c.) 全 体 加 重 得 点 (Weighted Score in all: W.S.a.)を 求 め る に は 、 分 母 に 全 体 の 得 点 (Sm.a.)を 使 い ま す 。表 全 体 の 総 和 (N)で 相 対 化 さ れ る た め に 全 体 的 に 数 値低くなる傾向があります。 W.S.m. = X 2 / Sm.a. ■打率と安打数 た と え ば 、シ ー ズ ン を 通 し て 10 打 数 3 安 打 と い う 成 績 の 野 球 選 手 と 100 打 数 25 安 打 の 選 手 の 成 績 を 比 べ る と き 、 打 率 だ け を 見 る と 0.3 と 0.25 に なり、前者のほうが優秀ということになります。しかし、安打数で比べる な ら ば 後 者 の ほ う が 優 秀 で す 。こ れ を 加 重 得 点 で 比 べ る な ら ば 、0.9 と 6.25 と い う 数 値 に な り 、 後 者 の ほ う が 前 者 の 7 倍 (6.944)近 い 成 績 に な り ま す 。 このように数値の評価をするときは、実測値や相対得点よりも加重得点の ほうが直感に合う数値だと思います。 3.1.4. 限 定 得 点 実 測 値 の 最 小 値 を 0 と し 、最 大 値 を 1 と し て 、範 囲 を [0.0 ~ 1.0]に 限 定 し て 計 算 し た 値 を 「 限 定 得 点 」 (Limited Score: L.S.)と よ ぶ こ と に し ま す 。 次 のように行、列、全体の、最小値と最大値を使います。 実測値 L1 L2 L3 L4 L5 最小値 最大値 w1 10 19 14 7 12 7 19 w2 11 7 10 0 1 0 11 w3 0 0 1 12 1 0 12 w4 0 1 2 3 3 0 3 最小値 0 0 1 0 1 0 最大値 11 19 14 12 12 19 41 L.S. = (X – Min) / (Max - Min) L.S.: 0.0 (X = Min) ≦ 0.5 (X = (Max - Min) / 2) ≦ 1.0 (X = MaX) こ こ で Min が デ ー タ の 最 小 値 、 MaX が そ の 最 大 値 を 示 し ま す 。 X = Min の と き 、 L.S.は 最 小 値 0.0 に な り 、 X = Max の と き 、 L.S.は 最 大 値 1.0 に な り ま す 。 中 点 (0.5)は X が Max と Min の 中 間 に あ る と き で す 。 (1) 行 と 列 の 限 定 得 点 L.S.r. L1 L2 L3 L4 L5 L.S.c. L1 L2 L3 L4 L5 w1 0.25 1.00 0.58 0.00 0.42 w1 0.91 1.00 1.00 0.58 1.00 w2 1.00 0.64 0.91 0.00 0.09 w2 1.00 0.37 0.69 0.00 0.00 w3 0.00 0.00 0.08 1.00 0.08 w3 0.00 0.00 0.00 1.00 0.00 w4 0.00 0.33 0.67 1.00 1.00 w4 0.00 0.05 0.08 0.25 0.18 行 の 限 定 得 点 (L.S.r.)は 次 の よ う に な り ま す 。 L.S.r. = (X – Min.r.) / (Max.r. – Min.r.) こ こ で Min.r.は 行 の 最 小 値 を 示 し 、 Max.r.は 行 の 最 大 値 を 示 し ま す 。 同 様 に し て 、 次 は 列 の 限 定 得 点 (L.S.c.)で す 。 L.S.c. = (X – Min.c.) / (Max.c. – Min.c.) (2) 行 列 全 体 の 限 定 得 点 L.S.m. L1 L2 L3 L4 L5 L.S.a. L1 L2 L3 L4 L5 w1 0.57 1.00 0.80 0.29 0.70 w1 0.53 1.00 0.74 0.37 0.63 w2 1.00 0.47 0.79 0.00 0.05 w2 0.58 0.37 0.53 0.00 0.05 w3 0.00 0.00 0.04 1.00 0.04 w3 0.00 0.00 0.05 0.63 0.05 w4 0.00 0.09 0.19 0.40 0.36 w4 0.00 0.05 0.11 0.16 0.16 行 の 限 定 得 点 と 列 の 限 定 得 点 の 分 数 平 均 を「 行 列 限 定 得 点 」Limited Score in matriX: L.S.m.と し ま す 。 L.S.m. = [(X – Min.r.) + (X – Min.c.)] / [(Max .r. – Min.r.) + (Max.c. – Min.c.)] = (2X – Min.r. – Min.c.) / (Max.r.+ Max.c – Min.r. – Min.c.) 「 全 体 限 定 得 点 」 (Limited Score in all: L.S.a.)は 行 列 全 体 の 最 小 値 Min.a. と 最 大 値 Max.a.を 使 い ま す 。 L.S.a. = (X – Min.a.) / (Max.a. – Min.a.) 42 3.1.5. 比 較 得 点 個々のセルの値(実測値)を平均値、中央値、中間値、最小値、最大値 と い う デ ー タ の「 代 表 値 」と 比 較 し た も の を「 比 較 得 点 」Comparative Score: C.S. と よ び 、 そ れ ぞ れ を 「 平 均 値 比 較 得 点 」 Comparative Score. Average: C.S.Ave., 「 中 央 値 比 較 得 点 」 Comparative Score. M edian: C.S.Med.,「 中 間 値 比 較 得 点 」 Comparative Score. Mid: C.S.Mid, 「 最 小 値 比 較 得 点 」 (Comparative Sco re. Minimum: C.S.Min.), 「 最 大 値 比 較 得 点 」 Comparative Score. Maximum: C.S.Max.)と よ ぶ こ と に し ま す 。 比 較 の 仕 方 と し て 「 差 」 Difference: D.、 「 比 」 Ratio:R.、 「 差 比 」 Difference ratio:Dr. を 考 え ま す 。 (1) 平 均 値 比 較 得 点 「 平 均 値 差 比 較 得 点 」 (Comparative Score. Average Difference: C.S.Av. D.) は 、 そ れ ぞ れ の セ ル の 値 (x)の 、 平 均 値 か ら の 差 を 示 し ま す 11 。 こ れ は x が ゼ ロ の と き 最 小 値 の -Av と な り 、 x が 和 (Sm)と 同 じ と き 、 つ ま り 、 デ ー タ の 中 で x 以 外 は す べ て ゼ ロ の と き 、最 大 値 が Sm - Av = AvCn – Av = (Cn – 1) Av に な り ま す( Cn は デ ー タ 数 )。0.0 は 中 点 で は あ り ま せ ん が 、中 点 と 同 様 に 重 要 な 「 参 照 値 」 ( = 平 均 Av) で す 。 参 照 値 と い う の は 、 こ れ を 境 に数値の方向が異なる、ということです。 C.S.Av.D.r. L1 L2 L3 L4 L5 C.S.Av.D.c. L1 L2 L3 L4 L5 w1 -2.40 6.60 1.60 -5.40 -0.40 w1 4.75 12.25 7.25 1.50 7.75 w2 5.20 1.20 4.20 -5.80 -4.80 w2 5.75 0.25 3.25 -5.50 -3.25 w3 -2.80 -2.80 -1.80 9.20 -1.80 w3 -5.25 -6.75 -5.75 6.50 -3.25 w4 -1.80 -0.80 0.20 1.20 1.20 w4 -5.25 -5.75 -4.75 -2.50 -1.25 C.S.Av.D. = x – Av C.S.Av.D.: – Av (x = 0) ≦ 0.0 (x = Av) ≦ Sm – Av (x = Sm) 「 列 平 均 値 差 比 較 得 点 」 (Comparative Score, Average Difference in matrix: C.S.Av.D.m.)は 行 と 列 の 2 つ の 平 均 値 差 得 点 の 算 術 平 均 と し ま す 12 。平 均 値 差 (全 体 : D.A.S. in all: D.A.S.a.)で は 行 列 全 体 の 平 均 (Av.a.)を 使 い ま す 。 C.S.Av.D.m. = [(D.A.S.r.) + (D.A.S.c.)] / 2 C.S.Av.D.a. = x – Av.a. 11 「 平 均 値 差 」 は 「 偏 差 」 (deviation)と よ ば れ て い ま す 。 こ こ で 分 数 平 均 を 使 わ な い 理 由 は 、比 較 得 点 が 相 対 値 X/(X+Y)で な い か らです。 12 43 C.S.Av.D.m. L1 L2 L3 L4 L5 C.S.Av.D.a. L1 L2 L3 L4 L5 w1 1.18 9.43 4.43 -1.95 3.68 w1 4.30 13.30 8.30 1.30 6.30 w2 5.48 0.73 3.73 -5.65 -4.03 w2 5.30 1.30 4.30 -5.70 -4.70 w3 -4.03 -4.78 -3.78 7.85 -2.53 w3 -5.70 -5.70 -4.70 6.30 -4.70 w4 -3.53 -3.28 -2.28 -0.65 -0.03 w4 -5.70 -4.70 -3.70 -2.70 -2.70 「 平 均 値 比 比 較 得 点 」 (Comparative Score, Average Ratio: C.S.Av. R.)は 実 測値を平均値で割った値(比)です。それぞれ行、列、全体の平均値比を 見 ま す 。x = 0 の と き に 最 小 値 0.0 に な り 、x = 和 (Sm) の と き 、和 (Sm) / 平 均 (Av) = 個 数 (Cn)に な り ま す 13 。 中 点 の 1.0 は x = Av の と き で す 。 C.S.Av.R. = x / Av C.S.Av.R.: 0.0 (x = 0) ≦ 1.0 (x = Av) ≦ Cn (x = Sm) C .S. A v.R .r. L1 L2 L3 L4 L5 C .S.A v.R . c. L1 L2 L3 L4 L5 w1 0.81 1.53 1.13 0.56 0.97 w1 1.90 2.81 2.07 1.27 2.82 w2 1.90 1.21 1.72 0.00 0.17 w2 2.10 1.04 1.48 0.00 0.24 w3 0.00 0.00 0.36 4.29 0.36 w3 0.00 0.00 0.15 2.18 0.24 w4 0.00 0.56 1.11 1.67 1.67 w4 0.00 0.15 0.30 0.55 0.71 「 行 列 比 較 平 均 値 比 得 点 」 (Comparative Score, Averag e Ratio in matrix: C.S.Av.R.m.)は 、 「 行 比 較 平 均 値 比 得 点 」 と 「 列 比 較 平 均 値 比 得 点 」 の 分 数 平 均 と し ま す 。「 全 体 平 均 値 比 得 点 」(Comparative Score, Average Ratio in all: C.S.Av.R.a.)は 全 体 の 平 均 値 (Av.a.)を 使 い ま す 。 C.S.Av.R.m. = 2 x / (Av.r. + Av.c.) C.S.Av.R.a.. = x / Av.a. C.S.Av.R.m. L1 L2 L3 L4 L5 C.S.Av.R.a. L1 L2 L3 L4 L5 w1 1.13 1.98 1.46 0.78 1.44 w1 1.75 3.33 2.46 1.23 2.11 w2 1.99 1.12 1.59 0.00 0.20 w2 1.93 1.23 1.75 0.00 0.18 w3 0.00 0.00 0.21 2.89 0.28 w3 0.00 0.00 0.18 2.11 0.18 w4 0.00 0.23 0.47 0.82 0.99 w4 0.00 0.18 0.35 0.53 0.53 「平均値差得点」はデータのスケールによって左右されるで、平均差得点 を平均値で割ってデータのスケールに合わせます(完全な正規化ではあり ま せ ん )。こ れ を「 平 均 値 差 比 得 点 」(Comparative Score. Average Difference Ratio: C.S.Av.Dr.)と 名 づ け る こ と に し ま す 。 0.0 は 参 照 値 (x = Av)で す 。 13 そ こ で 、(R.A.S.) / Cn と い う 数 値 で 標 準 化 さ せ れ ば [0.0 ~ 1.0]の ス ケ ー ル に な り ま す が 、 こ れ は (R.A.S.) / Cn = x / (Av Cn) = x / Sm に な る の で 、 相 対 得 点 (r.s)、 つ ま り 「 割 合 」 [0.0 ~ 1.0]に な り ま す 。 44 C.S.Av.Dr. = (d.a.s) / Av = (x. - Av) / Av C.S.Av.Dr.: -1 (x=0) ≦ 0.0 (x = Av) ≦ Sm – Av) / Av (x=Sm) C.S.Av.Dr.r. L1 L2 L3 L4 L5 C.S.Av.Dr.c. L1 L2 L3 L4 L5 w1 - .19 .53 .13 - .44 - .03 w1 .90 1.81 1.07 .27 1.82 w2 .90 .21 .72 - 1.00 - .83 w2 1.10 .04 .48 - 1.00 - .76 w3 - 1.00 - 1.00 - .64 3.29 - .64 w3 - 1.00 - 1.00 - .85 1.18 - .76 w4 - 1.00 - .44 .11 .67 .67 w4 - 1.00 - .85 - .70 - .45 - .29 L2 L3 L4 L5 L2 L3 L4 L5 C.S.Av.Dr.m. L1 C.S.Av.Dr.a. L1 w1 .13 .98 .46 - .22 .44 w1 .75 2.33 1.46 .23 1.11 w2 .99 .12 .59 - 1.00 - .80 w2 .93 .23 .75 - 1.00 - .82 w3 - 1.00 - 1.00 - .79 1.89 - .72 w3 - 1.00 - 1.00 - .82 1.11 - .82 w4 - 1.00 - .77 - .53 - .18 - .01 w4 - 1.00 - .82 - .65 - .47 - .47 差 で は プ ラ ス と マ イ ナ ス の 値 で 実 測 値 と 期 待 値 が 比 較 さ れ ま す が 、比 で は 、 実測値も期待値もプラスなので、すべてプラスの数値になり、実測値から の(プラスとマイナスの)差がわかりません。 ●差・比・差比 比較に用いるときの差の欠点は、実測値と比較値の差が絶対化されている ことです。そこで、比を用いることよって、それぞれのケースの数値のス ケール(相対的な大きさ)に合わせて、全体を見回した比較ができるよう になります。しかし、比には相手との差がどの程度あるのか不明です。そ こで、差(のスケール)を比較する相手(のスケール)で割れば、絶対的 な数値ではなく、その数値のスケールに合った差の相対的な数値が得られ ま す 。 そ れ が 「 差 比 」 (Difference ratio)で す 14 。 差 比 は 差 と 比 を 総 合 し た 値 です。プラスとマイナスの符号は差の場合と同じです。差比差は実測値と 比較値が同じになったときはゼロになります。 ●差比の平均と「複合平均」 分子に比較項との差をとり、この差と比較項の比を求める「差比」の両 軸の計算をするために、はじめに、先に見た「差の平均」(算術平均 : Arithmetic average: A.A.) を 求 め ま す 。 A.A.= [(x –Av.r.) + (x – Av.c.)] / 2 14 東 京 大 学 教 養 学 部 統 計 学 教 室 (1991:247)は 「 差 比 」 を 「 相 対 誤 差 」 と よ んでいます。 45 次 に こ れ を 分 子 と し て Av.r.と の 比 の 平 均( 分 数 平 均 : F.A.)を 求 め ま す 。 (A.A + A.A.) / (Av.r. + Av.c.) = 2 A.A / (Av.r. + Av.c.) = [(x –Av.r.) + (x – Av.c.)] = (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.) この式は行と列のそれぞれの比較項を導入しているので「複合平均」 Complex average: C.a. と よ ぶ こ と に し ま す 。 C.a. = (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.) (2) 中 央 値 比 較 得 点 比較する相手を平均値ではなく中央値にして、差、比、差比を計算した も の が 「 中 央 値 得 点 」 Median Score: M.S.で す 。 実測値 L1 L2 L3 L4 L5 中央値 w1 10 19 14 7 12 12.00 w2 11 7 10 0 1 7.00 w3 0 0 1 12 1 1.00 w4 0 1 2 3 3 2.00 中央値 5.00 4.00 6.00 5.00 2.00 3.00 (a) 差 得 点 C.S.Md.D.r. L1 L2 L3 L4 L5 C.S.Md.D.c. L1 L2 L3 L4 L5 w1 -2.00 7.00 2.00 -5.00 0.00 w1 5.00 15.00 8.00 2.00 10.00 w2 4.00 0.00 3.00 -7.00 -6.00 w2 6.00 3.00 4.00 -5.00 -1.00 w3 -1.00 -1.00 0.00 11.00 0.00 w3 -5.00 -4.00 -5.00 7.00 -1.00 w4 -2.00 -1.00 0.00 1.00 1.00 w4 -5.00 -3.00 -4.00 -2.00 1.00 C.S.Md.D.m. L1 L2 L3 L4 L5 C.S.Md.D.a. L1 L2 L3 L4 L5 w1 1.50 11.00 5.00 -1.50 5.00 w1 7.00 16.00 11.00 4.00 9.00 w2 5.00 1.50 3.50 -6.00 -3.50 w2 8.00 4.00 7.00 -3.00 -2.00 w3 -3.00 -2.50 -2.50 9.00 -0.50 w3 -3.00 -3.00 -2.00 9.00 -2.00 w4 -3.50 -2.00 -2.00 -0.50 1.00 w4 -3.00 -2.00 -1.00 0.00 0.00 (b) 比 得 点 比得点であるため、行列得点は行と列の分数平均とします。 46 C.S.Md.R.r. L1 L2 L3 L4 L5 C.S.Md.R.c. L1 L2 L3 L4 L5 w1 0.83 1.58 1.17 0.58 1.00 w1 2.00 4.75 2.33 1.40 6.00 w2 1.57 1.00 1.43 0.00 0.14 w2 2.20 1.75 1.67 0.00 0.50 w3 0.00 0.00 1.00 12.00 1.00 w3 0.00 0.00 0.17 2.40 0.50 w4 0.00 0.50 1.00 1.50 1.50 w4 0.00 0.25 0.33 0.60 1.50 C.S.Md.R.m. L1 L2 L3 L4 L5 C.S.Md.R.a. L1 L2 L3 L4 L5 w1 1.18 2.38 1.56 0.82 1.71 w1 3.33 6.33 4.67 2.33 4.00 w2 1.83 1.27 1.54 0.00 0.22 w2 3.67 2.33 3.33 0.00 0.33 w3 0.00 0.00 0.29 4.00 0.67 w3 0.00 0.00 0.33 4.00 0.33 w4 0.00 0.33 0.50 0.86 1.50 w4 0.00 0.33 0.67 1.00 1.00 (c) 差 比 得 点 C.S.Md.Dr.r. L1 L2 L3 L4 L5 C.S.Md.Dr.c. L1 L2 L3 L4 L5 w1 -0.17 0.58 0.17 -0.42 0.00 w1 1.00 3.75 1.33 0.40 5.00 w2 0.57 0.00 0.43 -1.00 -0.86 w2 1.20 0.75 0.67 -1.00 -0.50 w3 -1.00 -1.00 0.00 11.00 0.00 w3 -1.00 -1.00 -0.83 1.40 -0.50 w4 -1.00 -0.50 0.00 0.50 0.50 w4 -1.00 -0.75 -0.67 -0.40 0.50 C.S.Md.Dr.m. L1 L2 L3 L4 L5 C.S.Md.Dr.a. L1 L2 L3 L4 L5 w1 0.18 1.38 0.56 -0.18 0.71 w1 2.33 5.33 3.67 1.33 3.00 w2 0.83 0.27 0.54 -1.00 -0.78 w2 2.67 1.33 2.33 -1.00 -0.67 w3 -1.00 -1.00 -0.71 3.00 -0.33 w3 -1.00 -1.00 -0.67 3.00 -0.67 w4 -1.00 -0.67 -0.50 -0.14 0.50 w4 -1.00 -0.67 -0.33 0.00 0.00 (3) 中 間 値 比 較 得 点 比 較 す る 相 手 を 中 間 値 ( Mid: C: 最 大 値 と 最 小 値 の 中 間 値 ) に し て 、 差 、 比、差比を計算したものが「中間値比較得点」です。 実測値 L1 L2 L3 L4 L5 中間値 w1 10 19 14 7 12 13.00 w2 11 7 10 0 1 5.50 w3 0 0 1 12 1 6.00 w4 0 1 2 3 3 1.50 中間値 5.50 9.50 7.50 6.00 6.50 9.50 (a) 差 得 点 C.S.Ct.D.r. L1 L2 L3 L4 L5 C.S.Ct.D.c. 47 L1 L2 L3 L4 L5 w1 -3.00 6.00 1.00 -6.00 -1.00 w1 4.50 9.50 6.50 1.00 5.50 w2 5.50 1.50 4.50 -5.50 -4.50 w2 5.50 -2.50 2.50 -6.00 -5.50 w3 -6.00 -6.00 -5.00 6.00 -5.00 w3 -5.50 -9.50 -6.50 6.00 -5.50 w4 -1.50 -0.50 0.50 1.50 1.50 w4 -5.50 -8.50 -5.50 -3.00 -3.50 C.S.Ct.D.m. L1 L2 L3 L4 L5 C.S.Ct.D.a. L1 L2 L3 L4 L5 w1 0.75 7.75 3.75 -2.50 2.25 w1 0.50 9.50 4.50 -2.50 2.50 w2 5.50 -0.50 3.50 -5.75 -5.00 w2 1.50 -2.50 0.50 -9.50 -8.50 w3 -5.75 -7.75 -5.75 6.00 -5.25 w3 -9.50 -9.50 -8.50 2.50 -8.50 w4 -3.50 -4.50 -2.50 -0.75 -1.00 w4 -9.50 -8.50 -7.50 -6.50 -6.50 (b) 比 得 点 C.S.Ct.R.r. L1 L2 L3 L4 L5 C.S.Ct.R.c. L1 L2 L3 L4 L5 w1 0.77 1.46 1.08 0.54 0.92 w1 1.82 2.00 1.87 1.17 1.85 w2 2.00 1.27 1.82 0.00 0.18 w2 2.00 0.74 1.33 0.00 0.15 w3 0.00 0.00 0.17 2.00 0.17 w3 0.00 0.00 0.13 2.00 0.15 w4 0.00 0.67 1.33 2.00 2.00 w4 0.00 0.11 0.27 0.50 0.46 C.S.Ct.R.m. L1 L2 L3 L4 L5 C.S.Ct.R.a. L1 L2 L3 L4 L5 w1 1.08 1.69 1.37 0.74 1.23 w1 1.05 2.00 1.47 0.74 1.26 w2 2.00 0.93 1.54 0.00 0.17 w2 1.16 0.74 1.05 0.00 0.11 w3 0.00 0.00 0.15 2.00 0.16 w3 0.00 0.00 0.11 1.26 0.11 w4 0.00 0.18 0.44 0.80 0.75 w4 0.00 0.11 0.21 0.32 0.32 (c) 差 比 得 点 C.S.Ct.Dr.r. L1 L2 L3 L4 L5 C.S.Ct.Dr.c. L1 L2 L3 L4 L5 w1 -0.23 0.46 0.08 -0.46 -0.08 w1 0.82 1.00 0.87 0.17 0.85 w2 1.00 0.27 0.82 -1.00 -0.82 w2 1.00 -0.26 0.33 -1.00 -0.85 w3 -1.00 -1.00 -0.83 1.00 -0.83 w3 -1.00 -1.00 -0.87 1.00 -0.85 w4 -1.00 -0.33 0.33 1.00 1.00 w4 -1.00 -0.89 -0.73 -0.50 -0.54 C.S.Ct.Dr.m. L1 L2 L3 L4 L5 C.S.Ct.Dr.a. L1 L2 L3 L4 L5 w1 0.08 0.69 0.37 -0.26 0.23 w1 0.05 1.00 0.47 -0.26 0.26 w2 1.00 -0.07 0.54 -1.00 -0.83 w2 0.16 -0.26 0.05 -1.00 -0.89 w3 -1.00 -1.00 -0.85 1.00 -0.84 w3 -1.00 -1.00 -0.89 0.26 -0.89 w4 -1.00 -0.82 -0.56 -0.20 -0.25 w4 -1.00 -0.89 -0.79 -0.68 -0.68 48 (4) 最 小 値 比 較 得 点 比 較 す る 相 手 を 最 小 値( Minimumr: Mn.)に し て 、差 、比 、差 比 を 計 算 し た も の が 「 最 小 値 」 (Minimumr Score: Mn.S.)で す 。 実測値 L1 L2 w1 10 19 14 7 12 7.00 w2 11 7 10 0 1 .00 w3 0 0 1 12 1 .00 w4 0 1 2 3 3 .00 最小値 .00 .00 1.00 .00 1.00 .00 L3 L4 最小値 L5 (a) 差 得 点 C. S .M n. D.r . L1 L2 L3 L4 L5 C. S .M n. D. c. L1 L2 L3 L4 L5 w1 3.00 12.00 7.00 0.00 5.00 w1 10.00 19.00 13.00 7.00 11.00 w2 11.00 7.00 10.00 0.00 1.00 w2 11.00 7.00 9.00 0.00 0.00 w3 0.00 0.00 1.00 12.00 1.00 w3 0.00 0.00 0.00 12.00 0.00 w4 0.00 1.00 2.00 3.00 3.00 w4 0.00 1.00 1.00 3.00 2.00 C. S .M n. D. m. L1 L2 L3 L4 L4 L5 L5 C. S .M n. D.a . L1 L2 L3 w1 6.50 15.50 10.00 3.50 8.00 w1 10.00 19.00 14.00 7.00 12.00 w2 11.00 7.00 9.50 0.00 0.50 w2 11.00 7.00 10.00 0.00 1.00 w3 0.00 0.00 0.50 12.00 0.50 w3 0.00 0.00 1.00 12.00 1.00 w4 0.00 1.00 1.50 3.00 2.50 w4 0.00 1.00 2.00 3.00 3.00 (b) 比 得 点 最小値がゼロである部分については、それを分母とする比を演算できない の で 、 D//0 が 示 さ れ ま す 。 C .S.M n.R .r. L1 L2 L3 L4 L5 C .S.M n.R .c. L1 L2 L3 L4 L5 w1 1.43 2.71 2.00 1.00 1.71 w1 D v/ 0 D v/ 0 14.00 D v/0 12.00 w2 D v/0 D v/0 D v/0 D v/ 0 D v/0 w2 D v/ 0 D v/ 0 10.00 D v/0 1.00 w3 D v/0 D v/0 D v/0 D v/ 0 D v/0 w3 D v/ 0 D v/ 0 1.00 D v/0 1.00 w4 D v/0 D v/0 D v/0 D v/ 0 D v/0 w4 D v/ 0 D v/ 0 2.00 D v/0 3.00 C .S.M n.R .m. L1 L2 L3 L4 L5 C .S.M n.R .a . L1 L2 L3 L4 L5 w1 2.86 5.43 3.50 2.00 3.00 w1 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 w2 D v/0 D v/0 20.00 D v/0 2.00 w2 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 w3 D v/0 D v/0 2.00 D v/0 2.00 w3 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 49 w4 D v/0 D v/0 4.00 D v/0 6.00 w4 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 (c) 差 比 得 点 C .S.M n.D r.r. L1 L2 L3 L4 L5 C .S.M n.D r.c. L1 L2 L3 L4 L5 w1 0.43 1.71 1.00 0.00 0.71 w1 D v/ 0 D v/ 0 13.00 D v/0 11.00 w2 D v/0 D v/0 D v/0 D v/0 D v/ 0 w2 D v/ 0 D v/ 0 9.00 D v/0 0.00 w3 D v/0 D v/0 D v/0 D v/0 D v/ 0 w3 D v/ 0 D v/ 0 0.00 D v/0 0.00 w4 D v/0 D v/0 D v/0 D v/0 D v/ 0 w4 D v/ 0 D v/ 0 1.00 D v/0 2.00 C .S.M n.D r.m. L1 L2 L3 L4 L5 C .S.M n.D r.a . L1 L2 L3 L4 L5 w1 1.86 4.43 2.50 1.00 2.00 w1 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 w2 D v/0 D v/0 19.00 D v/ 0 1.00 w2 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 w3 D v/0 D v/0 1.00 D v/ 0 1.00 w3 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 w4 D v/0 D v/0 3.00 D v/ 0 5.00 w4 D v/0 D v/ 0 D v/ 0 D v/0 D v/0 (5) 最 大 値 比 較 得 点 比 較 す る 相 手 を 最 大 値( Maximum: Mx.)に し て 、差 、比 、差 比 を 計 算 し た も の が 「 最 大 値 得 点 」 (Maximum Score: Mx.S.)で す 。 実測値 L1 L2 L3 L4 L5 最大値 w1 10 19 14 7 12 19 w2 11 7 10 0 1 11 w3 0 0 1 12 1 12 w4 0 1 2 3 3 3 最大値 11 19 14 12 12 19 (a) 差 得 点 C.S.Mx.D.r. L1 L2 L3 L4 L5 C.S.Mx.D.c. L1 L2 L3 L4 L5 w1 -9.00 0.00 -5.00 -12.00 -7.00 w1 -1.00 0.00 0.00 -5.00 0.00 w2 0.00 -4.00 -1.00 -11.00 -10.00 w2 0.00 -12.00 -4.00 -12.00 -11.00 w3 -12.00 -12.00 -11.00 0.00 -11.00 w3 -11.00 -19.00 -13.00 0.00 -11.00 w4 -3.00 -2.00 -1.00 0.00 0.00 w4 -11.00 -18.00 -12.00 -9.00 -9.00 C.S.Mx.D.m. L1 L2 L3 L4 L5 C.S.Mx.D.a. L1 L2 L3 L4 L5 w1 -5.00 0.00 -2.50 -8.50 -3.50 w1 -9.00 0.00 -5.00 -12.00 -7.00 w2 0.00 -8.00 -2.50 -11.50 -10.50 w2 -8.00 -12.00 -9.00 -19.00 -18.00 w3 -11.50 -15.50 -12.00 0.00 -11.00 w3 -19.00 -19.00 -18.00 -7.00 -18.00 w4 -7.00 -10.00 -6.50 -4.50 -4.50 w4 -19.00 -18.00 -17.00 -16.00 -16.00 50 (b) 比 得 点 C.S.Mx.R.r. L1 L2 L3 L4 L5 C.S.Mx.R.c. L1 L2 L3 L4 L5 w1 0.53 1.00 0.74 0.37 0.63 w1 0.91 1.00 1.00 0.58 1.00 w2 1.00 0.64 0.91 0.00 0.09 w2 1.00 0.37 0.71 0.00 0.08 w3 0.00 0.00 0.08 1.00 0.08 w3 0.00 0.00 0.07 1.00 0.08 w4 0.00 0.33 0.67 1.00 1.00 w4 0.00 0.05 0.14 0.25 0.25 C.S.Mx.R.m. L1 L2 L3 L4 L5 C.S.Mx.R.a. L1 L2 L3 L4 L5 w1 0.67 1.00 0.85 0.45 0.77 w1 0.53 1.00 0.74 0.37 0.63 w2 1.00 0.47 0.80 0.00 0.09 w2 0.58 0.37 0.53 0.00 0.05 w3 0.00 0.00 0.08 1.00 0.08 w3 0.00 0.00 0.05 0.63 0.05 w4 0.00 0.09 0.24 0.40 0.40 w4 0.00 0.05 0.11 0.16 0.16 (c) 差 比 得 点 C.S.Mx.Dr.r. L1 L2 L3 L4 L5 C.S.Mx.Dr.c. L1 L2 L3 L4 L5 w1 -0.47 0.00 -0.26 -0.63 -0.37 w1 -0.09 0.00 0.00 -0.42 0.00 w2 0.00 -0.36 -0.09 -1.00 -0.91 w2 0.00 -0.63 -0.29 -1.00 -0.92 w3 -1.00 -1.00 -0.92 0.00 -0.92 w3 -1.00 -1.00 -0.93 0.00 -0.92 w4 -1.00 -0.67 -0.33 0.00 0.00 w4 -1.00 -0.95 -0.86 -0.75 -0.75 C.S.Mx.Dr.m. L1 L2 L3 L4 L5 C.S.Mx.Dr.a. L1 L2 L3 L4 L5 w1 -0.33 0.00 -0.15 -0.55 -0.23 w1 -0.47 0.00 -0.26 -0.63 -0.37 w2 0.00 -0.53 -0.20 -1.00 -0.91 w2 -0.42 -0.63 -0.47 -1.00 -0.95 w3 -1.00 -1.00 -0.92 0.00 -0.92 w3 -1.00 -1.00 -0.95 -0.37 -0.95 w4 -1.00 -0.91 -0.76 -0.60 -0.60 w4 -1.00 -0.95 -0.89 -0.84 -0.84 3.1.6. 標 準 得 点 それぞれの行、列または行列全体を同じスケールとばらつきで評価する には、データの平均が 0 に、標準偏差が 1 になるようにする必要がありま す 。こ の 操 作 は 平 均 値 差( 偏 差 )を 標 準 偏 差 で 割 る こ と で 可 能 に な り ま す 。 こ の 値 は 「 標 準 得 点 」 (Standard Score: S.S.と よ ば れ ま す 15 。 実測値 L1 L2 L3 L4 w1 10 19 14 7 w2 11 7 10 0 L5 平均 12 12.40 1 5.80 15 標準偏差 個数 4.03 5 4.53 5 「 標 準 得 点 」は Standarized measure, Z-Score と も よ ば れ て い ま す 。池 田 央 (1975)『 統 計 的 方 法 I 基 礎 』 ( 新 曜 社 ) 。 51 w3 0 0 1 12 1 2.80 4.62 5 w4 0 1 2 3 3 1.80 1.17 5 5.25 6.75 6.75 5.50 4.25 5.70 平均 標準偏差 5.26 7.56 5.45 4.50 4.55 個数 4 4 4 4 5.66 4 20 標 準 得 点 (S.S.)の 式 は 次 の と お り で す (→ 1.1.5.)。 S.S. = (x – Av) / SD こ こ で 、 x は 実 測 値 、 Av は 平 均 値 、 SD は 標 準 偏 差 を 示 し ま す 。 こ の よ う に標準得点はそれぞれ元の値から全体の平均値を引いて、さらにその値を 全体の標準偏差で割って得られた数値です。次は、このデータを行と列の 標 準 得 点 (S.S.r., S.S.c.)に 置 き 換 え た 結 果 で す 。 S.S.r. L1 L2 L3 w1 -0.60 1.64 w2 1.15 0.26 L4 L5 S.S.c. L1 L2 L3 L4 L5 0.40 -1.34 -0.10 w1 0.90 1.62 1.33 0.33 1.70 0.93 -1.28 -1.06 w2 1.09 0.03 0.60 -1.22 -0.71 w3 -0.61 -0.61 -0.39 1.99 -0.39 w3 -1.00 -0.89 -1.06 w4 -1.54 -0.69 1.03 w4 -1.00 -0.76 -0.87 -0.56 -0.27 0.17 1.03 1.44 -0.71 行 列 の 標 準 得 点 (S.S.m,)は 、行 の 標 準 得 点 と 列 の 標 準 得 点 の 分 数 平 均 と し ま す 。 全 体 の 標 準 得 点 (S.S.a.)は 、 全 体 の 平 均 と 標 準 偏 差 を 使 い ま す 。 S.S.b. L1 L2 L3 L4 L5 S.S.a. L1 L2 L3 L4 L5 w1 0.25 1.63 0.93 -0.46 0.86 w1 0.76 2.35 1.47 0.23 1.11 w2 1.12 0.12 0.75 -1.25 -0.89 w2 0.94 0.23 0.76 -1.01 -0.83 w3 -0.81 -0.78 -0.75 1.72 -0.55 w3 -1.01 -1.01 -0.83 1.11 -0.83 w4 -1.10 -0.75 -0.69 -0.23 -0.01 w4 -1.01 -0.83 -0.65 -0.48 -0.48 ●標準得点の平均と標準偏差 標 準 得 点 (SS)の 平 均 は 0 に な り 、 標 準 偏 差 が 1 に な り ま す 。 は じ め に 、 標 準 得 点 の 平 均 (M S S )が ゼ ロ に な る こ と を 確 か め ま す 。 M S S = (SS 1 + SS 2 + .... + SS N ) / N SS の 定 義 に し た が っ て 、 = [(X 1 - M)/SD + (X 2 - M)/SD + ... + (X N - M)/SD] / N = [(X 1 - M) + (X 2 - M) + ... + (X N - M)] / (N SD) = [(X 1 + X 2 + ... + X N ) – N M] / (N SD) 52 こ こ で 、分 子 の (X 1 + X 2 + ... + X N )は 総 和 を 示 し ま す 。 N M は 平 均 の N 倍 だ から、これも総和となるので、分子はゼロになります。よって標準得点の 平 均 (M S S )も ゼ ロ で す 。 次 に 標 準 得 点 の 分 散 (SD S S 2 )は 、 次 の よ う に な り ま す 。 SD S S 2 = [(SM 1 - M S S ) 2 + (SM 2 - M S S ) 2 + ... + (SM N - M S S ) 2 ] / N 先 に 標 準 得 点 の 平 均 (M S S ) が ゼ ロ で あ る こ と を 確 か め た の で 、 = {(SM 1 - 0) 2 + (SM 2 - 0) 2 + ... + (SM N - 0) 2 } / N それぞれの標準得点を定義の式に置き換えると、 = {[(X 1 - M)/SD] 2 + [(X 2 - M)/SD] 2 + ... + [(X N - M) / SD] 2 ]} / N 全 体 の SD 2 を く く っ て 外 側 の 分 母 に 移 し ま す 。 = [(X 1 - M) 2 + (X 2 - M) 2 + ... + (X N - M) 2 ] / (N SD 2 ) ここで、 [(X 1 - M) 2 + (X 2 - M) 2 + ... + (X N - M) 2 ] / N は 、 X 1 , X 2 , ...X N の 分 散 (SD 2 )で す か ら 、 先 の 式 は 次 の よ う に な り ま す 。 = SD 2 / SD 2 = 1 標 準 偏 差 SD は 分 散 の 根 ( ル ー ト ) で す か ら 、 標 準 得 点 の 標 準 偏 差 も 1 と なります。 こ の よ う に し て 尺 度 を 、 平 均 が 0、 標 準 偏 差 が 1 に な る よ う に 標 準 化 さ せ た値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺度 になり、全データの中での相対的な価値が勘案されていないことになりま す。一方、標準得点は平均がゼロ、標準偏差が 1 になるように標準化され ているので、点数とか温度とか価格とか(キロ)メートルのような単位が なくなります。これにより、異なる概念(単位)の数値の間の関係も標準 得点によって数値化できるようになります。 ●偏差値 テ ス ト で よ く 使 わ れ る 「 偏 差 値 」 は 標 準 得 点 を 10 倍 し 50 を 足 し て 計 算 します。 偏 差 値 = 標 準 得 点 ×10 + 50 そ う す る と 偏 差 値 の 平 均 は 50 に な り 、 標 準 偏 差 は 10 に な り ま す 。 標 準 53 得 点 に よ っ て 、 せ っ か く 平 均 0, 標 準 偏 差 1 に し て 標 準 化 し た の に 、 偏 差 値 で は も う 一 度 そ れ を 10 倍 し て 、さ ら に 50 を 足 し て い る の で す 。こ れ は 、 私 た ち が 100 点 満 点 の テ ス ト に 慣 れ て い る た め で 、 そ の ほ う が わ か り や す いからでしょう。 ●正規標準得点 標 準 得 点 を よ く 観 察 す る と 絶 対 値 が 1.00 を 超 え る 数 値 が し ば し ば 現 れ ることがわかります。これは平均との差が標準偏差を超えたことを示して い ま す 。 偏 差 値 で 言 え ば 40 点 以 下 の ケ ー ス や 60 以 上 の ケ ー ス な の で 、 よ く 生 じ る 現 象 で す 。 そ こ で 、 標 準 得 点 の 範 囲 を [-1.00 ~ 1.00]と い う ス ケ ー ルで正規化した数値を求めれば、他の正規得点と同様に数値を正規化した 尺 度 で 比 較 す る こ と が で き ま す (→ 「 統 計 量 」 「 正 規 変 動 係 数 」 )。 こ れ を 「 正 規 標 準 得 点 」 (Normalized Standard Score: N.S.S.) と 名 付 け る こ と に し ま し ょ う 。 正 規 標 準 得 点 (N.S.S.)は 標 準 得 点 (S.S.)を 標 準 得 点 の 理 論 的 な 最 大 値 (S.S.max)で 割 っ た 値 と し ま す 。 先 の 「 正 規 変 動 係 数 」 で 見 た よ う に 、 標 準偏差の最大値は SD.max = Ave (N – 1) 1 /2 そ し て 、 標 準 得 点 (S.S.)の 最 大 値 (S.S.max)は S.S.max = (X – Ave) / SD.max = (X – Ave) / (Ave (N -1) 1 /2 ) = (X – X / N) / X / N (N -1) 1 /2 = (N X – X) / N / X / N (N -1) 1 /2 = (N – 1) X / N / X / N (N -1) 1 /2 = (N – 1) / (N - 1) 1 /2 = (N- 1) 1 /2 よ っ て 、 正 規 標 準 得 点 (N.S.S.)は N.S.S. = S.S. / S.S.max = S.S. / (N - 1) 1 /2 N.S.S.r. L1 L2 L3 L4 L5 N.S.S.c. L1 L2 L3 L4 L5 w1 -0.30 0.82 0.20 -0.67 -0.05 w1 0.52 0.94 0.77 0.19 0.98 w2 0.57 0.13 0.46 -0.64 -0.53 w2 0.63 0.02 0.34 -0.71 -0.41 w3 -0.30 -0.30 -0.19 1.00 -0.19 w3 -0.58 -0.52 -0.61 0.83 -0.41 w4 -0.77 -0.34 0.09 0.51 0.51 w4 -0.58 -0.44 -0.50 -0.32 -0.16 54 N.S.S.m. L1 L2 L3 L4 L5 N.S.S.a. L1 L2 L3 L4 L5 w1 0.14 0.89 0.51 -0.25 0.46 w1 0.17 0.54 0.34 0.05 0.26 w2 0.60 0.07 0.40 -0.67 -0.48 w2 0.21 0.05 0.17 -0.23 -0.19 w3 -0.44 -0.43 -0.40 0.92 -0.29 w3 -0.23 -0.23 -0.19 0.26 -0.19 w4 -0.62 -0.42 -0.39 -0.13 0.00 w4 -0.23 -0.19 -0.15 -0.11 -0.11 3.1.7. 期 待 得 点 こ こ で 提 案 す る「 期 待 得 点 」(Expectation Score: E.S.)は 、次 に 示 す「 期 待 値 」 (Expected Frequency: E.F.)を 使 い ま す 16 。 期 待 値 は そ れ ぞ れ の セ ル の 値 が横の和と縦の和から見て、平均に分布しているとすればどのような値と して期待されるかを示すものです。「期待される」というよりも「予想さ れ る 」 (expected)と 考 え た ほ う が わ か り や す い か も 知 れ ま せ ん 。 実測値 L1 L2 L3 L4 和 L5 w1 10 19 14 7 12 62 w2 11 7 10 0 1 29 w3 0 0 1 12 1 14 w4 0 1 2 3 3 9 和 21 27 27 22 17 114 期 待 値 は 行 と 列 の 和 の 割 合 か ら 計 算 さ れ ま す 。 w1 の 行 和 が 62 と な っ て い ま す 。 一 方 、 列 和 の 行 に 注 目 す る と 、 L1 の 和 は 21 で す 。 総 和 は 114 で す か ら 、 w1:L1 は 、 行 和 の 62 回 の う ち 、 21 / 114 の 割 合 で 出 て く る と 予 想 さ れ ま す 。 つ ま り 、 62×(21 / 114) ≒ 11.42 と な り ま す 。 ◆ Excel シ ー ト で は 行 和 Sm.r.を 列 固 定 で 参 照 し 、 列 和 Sm.c.を 行 固 定 で 参 照 し ま す 。 分 母 の 総 和 Sm.a.は 列 も 行 も 固 定 し ま す ( 絶 対 参 照 ) 。 そ れ ぞ れ の セ ル に つ い て の 計算結果が次の表です。 E.F. = (Sm.r. Sm.c.) / Sm.a. E.F. w1 w2 w3 w4 L1 L2 L3 L4 L5 11.42 14.68 14.68 11.96 9.25 5.34 6.87 6.87 5.60 4.32 2.58 3.32 3.32 2.70 2.09 1.66 2.13 2.13 1.74 1.34 16 「 期 待 値 」(E.F.)は 一 般 に「 期 待 度 数 」と よ ば れ る こ と が 多 い の で す が 、 ここでは「実測値」と「期待値」を対等に比較する、という意図から両者 に「値」という訳語を使います。この訳語「期待値」も使われています。 「 期 待 値 得 点 」 と 、 以 下 で 扱 う 得 点 (Score)は 使 わ れ て い ま せ ん 。 55 実 測 値 と 期 待 値 を 比 較 し た 得 点 を「 期 待 得 点 」 (Expectation Score)と よ ぶ ことにします。 実 測 値 (x)と 期 待 値 (E.F.)の 差 (Difference: D)、比 (Ratio: R)、差 比 (Difference ratio: Dr.)で 比 較 し た も の を「 比 較 期 待 得 点 」(Comparative Expectation Score: C.E. S.)と よ ぶ こ と に し ま す 。 そ れ ぞ れ を 次 の 式 で 導 き ま す 。 C.E. S.D. = x – E.F. C.E. S.R. = x / E.F. C.E. S.Dr.. = (x – E.F.) / E.F. C.E.S.D. L1 w1 -1.42 w2 5.66 L2 L3 L4 L5 C.E.S.R. 2.75 w1 0.88 1.29 0.95 0.59 1.30 3.13 -5.60 -3.32 w2 2.06 1.02 1.46 0.00 0.23 4.32 -0.68 -4.96 0.13 L1 L2 L3 L4 L5 w3 -2.58 -3.32 -2.32 9.30 -1.09 w3 0.00 0.00 0.30 4.44 0.48 w4 -1.66 -1.13 -0.13 1.26 w4 0.00 0.47 0.94 1.73 2.24 1.66 C.E.S.Dr. L1 L2 L3 L4 L5 w1 -0.12 0.29 -0.05 -0.41 0.30 w2 1.06 0.02 0.46 -1.00 -0.77 w3 -1.00 -1.00 -0.70 3.44 -0.52 w4 -1.00 -0.53 -0.06 0.73 1.24 3.1.8. 順 位 得 点 (1) 正 順 位 得 点 「 正 順 位 得 点 」 (Descendig Rank Score: D.R.S.) に よ っ て 横 、 縦 、 全 体 の 範 囲 で 降 順 の 順 位 を つ け ま す 。◆ Excel 関 数 の RANK(c,R)を 使 い ま す 。c は 対 象のセルを示し、R はその範囲を示します。 実測値 L1 L2 L3 L4 L5 w1 10 19 14 7 12 w2 11 7 10 0 1 w3 0 0 1 12 1 w4 0 1 2 3 3 D.R.S.a. L1 L2 L3 L4 L5 w1 6 1 2 8 3 w2 5 8 6 17 w3 17 17 13 3 D.R.S.c. L1 L2 L3 L4 L5 w1 2 1 1 2 1 13 w2 1 2 2 4 3 13 w3 3 4 4 1 3 56 w4 17 13 12 10 10 w4 3 3 3 3 2 行 列 の 順 位 得 点 (D.R.S.m.)は 行 の 順 位 得 点 と 列 の 順 位 得 点 の 平 均 と し ま す 。 D.R.S.m. L1 L2 L3 L4 L5 D.R.S.a. L1 L2 L3 L4 L5 w1 3.0 1.0 1.5 3.5 2.0 w1 6 1 2 8 3 w2 1.0 2.5 2.0 4.5 3.5 w2 5 8 6 17 13 w3 3.5 4.0 3.0 1.0 2.5 w3 17 17 13 3 13 w4 4.0 3.5 3.0 2.0 1.5 w4 17 13 12 10 10 (2) 逆 順 位 得 点 逆 順 位 得 点 は 最 小 値 を 1 と し た 昇 順 の 順 位 を 示 し ま す 。 ◆ Excel 関 数 の RANK(c,R, 1)を 使 い ま す 。c は 対 象 の セ ル を 示 し 、R は そ の 範 囲 を 示 し ま す 。 3 番目の引数として 1 を使います。 A.R.S.r. L1 L2 L3 L4 L5 A.R.S.c. L1 L2 L3 L4 L5 w1 w2 w3 2 5 1 5 3 1 4 4 3 1 1 5 3 2 3 w1 w2 w3 3 4 1 4 3 1 4 3 1 3 1 4 4 1 1 w4 1 2 3 4 4 w4 1 2 2 2 3 L2 L3 A.R.S.m. L1 L4 L5 A.R.S.a. L1 L2 L3 L4 L5 w1 w2 w3 2.5 4.5 4.0 2.0 3.5 4.5 3.0 3.5 1.0 1.5 1.0 1.0 2.0 4.5 2.0 w1 w2 w3 w4 1.0 2.0 2.5 3.0 3.5 w4 14 20 19 12 17 16 12 14 1 5 1 1 5 17 5 1 5 9 10 10 3.1.9. 逸 脱 得 点 確 率 的 に 見 て 異 常 な 度 数 を 検 知 す る 「 逸 脱 得 点 」 (Divergent Score: D.S.) を提案します。 ある事象が起こる確率にはさまざまなものがあります。たとえば、サイ コ ロ に は {1, 2, 3, 4, 5, 6}と い う 目 が あ る の で 、 1 回 サ イ コ ロ を 投 げ る と き (「 試 行 」と 言 い ま す )、そ れ ぞ れ の 目 が 出 る 確 率 は そ れ ぞ れ 1/6 ず つ で す 。 こ れ ら の 目 の 中 の 1 つ 、た と え ば「 1」が 出 る 確 率 は 1/6 な の で 、逆 に「 1」 が 出 な い 確 率 は 1 - 1/6 = 5/6 で す 。 次 の 表 の F (False)は 「 1 」 が 出 な い こ と を 示 し 、 T (True)は 「 1 」 が 出 る こ と を 示 し て い ま す 。 確 率 の 総 和 が 1 に な る こ と を 確 認 し て く だ さ い (5/6 + 1/6 = 1)。 「1」 T の数 確率 57 F 0 5/6≒ 0.833 T 1 1/6≒ 0.167 次 に サ イ コ ロ を 2 回 投 げ る 場 合 (試 行 回 数 =2)を 考 え ま し ょ う 。 た と え ば 1 回 目 が F で 2 回 目 が T と す る と 、こ れ を F, T と 書 き ま す 。こ の 場 合 も 確 率 の 総 和 は 1 に な り ま す (25/36 + 5/36 + 5/36 + 1/36 = 1) 。 「1」 T の数 確率 F, F 0 (5/6) (5/6) = 25 /36≒ 0.694 F, T 1 (5/6) (1/6) = 5/36≒ 0.139 T, F 1 (1/6) (5/6) = 5/36≒ 0.139 T, T 2 (1/6) (1/6) = 1/36≒ 0.028 さ ら に 、 サ イ コ ロ を 3 回 投 げ る 場 合 (試 行 回 数 =3)を 考 え ま す 。 こ の 場 合 も 確率の総和は 1 になることを確かめてください。 「1」 T の数 確率 F, F, F 0 (5/6) (5/6) (5/6) = 125/216≒ 0.579 F, F, T 1 (5/6) (5/6) (1/6) = 25/216≒ 0.116 F, T, F 1 (5/6) (1/6) (5/6) = 25/216≒ 0.116 T, F, F 1 (1/6) (5/6) (5/6) = 25/216≒ 0.116 T, T, F 2 (1/6) (1/6) (5/6) = 5/216≒ 0.023 T, F, T 2 (1/6) (5/6) (1/6) = 5/216≒ 0.023 F, T, T 2 (5/6) (1/6) (1/6) = 5/216≒ 0.023 T, T, T 3 (1/6) (1/6) (1/6) = 1/216≒ 0.005 ここで、たとえばサイコロを 3 回投げて順番を問題にせずに、全部で 2 回 「 1 」 が 出 る 場 合 (T の 数 =2)の 確 率 を 求 め る と 、 上 の 表 か ら 、 「1」 T の数 確率 T, T, F 2 (1/6) (1/6) (5/6) = 5/216≒ 0.023 T, F, T 2 (1/6) (5/6) (1/6) = 5/216≒ 0.023 F, T, T 2 (5/6) (1/6) (1/6) = 5/216≒ 0.023 を 合 わ せ た 確 率 、 つ ま り 、 5/216 + 5/216 + 5/216 = 15/216≒ 0.069 に な る こ と が わ か り ま す 。 こ れ は 「 1 」 が 2 回 出 る 場 合 の 確 率 (5/216)を 3 倍 し た 数 で す 。 そ れ ぞ れ の 場 合 の 確 率 5/216 は (1/6) 2 (5/6)、 つ ま り T の 確 率 1/6 の 2 回 分 と F の 確 率 5/6 の 1 回 分 の 積 に な り ま す 。 次 に 、T, T, F だ け で な く 、他 に も T,F,T と F,T,T が あ る の で 、こ の 積 5/216 を 3 倍 し ま す 。 こ の 倍 数 の 3 を 求 め る の は 、 こ の よ う に 少 な い 試 行 回 数 (3 回 )な ら ば す ぐ 計 算 で き ま す が 、そ れ が 多 く な る と 一 般 式 を 使 わ な け れ ば な 58 り ま せ ん 。 n 回 の 試 行 で T が r 回 選 ば れ る 場 合 の 数 は nCr と い う 「 組 み 合 わ せ 」 (Combination: nCr)の 値 に な り ま す 17 。 こ こ で は 、 T が 2 個 で F が 1 個 の 組 み 合 わ せ に な る の で 3C2 で 計 算 し ま す 。 そ こ で 、 3 回 の 試 行 で T が 順番を問わずに 2 回出る確率は 3C2 (1/6) 2 (5/6) = (3 x 2) / (2 x 1) (1/6) 2 (5/6) = 15/216≒ 0.069 この確率を一般化した式で示すと、 nCr (p) r (1 – p) n -r になります。ここで n はサイコロを投げた総回数(試行数)、r は選ばれ る 回 数 ( 成 功 数 ) 、 p は T の 確 率 (成 功 確 率 :1/6)、 1 - p は F の 確 率 (失 敗 確 率 : 5/6)を 示 し ま す 。こ の 確 率 の 分 布 は 「 二 項 分 布 」 (Binomial distribution) と よ ば れ て い ま す 。◆ 二 項 分 布 の 確 率 の 計 算 は 階 乗 を 多 く 使 う の で 、n や r が 大 き く な る と 計 算 が 複 雑 に な り ま す 。そ こ で 、Excel 関 数 の BINOMDIST(r, n, p, 0)を 使 用 し ま す 。 次 は 、 試 行 回 数 = 4 を 固 定 し 、 成 功 率 を 1/2, 1/3, …, 1/6 と 変 化 さ せ 、 成 功 回 数 = 0, 1, 2, 3, 4 の そ れ ぞ れ の 確 率 を 計 算 し た 結 果 で す 。 二項分布(実験) 成功率 成功回数:y 1/2 x 1/3 1/4 試行回数 4 1/5 1/6 0 0.0625 0.1975 0.3164 0.4096 0.4823 1 0.2500 0.3951 0.4219 0.4096 0.3858 2 0.3750 0.2963 0.2109 0.1536 0.1157 3 0.2500 0.0988 0.0469 0.0256 0.0154 4 0.0625 0.0123 0.0039 0.0016 0.0008 た と え ば 、 BINOMDIST(0, 4, 1/2, 0)は 0.0625 を 示 し て い ま す 。 こ れ は コ インを投げて表を出す確率などで 4 回投げて一度も表にならない確率 (1/2)4 = 1/16 = 0.0625 を 示 し て い ま す 。こ の よ う に 確 率 が 1/2 の と き は 、確 率の分布が 2 を最大値として、上下対称になります。サイコロの目(たと え ば「 1」)が 出 る 確 率 は 1/6 で す が 、そ の と き の 成 功 回 数 =0 の 確 率 は 、(5/6) 4 = 0.4823, 成 功 回 数 =4 の 確 率 は 、(1/6) 4 = 0.0008 と な っ て 、上 下 対 称 で は あ 17 こ れ は 互 い に 区 別 の つ く 3 個 の 物 {a, b, c}の 中 か ら 任 意 の 2 個 (= T)を 取 り 出 す 場 合 の 数 と 同 じ で す 。も し 、取 り 出 す 順 番 を 考 え る な ら ば 、ab, ac, ba, bc, ca, cb と い う 6 個 の 場 合 が あ り ま す 。 こ れ が 「 順 列 」 (Permutation: nPr) で 、n P r = n (n – 1)(n – 2) … (n – r + 1). こ こ で 、順 番 を 考 慮 し な け れ ば(「 組 み 合 わ せ 」 3 C 2 )、ab と ba, ac と ca、bc と cb は そ れ ぞ れ 同 じ な の で 場 合 の 数 を 2 で 割 ら な け れ ば な り ま せ ん 。 こ の 2 は 2P2 の 順 列 (2! = 2 x 1)で す 。 よ っ て 3 C 2 = (3 x 2) / (2 x 1). 一 般 式 は nCr = n P r / r! = [n (n – 1) (n – 2) … (n – r + 1)] / r! = n! / [r! (n - r)!] 59 りません。 と こ ろ が 次 の よ う に 試 行 回 数 を 4, 5, 6, …, 20 の よ う に 増 加 さ せ る と 、次 第 に 分 布 が 上 下 対 称 に 近 づ き ま す 。そ の 確 率 の 最 大 値 は 、成 功 率 =1/2 の と きのように試行回数の中央値ではなく、試行回数と確率の積に近似した成 功 回 数 の と き の 確 率 に な り ま す 。た と え ば 確 率 が 1/6 で 20 回 の 試 行 す れ ば 、 成 功 回 数 が (1/6) x 20 ≒ 3 と な り ま す か ら 、 成 功 数 =3 の 確 率 が 一 番 高 い 、 ということは直感的にも納得できます。 成功率 成功回数:y 4 0 0.4823 1 0.3858 2 0.1157 3 0.0154 4 0.0008 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1/6 5 0.4019 0.4019 0.1608 0.0322 0.0032 0.0001 6 0.3349 0.4019 0.2009 0.0536 0.0080 0.0006 0.0000 試行回数 10 0.1615 0.3230 0.2907 0.1550 0.0543 0.0130 0.0022 0.0002 0.0000 0.0000 0.0000 x 15 0.0649 0.1947 0.2726 0.2363 0.1418 0.0624 0.0208 0.0053 0.0011 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 20 0.0261 0.1043 0.1982 0.2379 0.2022 0.1294 0.0647 0.0259 0.0084 0.0022 0.0005 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 ここで提案する「逸脱得点」は二項分布の確率を利用して求めます。この とき、r = 実測値、n = 母数、p = 全体の中での割合、を使います。 実測値 L1 L2 L3 L4 和 L5 w1 10 19 14 7 12 62 w2 11 7 10 0 1 29 w3 0 0 1 12 1 14 w4 0 1 2 3 3 9 和 21 27 27 22 17 114 上の実測値を使って、たとえば「行」の二項分布得点は、該当するセルの 行 和 (Sm.r.)を n と し 、列 和 / 総 和 を p と し ま す 。w1:L1(=10)を 例 に す る と 、 62 回 の 試 行 で 10 回 起 こ る 確 率 ( 成 功 回 数 ) を 、 21/114 と い う 全 体 の 確 率 の 二 項 分 布 の 中 で の 確 率 を 求 め (Binomial Score: B.S)、 62 x 21 / 114 と い う 成 功 回 数( 期 待 値 )で の 確 率( 二 項 分 布 の の 最 大 値:B.S.max)で 割 り ま す 。 これで得られた商は、最大確率と比較したときの当該確率を正規化した大 き さ を 示 す の で 、「 ふ つ う に 起 こ り う る 確 率 」 (0.00 ~ 1.00)を 示 し ま す 。こ こ で は 逆 に「 ふ つ う に は 起 こ り え な い 逸 脱 し た 確 率 」(0.00 ~ 1.00)を 求 め た 60 いので、1 からこの数値を引いた数値にします。さらに、実測値が期待値 よ り 小 さ い と き は 、そ れ を マ イ ナ ス 値 に し て 、評 価 し や す い 形 に し ま す (sgn = –1)。 ◆ Excel 関 数 の SGN(*)を 使 い ま す 。 D.S. = sgn * [1- B.S. / B.S. (max)] D.S.r. L1 L2 L3 w1 -0.06 0.58 0.00 -0.70 w2 0.96 -0.02 L4 L5 D.S.c. L1 L2 L3 0.43 w1 -0.16 0.73 0.00 -0.88 0.61 -0.99 -0.77 w2 0.97 -0.02 L4 L5 0.57 0.61 -0.99 -0.82 w3 -0.78 -0.91 -0.60 1.00 -0.12 w3 -0.76 -0.88 -0.53 1.00 -0.11 w4 -0.51 -0.19 0.47 w4 -0.44 -0.10 0.49 0.00 0.71 0.00 0.71 B.D.S.を 両 軸 で 求 め る と き は 、 B.D.S.R.と B.D.S.C.の 分 数 平 均 と し ま す 。 D.S.m. L1 L2 L3 w1 -0.12 0.66 0.00 -0.80 w2 0.97 -0.02 L4 L5 D.S.a. L1 0.51 w1 -0.81 0.61 -0.99 -0.80 w2 0.91 L2 L3 L4 1.00 -0.99 -0.22 0.22 L5 0.96 0.81 -0.98 -0.90 w3 -0.77 -0.89 -0.57 1.00 -0.11 w3 -0.98 -0.98 -0.90 0.96 -0.90 w4 -0.48 -0.15 0.48 w4 -0.98 -0.90 -0.70 0.41 0.00 0.71 0.41 ●相対値から対照値へ 相 対 得 点 、限 定 得 点 、期 待 得 点 、逸 脱 得 点 は [0.0 ~ 1.0]の ス ケ ー ル( 範 囲 ) で 正 規 化 さ れ て い ま す 。そ の 中 間 点 は 0.5 で す 。こ の よ う に [0.0 ~ 1.0]の ス ケ ー ル ( 範 囲 ) で 正 規 化 さ れ た 得 点 を [-1.0 ~ 1.0]の ス ケ ー ル に す る に は 、 そ の 得 点 を 2 倍 し て 1 を 引 き ま す 。 [0.0 ~ 1.0]を 2 倍 す る と [0.0 ~ 2.0]に な り 、 こ れ か ら 1 を 引 く と [-1.0 ~ 1.0]に な る か ら で す 。 一 般 に 、 相 対 値 X / (X + Y)を 2 倍 し て 1 を 引 い て 、 [-1.0 ~ 1.0]の ス ケ ー ル に す る と 、次 の よ う に (X – Y) / (X + Y)と い う 対 照 値 に な り ま す (→ 1.2.1.)。 これをモデルに使いましょう。 2X X+Y −1= 2X−X−Y X+Y = X−Y X+Y そ こ で 、 相 対 得 点 R.S.を 次 の よ う に 対 照 値 に す る た め に 、 は じ め に 相 対 値 X / (X + Y)に し ま す 。 R.S. = X = Sm X X + (Sm−X) 0.0 (X=0) ≦ R.S. ≦ 1.0 (X=Sm) こ れ を 対 照 値 に し た 相 対 得 点 (R.S.)を 「 対 照 相 対 得 点 」 (Relative Score in contrast: R.S.+c)と よ ぶ こ と に し ま す 。 R.S.+c は R.S.の X と Sm – X を 、 そ 61 れ ぞ れ X, Y と し て 、 先 の 対 照 値 (X – Y) / (X + Y)に し た も の で す 。 R.S.C. = X − (Sm−X) X + (Sm−X) 2X − Sm = Sm -1 (X=0)≦ R.S.(c) ≦ 1 (X=Sm) R.S.+c の 左 式 の ほ う が わ か り や す い で す が 、 EXcel で 計 算 す る と き は 右 式 の ほ う が 簡 単 で す 。 ま た は R.S.を 計 算 し て あ れ ば 、 そ れ を 参 照 し 2 を 掛 け て 1 を引きます。次がその結果です。 R.F.r. L1 L2 L3 L4 L5 R.F.r.+c L1 L2 L3 L4 L5 w1 .16 .31 .23 .11 .19 w1 -0.68 -0.39 -0.55 -0.77 -0.61 w2 .38 .24 .34 .00 .03 w2 -0.24 -0.52 -0.31 -1.00 -0.93 w3 .00 .00 .07 .86 .07 w3 -1.00 -1.00 -0.86 w4 .00 .11 .22 .33 .33 w4 -1.00 -0.78 -0.56 -0.33 -0.33 0.71 -0.86 相 対 頻 度 は デ ー タ の 規 模 が 大 き く な る と 一 般 に 全 体 の 数 値 が 下 が り 、 0.5 を超えることが少なくなります。その対照相対頻度は、上の図のように、 ほとんどが負になります。 卓 立 相 対 得 点 (P.R.S.)は 次 の よ う に 相 対 値 X / (X + Y)で 示 さ れ ま す 。 P.S. = (p – 1)X (p – 1)X + (s – X) 0.0 (X=0) ≦ P.R.S. ≦ 1.0 (X = s) よ っ て 、「 対 照 卓 立 相 対 得 点 」 (Prominent Score (contrast): P.S.(c)) は 次 の よ うになります。 P.S.C. = (p – 1)X −(s – X) (p – 1)X + (s – X) 次がその結果です。 P.R.F.r. L1 L2 L3 L4 L5 P.R.F.r.+c L1 L2 L3 L4 L5 w1 0.43 0.64 0.54 0.34 0.49 w1 -0.13 0.28 0.08 -0.33 -0.02 w2 0.71 0.56 0.68 0.00 0.13 w2 0.42 0.12 0.36 -1.00 -0.75 w3 0.00 0.00 0.24 0.96 0.24 w3 -1.00 -1.00 -0.53 0.92 -0.53 w4 0.00 0.33 0.53 0.67 0.67 w4 -1.00 -0.33 0.07 0.33 0.33 次 に 限 定 得 点 ( L.S.)を 対 照 化 し ま す 。 は じ め に 、 L.S.を 次 の よ う に 相 対 値 (X – Y) / (X + Y)に し ま す 。 Mn が X を 含 む デ ー タ の 最 小 値 、 MX が そ の 最 大値を示します。 L.S. = X−Mn = MX−Mn X−Mn (X−Mn)+(MX−X) 62 0.0 (X=Mn) ≦ L.S. ≦ 1.0 (X=MX) 上 の 右 式 は 相 対 値 X / (X + Y)な の で 、 そ れ を 対 照 値 (X – Y) / (X + Y)に し た も の が 「 対 照 限 定 得 点 」 (Limited Score (contrast): L.S.C.)で す 。 L.S.+c. = (X−Mn)−(MX−X) = = (X−Mn)+(MX−X) - 1.0 (X=Mn) 2X− MX−Mn MX−Mn ≦ L.S.c. ≦ 1.0 (X=MX) こ の L.S.+c.を 最 初 か ら 計 算 す る に は 上 の 右 式 を 使 い ま す 。 L.S.が す で に 計 算 さ れ て い る な ら ば 、 そ れ を 参 照 し て L.S.C. = (L.S.) × 2 – 1 の 計 算 を します。次がその結果です。 L.S.r. L1 L2 L3 L4 L5 L.S.r.+c L1 L2 L3 L4 L5 w1 0.25 1.00 0.58 0.00 0.42 w1 -0.50 1.00 0.17 -1.00 -0.17 w2 1.00 0.64 0.91 0.00 0.09 w2 1.00 0.27 0.82 -1.00 -0.82 w3 0.00 0.00 0.08 1.00 0.08 w3 -1.00 -1.00 -0.83 1.00 -0.83 w4 0.00 0.33 0.67 1.00 1.00 w4 -1.00 -0.33 1.00 0.33 1.00 3.1.10. 類 似 得 点 後述する各種の「類似係数」を応用して、行と列の関連性を示す得点を 「 類 似 得 点 」(Association Score: A.S.) と よ ぶ こ と に し ま す 。こ の 節 は 、1.3.11. を学習してから確認してください。 た と え ば 、 w1L1 の 10 を 、 w1(+):L1(+) の 回 数 (A:+/+) と み な し ま す 。 w1(+):L1(–)の 回 数 (B:+/–)は 、行 和 (Sm.r.) – x (10) = 62 – 10 = 52 に な り ま す 。 ま た 、w1(–):L1(+)の 回 数 (C:–/+)は 、列 和 (Sm.c.) – x(10) = 21 – 10 + 11 で す 。 そ し て w1(–):L1(–) の 回 数 (D:–/–) は 、 総 和 (Sm.a.) – 行 和 (Sm.r.) – 列 和 (Sm.c.) + x(10) = 104 と な り ま す 。 ◆ こ の よ う な A, B, C, D は Excel の 複 合 参照を使ってすべてのセルで計算します。結果は次のようになります。 実測値(A) L1 L2 L3 L4 L5 Sm.r B L1 L2 L3 L4 L5 w1 10 19 14 7 12 62 w1 52 43 48 55 50 w2 11 7 10 0 1 29 w2 18 22 19 29 28 w3 0 0 1 12 1 14 w3 14 14 13 2 13 w4 0 1 2 3 3 9 w4 9 8 7 6 6 Sm.c 21 27 27 22 17 114 63 C L1 L2 L3 L4 L5 D L1 L2 L3 L4 L5 w1 11 8 13 15 5 w1 41 44 39 37 47 w2 10 20 17 22 16 w2 75 65 68 63 69 w3 21 27 26 10 16 w3 79 73 74 90 84 w4 21 26 25 19 14 w4 84 79 80 86 91 こ れ ら の A, B, C, D を 各 セ ル で 参 照 し て 、 た と え ば 「 単 純 一 致 係 数 得 点 」 (Simple matching Scpre: S.m.S.) を 計 算 す る と 結 果 は 下 左 図 に な り ま す 。 ◆ Excel で は 相 対 参 照 を 使 い ま す 。 な お 、 各 種 の 類 似 得 点 は 、 そ れ ぞ れ の セ ルを同じ行と列の他のセル全体と比較するので、行数や列数が大きくなる と、全体に数値が小さくなる傾向があります。そこで、相対得点と同様に して、卓立化のオプションを選択すると下右図の結果になります。 S.m.S. = (A + D) / (A + B + C + D) S.m.S. L1 L2 L3 L4 L5 P.S.m.S. L1 L2 L3 L4 L5 w1 .45 .55 .46 .39 .52 w1 .66 .79 .71 .57 .72 w2 .75 .63 .68 .55 .61 w2 .85 .74 .80 .55 .64 w3 .69 .64 .66 .89 .75 w3 .69 .64 .68 .94 .76 w4 .74 .70 .72 .78 .82 w4 .74 .72 .75 .81 .85 他 も 同 様 で す 。 以 下 は 「 Jaccard 係 数 得 点 」 (Jc.S.), 「 Jaccard-2 係 数 得 点 」 (Js2.S.), 「 Russel and Rao 係 数 得 点 」(R-R.S.), 「 Russel and Rao-3 係 数 得 点 」 (R-R3.S.), 「 Hamann 係 数 得 点 」 (Hm.S.), 「 Yule 係 数 得 点 」 (Yl.S.), 「 Phi 係 数 得 点 」(Ph.S.), 「 Ochiai 係 数 得 点 」(Oc.S.), 「 Preference 係 数 得 点 」(Pr.S.) の結果です。卓立化はそれぞれ右図の結果になります。 Jc.S. L1 L2 L3 L4 L5 P.Jc.S. L1 L2 L3 L4 L5 w1 .14 .27 .19 .09 .18 w1 .56 .75 .65 .44 .64 w2 .28 .14 .22 .00 .02 w2 .76 .57 .69 .00 .15 w3 .00 .00 .03 .50 .03 w3 .00 .00 .17 .89 .22 w4 .00 .03 .06 .11 .13 w4 .00 .19 .33 .49 .55 Jc2.S. L1 L2 L3 L4 L5 P.Jc2.S. L1 L2 L3 L4 L5 w1 .24 .43 .31 .17 .30 w1 .72 .86 .79 .62 .78 w2 .44 .25 .36 .00 .04 w2 .86 .73 .82 .00 .27 w3 .00 .00 .05 .67 .06 w3 .00 .00 .29 .94 .36 w4 .00 .06 .11 .19 .23 w4 .00 .32 .50 .66 .71 64 R-R.S L1 L2 L3 L4 L5 P.R-R3.S L1 L2 L3 L4 L5 w1 .09 .17 .12 .06 .11 w1 .70 .83 .77 .61 .74 w2 .10 .06 .09 .00 .01 w2 .72 .61 .70 .00 .18 w3 .00 .00 .01 .11 .01 w3 .00 .00 .18 .74 .18 w4 .00 .01 .02 .03 .03 w4 .00 .18 .30 .39 .39 R-R3.S L1 L2 L3 L4 L5 P.R-R3.S L1 L2 L3 L4 L5 w1 .22 .38 .30 .16 .26 w1 .70 .83 .77 .61 .74 w2 .24 .16 .22 .00 .03 w2 .72 .61 .70 .00 .18 w3 .00 .00 .03 .26 .03 w3 .00 .00 .18 .74 .18 w4 .00 .03 .05 .08 .08 w4 .00 .18 .30 .39 .39 Hm.S. L1 w1 - .11 w2 L5 P.Hm.S. L1 L2 L3 L4 L5 .11 - .07 - .23 .04 w1 .32 .59 .42 .14 .44 .51 .26 .37 .11 .23 w2 .71 .48 .61 .11 .27 w3 .39 .28 .32 .79 .49 w3 .39 .28 .36 .88 .52 w4 .47 .40 .44 .56 .65 w4 .47 .44 .50 .63 .70 L2 L3 L4 L5 - .52 .39 w1 .70 .90 .75 .43 .90 .36 - 1.00 - .73 w2 .95 .78 .89 - 1.00 .10 Yl.S. L1 w1 - .16 w2 .64 L2 L3 .42 - .07 .02 L4 P.Yl.S. L1 L2 L3 L4 L5 w3 - 1.00 - 1.00 - .64 .96 - .42 w3 - 1.00 - 1.00 .27 1.00 .53 w4 - 1.00 .39 w4 - 1.00 .76 .90 .93 Ph.s. L1 w1 - .06 w2 .29 - .45 - .04 L2 L3 L4 .18 - .03 - .22 .01 .53 L5 P.Ph.s. .50 L1 L2 L3 L4 L5 .14 w1 .36 .53 .39 .20 .49 .15 - .29 - .19 w2 .71 .48 .61 - .29 .04 w3 - .18 - .21 - .15 .63 - .08 w3 - .18 - .21 .10 .88 .21 w4 - .14 - .09 - .01 .10 w4 - .14 .38 .55 .62 .15 .19 Oc.S. L1 L2 L3 L4 L5 P.Oc.S. L1 L2 L3 L4 L5 w1 .28 .46 .34 .19 .37 w1 .73 .86 .79 .63 .79 w2 .45 .25 .36 .00 .05 w2 .86 .73 .82 .00 .27 w3 .00 .00 .05 .68 .06 w3 .00 .00 .30 .94 .36 w4 .00 .06 .13 .21 .24 w4 .00 .34 .52 .67 .71 65 Pr.s. L1 L2 L3 L4 w1 - .52 - .15 - .37 - .67 - .39 w1 .43 .71 .57 w2 - .12 - .50 - .29 - 1.00 - .91 w2 .73 .45 .63 - 1.00 - .47 w3 - 1.00 - 1.00 - .90 w4 - 1.00 - .89 - .78 L5 P.Pr.s. L1 L2 L3 L4 .23 L5 .55 .33 - .87 w3 - 1.00 - 1.00 - .42 .88 - .29 - .61 - .54 w4 - 1.00 .32 - .36 .00 .41 ●行列演算による類似係数得点 下 左 表 (A)は 実 測 値 の 得 点 例 で す 。 こ こ で 、 w1:L1 の 10 を 「 w1 と L1 が 共 に 選 択 さ れ た 回 数 」 (A: +/+)と み な し ま す 。 B は 「 w1 は 選 択 さ れ 、 L1 が 選 択 さ れ て い な い 回 数 」(B:+/−)で す 。B(1,1)の 52 は 、A の w1 列 の L1 以 外 の 得 点 の 和 (19+14+7+12 = 52)に な り ま す 。 A L1 L2 L3 L4 L5 w1 10 19 14 w2 11 w3 0 w4 0 7 12 7 10 0 0 1 12 1 2 3 1 1 3 B L1 L2 L3 L4 L5 w1 52 43 48 55 50 w2 18 22 19 29 28 w3 14 14 13 2 13 w4 9 8 7 6 6 同 様 に し て 、 下 の C は 「 w1 が 選 択 さ れ ず 、 L1 が 選 択 さ れ て い る 回 数 」 (C:−/+)で あ り 、D は「 w1 と L1 が 共 に 選 択 さ れ い な い 回 数 」(D: −/−)を 示 し ます。 C L1 L2 L3 L4 L5 D L1 L2 L3 L4 L5 w1 11 8 13 15 5 w1 41 44 39 37 47 w2 10 20 17 22 16 w2 75 65 68 63 69 w3 21 27 26 10 16 w3 79 73 74 90 84 w4 21 26 25 19 14 w4 84 79 80 86 91 こ の A, B, C, D と い う 行 列 を 用 い て 、 そ れ ぞ れ の セ ル に 該 当 す る 類 似 係 数 を 求 め 、 こ れ を 「 類 似 係 数 得 点 」 (Similarity coefficient score: Scs)と よ ぶ ことにします。 A n p = X np [実 測 値 行 列 ] B n p = S n 1 [行 和 ベ ク ト ル ] – X n p C n p = T 1 p [列 和 ベ ク ト ル ] – X n p D n p = S [総 和 ス カ ラ ー ] − A n p – B np − C n p た と え ば 、 次 は 「 単 純 一 致 係 数 」 Simple matching coefficient を 使 っ た 単 純 一 致 係 数 得 点 」 Simple matching score: S.m.s.を 示 し ま す 。 S.m.s.は D 値 を 重視するため、全体に数値が高くなる傾向があります。 66 Sms. = (A n p + D n p ) / (A n p + B n p + C np + D n p ) Sms. L1 L2 L3 L4 L5 w1 0.447 0.553 0.465 0.386 0.518 w2 0.754 0.632 0.684 0.553 0.614 w3 0.693 0.640 0.658 0.895 0.746 w4 0.737 0.702 0.719 0.781 0.825 次 は Jaccard 係 数 得 点 (J.s.)と Jaccard-2 係 数 得 点 (J.2.s.)で す 。 J.s. = A n p / (A n p + B np + C n p ) J.2.s. = A n p *2 / (A n p *2 + B n p + C n p ) J.s. L1 L2 L3 L4 L5 J.2.s. L1 L2 L3 L4 L5 w1 0.137 0.271 0.187 0.091 0.179 w1 0.241 0.427 0.315 0.167 0.304 w2 0.282 0.143 0.217 0.000 0.022 w2 0.440 0.250 0.357 0.000 0.043 w3 0.000 0.000 0.025 0.500 0.033 w3 0.000 0.000 0.049 0.667 0.065 w4 0.000 0.029 0.059 0.107 0.130 w4 0.000 0.056 0.111 0.194 0.231 次 は Russel & Rao 係 数 得 点 R.r.s.と Russel & Rao-3 係 数 得 点 R.r.3.s.で す 。 R.r.s. = A n p / (A n p + B n p + C n p + D np ) R.r.3.s = A n p *3 / (A n p *3 + B np + C n p + D n p ) R.r.s. L1 L2 L3 L4 L5 R.r.3.s. L1 L2 L3 L4 L5 w1 0.088 0.167 0.123 0.061 0.105 w1 0.224 0.375 0.296 0.164 0.261 w2 0.096 0.061 0.088 0.000 0.009 w2 0.243 0.164 0.224 0.000 0.026 w3 0.000 0.000 0.009 0.105 0.009 w3 0.000 0.000 0.026 0.261 0.026 w4 0.000 0.009 0.018 0.026 0.026 w4 0.000 0.026 0.051 0.075 0.075 次 は Hama nn 係 数 得 点 H.s.と Yule 係 数 得 点 Y.s.で す 。 H.s. = [(A n p + D np ) – (B n p + C n p )] / [(A n p + D np ) + (B n p + C n p )] Y.s. = [(A n p * D n p ) – (B np * C np )] / [(A n p * D np ) + (B np * C np )] H.s. L1 L2 L3 L4 L5 Y.s. L1 L2 L3 L4 L5 w1 -0.105 0.105 -0.070 -0.228 0.035 w1 -0.165 0.417 -0.067 -0.522 0.386 w2 0.509 0.263 0.368 0.105 0.228 w2 0.642 0.017 0.356 -1.000 -0.733 w3 0.386 0.281 0.316 0.789 0.491 w3 -1.000 -1.000 -0.641 0.964 -0.425 w4 0.474 0.404 0.439 0.561 0.649 w4 -1.000 -0.449 -0.045 0.387 0.529 次 は Phi 係 数 得 点 Ph.s.と Ochiai 係 数 得 点 O.s.で す 。 67 Ph.s. = [(A n p * D n p ) – (B n p * C np )] / [(A n p + B n p )*(C n p +D n p )*(A n p +C n p )*(B n p +D n p )] 1 /2 O.s. = S n p / [(A n p + B n p )*(A n p +C n p )] 1 /2 Phs. L1 L2 L3 L4 L5 O.s. L1 L2 L3 L4 L5 w1 -0.065 0.179 -0.028 -0.222 0.136 w1 0.277 0.464 0.342 0.190 0.370 w2 0.294 0.006 0.148 -0.286 -0.188 w2 0.446 0.250 0.357 0.000 0.045 w3 -0.178 -0.208 -0.146 0.630 -0.082 w3 0.000 0.000 0.051 0.684 0.065 w4 -0.139 -0.087 -0.010 0.104 0.151 w4 0.000 0.064 0.128 0.213 0.243 次 は 優 先 係 数 得 点 (Pr.s.)で す 。 Pr.s. = [A n p * 2 – (B np + C n p )] / [A n p * 2 + (B np + C n p )] Pr.s. L1 L2 L3 L4 L5 w1 -0.518 -0.146 -0.371 -0.667 -0.392 w2 -0.120 -0.500 -0.286 -1.000 -0.913 w3 -1.000 -1.000 -0.902 w4 -1.000 -0.889 -0.778 -0.613 -0.538 0.333 -0.871 これらの類似係数得点は、いずれも得点分布を行と 列の係数間の類似度 を占めるものとみなして、それを標準化して示したものです。それぞれ算 式によって示される特徴があります。 3.1.11. 識 別 得 点 す べ て の 絶 対 頻 度 (1)に つ い て 識 別 度 を 計 算 し (2)、負 値( マ イ ナ ス の 値 )と ゼロ商値(分数の分母がゼロになる値)をゼロにした得点を「識別得点」 を名付けます。 (1) A L1 L2 L3 L4 w1 10 19 14 w2 w3 w4 11 7 21 L5 7 12 62 12 3 1 1 3 29 1 10 1 2 27 27 22 17 114 (2) Dis.s. L1 L2 L3 w1 - .100 .579 .071 w2 .091 - 1.857 - .700 L4 - 1.143 L5 .583 Dv/0 - 15.000 68 14 9 w3 Dv/0 Dv/0 - 25.000 w4 Dv/0 - 25.000 - 11.500 .167 - 15.000 - 5.333 - 3.667 (3) Dis.s. L1 w1 w2 L2 L3 .579 .071 L4 L5 .583 .091 w3 .167 w4 上 の (3)の 得 点 は 縦 列 に つ い て 「 識 別 得 点 」 を 計 算 し た 結 果 で す 。 3.2. 正規化得点 データ行列全体の総和を 1 として、それぞれのセルの値を相対化する方 法 を 「 正 規 化 得 点 」 Normalized score と よ ぶ こ と に し ま す 。 3.2.1. 総 和 に よ る 正 規 化 得 点 そ れ ぞ れ の セ ル の 値 を 総 和 で 割 り ま す 。た と え ば 、d1:L1 の セ ル で は 10 / 114 = 0.088 と な り ま す 。 O n p = I n p / Sum(I n p ) A L1 L2 L3 L4 L5 和 d1 10 19 14 7 12 62 d1 .088 .167 .123 .061 .105 .544 d2 11 7 10 0 1 29 d2 .096 .061 .088 .000 .009 .254 d3 0 0 1 12 1 14 d3 .000 .000 .009 .105 .009 .123 d4 0 1 2 3 3 9 d4 .000 .009 .018 .026 .026 .079 和 21 27 27 22 17 114 和 .184 .237 .237 .193 .149 1.000 Nml. sum L1 L2 L3 L4 L5 和 * 池 田( 1976: 121-123)の「 総 和 を 基 礎 に し た 相 対 度 数 」を 参 照 し ま し た 。 3.2.2. 比 率 の 分 数 平 均 に よ る 正 規 化 得 点 A という条件で Y ではなく X となる 相対頻度だけでなく、X となった とき、条件が A であった相対頻度も考慮に入れた正規化得点を考えます。 それぞれのセルの値の横和による比率と縦和による比率の分数平均を求め ます。 O n p = I n p x 2 / [ SumR(I n p ) + SumC(I n p ) ] 次に、この演算で得られた行列全体をその総和で割ることにより、総和 69 を 1 にします。 O n p = O np / Sum(O n p ) A L1 L2 L3 L4 L5 和 d1 10 19 14 7 12 62 d1 .062 .109 .080 .043 .078 .371 d2 11 7 10 0 1 29 d2 .112 .064 .091 .000 .011 .279 d3 0 0 1 12 1 14 d3 .000 .000 .012 .170 .016 .199 d4 0 1 2 3 3 9 d4 .000 .014 .028 .049 .059 .151 和 21 27 27 22 17 114 和 .174 .187 .212 .262 .164 1.000 Nml. fr.av. L1 L2 L3 L4 L5 和 3.2.3. 比 率 の 幾 何 平 均 に よ る 正 規 化 得 点 ここでは、分数平均ではなく、幾何平均を使います。 O n p = {I n p ^2 / [SumR(i n p ) * SumC(I n p )]}^(1/2) O n p = O np / Sum(O n p ) A L1 L2 L3 L4 L5 和 d1 10 19 14 7 12 62 d1 .066 .111 .082 .045 .088 .392 d2 11 7 10 0 1 29 d2 .106 .060 .085 .000 .011 .262 d3 0 0 1 12 1 14 d3 .000 .000 .012 .163 .015 .191 d4 0 1 2 3 3 9 d4 .000 .015 .031 .051 .058 .155 和 21 27 27 22 17 114 和 .173 .186 .210 .259 .172 1.000 Nml. ge.av. L1 L2 L3 L4 L5 和 3.2.4. モ ス テ ラ ー の 正 規 化 得 点 下左表のようなデータ行列のそれぞれのセルに一定の値を掛けて、縦和と 横和が同一になるように変換すると、全体の中で値を相対的に見ることが できます(下右表)。この例では総和を 1 にしています。 A L1 L2 L3 L4 L5 和 d1 10 19 14 7 12 62 d1 .068 .091 .043 .007 .041 .250 d2 11 7 10 0 1 29 d2 .132 .059 .053 .000 .006 .250 d3 0 0 1 12 1 14 d3 .000 .000 .041 .162 .047 .250 d4 0 1 2 3 3 9 d4 .000 .050 .063 .031 .106 .250 和 21 27 27 22 17 114 和 .200 .200 .200 .200 .200 1.000 Mosteller L1 L2 L3 L4 L5 和 このように和を一定に揃えるためには、行和または列和だけならば、その 和 で そ れ ぞ れ の セ ル の 値 を 割 れ ば で き る の で す が 、こ の 場 合 、列 和 (4)と 行 和 (5)の 条 件 を 同 時 に 満 た す 値 を 探 さ な け れ ば な り ま せ ん 。そ こ で 、は じ め にそれぞれの行和で割った行列成分を、次にその列和で割ります。このと 70 き、行和が変化しますから、再び行和で割り、列和で割る、という演算を します。それをセルの値の変化がほとんでなくなるまで繰り返します。こ の 方 法 は 「 モ ス テ ラ ー (Mosteller) の 標 準 化 」 と よ ば れ ま す 。 * 池 田 (1976: 123-124) 次 が デ ー タ 行 列 を 行 和 *個 数 と 列 和 *列 数 で 割 る 行 列 演 算 式 で す 。 Sn = SumR(F n p ), F n p = F n p / (Sn * N) Tp = SumC(F n p ), F n p = F n p / (Tp * P) ■ 音 素 /s/に 対 応 す る 2 つ の 文 字 と 正 規 化 の 理 由 中 世・近 代 ス ペ イ ン 語 で は 、短 い s と 縦 長 の ſ の ど ち ら も 音 素 /s/を 表 し て い ま し た 。そ の 分 布 の 特 徴 は 語 末 に 短 い s が 使 わ れ る 傾 向 が あ っ た 、と いうことが観察されています。しかし、確かに語末では短い s が多く使わ れ て い る の で す が 、そ れ は 語 頭・語 中 で も や は り 使 わ れ て い ま す( 下 左 表 : 『 ア レ ク サ ン ダ ー 大 王 物 語 』 Libro de Alexandre (1300)の 冒 頭 か ら 2 万 字 ま で)。下右表は総和による正規化の結果です。 /s/ 語頭 語中 語末 和 Nml. sum 語頭 語中 語末 和 s 62 2 593 657 s .042 .001 .397 .440 ſ 314 412 109 835 ſ .210 .276 .073 .560 和 376 414 702 1492 和 .252 .277 .471 1.000 短い s が語末に出現する傾向は、このような小さな規模(2 行 3 列の大 き さ の 表 )で 頻 度 が 低 い デ ー タ( 総 数 1492)な ら ば と く に 正 規 化 し な く て も大体様子がわかるのですが、それらがさらに大きくなると、分布の傾向 を 見 る こ と が 難 し く な り ま す 。そ こ で 、よ く 行 わ れ る の は 次 の よ う な 横 軸 、 または縦軸の和で割った相対頻度の表示です。 横軸 語頭 語中 語末 和 縦軸 語頭 語中 語末 和 s .094 .003 .903 1.000 s .165 .005 .845 1.014 ſ .376 .493 .131 1.000 ſ .835 .995 .155 1.986 和 .470 .496 1.033 2.000 和 1.000 1.000 1.000 3.000 ここで気づくことは、横軸を相対化すると、観点は横軸に集中し、たと え ば 、短 い s が 語 頭・語 中 よ り も 語 末 に 集 中 し て い る こ と が わ か り 、一 方 、 縦軸を相対化すると、たしかに語末では短い s が多く現れているのですが (.845)、 語 頭 で の 長 い ſ も そ れ に 続 く よ う に 高 い 比 率 (.835)を 占 め て い る こ とです。そのことならば、横軸相対化得点(上左表)で見れば、語頭の位 置 の 短 い s と 縦 長 の ſ の 割 合 が 同 じ に な る の で は な い か 、と 思 わ れ る か も し れ ま せ ん が 、 実 は 、 .094 / .470 = .200, .376 / .470 = .800 に な る の で 、 上 71 右 表 の .165, .835 と は 異 な り 、必 ず し も 正 確 に は 両 者 の 比 率 が 正 し く 比 較 で きません。 次の2つの表は、横比率と縦比率の分数平均(下左 表)と、両者の幾何 平均(下右表)を示しています。 Nml. frac.av. 語頭 語中 語末 和 Nml. geo.av. 語頭 語中 語末 和 s .052 .002 .377 .430 s .052 .002 .363 .416 ſ .224 .285 .061 .570 ſ .233 .291 .059 .584 和 .276 .286 .438 1.000 和 .285 .293 .422 1.000 上 左 表 で は 、語 頭 の s の 頻 度 を 横 和 で 割 っ た 値 62/657 と 、縦 和 で 割 っ た 値 62/314 の そ れ ぞ れ の 分 子 と 分 母 を 足 し て 割 り 算 を し て い ま す( (62 x 2) / (657+314) = .052) 。 こ の と き 、 単 に 短 い s の 頻 度 の 語 頭 位 置 の 割 合 だ け で なく、語頭の位置での s の割合も考慮に入れています。両者の幾何平均を 使う、上右表でも同様です。 た と え ば 、 コ レ ラ 流 行 時 の 同 じ 川 の 流 域 に あ る 2 市 ( A, B) の 感 染 死 亡 者数を比較する資料があると仮定しましょう(下左表)。下右表はその縦 軸 の 割 合 で す 。 そ れ ぞ れ の 市 の 死 亡 者 の 割 合 ( .032, .012) が 算 出 さ れ る の で 、 こ こ か ら 、 A 市 (.032)は B 市 (.012)と 比 べ て 、 2.6 倍 に も な る 、 と 言 え る で し ょ う か ? そ れ な ら ば 、 生 存 者 を 比 較 す る と (.968, .988)、 比 を 計 算 す る と .979 な の で 、 ほ と ん ど 同 じ に な っ て し ま い ま す 。 コレラ R.S.c. A市 B市 1550 死亡者 .032 .012 生存者 39000 20000 59000 生存者 .968 .988 1.955 和 和 死亡者 A市 1300 B市 250 和 40300 20250 60550 和 .045 1.000 1.000 2.000 実は、先の文字の出現位置の比較でも見たように、母数の異なる集団の 中の割合(率、%など)で、集団を比較することは本質的にできないはず なのです。そこでデータを正規化する必要が生まれますが、そうすると次 のような結果になります。 Nml. sum A 市 B 市 和 Nml. frac.av. A 市 B市 和 死亡者 .021 .004 .026 死亡者 .045 .017 .062 生存者 .644 .330 .974 生存者 .571 .367 .938 .666 .334 1.000 .616 .384 1.000 和 和 上左表は、単純な総和による正規化の結果です。それぞれの 4 つの数値 は 同 じ 共 通 の 総 和( 60550)で 割 っ て い る の で 、一 応 は 比 較 で き ま す 。こ れ で、もとのデータ行列では見にくかった割合の内訳がわかるようになりま し た 。し か し 、こ の 方 法 で は 、た と え ば 、B 市 の 死 亡 者 の 割 合 (.004)を 計 算 72 するとき、直接関係のない、A 市の多数の生存者も含めています。そのた め 非 常 に 小 さ な 数 値 に な っ て い ま す 。む し ろ 、死 亡 者 全 体 の 中 の B 市 の 割 合と B 市全体の中の死亡者の割合を共に計算に入れた両軸の割合の分数平 均や(上左表)、幾何平均を使ったほうが、納得できる数値になるでしょ う。 言語研究に限らず、さまざまな分野の研究で母数の異なる集団の 数量的 比較が行われますが、そのとき、そもそも母数が異なれば絶対頻度(数え た素数)では比較できません。そこで、割合やパーセント、パーミル、パ ー ミ リ オ ン な ど の 相 対 頻 度 が 使 わ れ る こ と が 多 い の で す が 、こ れ ら の 率 は 、 厳 密 に 言 え ば 、比 較 が で き な い は ず で す 。極 端 な 例 で は 、250/1000=25%と 、 3/10=30%を 比 較 し て も ほ と ん ど 意 味 が な い で し ょ う 。そ れ な ら ば 、母 数 が 近 い と き 、た と え ば 、25/400, 25/450 な ら ば そ れ ほ ど 問 題 に な ら な い 、と い うことも考えられます。しかし、どのような母数の隔たりまで比較が許さ れ る の で し ょ う か ? 1.5 倍 や 2 倍 な ら ば 問 題 が な い の で し ょ う か ? 厳 密 に 数値を相対化して比較するためには、データ行列全体に適切な正規化を適 用してみる価値があると思います。 3.3. 質的データ 量的データを質的データに変換したり、質的データの表示形式を変 えた りするための操作です。 (1) デ ー タ の 50 以 上 の 数 値 (A)を 1 に 変 換 し ま す 。 50 未 満 を 0 と し ま す 。 項目 a.効果 b.楽しい 項目 a.効果 b.楽しい 1.文法解説 86 29 1.文法解説 1 0 2.ビデオ 53 78 2.ビデオ 1 1 3.活動 48 53 3.活動 0 1 4.映画 43 96 4.映画 0 1 (2) 上 右 表 の 1/0 を v/(空 白 )に 変 換 し ま す ( 下 左 ) 。 ま た 、 v/(空 白 )を 1/0 に戻します(下右)。 項目 a.効果 b.楽しい 1.文法解説 v 2.ビデオ v 項目 a.効果 b.楽しい 1.文法解説 1 0 v 2.ビデオ 1 1 3.活動 v 3.活動 0 1 4.映画 v 4.映画 0 1 73 3.4. 名義行列 下 左 表 の よ う な 名 義 を 成 分 と す る 行 列 を 「 名 義 行 列 」 (Nominal Matrix) と よ ぶ こ と に し ま す 。 Lt.Oc.の よ う に 名 義 の 出 現 を 示 す 名 義 行 列 を 「 名 義 出 現 行 列 」 (Nominal occurrence matrix) と よ び 、 Lt.Fq.の よ う に 名 義 ご と の 頻 度 を 示 す 名 義 行 列 を「 名 義 頻 度 行 列 」(Nominal frequency matrix)と よ び 、 Lt.Dt.の よ う に 、カ テ ゴ リ ー (d1, d2, …, dn)ご と の 分 布 を 示 す 名 義 行 列 を「 名 義 分 布 行 列 」(Nominal distribution matrix)と よ ぶ こ と に し ま す 。こ れ ら を 用 いて、後述するさまざまな分析をします。 Lt.Oc. d1 v1 A v2 v3 v4 Lt.Oc. > Lt.Dt. v1 v2 v3 v4 A,B B C d1:A v d2 B,D B,C,D C D d1:B d3 A,B C B C d1:C d4 C C,D C A d2:B v v d5 B C B,C B,C,D d2:D v v v v1 v2 v3 v4 v d3:A v 1 d3:B v A 2 1 B 3 2 3 1 d3:C C 1 4 3 3 d4:C D 1 2 2 d4:D v v d2:C Lt.Oc. > Lt.Fq. v v v v v v v v v v d4:A d5:B d5:C d5:D v v v v v v v v 3.5. 欠測値の補充 (1) 隣 接 値 に よ る 欠 損 値 補 充 データ行列に欠測値があるとき、隣接の値を参照することが可能であると 判断したときに使用します。これはとくに集中化されたデータ行列で有効 で す ( → 「 3.9 集 中 」 ) 。 隣 接 値 の 平 均 値 を 使 っ て デ ー タ 行 列 ( 下 左 表 ) の欠測値を補充します(下右表)。 74 P2 v-1 v-2 d-1 1 d-2 2 d-3 1 d-4 3 d-5 2 v-3 1 v-4 2 3 3 3 P2 4 2 v-1 v-2 v-3 v-4 d-1 1 1 2 1 d-2 2 2 3 4 d-3 1 3 2 1 2 4 d-4 3 2 2 4 2 4 d-5 2 3 2 4 欠測値のある欠測値を含めてセルの上下左右の値の平均値で補充します。 上下左右のセルに値があれば、4 つの値を足して 5 で割りますが、行列の 端 に 位 置 す る セ ル の 場 合 は 隣 接 す る 値 の 数 +1 で 割 り ま す 。結 果 は 他 の セ ル を揃えるために四捨五入して整数部だけを出力します。補充は 1 回だけで なく可能な限り繰り返します。隣接値として列、行、両軸の選択ができま す。 (2) 期 待 値 に よ る 欠 損 値 補 充 期 待 値( → 1.4.2.)を 使 っ て デ ー タ 行 列 の 欠 測 値 を 補 充 し ま す 。次 の 例 で は 「 3.活 動 」の「 a.効 果 」の 値 48 を x と し ま す 。こ れ を 期 待 値 で 補 充 す る と 、 47.52 と い う 近 似 値 を 得 ま す 。 項目 a.効果 b.楽しい 項目 a.効果 b.楽しい 1.文法解説 86 29 1.文法解説 86.00 29.00 2.ビデオ 53 78 2.ビデオ 53.00 78.00 3.活動 x 53 3.活動 47.52 53.00 4.映画 43 96 4.映画 43.00 96.00 *この例では、次の期待値の方程式から x を直接求めることができます。 E n p [期 待 値 ]= Sn [行 和 ] * Tp [列 和 ]/ T [総 和 ] x = (86 + 53 + x + 43)(x + 53) / (86 + 53 + x + 43 + 29 + 78 + 53 + 96) x = (182 + x) (53 + x) / (438 + x) 438x + x 2 = 9646 + 235x + x 2 203x = 9646 x = 47.52 複数の欠測値があるときは、このような簡単な計算ができないので、次の プログラムで収束するまで繰り返します。 75 4. 関 係 3 以上の変数(多変数)をもつデータ行列の変数間の関係を各種の相関係 数行列や類似度係数行列を使って示します。そして、データ行列の個体間 の関係を各種の距離行列を使って測ります。また、一般に行列の成分は連 続 変 数 や 1-0 と い う 二 値 変 数( ま た は「 v」な ど 1 文 字 の 表 示 )に な り ま す が、言語データ分析に欠かせない文字行列を分析する方法を試みます。 4.1. 相関 前節までの内容は、1 つのデータを代表する値や個々のデータを置き換え る数値を扱いました。本節では 2 つの種類のデータを扱い、それらの関係 性を見ます。2 つのデータが関わってきますので、数字の裏にある数式は すこし複雑になりますが、一度理解してしまえば、数値の本質がわかり、 その使い方や応用の方法がわかるようになります。はじめには簡単な例や 図を使って、統計的な数値を直感的に納得できるようにします。納得でき た後でその数学的な根拠を探ります。数学的な根拠がわかったら、自分で 手を動かしてそれを実験して確かめましょう。ここまですれば確実にその 統計手法が身につきます。 数値の意味がわかったならば、それをたくさん使ってみましょう。そう すれば感覚がだんだんと養われていき、理論的な知識が経験的なスキルに よ っ て 裏 づ け ら れ る よ う に な り ま す 。知 識 は 使 う こ と で 生 か さ れ て き ま す 。 Excel の よ う な ア プ リ ケ ー シ ョ ン は 、 こ う し た 実 験 を す る の に と て も 便 利 です。 4.1.1. 量 的 な デ ー タ の 相 関 4.1.2. デ ー タ まず頻度やアンケートの結果など、数えたりスケールを測ったりできる量 的な数値について扱います。次のデータを見てください。これは西語(ス ペ イ ン 語 ) の 文 1 (Madrid)と 文 2(Sevilla)に 関 し て 主 要 な 前 置 詞 の 頻 度 を 集 計したものです。 鍵語 1 Madrid 2 Sevilla 151 163 con 38 45 de 202 195 a 76 en 105 81 por 54 45 こ こ に は「 文 1」と「 文 2」と い う 2 つ の デ ー タ が あ り ま す 。こ の 2 つ の 文 は前置詞の観点からみると、どの程度類似しているのでしょうか。本節で はこのような 2 つのデータの関連の強度を計算する方法を見ていきます。 4.1.3. デ ー タ 間 の 関 係 はじめに 2 つのデータの関係性を捉えるために散布図にして視覚化してみ ま し ょ う 。 ◆ Excel で は 、 英 文 1 英 文 2 の 2 列 を 選 択 し 、 「 挿 入 」 → 「 グ ラフ」→「散布図」とします。軸ラベルがあるレイアウトに変更し、それ ぞれ軸ラベルを編集しておきます。 一見したところ、文 1 と文 2 は比例関係があるようです。この事実を確か めるために行の原点(ゼロの位置)を英文 1 の平均までずらし、列の原点 を英文 2 の平均までずらして散布図を描き直してみましょう。そのために は、前章で見た標準得点が使われます。これは次のように定義されます。 標 準 得 点 (SM) = x- X の 平 均 値 Xの標準偏差 こ の よ う に 標 準 得 点( SM i )は そ れ ぞ れ 元 の 値( x i )か ら 全 体 の 平 均 値( m ) を 引 い て 、 さ ら に そ の 値 を 全 体 の 標 準 偏 差 ( σ) で 割 っ て 得 ら れ た 数 値 で す。 次は、このデータを標準得点に置き換えた結果です。つまり全体の平均が 0、 標 準 偏 差 が 1 に な る よ う に し た も の で す 。 77 v-1(sm) v-2(sm) v-1(sm) 0.674 0.922 0.674 -1.184 -0.980 -1.184 1.513 1.438 1.513 -0.082 -0.400 -0.082 -0.921 -0.980 -0.921 この標準得点に変換したデータで、もう一度散布図を作成すると次のよう になります。 こ の 図 を 見 れ ば 、文 1 と 文 2 の デ ー タ が す べ て A と C の 領 域 に 入 っ て い る ことがはっきりと分かります。A と C の領域は、x 軸の値と y 軸の値の標 準 得 点 を 掛 け 合 わ せ る と 、そ の 2 つ と も 正( + )、ま た は 2 つ と も 負( - ) で あ る の で 、そ の 積 は 正 に な り ま す 。一 方 、B と D の 領 域 は 2 つ の 正 負 が 異なるため積は負となることがわかります。 4.1.4. 相 関 係 数 Xの標準得点とYの標準得点を掛けた値の総和を求めればXとYの関連 する度合いが数値化できます。共に正(+)、または共に負(-)であれ ば、それらの積は正になりますから、この積の数が多ければ多いほど相関 が強くなります。そしてすべてのデータが図の斜めの線に近づけば相関の 程度はますます高くなり、全部が斜めの線に完全に一致すれば相関は最大 になります。 逆 に 、 B と D の 領 域 に あ る デ ー タ は 正 の 相 関 を 減 少 さ せ ま す 。そ れ が 多 く な れ ば な る ほ ど 相 関 の 程 度 は 弱 ま り ま す 。そ れ ら の デ ー タ は X と Y の 値 の積が負になるからです。もし、負ばかりのデータであれば、逆の相関が 78 強 く な り ま す 18 。 ま た 、 A, B, C, D に 平 均 し て 分 布 し て い る と X と Y の 間 には相関関係がない、と考えられるでしょう。 このような積の合計(積和)はデータの量に左右されます。つまり、デ ータ量が多くなればなるほど値はどんどん大きくなり、スケールが一定に なりません。そこで、積和を全体の個数で割って積和の平均を出したもの が 「 相 関 係 数 」 (coefficient of correlation) で す 。 相 関 係 数 の 求 め 方 を 一 般 化 した公式に変えましょう。 X と Y の 相 関 係 数 ( r) = { [(x 1 - m x ) / σ x ] [(y 1 - m y ) / σ y ] + [(x 2 - m x ) / σ x ] [(y 2 - m y ) / σ y ] (...) + [(x n - m x ) / σ x ] [(y n - m y ) / σ y ] } / n と い う 計 算 を し ま す 。 σx と σy を 分 母 に 移 す と 、 r = [ (x 1 - m x )(y 1 - m y ) + (x 2 - m x ) (y 2 - m y ) + (...) + (x n - m x ) (y n - m y ) ] / (nσ x σ y ) ここで、 [ (x 1 - m x )(y 1 - m y ) + (x 2 - m x ) (y 2 - m y ) + (...) + (x n - m x ) (y n - m y ) ] / n を 「 共 分 散 」 (covariance)と よ び 、 S xy と 書 き ま す 。 す る と 先 の 式 は 、 X と Y の 相 関 係 数 ( r) = Sxy σ x *σ y と な り ま す 。 X と Y の 相 関 係 数 (r) は 最 終 的 に 相 関 係 数 (r) = Xと Yの 共 分 散 Xの 標 準 偏 差 * Yの 標 準 偏 差 となります。 18 中 心 の 点 (0, 0)に 近 い 位 置 の デ ー タ は 、相 関 に あ ま り 影 響 し ま せ ん 。逆 に 中心から離れた位置のデータは相関に強く影響します。 79 ● 相 関 係 数 (r)が -1 ≦ r ≦ 1 に な る 理 由 相 関 係 数 は -1 ≦ r ≦ 1 と い う 範 囲 に 入 る 標 準 的 な 値 で す 。こ の こ と を 高 校数学までに習った判別式を使って確かめてみましょう。 原理的に、相関係数はすべてのデー タが一直線に並ぶときに最大になり ますから、そのような直線の式を (y - m y ) = a (x - m x ) で 表 し ま す 。 こ こ で 、 mx と my は そ れ ぞ れ x と y の 平 均 値 を 示 し ま す 。 こ の 直 線 は X と Y の 平 均 値 の 座 標 (m x , m y )を 通 り 、 傾 き は a と な り ま す 。 直 線ならば、上の式から、 a (x - m x ) - (y - m y ) = 0 と な り ま す が 、実 際 の デ ー タ で は 、(x, y)の そ れ ぞ れ の 値 、つ ま り 、(x 1 , y 1 ), (x 2 , y 2 ), ... (x n , y n )が 直 線 上 に 並 ぶ こ と は ふ つ う あ り ま せ ん 。そ の 値 を (x i , y i ) と し て 、上 の 式 に 当 て は め る と 、a (x i - m x ) - (y i - m y ) は ゼ ロ (0)で は な く て 、 プラスになったり、マイナスになったり、さまざまな値をとります。その 全体の変動を見るために、その自乗和を計算しましょう。 f(a) = Σ [a (x i - m x ) - (y i - m y )] 2 これは平方和なので負(マイナス)になることはありません。つまり、 f(a) ≧ 0 で す 。 f(a)を 展 開 し ま し ょ う 。 f(a) = Σ [a 2 (x i - m x ) 2 - 2a(x i - m x )(y i - m y ) + (y i - m y ) 2 ] = Σ a 2 (x i - m x ) 2 - Σ 2a(x i - m x )(y i - m y ) + Σ (y i - m y ) 2 = a 2 Σ (x i - m x ) 2 - 2aΣ (x i - m x )(y i - m y ) + Σ (y i - m y ) 2 こ の よ う に f(a)は a の 2 次 式 に な り ま す が 、先 に 見 た よ う に f(a)≧ 0 な の で、2 次式の放物線の頂点が行に接するか、またはその上方にあることに な り ま す 19 。 a を 行 に 、 f(a)を 列 に し た グ ラ フ を 描 い て み ま し ょ う 。 19 ここで「行」と言い x 軸と言わないのは、上の 2 次式は x についての 2 次 式 と い う よ り も 、a に つ い て の 2 次 式 を 考 え て い る か ら で す 。よ っ て「 行 」 は「a 軸」のことです。 80 【 図 6.1e】 【 図 6.1f】 f(a)の 放 物 線 の 頂 点 が ち ょ う ど を 行 上 に あ る と き は ( 【 図 6.1e】 ) 、 次 の判別式がゼロとなって、解が 1 つになります。放物線の頂点が行よりも 上 に あ る と き は ( 【 図 6.1f】 ) 解 が な い の で ( 行 と ぶ つ か ら な い の で ) 判 別 式 は マ イ ナ ス に な り ま す 20 。 判 別 式 (D) ≦ 0 こ れ を f(a)の 式 に 当 て は め ま す 。 [2Σ (x i - m x )(y i - m y )] 2 [Σ (x i - m x )(y i - m y )] 2 - 4Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0 - Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0 上の式のそれぞれの要素は、相関係数で使われた要素と同じであること に気づきます。そこで第 2 項を右辺に移動します。 [Σ (x i - m x )(y i - m y )] 2 ≦ Σ (x i - m x ) 2 Σ (y i - m y ) 2 さらに両辺を右辺で割ります。 [Σ (x i - m x )(y i - m y )] 2 Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 1 こ の 左 辺 は 、相 関 係 数 (r)を 自 乗 し た も の で す か ら 、 r 2 ≦ 1 と な り 、よ っ て -1 ≦ r ≦ 1 となります。 20 2 次 方 程 式 ax 2 + bx + c = 0 の 判 別 式 (D)は b 2 – 4ac で す 。 81 4.1.5. 相 関 係 数 の 意 味 出 力 さ れ た 数 値 に つ い て 経 験 的 に 次 の よ う な 解 釈 で き ま す 21 。 |r| = 0.0 XとYの間に相関がない 0.0 < |r| ≦ 0.2 XとYの間にほとんど相関がない 0.2 < |r| ≦ 0.4 XとYの間に弱い相関がある 0.4 < |r| ≦ 0.7 XとYの間にやや強い相関がある 0.7 < |r| ≦ 1.0 XとYの間に強い相関がある 4.1.6. 相 関 係 数 に つ い て の 注 意 相関係数を計算することによってあらゆる数値データの間の相関関係 が一応わかります。しかし、これはデータの本質については何も知らない コンピュータが、入力された数値だけをもとに出した結果にすぎないので 注意が必要です。いろいろなケースが考えられますが、たとえば次のよう な場合に単に相関係数だけを求めて、それを現象の解釈の結論にしてしま うのは危険です。 (0) そ も そ も 2 つ が 同 じ デ ー タ の 場 合 。 た と え ば 、 値 と そ の 百 分 率 ( %) はまったく同じデータです。 (1) デ ー タ の 数 が 極 端 に 少 な い 場 合 。 た と え ば 次 の よ う に 5 つ の デ ー タ だ けで相関係数を出してもあまり意味はないでしょう。このような分布は偶 然に生まれたのかも知れません。 (2) 異 質 な デ ー タ が 混 在 し て い る 場 合 。 全 く 異 な る デ ー タ を 寄 せ 集 め て 相 関係数を求めると、現象の正しい解釈ができないことがあります。 21 相 関 係 数 の 範 囲 は -1≦ r≦ 1 に な る の で 、こ こ で は マ イ ナ ス と な る 逆 相 関 も 含 め て 絶 対 値 |r|で 示 し ま す 。 82 上左図は異質のグループを総合して判断したために、個々のグループの中 で は 強 い 相 関 が あ り な が ら 、 全 体 と し て は そ れ が 弱 く な る ケ ー ス で す 22 。 上右図は異質のグループの間には相関がないのに総合させると、相関らし きものが見えてしまうケースです。 (3) 大 き な 偏 り を 持 つ デ ー タ の 場 合 。 デ ー タ の 分 布 に 大 き な 偏 り が あ る と きは注意が必要です。一般に下左図のように平均のそばに多く分布してい て、周辺に少なくなるタイプのデータが適しています。 ところが、たとえば大量のテキスト内の語彙の分布は上右図のようになる ので一般に高い相関係数を示します。 このようなさまざまなケースについて正しく分析するするためには散布 図をしっかり観察することが大切です。また、相関関係が必ずしも因果関 係を示しているわけではないことに注意しましょう。たとえば勉強時間と 試験の成績の間に相関関係があったとても、それが必ずしも、勉強時間を 増やせば試験の成績向上につながる、という「原因→結果」の関係を示し ていることにはならないでしょう。そこには、たとえば「教科への関心・ 興味」のような隠れた要素があって、それが勉強時間と試験成績のどちら に も 影 響 し て い る こ と が 考 え ら れ ま す 23 。 相関係数の算出はあくまでも数学的な操作に過ぎ ません。資料の本質を 知らずに計算すると意味のない分析結果を示すことにもなりかねないので す。分析者が散布図を提示せず結果だけを示すときはとくに注意すべきで 22 先のスペイン語教材のアンケート調査結果がこれと似ています。 勉 強 時 間 と 試 験 成 績 と い う よ う に 、単 位 が 異 な っ て い て も 、ま た 、実 技 テストと筆記試験のように規模(満点)が異なっていても、どちらも、標 準化された値(標準得点)を比べるので、そのまま相関係数を計算するこ とができます。 23 83 す。私たちは言語データを扱うとき、ただやみくもにデータを分析するの ではなく、そのデータをしっかりと見つめること、できれば全部読むこと が必要です。そうすれば、自然とデータについての理解が深まるので、変 な分析結果が出てきたときには直感で気がつくはずです。しっかりとデー タを読みこんでおくと、そのデータについて自分がよくわかっている、と いう自信につながります。自分の経験に基づいた直感と、数学的に得られ たデータ分析の結果を比較しながら、一致しているかどうか、一致してい ないときは何の要因がありうるか考えてみる必要があるでしょう。 ■一人称的な研究 私たちは、言語を単なる言語分析用のデータと見ているのではなく、言 語作品を鑑賞したり、ことばの伝え合いや共有を経験したり、未知の外国 語を学んだりして、言語を生活の中で経験しています。そのとき、感じた り気づいたりすることがあるはずです。言語の現実に触れたときに私たち の内面に生じる直感や気づきがとても大切です。 言語データ分析は、そのような直感や気づきの「理由」や「姿」を具体 的 な デ ー タ で 調 べ て み る と き に 役 立 ち ま す 。こ の と き 言 語 の 経 験 が 最 初 で 、 分析はその後になります。自分が経験していることを対象にして分析する ときは、何か直感的にぴんと来ることが多いと思います。そこで、なるべ く自分で経験した(読んだ、集めた、調べた、実験した、使った、感動し た、興味を持った…)言語データから出発して、自分が理解し納得できた 方法を適用して、自分の個人的な直感を検証してみることを勧めます。 実際に自分の研究を自分で計画し、試行錯誤をしながら自分の道具を開 発し、自分で納得し、自分が個人的に感じたことの理由に接近できれば発 展性があるし、何よりもやりがいがあって楽しいことだと思います。この ようば研究は「一人称的」であるといえるでしょう。私たちは他者の(本 当の)一人称的世界に関心がありますから、そのような他者の関心と研究 にも共感します。 ●量的データと質的データ 先に見たように、単語の頻得点は非常に偏った分布を示すので相関係数に よる分析には適しません。次の散布図には一応「線形近似曲線」が描かれ ていますが、データは左下に固まっていて、右上になるとほとんどデータ がありません。頻度の高い単語の数は少なく、一方あまり使われない単語 の数は非常に多いのです。 84 ここではすべてを単語使用の「有無」に変えて分析する方法を採ります。 そうすれば、すべてのデータの分布は「有」と「無」の 2 種類の値になり ます。次の図の「語」の列に続く 2 列が頻度を示しますが、その後の 2 列 では 1 が「有」を示し、0 が「無」を示します。頻得点などのような連続 的なデータを「量的なデータ」とよび、このように単に有・無を示すよう なデータを「質的なデータ」とよびます。 言語研究では、たった一度だけ出現するデータを特別に扱うことが一般的 です。偶然に現れたケースかもしれないからです。2 度の偶然は、ほとん ど あ り 得 な い の で 、 2 以 上 を 「 有 」 (1)の デ ー タ と し て 基 準 化 す る 場 合 が 多 いです。データが巨大になったときは、さらにこの基準を上げることがあ ります。いずれにしても、結果はこの基準値に左右されますから、それを しっかりと認識しておくことが必要です。 85 ●尺度水準 これまでの説明で、質的データ、量的データという2つのタイプに大別し ました。2つのデータの大きな特徴は、量的データは質的データに変換可 能であるのに対し、質的データは量的データに戻すことは出来ないという 点 で す 。 こ う し た 質 的 デ ー タ と 量 的 デ ー タ の 特 徴 は 、 ス タ ン レ ー 24 に よ っ て 考 案 さ れ た 、「 尺 度 水 準 」25 と い う 考 え 方 に お お よ そ 準 拠 し た も の で す 。 尺度水準という考え方に基づけば、すべての数量データは「名義尺度」 「 順 序 尺 度 」「 間 隔 尺 度 」「 比 率 尺 度 」と い う 4 つ の タ イ プ の い ず れ か に 分 類できます。名義尺度に使用される値は、名前をそのまま数字に置き換え たものであり、そのデータが、別のデータと同じか、違うかを区別するた めに割り当てられた数値です。例えば、電話番号は名義尺度であるため、 ある番号が、他の番号と同じ番号か、違う番号かを区別するために使用し ます。 順序尺度の値は、データが大きいか、小さいかを区別するための数値で す。例えば、アンケート調査の「好き」「まあまあ好き」「どちらとも言 え な い 」「 あ ま り 好 き で は な い 」「 好 き で は な い 」と い う 項 目 に 対 し 、5, 4, 3, 2, 1 と い う 数 値 を 割 り 振 る 場 合 が 順 序 尺 度 で す 。 つ ま り 、 こ の と き 、 数 値の中で、4の方が1よりも好きの度合いが優位だとわかります。 間隔尺度の値は、比較できる数値で、一般的には単位を持った値です。 例 え ば 、摂 氏 の 温 度 に お い て 、20℃ と 18℃ を 比 較 し た と き 、2℃ 高 か っ た 、 2℃低かったという間隔を持った値であるため、間隔尺度です。間隔尺度 の特徴としては、ゼロという値が本来的な全く存在しないものという意味 で は な い と い う 点 で す 。た と え ば 、0℃ と い う 値 で も 、摂 氏 と い う 温 度 自 体 が 消 え て な く な る わ け で は な く 、 0℃ が 5℃ よ り も 5℃ 低 い と い う 便 宜 上 の 値です。 比率尺度の値は、比較可能な数値であり、単位を持つという点は間隔尺 度の値と同じですが、ゼロになってしまうとそのデータ自体が全く意味を 持たなくなるものです。例えば、質量は何グラム増えた、減ったというこ とを判断できますが、これが、0 グラムになると質量というもの自体がな くなります。 このような 4 つの尺度に分けるメリットのひとつは、数値分析できる幅 がそれぞれ異なるという点です。名義尺度、順序尺度、間隔尺度、比率尺 度の順に、データとして求められた値の数値分析可能な幅が広がっていき ます。数値分析が限られたものにしか適応出来ないものを「低水準」、幅 24 Stevens, S. S. 1946. “On the Theory of Scales of Measurement”. Science. Vol. 103, No. 2684, pp. 677–680. 25 尺 度 水 準 と い う 考 え 方 は 、言 語 分 析 に 限 ら ず 、そ の 他 の 分 野 で も 広 く 使 われる考え方です。 86 広く適応できるものを「高水準」とよぶこともあります。そうすると名義 尺度は低水準なのに対して、比率尺度は高水準であるということになりま す。例えば、得点(頻度)は非常に幅広い尺度に適応でき、名義尺度、順 序 尺 度 、間 隔 尺 度 、比 率 尺 度 の い ず れ に も 適 応 可 能 で す 。中 央 値 、最 大 値 、 最小値は、順序尺度、間隔尺度、比率尺度に適応できます。和、平均、標 準偏差、相関係数は、間隔尺度、比率尺度に対して適応されます。それ以 外の複雑な数値分析であっても、比率尺度であれば適応可能である、とい うことになります。 また、このような尺度を設けるメリットとしては、それぞれの変換可能 な方向性があるということです。つまり、高水準なものは低水準なものと して扱うことができますが、低水準なものは高水準なものとして扱うこと はできません。 ここで、4つの尺度と、言語分析における質的・量的データの関係性を 整理しておきましょう。一般には、名義尺度と順序尺度は「質的データ」 で あ り 、間 隔 尺 度 と 比 率 尺 度 は「 量 的 デ ー タ 」で あ る と さ れ ま す 。そ れ は 、 質的データと量的データの変換方向性によるものからも明らかです。ただ し、数値分析可能な範囲が、質的データと量的データのどこまでできるか については、きれいに対応関係は成立していない場合もあるので注意が必 要です。実際に分析するときに、質的データと量的データで数値データを 扱い、その関係性が明らかでないときには、上記の 4 つの尺度水準に立ち 返ることでそれが何の分析まで行っていいかの方針を決めることができる でしょう。 TIPS 尺 度 水 準 と 代 表 値 の 関 係 を ま と め る と 次 の よ う に な り ま す 。 ×の と ころは、該当の代表値がその尺度では使えないことを示します。 尺度と代表値 質的データ 量的データ 得点 中央値 平均 標準偏差 名義尺度 ○ × × × 順序尺度 ○ ○ × × 間隔尺度 ○ ○ ○ ○ 比率尺度 ○ ○ ○ ○ 4.1.7. 相 関 係 数 行 列 ピ ア ソ ン の 相 関 係 数 (Pearson's coefficient of correlation) は 標 準 得 点 の 積 和 の 平 均 で 求 め ま す (→ 『 基 礎 』 )。 こ こ で は 3 変 数 以 上 ( 多 変 数 ) の ケ ー ス を 一 度 に 示 す た め に 「 相 関 係 数 行 列 」 (R pp : 下 右 表 )を 出 力 し ま す 。 87 D E L S S.S.c. E L a 45 48 66 a -.980 -.323 b 56 59 54 b .068 c 58 51 78 c .259 d 77 72 20 d 2.068 1.850 -1.569 e 43 44 32 e -1.170 -.686 -1.130 f 90 f g 50 53 100 g 58 34 S Correl E L S .115 E 1.000 .643 -.335 .673 -.324 L .643 1.000 -.545 -.052 .554 S .259 -1.591 -.504 .129 -.335 -.545 1.000 .994 1.360 そ の た め の 準 備 と し て デ ー タ 行 列 (D n p : 下 左 表 )か ら 標 準 測 度 行 列 (Z n p : 下 中 表 )を 作 成 し ま す 。 Z n p = (D n p – Mp') / Sp' こ こ で 、Mp'は D np の 縦 列 の 平 均 (横 ベ ク ト ル )を 示 し 、Sp は D np の 縦 列 の 標 準 偏 差 (横 ベ ク ト ル )を 示 し ま す 。 こ の 標 準 測 度 行 列 (Z n p )を 掛 け 合 わ せ て 積 和 の 正 方 対 照 行 列 を 作 り 、 個 数 (n)で 割 っ て 平 均 を 出 し た も の が 相 関 行 列 (R p p )で す 。 Rp p = Zn p ' Zn p / N この式は重要なので上の例で行列の成分を確かめておきましょう。 Zn p ' Zn p −0.98 0.07 … = [−0.32 0.67 … 0.12 −0.32 … 𝑟11 𝑟 = [ 21 𝑟31 𝑟12 𝑟22 𝑟32 −0.98 −0.32 −0.50 0.07 0.67 0.13 ] [ … … 1.36 −0.50 0.13 0.12 −0.32 ] … 1.36 𝑟13 𝑟23 ] 𝑟33 行列積の演算により、 r 1 1 = -0.98*-0.98 + 0.07*0.07 + ⋯ + -0.50*0.50 = 7.00 r 1 2 = -0.98*-0.32 + 0.07*0.67 + ⋯ + -0.50*0.13 = 4.50 r 1 3 = -0.98*0.12 + 0.07*-0.32 + ⋯ + -0.50*1.36 = -2.34 r 2 1 = -0.32*-0.98 + 0.67*0.07 + ⋯ + 0.13*0.50 = 4.50 r 2 2 = -0.32*-0.32 + 0.67*0.67 + ⋯ + 0.13*0.13 = 7.00 r 2 3 = -0.32*0.12 + 0.67*-0.32 + ⋯ + 0.13*1.36 = -3.82 r 3 1 = 0.12*-0.98 + -0.32*0.07 + ⋯ + 1.36*0.50 = -2.34 r 3 2 = 0.12*-0.32 + -0.32*0.67 + ⋯ + 1.36*0.13 = -3.82 r 3 3 = 0.12*0.12 + -0.32*-0.32 + ⋯ + 1.36*1.36 = 7.00 こ の よ う に Rpp が す べ て の 成 分 が 積 の 和 に な る こ と 、 対 角 成 分 が そ れ ぞ れ 88 の列の 2 乗和になること、非対角成分が該当する 2 つの列の成分の積の和 になること、対照成分の成分がすべて同値になること、全体の行列の形が 正 方 行 列 で あ る こ と 、そ し て 行 列 の 大 き さ が [3 行 7 列 ]x[7 行 3 列 ]の 積 な の で [3 行 3 列 ]に な る こ と を 確 認 し ま し ょ う 。 ●平均ベクトル は じ め に 、 縦 列 の 平 均 を 示 す 横 ベ ク ト ル Tp を 作 り ま す 。 Tp' = Un' D np D Tr(Uv(7)) 1 2 3 4 5 6 7 1 1 1 1 1 1 1 1 E L S a 45 48 66 b 56 59 54 c 58 51 78 d 77 72 20 e 43 44 32 f 90 58 34 g 50 53 100 (Tr(Uv(7)))(D) 1 E L 387 S 361 440 次 に 、 こ れ を デ ー タ 数 (N=7)で 割 っ た 値 が 縦 列 平 均 横 ベ ク ト ル (AV p)で す 。 AVp = Un' D np / N ((Tr(Uv(7)))(D))/(7) 1 E L S 55.286 51.571 62.857 ●標準偏差ベクトル デ ー タ 行 列 D n p か ら 平 均 横 ベ ク ト ル AVp を 引 い て 偏 差 行 列 を 作 り 、そ の 成 分 の 2 乗 和 を N で 割 っ て 、 標 準 偏 差 横 ベ ク ト ル SDp を 作 り ま す 。 SDp = {SumC[(X n p – AVp) 2 ] / N} 1 /2 SDp = E(D(SumC(E(S(X n p , AVp), 2)), N), 0.5) 89 4.2. 類似係数 4.2.1. 類 似 係 数 の 種 類 2 つ の デ ー タ の 間 の 関 係 を 見 る と き に 目 安 に な る の が 共 通 し て「 有 」(=1) が起きる回数です。たとえば、先の図では「手紙」と「演劇」で共にプラ ス に な っ て い る 語 は abajo, abandonar, abeja, abogado の 4 語 で す 。 こ れ を 「 共 起 回 数 」と よ び ま す 。共 起 回 数 は デ ー タ の 規 模 に 左 右 さ れ る の で 、こ れ を標準的な値にするためにいろいろな方法が提案されてきました。ここで は、2 つのデータ(たとえば、「手紙」と「演劇」) が類似している度合 いを数値化するための 7 つの係数を紹介します。 単 純 に 共 起 回 数 だ け で は 相 対 化 で き な い の で 、次 の よ う な 2 × 2 の 表 を 作 り 、 そ れ ぞ れ a, b, c, d の 4 つ を 考 慮 し ま す 。 a, b, c, d の そ れ ぞ れ は 、 高 校 数 学 ま で に 習 っ た 四 象 限 ( quadrants) で 示 せ ば 、 順 に 第 Ⅰ 象 限 (+/+)、 第 Ⅱ 象 限 (+/-)、第 Ⅲ 象 限 (-/+)、第 Ⅳ 象 限 (-/-)に 相 当 す る 値 で す 。a は x も y も 「 有 」 (=1)の 個 数 で す 。 b は x が 「 有 」 (=1)か つ y が 「 無 」 (=0)の と き 、 c は x が 「 無 」 (=0)か つ y が 「 有 」 (=1)の と き 、 そ し て d は x も y も 「 無 」 (=0) の 個 数 で す 。 た と え ば 先 の 図 の デ ー タ で は a=4 {abajo, abandonar, abeja, abogado}, b=3 {abarcar, abastecimiento, abonar}, c=2 {abatir, aborrecer}, d=6 {abandono, abertura, abismo, abnegación, abono, abordar}と な り ま す 。 x /y y (x) y (-) x (+) a (x+, y+) 4 b (x+, y-) 3 x (-) c (x-, y+) 2 d (x-, y-) 6 類 似 係 数 は こ れ ら の 数 値 (a, b, c, d)を 利 用 し ま す 。 d を 使 わ な い 係 数 も あ り ます。類似度係数全体についてほぼ共通していることは、どちらにも共通 す る 肯 定 的 要 素 (a)と 、ど ち ら に も 共 通 し て い る 否 定 的 要 素 (d)の 数 が 多 け れ ば多いほど、類似係数は大きくなる、ということです。逆に一方だけにあ る 要 素 の 数 (b, c)が 大 き く な れ ば な る ほ ど 、類 似 係 数 は 小 さ く な り ま す 。以 下の7つは、その類似度を正規化した数値として求めるために考案された 係数です。 (1) は じ め に 単 純 一 致 係 数 (simple matching coefficie nt : s.m. )を み ま し ょ う 。 単 純 一 致 係 数 (s.m.) = (a + d) / (a + b + c + d) 0.0 ≦ s.m. ≦ 1.0 こ れ は 、 対 象 X と 対 象 Y に 共 通 し て 「 +」 が あ る 回 数 (a)と 、 そ れ が 共 に 存 在 し な い 回 数 (d)の 和 を 全 体 の 数 で 割 り ま す 。a = d = 0 の と き 最 小 値 0 に な り、b = c = 0 のとき最大値 1 になります。 (2) Jaccard 係 数 は 分 子 に も 分 母 に も d を 使 い ま せ ん 。a = 0 の と き 最 小 値 0 90 に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。 Jaccard 係 数 (j.) = a / (a + b + c) 0.0 ≦ j. ≦ 1.0 Dice-Sorenson (Jaccard -2)は Jaccard の A を 2 倍 し て い ま す 。 A の 対 値 B, C が 2 つなので、それにつり合わせた数値になります。 Jaccard-2 係 数 (j2.) = 2a / (2a + b + c) 0.0 ≦ j2. ≦ 1.0 (3) Russel and Rao 係 数 は 分 子 の d を 考 慮 し ま せ ん 26 。対 象 X, Y で と も に「 + 」 で あ る 回 数 だ け を カ ウ ン ト し ま す 。 分 母 は (1)と 同 じ で す 。 a = 0 の と き 最 小値 0 になり、b = c = d = 0 のとき最大値 1 になります。 Russel and Rao 係 数 (r.r.) = a / (a + b + c + d) 0.0 ≦ r.r. ≦ 1.0 そ こ で 、 Russel-Rao の A も 対 値 B, C, D に つ り 合 わ せ て Russel-Rao-3 を 作 ることにします。 Russel and Rao-3 係 数 (r-r3) = a / (a + b + c + d) 0.0 ≦ r-r3. ≦ 1.0 (4) Dice 係 数 は Jaccard 係 数 の a を 2 倍 に し た も の で す 。a = 0 の と き 最 小 値 0 に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。 (→ 後 述 ) Dice 係 数 (d.) = 2a / (2a + b + c) 0.0 ≦ d. ≦ 1.0 (5) Yule 係 数 は ad と bc の 差 を 問 題 に し ま す 。 (1)の 単 純 一 致 係 数 で は a と d を 足 し て い ま す が 、 Yule 係 数 で は 掛 け る こ と に な り ま す 。 そ れ か ら 分 子 は ad と bc の 差 な の で 、 そ れ が マ イ ナ ス に な る こ と も あ り ま す 。 ad = 0 の と き 最 小 値 -1 に な り 、 bc = 0 の と き 最 大 値 1 に な り ま す 。 ad = bc の と き は 最 小 値 と 最 大 値 の 中 間 0 に な り ま す 。 a, b, c, d の い ず れ か が 0 の と き 、 結果に大きく影響します。 Yule 係 数 (y.) = (ad – bc) / (ad + bc) -1.0 ≦ y. ≦ 1.0 (6) Hamann 係 数 は a + d と b + c の 差 を 問 題 に し ま す 。 Yule 係 数 で は a と d, b と c の 関 係 を 積 で 示 し ま す が 、Hamann 係 数 で は そ れ を 和 で 示 し て い ま す 。 a = d = 0 の と き 最 小 値 -1 に な り 、 b = c = 0 の と き 最 大 値 1 に な り ま す。a + d = b + c のときは最小値と最大値の中間 0 になります。 Hamann 係 数 (h.) = [(a+d) – (b+c)] / [(a+d) + (b+c)] -1.0 ≦ h. ≦ 1.0 (7) Phi 係 数 は 少 し 複 雑 な 式 で す 。 こ れ は 積 率 相 関 係 数 と 関 係 し ま す 。 (→ 26 d の数値の扱い方については、この後説明します。 91 後述) Phi 係 数 (ph.) = ad - bc (a + b)(a + c)(b + d)(c + d) -1.0 ≦ Phi ≦ 1.0 (8) Ochiai 係 数 は 、 a / (a + b)と a / (a + c) の 幾 何 平 均 で す 。 そ れ ぞ れ の a の比率に注目しています。 Ochiai 係 数 (o.) = a (a + b)(a + c) 0.0 ≦ o. ≦ 1.0 ● 積 率 相 関 係 数 と Phi 係 数 Phi 係 数 は 「 有 (+ )」 を 1,「 無 (-)」 を ゼ ロ (0)と す れ ば 、 一 般 の 連 続 量 を 扱 う 相 関 係 数 (ピ ア ソ ン の 積 率 相 関 係 数 )か ら 導 出 で き ま す 。 X/Y y(1) y(0) 和 x(1) a (1,1) b (1,0) a+b x(0) c (0,1) d (0,0) c+d 和 a+c b +d a+b +c+d はじめに総データ数を n とします。 n=a+b +c+d 先に見たように相関係数(標準得点の積和の平均)の式は次の通りです。 { [(x 1 - m x ) / σ x ][(y 1 - m y ) / σ y ] r= + [(x 2 - m x ) / σ x ][(y 2 - m y ) / σ y ] (...) + [(x n - m x ) / σ x ][(y n - m y ) / σ y ] } / n σx と σy を 分 母 に 移 す と r = [ (x 1 - m x )(y 1 - m y ) + (x 2 - m x )(y 2 - m y ) + (...) + (x n - m x )(y n - m y ) ] / (σ x σ y n) … ① 先に①の分子だけを取り上げましょう。 r 分子 = (x 1 - m x )(y 1 - m y ) + (x 2 - m x )(y 2 - m y ) + (...) + (x n - m x )(y n - m y ) 92 それぞれ展開して r 分子 = (x 1 y 1 - x1my - mxy1 + mxmy) + (x 2 y 2 - x2my - mxy2 + mxmy) + (x n y n - xnmy - mxyn + mxmy) : : : : (1) (2) (3) (4) + (...) 縦の列をまとめて、 r 分子 = (x 1 y 1 + x 2 y 2 + ... + x n y n ) ...(1) - m y (x 1 + x 2 + ... + x n ) ...(2) - m x (y 1 + y 2 + ... + y n ) ...(3) + nm x m y ...(4) こ こ で 、 (1) x 1 y 1 + x 2 y 2 + ... + x n y n の う ち 、 b(1, 0), c(0, 1), d(0, 0)に あ た る 部 分ではXとYの少なくとも1つがゼロなので、その積もゼロになります。 それで結局は x 1 y 1 + x 2 y 2 + ... + x n y n = a となります。また x 1 + x 2 + ... + x n = a + b ... X の 総 和 y 1 + y 2 + ... + y n = a + c ... Y の 総 和 m x = (a + b) / n ... X の 平 均 m y = (a + c) / n ... Y の 平 均 となるので分子は r 分子 = a ...(1) - (a + b)(a + c) / n ...(2) - (a + b)(a + c) / n ...(3) + (a + b)(a + c) / n ...(4) = a - (a + b)(a + c) / n = [na - (a + b)(a + c)] / n n = a + b + c + d なので r 分子 = [(a + b + c + d)a - (aa + ac + ba + bc)] / n = (aa + ab + ac + ad - aa - ac - ab - bc) / n = (ad - bc) / n …② 93 と な り ま す 。こ の 分 子 の 式 は X と Y に 共 に あ る 場 合 の 数 (a)と 、共 に な い 場 合 の 数 (d)の 積 か ら 、片 方 に し か な い 2 つ の 場 合 の 数 (b と c)の 積 を 引 い た も の で す 。a も d も X と Y の プ ラ ス・マ イ ナ ス が 同 じ 場 合 で す 。逆 に 、b と c は X と Y の プ ラ ス・マ イ ナ ス が 反 対 に な る 場 合 だ か ら 、ad - bc が X と Y の 相関を示すのに合理的な数値に関わることが直感的に納得できます。 次に①の分母を r r r 分母 分母 分母 とします。 = σxσyn の う ち の X の 標 準 偏 差 σ x を 取 り 上 げ ま し ょ う 。ル ー ト( 根 )が あ る と や や こ し く な る の で 、と り あ え ず 2 乗 し た も の( つ ま り 、σ x 2 な の で 分 散 値 ) で計算し、後でその根を計算します。 σx2 = [ (x 1 - m x ) 2 + (x 2 - m x ) 2 + ... + (x n - m x ) 2 ] / n それぞれの項を展開して、 σx2 = [(x 1 2 - 2x 1 m x + mx2) + (x 2 2 - 2x 2 m x + mx2) + (x n 2 - 2x n m x + m x 2 )] / n : : : (1) (2) (3) + ... 縦の列をまとめて、 σx2 = [(x 1 2 + x 2 2 + ... + x n 2 ) ... (1) - 2m x (x 1 + x 2 + ... + x n ) ... (2) + (m x 2 + m x 2 + ... +m x 2 ] / n ... (3) = [(x 1 2 + x 2 2 + ... + x n 2 ) ... (1) - 2m x (x 1 + x 2 + ... + x n ) ... (2) + nm x 2 ] / n ... (3) x 1 , x 2 , ... x n は す べ て 1 ま た は 0 で す 。 そ こ で X の 総 数 は a + b と な る の で ( 【 図 3.3d】 ) 、 次 の よ う に な り ま す 。 x 1 + x 2 + ... + x n = a + b x 1 2 + x 2 2 + ... + x n 2 = a + b m x = (a + b) / n 94 これを先の式に代入すると、 σx2 = [(a + b) ...(1) - 2(a + b) 2 / n 2 ...(2) 2 + n(a + b) / n ] / n ...(3) = {(a + b) – [2(a + b) 2 +(a + b) 2 ] / n} / n = [a + b – (a + b) 2 / n] / n = [(a + b)n - (a + b) 2 ] / n 2 = [(a + b)(a + b + c + d) - (a + b) 2 ] / n 2 = (a + b)(c + d) / n 2 こ こ で 、 σ x 2 か ら σ x に 戻 し ま す 27 。 X の 標 準 偏 差 σx = 同様にして、r σy2 分母 (a + b)(c + d) / n …③ の σy を 求 め ま す 。 = [ (y 1 - m y ) 2 + (y 2 - m y ) 2 + ... + (y n - m y ) 2 ] / n = [(y 1 2 - 2y 1 m y + m y 2 ) + (y 2 2 - 2y 2 m y + m y 2 ) + ...+ (y n 2 - 2y n m y + m y 2 )] / n = [(y 1 2 + y 2 2 + ... + y n 2 ) - 2m y (y 1 + y 2 + ... + y n ) + nm y 2 ] / n = [(a + c) - 2(a + c) 2 / n + n(a + c) 2 / n 2 ] / n = (a + c)(b + d) / n 2 σy2 も σy に 戻 し ま す 。 Y の 標 準 偏 差 σy= (a + c)(b + d) / n …④ 上記①に、②と③④を代入すれば、こうして数値が 0 と 1 だけのデータの 相 関 係 数 ( Phi 係 数 : Phi) は 全 体 で 次 の よ う に な り ま す 。 Phi = (ad - bc) / n n (a + b)(c + d) / n * (a + c)(b + d) / n = ad - bc (a + b)(a + c)(c + d)(b + d) 分 母 は (a, d)と (b, c)を そ れ ぞ れ 組 み 合 わ せ て 和 と し た も の を 全 部 掛 け 合 わ せています。 ● Phi 係 数 と Ochiai 係 数 理 論 的 に 導 き 出 さ れ た Phi 係 数 を 実 際 に 適 用 し て み る と 不 都 合 な と き が あ ります。次のデータを比べてみましょう。 27 つまり、分散値を標準偏差に戻します。 95 デ ー タ (1) デ ー タ (2) こ こ で そ れ ぞ れ の phi 係 数 を 求 め て み ま す 。 Phi (1)は デ ー タ (1)、 Phi (2)は デ ー タ (2)の Phi 係 数 で す 。 Phi (1) 100×2 - 10×20 = (100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2) 0 = =0 (100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2) Phi (2) = = 4×50 - 10×20 (4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50) 0 (4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50) =0 ど ち ら も Phi 係 数 の 分 子 の ad- bc が ゼ ロ と な る の で 、 Phi 係 数 も ゼ ロ に な り ま す 。 し か し 、 デ ー タ (1)と デ ー タ (2)を 比 べ れ ば (1)の ほ う が ず っ と 類 似 度 が 高 い よ う に 思 え ま す 。プ ラ ス (+)を 共 有 す る ケ ー ス が 100 も あ る か ら で す 。 こ れ は 全 体 132 の 75.8%に あ た り ま す 。 そ れ に 対 し て (2)は ど う で し ょ う か 。 わ ず か 4 回 の 共 起 回 数 で 計 算 す る と 4.8%に な り ま す 。 こ の 原 因 は d(0-0)の 数 値 の 扱 い 方 に あ り ま す 。 X に も Y に も な い 要 素 は 与えられたデータに限れば有限ですが、X、Y以外のデータに存在して、 XにもYにもなかったものです。そうした d の値は、XとYの内容にかか わらず、一般にいくらでも増やすことができます。つまり、理論的には d の 数 は 無 限 (∞)で あ る と 考 え ら れ ま す 。 た と え ば 、 X と Y と い う 二 人 が 読 んだことがある本を数えるとき、どちらも読んだことのない本の数は無限 (本が無限に出版されるとして)だと考えられます。 そ こ で 、 先 の 式 で d が 無 限 に な る と 仮 定 し て み ま し ょ う 。 phi 係 数 で d が 無 限 大 に な る も の を phi’と し ま す 。 Phi’. = d lim → ∞ ad - bc (a + b)(c + d)(a + c)(b + d) 分母と分子を d で割ります。 Phi’ = d lim → ∞ a - bc/d (a + b)(a + c)(b/d + 1)(c/d + 1) 96 それぞれの分母になる d を無限大にすると、分子に何があってもゼロとな ります。 Phi’ = a (a + b)(a + c) こ れ が Phi 係 数 の 修 正 版( Ochiai 係 数 : ochi.)で す 。と て も シ ン プ ル に な り ま し た 。 先 の デ ー タ (1), (2)で 計 算 し て み ま し ょ う 。 Phi’ (1) = 100 = 0.870 (100+10)(100+20) Phi’. (2) = 4 = 0.218 (4+10)(4+20) こ の よ う に 、Phi 係 数 で 区 別 で き な か っ た 両 者 も Ochiai 係 数 (Phi')を 利 用 す れ ば デ ー タ (1)の 方 が デ ー タ (2)よ り も 類 似 性 が 高 い と い う 直 感 を 裏 付 け る ことができます。 ● 相 互 情 報 量 と Dice 係 数 言語研究ではたとえば 2 つの語の結合度を調べるために、相互情報量とい う 数 値 を 使 い ま す 。こ れ あ h 、共 起 得 点 (a)を デ ー タ 全 体 で 理 論 的 に 期 待 で き る 共 起 得 点 ( 期 待 値 ) で 割 っ た 値 の 対 数 ( 底 =2) で す 。 相互情報量 = log 2 ( 共起度数・全度数 ) 度 数 X・ 度 数 Y た と え ば 、あ る ス ペ イ ン 語 の 資 料 で muy (='very')と い う 語 の 得 点 が 120, bien (='well')の 得 点 が 167, 全 語 数 が 26578 で し た 。 そ う す る と 、 muy と bien が 共 起 得 点 が 理 論 的 に 期 待 で き る 値 は (120/26578) x (167 / 26578)と な り ま す。これは、それぞれが出現する確率の積です。そして、実際の資料では muy + bien が 47 出 現 し ま し た 。 こ れ は 47/26578 と い う 確 率 で す 。 そ こ で 相互情報量を計算するために、はじめに共起得点をデータ全体で理論的に 期待できる共起得点(期待値)で割った値を求めましょう。 (47/26578) / [(120/26578) x (167 / 26578)] = (47 x 26578) / (120 x 167) = 62.334 こ れ の 対 数 ( 底 =2) は 5.962 と な り ま す 。 こ れ が 相 互 情 報 量 で す 。 底 を 2 と す る 対 数 は 一 般 に 情 報 量 を 示 し ま す 。た と え ば 、16 の 可 能 性 が あ る 事 象 の 情 報 量 は 16 = 2 4 な の で 、 4 (=log 2 16)と な り ま す 。 Dice 係 数 は 共 起 得 点 を 得 点 (x)と 得 点 (y)の 平 均 で 割 っ た 値 で す 。 こ こ で は相互情報量のように全語数を計算に含めることはしません。 97 Dice 係 数 (d.) = 共起度数 0.0 ≦ d. ≦ 1.0 (度数(x) 度数 (y) ) / 2 分 子 の 共 起 得 点 は 上 の 表 の a に あ た り ま す 。得 点 (x)は a + b に あ た り ま す 。 これは x が y と共起するケース数と y と共起しないケース数の合計になり ま す 。 同 様 に 得 点 (y)は a + c で す 。 よ っ て 、 Dice 係 数 (d.) = a 2a = (2a + b + c) / 2 (2a + b + c) b = c = 0 の と き 最 大 値 1 に な り 、 a = 0 の と き に 最 小 値 0 に な り ま す 。 Dice 係 数 は Jaccard の a を 2 倍 に し た も の で す 。a と b+c を 対 照 化 す る 、と 考 え れ ば 、 a が 2 数 (b, c)と 対 照 化 し て い る の で 、 Dice 係 数 の ほ う が つ り 合 い が とれていると思います。 ●両者に存在しない特徴 か つ て 印 欧 言 語 学 の 分 野 で は Phi 係 数 を 使 っ た Kroeber (1937, 1969) と Ochiai 係 数 を 使 っ た Ellegard (1959)の 間 に 論 争 が あ り ま し た 。 こ れ を 安 本 (1995)が 簡 単 に 解 説 し て い ま す 。 こ の 問 題 は 、 一 般 に 類 似 係 数 の ど ち ら か が正しいということではなくて、データの種類や性格によって係数の選択 を考えるべきでしょう。たとえば、アンケート調査などで「賛成」と「反 対」という回答があるとすれば、単に両者が一致して「賛成」と答えた場 合 の 数 (a)だ け で な く 、一 致 し て「 反 対 」と 答 え た 場 合 の 数 (d)も 同 時 に 考 慮 されるべきです。 2 つのデータだけでなく、多数のデータ間の類似度を見る場合には、問 題の両者に存在しない特徴であっても他のデータに存在する特徴であるな らば、どちらもその特徴を持たないという否定的な一致はそれなりの意味 をもつと考えられます。 4.2.2. 優 先 係 数 以上がよく使われている代表的な類似度係数ですが、そのほかにも次のよ う な 類 似 度 係 数 が 考 え ら れ ま す 。 こ こ で は 、 X/(X+Y) と い う 相 対 値 (r: relative)、 ま た は (X – Y) / (X + Y)と い う 対 照 値 (c: contrast)に よ っ て 分 類 し 、 さ ら に d 値 の 有 無 、 積 算 (mult.)の 有 無 を 明 記 し ま し た 28 。 28 こ れ ら の 中 に は す で に 取 り 上 げ た も の も あ り ま す が 、全 体 を 整 理 す る た めに含めました。 98 考えられる類似度係数 X Y r:c d mult. 1. [a - (b + c)]/[a + (b + c)] a b +c c - - 2. 2a / [2a + (b + c)] 2a b +c r - - 3. [2a - (b + c)] / [2a + (b + c)] 2a b +c c - - 2 bc r - + a2 bc c - + a √ (bc) r - + a √ (bc) c - + 8. (a + d) / [(a + d) + (b + c)] a+d b +c r + - 9. [(a + d) - (b + c)]/[(a + d) + (b + c)] a+d b +c c + - ad bc r + + ad bc c + + √ (ad) √ (bc) r + + √ (ad) √ (bc) c + + 2 2 4. a / (a + bc) 2 a 2 5. (a - bc)/ (a + bc) 6. a / [a + (bc) 1 /2 ] 7. [a - (bc) 1 /2 ] / [a + (bc) 1 /2 ] 10. ad / (ad + bc) 11. (ad - bc) / (ad + bc) 12. (ad) 1 /2 13. [(ad) 1 /2 / [(ad) 1 /2 - (bc) 1 /2 + (bc) 1 /2 ] / [(ad) ] 1 /2 +(bc) 1 /2 ] さ ら に 、4 と 10 は 次 数 が 2 に な っ て い る の で 、次 の 式 で 次 数 を 1 に 下 げ る こ と も 考 え ら れ ま す 29 。 4’. a / (a 2 + bc) 1 /2 10’. [ad / (ad + bc)] 1 /2 こ こ で 上 の 3.を 「 優 先 係 数 」 ( coefficient of preference)と 名 付 け て 活 用 し たいと思います。「優先係数」は後述するように他の係数と比較して利点 が 多 い か ら で す 。 2a が b + c と 比 べ て ど の 程 度 優 先 さ れ て い る の か を 示 し ま す 。 優 先 係 数 (p.)は 2.Dice 係 数 の 2a と (b+c)を 対 照 化 さ せ た 係 数 で す 。 Preference 係 数 (p.) = 2a - b - c 2a + b + c p.: -1.0 (a=0) ≦ 0.0 (2a = b+c) ≦ 1.0 (b=c=0) 4.2.3. 類 似 度 係 数 の 比 較 Phi 係 数 と Ochiai 係 数 の 選 択 に 限 ら ず 、 実 際 の 分 析 で こ れ ら の 類 似 度 係 数のうちどれを使えばよいのか迷うことがあります。そのとき、いくつか の選択の方法が考えられるでしょう。その選択の基準もさまざまです。た とえば、これらの係数を利用して誰かの前で発表することを考えてみまし ょう。発表がそうした係数の数値自体による裏付ける根拠よりも、その先 にある類似性を主張することが大きな目標であり、他の根拠に十分裏付け ら れ て い る の で あ れ ば 、 単 純 一 致 係 数 や Russel and Rao 係 数 や Jacard 係 数 29 10 と 16 は 分 子 が 負 に な る こ と が あ る の で 、根 を 使 う こ と が で き ま せ ん 。 99 のように係数の説明に多くの時間を割かずに済む、わかりやすい係数を選 択するという決定も考えられます。類似度係数が、強い裏付けの根拠とし て 重 要 な 意 味 を 持 つ な ら ば 、 Yule 係 数 や Hamann 係 数 を 選 択 し 、 そ の 数 値 の性質について丁寧な説明が必要になります。そして、統計に慣れている 人 に 発 表 す る な ら ば 、 よ く 知 ら れ て い る Phi 係 数 を 使 え ば そ の 説 明 は 必 要 な く な り ま す 。 Phi 係 数 に わ ず か な 説 明 を 加 え る こ と で Ochiai 係 数 を 使 う こともできるでしょう。1 つだけでなく複数の係数を選択して、それぞれ を比較し、考察することも考えられます。 しかし、このような決定は本質的ではなく、実際的な条件に従って いま す。本質を追究するには、それぞれの係数の性質と分析対象のデータの性 質をよく理解して、本質的な条件と実際的な条件のどちらも考慮に入れた 上 で 決 定 し な く て は い け ま せ ん 。そ う す れ ば 、自 分 で も 納 得 が で き ま す し 、 自信をもって説明できます。 それぞれの係数の性質を比べると、共通する性質があることがわかりま す 。先 に 見 た「 両 者 に 存 在 し な い 特 徴 (d)」の 扱 い の ほ か に 、逆 方 向 を 検 知 するかどうか(マイナスになるか)、完全に等質な分布のときゼロになる かどうか、などについて、しっかり理解しておく必要があります。次の表 は そ れ ぞ れ の 特 徴 の 分 布 を 比 較 し た も の で す 。 こ こ で d 値 (0:0)を 扱 わ な い (-)、逆 方 向 を 検 知 す る (v)、積 算 が な い (-)、と い う 条 件 を つ け る な ら ば 優 先 係 数 (Preference: p.)を 選 択 す る と よ い で し ょ う 。 性質 s.m. r.r. j. d. y. h. ph o. p d (0:0)を 扱 う v - - - v v v - - 逆 方 向 (-)を 検 知 - - - - v v v - v 積算がある - - - - v - v v - 逆方向を検知する係数は完全に等質な分布のときゼロになります。これ は、次のような実験をするとわかります。 こ こ で 、-1 か ら 1 の 間 を と る 係 数 な ら ば ゼ ロ に な り ま す が 、他 の 係 数 は 0.5 (s.; o.), 0.25 (r.r.), 0.33 (j.) に な る 、 と い う こ と を 心 得 て お か な け れ ば な り 100 ま せ ん 。 た と え ば 、 相 関 係 数 が 0.5 な ら ば 「 中 度 の 相 関 が あ る 」 と 判 断 し ま す が 、そ れ が s.や o.の 値 な ら ば ま っ た く 相 関 が な い こ と を 示 し て い ま す 。 次 の 表 と 図 は b=2, c=4, d=8 で 固 定 し 、 共 起 回 数 (a)を 0 か ら 10 に 上 げ て いったときのそれぞれの係数の変化を示しています。 C o - o c c ur r e nc e ( a + / + ) 0 1 2 3 4 5 6 7 8 9 10 b (+/-) 2 2 2 2 2 2 2 2 2 2 2 c (-/+) 4 4 4 4 4 4 4 4 4 4 4 d (-/-) 8 8 8 8 8 8 8 8 8 8 8 .57 .60 .00 .07 .00 .14 .00 .22 -1.00 .00 .14 .20 -.26 .00 .00 .26 - 1.00 - .50 .63 .13 .25 .33 .33 .25 .15 .41 - .20 .65 .18 .33 .40 .50 .29 .25 .51 .00 .67 .22 .40 .44 .60 .33 .32 .58 .14 .68 .26 .45 .48 .67 .37 .37 .63 .25 .70 .30 .50 .50 .71 .40 .41 .67 .33 .71 .33 .54 .52 .75 .43 .44 .70 .40 .73 .36 .57 .53 .78 .45 .47 .73 .45 .74 .39 .60 .55 .80 .48 .49 .75 .50 .75 .42 .63 .56 .82 .50 .51 .77 .54 Simple match Russel and Rao Jaccard Dice Yule Hamann Phi Ochiai P r e fe r e nc e こ れ を 見 る と 、逆 方 向 を 検 知 し な い Simple match, Russel and Rao, Jaccard, Dice の 振 幅 が 小 さ く 、と く に Simple match の 振 幅 が 小 さ い こ と が 確 認 で き ま す 。 そ し て 、 Phi や Ochiai の 振 幅 は 小 さ く 、 同 じ 程 度 の 幅 で あ る こ と も わ か り ま す 。そ れ ら に 対 し て Yule と Preference の 振 幅 が 大 き い こ と が 特 徴 的 で す 。Yule の 上 昇 は 急 で す が 、Preference は 比 較 的 緩 や か に 上 昇 し ま す 。 こ の こ と は a[++]の 値 が 高 い 場 合 の 弁 別 性 を 保 証 し ま す 。 ほかにもいろいろな実験をしてそれぞれの係数の性質を調べておく必 要があるでしょう。データ分析ではさまざまなデータを扱ったことのある 101 人であれば経験が生かして係数を選択できます。私たちはデータ分析を始 めたばかりなのであまり経験はありませんが、何度でも実験で確かめるこ とはできます。実際のデータには数の限りがありますが、実験はいくらで も可能です。また、私たちが経験する実際のデータはかなり偏りがあるの が普通ですが、実験するときは全部自分でコントロールできますから、納 得がいくまで確かめることができます。 数値を積算している係数は、それぞれの項目の増減がそれを構成する要 素の増減に比例しているので、考えてみると納得できますが、問題点とし て積算の片方がゼロになると他方にどのような数値があっても、ゼロにな ってしまうことがあげられます。また、分母で積算されているとそれがゼ ロ に な っ た と き 計 算 で き な く な り ま す 。た と え ば Ochiai で (a+b)が ゼ ロ に な った場合です。このとき c に値があっても計算されません。一方、数値を 積算していない係数は、結局「割合」に過ぎないので、ほとんど考えなく てもわかります。これが実際的な選択の条件となることもあるかもしれま せん。 データの性質として、方向性があるものならば、逆方向を探知する係数 を選択すべきです。たとえば「賛成」と「反対」で回答したアンケート調 査などは、「賛成」の数だけでなく、「反対」の数も考慮に入れるべきで す。一方、2 つの文献の語彙比較調査などは、ある単語が使われている、 と、使われていない、という数値を同等に扱うよりも、使われているケー スだけで計算したほうがよいと思われます。どちらにも使われていない、 という語彙は無限に存在するからです。しかし、一定の語彙範疇(たとえ ば「指示詞」「関係代名詞」など)で複数の文献を調査するときは、否定 的な反応も考慮に入れるべきでしょう。 分析の手順としては、完全に理解して経験を積む前は、とりあえず全部 の係数を比較し、大きく異なる結果を出した係数について、その原因を探 り、次にデータと照合して、データの性質を一番よく示している、と思わ れる係数を選択するとよいでしょう。そのためには、データの性質をよく 知っていることと、係数の性質をよく理解していることが必要です。何度 でも実験をして確かめてください。 ■外国語学習・獲得と「価値」の優先度 語彙学習、さらに外国語学習一般において、学習者が認識する「価値」 の 優 先 度 が 高 い 、と い う 仮 説 を 立 て た い と 思 い ま す 。語 彙 に つ い て い う と 、 単語の意味に学習者が「価値」を見出すと、それが優先的に獲得される、 という仮説です。これは、いわゆる「重要単語」のことではありません。 なぜなら、重要単語で示されている「重要性」は学習者の認める価値とは 異なる場合があるからです。 この仮説を検証するために次のような実験をしてみました。一定の量の 102 単語リストについて、はじめに「自分にとって価値の優先度の高い」単語 にマークし、その後全体の記憶練習をして、その結果をそれぞれの単語数 に つ い て 集 計 し ま す 。 こ の 実 験 に 12 人 が 参 加 し ま し た 。 (a) +/+: 「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 成 功 (+)」 (b) +/-: 「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 失 敗 (-)」 (c) -/+: 「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 成 功 (+)」 (d) -/-: 「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 失 敗 (-)」 参 加 し た 12 人 の 結 果 は Yule も Hamann も プ ラ ス に な っ て い ま す か ら こ の仮説に沿うものです。 かなり敷衍して考えてみると、はたして私たちは外国語をくりかえし練 習して獲得するのでしょうか?もしかしたら「価値」の優先度が強く働い た要素は瞬間的に獲得しているのかもしれません。とくにがんばって記憶 練習した覚えもないのに獲得してしまった語があるとすれば、それは「価 値」のある単語だった可能性が高いと思われます。そうだとすると、外国 語(やその他の科目)を、がんばって学習するよりも、価値を見出して獲 得してしまうほうが効果的ではないでしょうか。 価 値 を 見 出 す た め に は 、「 形 式 → 意 味 」と い う 流 れ の 教 育・学 習 よ り も 、 「 意 味 → 形 式 」と い う 流 れ の ほ う が 効 果 が あ る と 考 え ら れ ま す 。私 た ち は( 外 国語の)形式を見て価値を見出すことはあまりありませんが、意味につい ては、その価値の有無・程度を瞬間的に判断することができるからです。 4.2.4. 類 似 係 数 行 列 各種の四分点相関係数(→『基礎』)の類似係数行列を作るために、1 ま た は 0 か ら な る デ ー タ 行 列 (Q n p )の 各 変 数 ( 列 ) に つ い て 、 2 つ ず つ の 変 数 (x i , x j )の 組 み 合 わ せ で 、 x i =1, x j =1 の ケ ー ス 数 (A p p )、 x i =1, x j =0 の ケ ー ス 数 (B p p )、x i =0, x j =1 の ケ ー ス 数 (C p p )、x i =0, x j =0 の ケ ー ス 数 (D p p )の 行 列 を 作 り ます。そのために初めにデータ行列のすべての成分について、0 と 1 を変 換 し た Wn p = 1 - Qn p と い う 行 列 を 用 意 し ま す 。 103 Q np v1 v2 v3 v4 W np v1 v2 v3 v4 d1 1 1 0 0 d1 0 0 1 1 d2 0 0 1 0 d2 1 1 0 1 d3 0 1 0 0 d3 1 0 1 1 d4 0 0 1 1 d4 1 1 0 0 d5 1 1 1 0 d5 0 0 0 1 こ の 2 つ の 行 列 を 使 っ て (A p p , B pp , C pp , D p p )を 算 出 し ま す 。 A p p = Q np ' Q n p B p p = Q np ' W n p C p p = W np ' Q n p D p p = W np ' W n p Ap p は 共 起 回 数 を 示 し ま す 。 「 行 列 」 の 転 置 と 積 の 機 能 を 使 っ て そ の 成 分 を確認しましょう。 Ap p = Q np ' Q n p Q' d-1 d-2 d-3 d-4 d-5 v-1 1 0 0 0 v-2 1 0 1 v-3 0 1 v-4 0 0 * Q v-1 v-2 v-3 v-4 1 d-1 1 1 0 0 1 d-2 0 0 0 1 1 d-3 0 0 1 0 d-4 d-5 = Q'Q v-1 v-2 v-3 v-4 0 v-1 2 2 1 0 1 0 v-2 2 3 1 0 1 0 0 v-3 1 1 3 1 0 0 1 1 v-4 0 0 1 1 1 1 1 0 他の対照行列の成分も確かめましょう。 B p p = Q np ' W n p Q' d-1 d-2 d-3 d-4 d-5 W v-1 v-2 v-3 v-4 Q'W v-1 v-2 v-3 v-4 v-1 1 0 0 0 1 d-1 0 0 1 1 v-1 0 0 1 2 v-2 1 0 1 0 1 d-2 1 1 0 1 v-2 1 0 2 3 v-3 0 1 0 1 1 d-3 1 0 1 1 v-3 2 2 0 2 v-4 0 0 0 1 0 d-4 1 1 0 0 v-4 1 1 0 0 d-5 0 0 0 1 104 C p p = W np ' Q n p W' d-1 d-2 d-3 d-4 d-5 Q v-1 v-2 v-3 v-4 W'Q v-1 v-2 v-3 v-4 v-1 0 1 1 1 0 d-1 1 1 0 0 v-1 0 1 2 1 v-2 0 1 0 1 0 d-2 0 0 1 0 v-2 0 0 2 1 v-3 1 0 1 0 0 d-3 0 1 0 0 v-3 1 2 0 0 v-4 1 1 1 0 1 d-4 0 0 1 1 v-4 2 3 2 0 d-5 1 1 1 0 D n p = W np ' W n p W' d-1 d-2 d-3 d-4 d-5 W v-1 v-2 v-3 v-4 W’W v-1 v-2 v-3 v-4 v-1 0 1 1 1 0 d-1 0 0 1 1 v-1 3 2 1 2 v-2 0 1 0 1 0 d-2 1 1 0 1 v-2 2 2 0 1 v-3 1 0 1 0 0 d-3 1 0 1 1 v-3 1 0 2 2 v-4 1 1 1 0 1 d-4 1 1 0 0 v-4 2 1 2 4 d-5 0 0 0 1 こ の 4 つ の 行 列 か ら 次 の 式 で 各 種 の 係 数 行 列 を 求 め ま す 。以 下 で は np を 省 い て 、 た と え ば An p を A と し ま す 。 単 純 一 致 = (A + D) / (A + B + C + D) Jaccard = A / (A + B + C) Dice-Sorenson (Jaccard-2) = 2A / (2A + B + C) Russel-Rao= A / (A + B + C + D) Russel-Rao-3 = 3A / (3A + B + C + D) Hama n n = [(A + D) - (B + C)] / [(A + D) + (B + C)] Yule = (A*D – B*C) / (A*D + B*C) Phi = (A*D – B*C) / [(A + B)(C + D)(A + C)(B + D)] 1 /2 Ochiai = A / [(A + B)(A + C)] 1 /2 Preference = (2 A – B – C) / (2A + B + C) Root = A / [A + √ (BC)] * 類 似 度 係 数 に つ い て は Anderberg (1973:93-126), Romesburg (1989: 177-209)を 参 照 し ま し た 。 Preference, Root, Greater は 、 こ こ で 定 義 し ま す 。 類 似 係 数 行 列 の A, B, C, D 行 列 の 算 出 法 は 河 口 (1978: II, 30-31)を 参 照 し ま した。 105 ●占有度 次 の よ う な サ ン プ ル( 下 左 表 )を 使 っ て「 占 有 度 」(Degree of possession) と名付けるオプションを説明します。積和共起回数を計算すると下右表の 対照行列になります。 Q np v1 v2 v3 v4 Q np ' v1 v2 v3 v4 d1 1 1 0 0 v1 2 2 1 0 d2 0 0 1 0 v2 2 3 1 0 d3 0 1 0 0 v3 1 1 3 1 d4 0 0 1 1 v4 0 0 1 1 d5 1 1 1 0 v1, v2 の 間 の 共 起 回 数 は 2 と 計 算 さ れ ま す が 、 こ こ で 注 目 し た い の は d1 に お け る v1, v2 の 間 の 共 起 の 様 子 と 、 d5 に お け る そ の 様 子 と の 違 い で す 。 左 表 を 見 る と d1 は 唯 一 v1, v2 だ け を 共 有 し て い ま す が 、d5 で は 他 に v3 で も 共 有 さ れ て い ま す 。 こ こ で d1 の よ う な ケ ー ス の ほ う が d5 の よ う な ケ ー ス よ り も 重 い 価 値 が あ る と 解 釈 し 、そ れ を 数 量 的 に 表 現 し た い と 思 い ま す 。 次 は 、 先 の A, B, C, D の そ れ ぞ れ の 対 照 行 列 を 作 成 す る た め に 用 意 し た Q n p と W np で す (W n p = 1 – Q n p )。 Q np v1 v2 v3 v4 W np v1 v2 v3 v4 d1 1 1 0 0 d1 0 0 1 1 d2 0 0 1 0 d2 1 1 0 1 d3 0 1 0 0 d3 1 0 1 1 d4 0 0 1 1 d4 1 1 0 0 d5 1 1 1 0 d5 0 0 0 1 これをそれぞれ次のように変換します。 Q np * v1 v2 v3 v4 W np * v1 v2 v3 v4 d1 0.500 0.500 0.000 0.000 d1 0.000 0.000 0.500 0.500 d2 0.000 0.000 1.000 0.000 d2 0.333 0.333 0.000 0.333 d3 0.000 1.000 0.000 0.000 d3 0.333 0.000 0.333 0.333 d4 0.000 0.000 0.500 0.500 d4 0.500 0.500 0.000 0.000 d5 0.333 0.333 0.333 0.000 d5 0.000 0.000 0.000 1.000 た と え ば 、 d1 行 に は 1 が 2 個 出 現 し て い る の で 、 そ れ ぞ れ 0.5 の 価 値 が あ る 、 と い う 考 え 方 で す 。 d5 で は 1 が 3 個 な の で 、 す べ て 0.333 と い う 数 値 を 与 え ま す 。 W np に つ い て も 同 様 で す 。 こ の よ う に し て 用 意 し た Q np *と W n p *を 使 っ て 、 そ れ ぞ れ の 占 有 度 指 数 を 加 味 し た 類 似 係 数 を 算 出 し ま す 。 106 最後にこの占有度指数を使わない四分点相関係数(下左)と、使った場合 ( 下 右 )を 比 較 し ま す( 単 純 一 致 係 数 )。以 下 に 見 る よ う に 大 小 関 係 の 傾 向 は似ていますが、かなり大きな数値の差が観察されます。 Simple m. v1 v2 v3 v4 Simple m.* v1 v2 v3 v4 v1 1.000 0.800 0.400 0.400 v1 1.000 0.684 0.211 0.211 v2 0.800 1.000 0.200 0.200 v2 0.684 1.000 0.087 0.087 v3 0.400 0.200 1.000 0.600 v3 0.211 0.087 1.000 0.478 v4 0.400 0.200 0.600 1.000 v4 0.211 0.087 0.478 1.000 4.3. 距離係数 4.3.1. ユ ー ク リ ッ ド 距 離 個体間の相違を数理的に定めた距離によって表現します。 データ行列の それぞれの変数の分散が異なることを考慮して、はじめにデータ行列を標 準得点に変換します。 X n p = STD n p (D n p ) デ ー タ 行 列 の 中 の 2 つ の 行 (x1, x2)の 間 の 距 離 は 一 般 に「 ユ ー ク リ ッ ド 距 離 」(Euclid distance: E)と よ ば れ る 次 の 式 を 使 い ま す 。そ れ ぞ れ の 対 の 差 を 2 乗して次々に足していき全部足して根をとり、変数の個数で割ります。 E 1 2 = {[(x 1 1 – x 1 2 ) 2 + (x 2 1 – x 2 2 ) 2 + … + (x n 1 – x n2 ) 2 ] 1 /2 } / p E ij = {[Σ (k) (X k i – X k j ) 2 ] 1 /2 } / p Ep = [(Xp – Yp)' (Xp – Yp)] 1 /2 / P 距離は数値が大きくなると両者間の関係が薄くなるので相関係数や類似 度係数と大小の方向が異なります。また、必ず正の数になることや最大値 が定まらないこも相関係数や類似度係数と異なります。 4.3.2. ミ ン コ フ ス キ ー 距 離 ユークリッド距離の式の乗数 2 を 3 以上にしたり、また 1 にしたりする こ と も あ り ま す 。1 に す る と き は 単 に Xp と Yp の 差 の 総 和 を 求 め る こ と になりますが正負の値が相殺されてしまうので各項に絶対値を使います。 3, 5, …な ど の 奇 数 の 乗 数 を 使 う と き も 負 の 値 に な る こ と が あ る の で 、 絶 対 値にしなければなりません。E は乗数です。 M(1) = (|X 1 – Y 1 | + |X 2 – Y 2 | + … + |X p – Y p |) / p 107 M(2) = (|X 1 – Y 1 | 2 + |X 2 – Y 2 | 2 + … + |X p – Y p | 2 ) 1 /2 / p (...) M(E) = (|X 1 – Y 1 | E + |X 2 – Y 2 | E + … + |X p – Y p | E ) 1 /E / p 以 上 を 一 般 化 し た 乗 和 平 均 距 離 は 「 ミ ン コ フ ス キ ー 距 離 」 (Minkowski distance: M)と よ ば れ 、 次 の よ う に 定 義 さ れ ま す 。 Mp = [Σ (|Xp – Yp | E ] 1 /E / P 次 は E=2 乗 の 場 合 で す 。 Result1. English Latin Fisics Minkowski d. A B C D E F G A 45 48 66 A 0.000 0.872 0.775 2.370 0.756 1.142 0.813 B 56 59 54 B 0.872 0.000 0.667 1.521 1.159 1.516 1.074 C 58 51 78 C 0.775 0.667 0.000 1.949 1.327 0.924 0.649 D 77 72 20 D 2.370 1.521 1.949 0.000 2.388 2.688 2.460 E 43 44 32 E 0.756 1.159 1.327 2.388 0.000 1.567 1.561 F 58 34 90 F 1.142 1.516 0.924 2.688 1.567 0.000 1.107 G 50 53 100 G 0.813 1.074 0.649 2.460 1.561 1.107 0.000 4.3.3. マ ハ ラ ノ ビ ス 距 離 データ行列の変数の分散と共分散をそれぞれ 1 と 0 に変換した後で、ユ ークリッド距離を計算すれば、その距離は分散だけでなく共分散にも影響 されない数値になります。はじめにデータ行列を主成分分析(後述)をし て変数間の共分散を 0 にします。さらにその得点を標準化して変数の分散 を 1 にします。こうした得点は中心(平均)からの等距離の範囲内に分布 す る こ と に な り ま す 。 一 般 に 「 マ ハ ラ ノ ビ ス 距 離 」 (Mahalanobis distance) はこの得点にユークリッド距離を使って測定しますが、ここでは一般化さ せてミンコフスキー距離の乗数を使うことにします。 はじめに主成分分析の得点を出します。共分散が 0 になります。 Score 1 2 A - .823 - .544 B .635 C Covariance 1 2 3 .325 1 2.026 .000 .000 - .149 .369 2 .000 .672 .000 - .176 .588 .007 3 .000 .000 .303 D 3.171 .218 - .239 E - .510 - 1.668 - .270 F - 1.383 G - .916 3 .789 - 1.025 .766 .834 108 次は上左表を標準化した結果です。分散が 1 になります。 Std. S.: Col 1 2 3 Covariance 1 A - .578 - .663 B .446 C 2 3 .591 1 1.000 .000 .000 - .182 .671 2 .000 1.000 .000 - .124 .718 .013 3 .000 .000 1.000 D 2.228 .266 - .435 E - .358 - 2.035 - .491 F - .972 .963 - 1.864 G - .643 .934 1.515 上 左 表 の 個 体 の 距 離 を ミ ン コ フ ス キ ー (乗 数 =2)距 離 で 計 算 し た も の が 、 マハラノビス距離です。 Mahalanobis d. A B C D E F G A 0.000 0.655 0.903 1.807 1.017 1.715 1.066 B 0.655 0.000 0.723 1.238 1.346 1.803 1.024 C 0.903 0.723 0.000 1.406 1.621 1.197 0.927 D 1.807 1.238 1.406 0.000 1.999 2.063 2.041 E 1.017 1.346 1.621 1.999 0.000 1.936 2.076 F 1.715 1.803 1.197 2.063 1.936 0.000 1.960 G 1.066 1.024 0.927 2.041 2.076 1.960 0.000 マハラノビス距離は固有行列を使うので、個体の数が変数の数より多い ときでないと計算できません。 * マ ハ ラ ノ ビ ス 距 離 に つ い て は 奥 村 (1986)を 参 照 し ま し た 。 4.4. 順序連関行列 データ行列の数値そのものの相関ではなく、大小関係の順序の連関から 相互の関係を見るために、グッドマンとクラスカルの順序連関係数を使い ま す ( → 後 述 「 分 析 」 ) 。 た と え ば 、 次 の デ ー タ の L1 と L2 の 順 序 連 関 係 数 (Gk)を 計 算 し ま し ょ う 。 A L1 L2 L3 L4 L5 G&K L1 L2 L3 L4 L5 d1 10 19 14 7 12 L1 1.000 -.393 .028 .607 -.168 d2 11 7 10 0 1 L2 -.393 1.000 .371 .703 .113 d3 0 0 1 12 1 L3 .028 .371 1.000 .519 -.175 d4 0 1 2 3 3 L4 .607 .703 .519 1.000 -.472 L5 -.168 .113 109 -.175 -.472 1.000 は じ め に 、 そ の 肯 定 値 (Positive: P)と 否 定 値 (Negative: N)を 次 の よ う に 計 算 します。 P(L1, L2) = 10 x (7+1) + 11 x 1 = 91 N((L1, L2) = 11 x 19 = 209 よって G & K (L1, L2) = (91 – 209) / (91 + 209) = -.393 4.5. 名義類似行列 行 列 の 成 分 が 数 値 で は な く 名 義 の デ ー タ 行 列 を 扱 い ま す 。 A, B, C…は 任 意 の 名 義 (A, B, …な ど )、 ま た は 名 義 列 (bueno, malo, regular, …な ど )と し ま す 。 こ の よ う な 名 義 行 列 の 変 数 の 類 似 行 列 を 「 名 義 類 似 行 列 」 (Nominal Association Matrix)と よ ぶ こ と に し ま す 。 た と え ば 、 v1-4 を 地 方 名 、 d1-5 は そ れ ぞ れ の 地 方 で 発 行 さ れ た 文 書 、 A, B, C, … を 言 語 特 徴 、 と い う よ う な資料を想定しましょう。 Lt-1 v1 v2 v3 v4 Lt-1 v1 v2 1.000 .600 d1 A A B C v1 d2 A A C C v2 d3 A C B C v3 -.600 d4 C C C A v4 -1.000 d5 B B C C .600 1.000 v3 v4 -.600 -1.000 -.600 -.600 -.600 1.000 -.200 -.600 1.000 -.200 た と え ば 、 v1 と v2 の 相 関 (0.600)は 次 の よ う に 計 算 し ま す 。 両 列 に 同 じ 文 字 が 使 わ れ て い る 回 数 (a:++)は 4, あ る 文 字 が v1 に あ っ て v2 に な い 場 合 の 数 (b: +-)は 1, 逆 に そ れ が v1 に な く て v2 に あ る 場 合 の 数 も 1 に な る の で 、 先 の 優 先 係 数 の 式 [2a – (b+c)] / [2a – (b+c)]を 適 用 し て 、 [4x2 – (1+1)] / [4x2 + (1+1)] = .600 と な り ま す 。 この名義類似行列は次のような、1 つの成分の中に、複数の名義がある 場合にも計算できます。 110 Lt.Oc. d1 v1 A v2 v3 A,B v4 14.Letter corr el. v1 v2 v3 v4 B C v1 1.000 .500 .067 - .200 d2 B,D B,C,D B,C D v2 .500 1.000 .333 - .467 d3 A,B B B C v3 .067 .333 1.000 - .143 d4 C C A A v4 - .200 - .467 - .143 1.000 d5 B,C C B,C B,C,D た と え ば 、 v1 と v2 の 相 関 (0.520)は 次 の よ う に 計 算 し ま す 。 d1 で は 、 v1 の A と v2 の A,B を 比 べ て 、 両 者 に あ る 名 義 数 1 を a(++)と し ま す 。 v1 に あ っ て v2 に な い 名 義 数 0 を b(+-)と し ま す 。v2 に あ っ て v1 に な い 名 義 数 1 を c(-+)b と し ま す 。 こ の a, b, c を 他 の 行 d2, …, d5 で も 加 算 し て 計 算 し た 優 先 係 数 の 値 が 名 義 相 関 係 数 (v1, v2) = 0.520 に な り ま す 。 す べ て の 組 み 合 わ せ (v1, …, v4)の 名 義 相 関 係 数 を 計 算 す る と 名 義 相 関 行 列 が で き ま す 。 111 5. 分 析 「分析」では、データ行列全体をさまざまな視点から分析します。 5.1. 統計量の分析 5.1.1. 範 囲 の 分 析 デ ー タ の 範 囲 の 状 態 を 示 す「 最 小 値 」「 中 間 値 」「 最 大 値 」「 範 囲 」( 最 大値-最小値)を調べます。 最小値 中間値 最大値 範囲 A L1 L2 L3 L4 L5 A d1 10 19 14 7 12 d1 7.00 13.00 19.00 12.00 d2 11 7 10 0 1 d2 .00 5.50 11.00 11.00 d3 0 0 1 12 1 d3 .00 6.00 12.00 12.00 d4 0 1 2 3 3 d4 .00 1.50 3.00 3.00 5.1.2. 中 心 の 分 析 データの中心である平均値、中央値、最頻値と、中央値・中間値との関 係 を 調 べ ま す 。対 照 値 に つ い て は → 前 述 。た と え ば 平 均 値 の「 範 囲 内 位 置 」 は次のようにして求めます。 範囲内位置(平均値)=(平均値-最小値)/範囲 A 平均値 中央値 d1 12.40 d2 対照値 中間値 差(-) 対照 範囲内位置 .40 .02 13.00 -.60 -.02 .45 5.80 7.00 -1.20 -.09 5.50 .30 .03 .53 d3 2.80 1.00 1.80 .47 6.00 -3.20 -.36 .23 d4 1.80 2.00 -.20 -.05 .09 .60 中央値 平均値 差(-) A 12.00 差(-) 1.50 .30 対照値 中間値 差(-) d1 12.00 12.40 -.40 -.02 d2 7.00 5.80 1.20 .09 d3 1.00 2.80 -1.80 -.47 d4 2.00 1.80 .20 .05 13.00 -1.00 対照 範囲内位置 -.04 .42 1.50 .12 .64 6.00 -5.00 -.71 .08 .14 .67 5.50 1.50 112 .50 A 大数平均値 平均値 d1 12.22 d2 差(-) 対照 範囲内位置 .22 .01 13.00 -.78 -.03 .44 6.00 7.00 -1.00 -.08 5.50 .50 .04 .55 d3 1.89 1.00 .89 .31 6.00 -4.11 -.52 .16 d4 1.89 2.00 -.11 -.03 .11 .63 A 12.00 差(-) 対照値 中間値 1.50 .39 切除平均値 平均値 差(-) 対照値 中間値 差(-) 対照 範囲内位置 d1 12.13 12.00 .13 .01 13.00 -.87 -.03 .43 d2 6.27 7.00 -.73 -.06 5.50 .77 .07 .57 d3 1.49 1.00 .49 .20 6.00 -4.51 -.60 .12 d4 1.93 2.00 -.07 -.02 .13 .64 A 1.50 .43 最頻値:頻度 平均値 差(-) 対照値 中間値 d1 12.00 12.00 .00 .00 d2 9.33 7.00 2.33 .14 d3 .50 1.00 -.50 -.33 d4 2.67 2.00 .67 .14 差(-) 13.00 -1.00 対照 範囲内位置 -.04 .42 3.83 .26 .85 6.00 -5.50 -.85 .04 .28 .89 5.50 1.50 1.17 5.1.3. 偏 差 の 分 析 平 均 を 中 心 と し た 偏 差 を 示 す 各 種 の 統 計 量( →「 統 計 量 」)を 比 較 し ま す 。 A L1 L2 L3 L4 L5 A 分散 標準偏差 変動係数 正規変動係数 拡散度 d1 10 19 14 7 12 d1 16.240 4.030 .325 .162 .838 d2 11 7 10 0 1 d2 20.560 4.534 .782 .391 .609 d3 0 0 1 12 1 d3 21.360 4.622 1.651 .825 .175 d4 0 1 2 3 3 d4 1.360 1.166 .648 .324 .676 5.1.4. 平 衡 の 分 析 データ行またはデータ列の中での数値の偏りを示す指標として、以下の よ う な 「 対 照 数 」 (Contrastive count) を 考 え ま す 。 113 A L1 L2 L3 L4 L5 A 中間値 中間値正数 中間値負数 中間値対照数 d1 10 19 14 7 12 d1 13.000 2 3 -.200 d2 11 7 10 0 1 d2 5.500 3 2 .200 d3 0 0 1 12 1 d3 6.000 1 4 -.600 d4 0 1 2 3 3 d4 1.500 3 2 .200 た と え ば 、d1 {10, 19, 14, 7, 12)の 中 間 値 [( 最 大 値 +最 小 値 )/2]は 13 で す が 、こ の 中 間 値 よ り 大 き な 数 値 (Positive: P)は 19, 14 の 2 数 で す 。ま た 、中 間 値 よ り 小 さ な 数 値 (Negative: N)は 10, 7, 12 の 3 数 で す 。 そ こ で 、 「 中 間 値 対 照 数 」 (Contrastive count by mid): Ccm は Ccm = (P – N) / (P + N) = (2 – 3) / (2 + 3) = -.200 となり、ややデータ数が中間値より下にあることがわかります。 次に、データの数ではなく、次のような数値を計算し、その結果を「中 間 値 対 照 値 」(Contrastive value by mid: Cvm)と し ま す 。た と え ば 、d1 {10, 19, 14, 7, 12)の な か で 中 間 値 13 よ り 大 き な 数 値 19, 14 の 差 は 、6, 1 な の で 、P=6 + 1 = 7 に な り ま す 。ま た 、中 間 値 13 よ り 小 さ な 数 値 10, 7, 12 の 差 は 、3, 6, 1 な の で 、 P=3 + 6 + 1 = 10 に な り ま す 。 そ こ で 、 Cvm = (P – N) / (P + N) = (7 – 10) / (7 + 10) = -.176 となります。 A 中間値 中間値正値 中間値負値 中間値対照値 d1 13.000 7.000 10.000 -.176 d2 5.500 11.500 10.000 .070 d3 6.000 6.000 22.000 -.571 d4 1.500 3.500 2.000 .273 対 照 数 も 対 照 値 も 、 P と N が 同 じ 数 値 で あ れ ば ゼ ロ に な り 、 P>N の と き は 正 値 に な り 、P<N の と き は 負 値 に な り ま す 。ど ち ら も は –1 < Ccm / Cvm< +1 の 両 端 を 含 ま な い 範 囲 を と り ま す 。 このようにそれぞれのデータと比較する参照値は、中間値だけでなく 、 平均値や中央値を使うことができます。平均値を使うと「対照値」がかな ら ず ゼ ロ (0)に な る の で 対 照 数 を 使 い ま す 。逆 に 、中 央 値 を 使 う と「 対 照 数 」 が か な ら ず ゼ ロ (0)に な る の で 、 対 照 値 を 使 い ま す 。 114 平均値 平均値正数 平均値負数 平均値対照数 d1 12.400 2 3 -.200 d2 5.800 3 2 .200 d3 2.800 1 4 -.600 d4 1.800 3 2 .200 A A 中央値 中央値正値 中央値負値 中央値対照値 d1 12.000 9.000 7.000 .125 d2 7.000 7.000 13.000 -.300 d3 1.000 11.000 2.000 .692 d4 2.000 2.000 3.000 -.200 5.1.5. 階 級 に よ る 変 動 分 析 下 の 表 (D.var)は 、 デ ー タ 行 列 と 、 そ の 各 列 の 和 、 平 均 値 、 分 散 、 標 準 偏 差を示します。 値 D.var v1 v2 v3 d1 38 18 5 和 d2 35 10 6 平均値 d3 28 44 48 分散 d4 22 30 62 標準偏差 d5 24 29 89 v1 v2 147.000 131.000 29.400 26.200 v3 210.000 42.000 38.240 133.760 1062.000 6.184 11.565 32.588 一 方 、 下 左 表 (D.var.C)に は 先 の デ ー タ 行 列 に 加 え て 、 階 級 値 (Class)の 列 があります。この列の値を各変数に積算して、同じ統計量を取り直したも の が 下 右 表 で す 。 こ れ を 「 階 級 に よ る 変 動 分 析 」 (Analysis of variance by class)と よ ぶ こ と に し ま す 。 D.var.C v1 v2 v3 Class D.var.C v1 v2 v3 d1 38 18 5 1 和 d2 35 10 6 2 平均値 2.721 3.321 4.067 d3 28 44 48 3 分散 1.997 1.638 .977 d4 22 30 62 4 標準偏差 1.413 1.280 .988 d5 24 29 89 5 400.000 435.000 854.000 M 1 p = SumC(M(F n p , X n 1 )) '和 行 M 1 p = D(M 1 p , SumC(F n p )) '平 均 行 V 1 p = D(SumC(M(E(S(X n 1 , M 1 p ), 2), F n p )), SumC(F n p )) '分 散 行 V 1 p = E(V 1p , 0.5) '標 準 偏 差 行 115 上 の Fn p は デ ー タ 行 列 、 Xn 1 は 階 級 値 の 列 を 示 し ま す 。 こ こ で の 目 的 は 、 階級を外的基準として利用し、それに基づいた変動を比較することです。 D.var の 単 純 な 分 析 で は 中 心 点 ( 平 均 値 ) が 全 体 で 一 様 に 共 通 し て 計 算 さ れ ま す が 、D.var.C の 階 級 を 外 部 基 準 と し た 変 動 分 析 で は 個 別 の 階 級 値 を 使 っ て 平 均 値 を 出 し ま す 。 た と え ば D.var の v1 の 平 均 値 は デ ー タ の 尺 度 の 29.4 で す が 、 D.var.C の 平 均 値 は 階 級 値 の 尺 度 の 2.72 に な り ま す 。 両 者 の 分 散 ・ 標 準 偏 差 を 比 較 す る と 、D.var で は v1 < v2 < v3 と い う 大 小 関 係 を 示 し ま す が 、 D.var.C で は 、 逆 に v1 > v3 > v3 と い う 順 番 で す 。 デ ー タ 行 列 を 見 る と 、た し か に v3 の デ ー タ が d3, d4, d5 に 集 中 し て い る こ と が わ か り ま す 。そ の 中 心 点( 階 級 平 均 値 )は 4.07 で す 。分 散 ・ 標 準 偏 差 は た し か に デ ー タ の 散 ら ば り 具 合 を 示 し v3 が 全 体 的 に 見 れ ば 拡 散 し て い る よ うですが、一方、大きな値に焦点を当てて見れば集中しているように思わ れ ま す 。 た と え ば 、 D.var の v3 の 中 心 ( 平 均 値 ) 42 は d2-d3 間 に あ り ま す が 、 D.var.C の 中 心 ( 平 均 値 ) 4.067 は d4-d5 間 に な り ま す 。 次のように階級値を逆転させると和と平均値は当然変わりますが、分 散・標準偏差は変化しません。 D.var.C v1 v2 v3 Class D.var.C v1 v2 v3 d1 38 18 5 5 和 d2 35 10 6 4 平均値 3.279 2.679 1.933 d3 28 44 48 3 分散 1.997 1.638 .977 d4 22 30 62 2 標準偏差 1.413 1.280 .988 d5 24 29 89 1 482.000 351.000 406.000 このようにデータ行列だけの変動と、階級を考慮した変動の様子は異な りますが、どちらを採用するかは分析の目的によります。この階級による 変動分析は、外的な基準に従ってデータが集中する度合いを調べるときに 役立ちます。 5.2. 振動分析 デ ー タ の 並 び の 上 下 動 の 様 子 を 、「 振 動 数 」(Oscillation count: Oc)と「 振 動 値 」 (Oscillation value: Ov) に よ っ て 数 量 化 し ま す 。 振 動 数 を 計 算 す る た め に 、上 昇 数 と 下 降 数 を 次 の よ う に 計 算 し ま す 。d1 {10, 19, 14, 7, 12}で は 、 10 > 19 と 7 > 12 の 間 で 2 回 上 昇 し て い る の で 、 上 昇 数 (Rising count: Rc)は 2 に し ま す 。ま た 、19 > 14, 14 > 7 で 2 回 下 降 し て い る の で 、下 降 数 (Falling count: Fc)は 2 に な り ま す 。こ の よ う に Rc と Fc が 同 じ 場 合 は 振 動 数 は 0 と し ま す 。 d3 {0, 0, 1, 12, 1}の 場 合 は Rc=2., Fc=1 で す 。 こ の 2 つ の 数 値 を 使 っ て 、 振 動 数 (Fc)を 次 の よ う に 定 義 し ま す 。 116 Oc = (Rc – Fc) / (Rc + Fc) 次 に 、 上 下 動 の 幅 を 考 慮 し た 「 振 動 値 」 (Oscillation value: Ov)を 計 算 し ま す 。 d3 {0, 0, 1, 12, 1}の 場 合 は 、 上 昇 値 (Rising value: Rv)は Uv(10 > 19) = 9, Uv(7>12) = 5 で 、合 わ せ て 14 と な り 、下 降 値 (Falling value: Fv)は Fv(19>14) = 5, Fv(14>7) = 7 で 合 わ せ て 12 に な り ま す 。 振 動 値 (Ov)を 次 の よ う に 定 義 します。 Ov = (Rv – Fv) / (Rv + Fv) 上昇数 下降数 振動数 上昇値 下降値 振動値 A L1 L2 L3 L4 L5 A d1 10 19 14 7 12 d1 2 2 .000 14 12 .077 d2 11 7 10 0 1 d2 2 2 .000 4 14 -.556 d3 0 0 1 12 1 d3 2 1 .333 12 11 .043 d4 0 1 2 3 3 d4 3 0 1.000 3 0 1.000 d2 が 下 降 す る 傾 向 が あ り 、 d4 は 完 全 に 上 昇 し て い る こ と が わ か り ま す 。 5.3. 順序連関係数 下 左 表 は 、 ス ペ イ ン 語 で ¿Adónde vas? 「 ど こ に 行 く の 」 と い う 表 現 を 、 Niño(子 供 ), Joven (若 者 ), Mayuor (大 人 ), Anciano (老 人 )に 対 し て 使 う と き の 、 そ れ ぞ れ 、 No (使 わ な い ), A veces (と き ど き ), Siempre (い つ も )の 使 用 頻度を調べて集計したものです。 Vas? Niño Joven Mayor Anciano G. & K. (2) Vas? No 1 5 192 92 Positive v.= 10600 A veces 3 22 58 20 Negative v.= 101941 Siempre 56 153 110 8 G. & K.= - .812 次 は 、 同 じ こ と を 敬 語 を 使 っ た ¿Adónde va usted?「 ど ち ら に い ら っ し ゃ るのですか?」という表現の使用頻度の集計です。 Va Ud.? Niño Joven Mayor Anciano G. & K. (2) Va Ud.? No 55 147 142 18 Positive v.= 93267 A veces 5 24 99 33 Negative v.= 15854 Siempre 0 9 119 69 G. & K.= .709 このように、横の分類も縦の分類も一定の順序を持った変数であるとき、 全体の分布が横と縦の順序にどの程度従っているかを示す係数として、 「グ ッ ド マ ン と ク ラ ス カ ル の 順 序 連 関 係 数 」(Goodman-Kruskal's rank measure of association: GK)が 使 わ れ ま す 。GK を 算 出 す る た め に 、ク ロ ス 表 で 、1 つ の 117 マス目にあるデータとそれよりも横と縦が上になるマス目のデータの対の 総 数 で あ る「 肯 定 対 総 数 」(Positive pairs: P)を 、次 の よ う に し て 計 算 し ま す 。 P(Vas?) = 1 x (22+58+20+153+110+8) + 5 x (58+20+110+8) + 192 x (20+8) + 3 x (153+110+8) + 22 x (110+8) + 58 x 8 = 10600 一方、1 つのマス目にあるデータとそれよりも横と縦が「下」になるマス 目 の デ ー タ の 対 の 総 数 で あ る 「 否 定 対 総 数 」 (Negative pairs: N)を 、 次 の よ うにして計算します。 N(Vas?) = 5 x (3+56) + 192 x (3+22+56+153) + 92 x (3+22+58+56+153+110) + 22 x 56 + 58 x (56+153) + 20 x (56+153+110) = 101941 次 の よ う に 、 順 序 連 関 係 数 GK は 、 P と N の 対 照 値 に な り ま す 。 GK(Vas?) = (P - N) / (P + N) = (10600 – 101941) / (10600 + 101941) 同様にして P(Va Ud.?) = 93267 N(Va Ud.?) = 15854 GK(Va Ud.?) = (93267 - 15854) / (93267 + 15854) = .709 こ の よ う に 、 GK を 使 う こ と に よ っ て 、 ス ペ イ ン 語 の 普 通 体 は 対 話 者 の 年 代層と逆連関し、丁寧体はそれと正連関していることがわかります。 * 池 田 ・ 芝 (1976: 130-132)を 参 照 し ま し た 。 5.4. 多重関連分析 5.4.1. 多 重 条 件 リ ス ト M ultiple condition c1 c2 c3 c4 R d1 A C F I X d2 A D F J X d3 A D G K Y d4 B D H L Z d5 B E H M Z 「 多 重 関 連 分 析 」 (Multiple Association Analysis)と よ ぶ 方 法 に よ っ て 、 た と え ば 上 の 表 の 条 件 c1, c2, c3, c4 と 結 果 の E の 間 の 関 連 に つ い て 分 析 し 、 単 一の条件や多重に結合する条件の影響度を計測します。はじめに、条件と 結果の該当するセルにタイトル列のデータに出力します。これにより、ど 118 のようなデータが該当するかが表形式でわかります。 Single Cond. 1 1:A 1:A 1:B 1:B X Y Z d1 d3 d2 d4 d5 Single Cond. 2 2:C 2:D 2:E X Y Z d1 d2 d3 d4 d5 Single Cond. 3 3:F 3:F 3:G 3:H 3:H X Y Z d1 d2 d3 d4 d5 Single Cond. 4 4:I 4:J 4:K 4:L 4:M X Y Z d1 d2 d3 d4 d5 5.4.2. 多 重 条 件 頻 度 次に該当するデータの頻度を計算しましょう。 (1) 単 一 条 件 Single Cond. 1 1:A 1:B Single Cond. 3 3:F 3:G 3:H X Y Z 2 1 2 Single Cond. 2 2:C 2:D 2:E X Y Z 1 1 1 1 1 X Y Z 2 1 2 Single Cond. 4 4:I 4:J 4:K 4:L 4:M X Y Z 1 1 1 1 1 出 力 の X, Y, Z 列 は 結 果 列 (E)の 各 成 分 の 絶 対 頻 度 で す 。 (2) 二 重 条 件 すべての条件の中から 2 つの組合せについて頻度を計算します。 Double Cond. 1+2 1:A + 2:C 1:A + 2:D 1:B + 2:D 1:B + 2:E X Y Z 1 1 1 1 1 Double Cond. 1+3 1:A + 3:F 1:A + 3:G 1:B + 3:H 119 X Y Z 2 1 2 さ ら に 、Double Cnd. 1-4, Double Cnd. 2-3, Double Cnd. 2 -4, Double Cnd. 3-4 も同様にして計算します。 (3) 三 重 条 件 すべての条件の中から 3 つの組合せについて頻度を計算します。 Triple Cond. 1+2+3 1:A + 2:C + 3:F 1:A + 2:D + 3:F 1:A + 2:D + 3:G 1:B + 2:D + 3:H 1:B + 2:E + 3:H X Y Z 1 1 1 1 1 Triple Cond. 1+2+4 1:A + 2:C + 4:I 1:A + 2:D + 4:J 1:A + 2:D + 4:K 1:B + 2:D + 4:L 1:B + 2:E + 4:M X Y Z 1 1 1 1 1 さ ら に Triple Cnd.1-3-4, Triple Cnd. 2-3-4 も 同 様 に し て 計 算 し ま す 。こ れ ら はすべて絶対頻度を示すので、各種の得点計算をして相対化した値も考慮 すべきです。 ■ 10-13 世 紀 ス ペ イ ン 語 i, j, y の 文 字 次 は 、10-13 世 紀 の ス ペ イ ン 北 部 で 記 さ れ た 文 献 中 の i, j, y の 文 字 に つ い て 多重条件分析をした結果と相対卓立得点を両軸で計算した結果を示します。 Double Cnd. 1-2 1:#_# + 2:i 1:#_C + 2:i 1:#_V + 2:j 1:#_V + 2:y 1:C_# + 2:i 1:C_C + 2:i 1:C_V + 2:i 1:V_# + 2:i 1:V_C + 2:i 1:V_V + 2:i 1:V_V + 2:j 1:V_V + 2:y I J Y 602 142 2 3 71 3 4 10 1 13 6 9 12 1 1 9 i 111 2005 38 12 2453 9257 5084 330 1458 238 92 28 j y 41 22 5 18 1 180 342 41 41 4 154 18 343 76 116 163 20 131 2 4 182 P.R.S.b. 1:#_# + 2:i 1:#_C + 2:i 1:#_V + 2:j 1:#_V + 2:y 1:C_# + 2:i 1:C_C + 2:i 1:C_V + 2:i 1:V_# + 2:i 1:V_C + 2:i 1:V_V + 2:i 1:V_V + 2:j 1:V_V + 2:y I J Y i 0.078 0.812 0.456 0.011 0.617 0.058 0.846 0.028 0.053 0.132 0.441 0.009 0.005 0.673 0.020 0.926 0.016 0.834 0.093 0.199 0.075 0.009 0.539 0.154 0.018 0.065 0.143 0.021 j y 0.451 0.020 0.092 0.185 0.011 0.833 0.622 0.158 0.059 0.006 0.287 0.046 0.815 0.477 0.408 0.548 0.187 0.648 0.033 0.044 0.832 語 頭 で 母 音 が 後 続 す る 環 境 (#_V)の J は 絶 対 頻 度 で は と く に 大 き な 値 を 示 し ま せ ん が 、 相 対 卓 立 得 点 で は 最 大 値 (.846)を 示 し て い ま す 。 5.4.3. 多 重 関 連 係 数 多重の条件と結果との関連度を調べるために次のような「多重関連係数」 を 考 え て み ま し ょ う 。 単 一 の 条 件 の 関 連 係 数 (coefficient of Multiple Associatin: M.A.) か ら 始 め 、 二 重 条 件 、 三 重 条 件 、 そ し て 多 重 条 件 に ま で 一般化します。 120 (1) 単 一 条 件 条 件 (c) 結 果 (e) ウ ェ イ ト (p) 頻 度 (f), [例 ] +1 (有 ) +1 (有 ) (+1)(+1) = +1 f (1), [例 . 8] +1 (有 ) −1 (無 ) (+1)(−1) = −1 f (2), [例 . 3] −1 (無 ) +1 (有 ) (−1)(+1) = −1 f (3), [例 . 4] −1 (無 ) −1 (無 ) (−1)(−1) = +1 f (4), [例 . 6] M.A. ( 1 ) = 𝑓(1) – 𝑓(2) – 𝑓(3)+ 𝑓(4) [𝑓(1)+ 𝑓(4)] –[𝑓(2)+ 𝑓(3)] (* = ) (*=Hama n n ) [𝑓(1)+ 𝑓(4)]+[𝑓(2)+ 𝑓 (3)] 𝑓(1)+ 𝑓(2)+ 𝑓(3)+ 𝑓(4) = 𝑝(1)𝑓(1)+𝑝(2)𝑓(2)+𝑝(3)𝑓 (3)+ 𝑝(4)𝑓(4) ∑2^2 𝑖=1 𝑓 (𝑖 ) = ∑2^2 ∑2^2 𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )] 𝑖=1 [𝑓(𝑖 )𝑒(𝑖 )𝑐(𝑖 )] = (* 2^2 = 2 2 = 4) 2^2 ∑𝑖=1 𝑓 (𝑖 ) ∑2^2 ( ) 𝑓 𝑖 𝑖=1 [* p(i ) = ウ ェ イ ト (+1 / −1)] 例 : M.A. ( 1) = 8−3−4+6 8+3+4+6 (8+6)−(3+4) [= (8+6)+(3+4)𝑙] = 0.333 (−1≤ A ≤ +1) (2) 二 重 条 件 c(1) c(2) 結 果 (e) ウェイト 頻 度 (f) +1 +1 +1 (+1+1)(+1) = +2 f (1) +1 +1 −1 (+1+1)(−1) = −2 f (2) +1 −1 +1 (+1−1)(+1) = 0 f (3) +1 −1 −1 (+1−1)(−1) = 0 f (4) −1 +1 +1 (−1+1)(+1) = 0 f (5) −1 +1 −1 (−1+1)(−1) = 0 f (6) −1 −1 +1 (−1−1)(+1) = −2 f (7) −1 −1 −1 (−1−1)(−1) = +2 f (8) M.A. ( 2 ) = = ∑2^3 𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )] 2 ∑2^3 𝑖=1 𝑓(𝑖 ) 2 ∑2^3 𝑖=1[ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)] 2 ∑2^3 𝑖=1 𝑓 (𝑖 ) [* p(i) = ウ ェ イ ト (+2 … −2)] [* e(i) = 結 果 (+1 / −1), c(j) = 条 件 (+1/−1)] こ の よ う に 分 子 に あ る ウ ェ イ ト (p)は c(i, j)の 和 と e(i)を 掛 け た も の で す 。 分 母 は す べ て の f(i)に ウ ェ イ ト 2 を 掛 け ま す 。こ れ は 、分 子 で 条 件 の 数 (=2) だけ頻度を加算・減算をしていたので、分母はこれらすべての頻度を加算 121 して母数にするためです。 (3) 三 重 条 件 c(1) c(2) c(3) 結 果 (e) +1 +1 +1 +1 (+1+1+1)(+1) = +3 f (1) +1 +1 +1 −1 (+1+1+1)(−1) = −3 f (2) +1 +1 −1 +1 (+1+1−1)(+1) = +1 f (3) +1 +1 −1 −1 (+1+1−1)(−1) = −1 f (4) +1 −1 +1 +1 (+1−1+1)(+1) = +1 f (5) +1 −1 +1 −1 (+1−1+1)(−1) = −1 f (6) +1 −1 −1 +1 (+1−1−1)(+1) = −1 f (7) +1 −1 −1 −1 (+1−1−1)(−1) = +1 f (8) −1 +1 +1 +1 (−1+1+1)(+1) = +1 f (9) −1 +1 +1 −1 (−1+1+1)(−1) = +1 f (10) −1 +1 −1 +1 (−1+1−1)(+1) = −1 f (11) −1 +1 −1 −1 (−1+1−1)(−1) = +1 f (12) −1 −1 +1 +1 (−1−1+1)(+1) = −1 f (13) −1 −1 +1 −1 (−1−1+1)(−1) = +1 f (14) −1 −1 −1 +1 (−1−1−1)(+1) = −3 f (15) −1 −1 −1 −1 (−1−1−1)(−1) = +3 f (16) M.A. ( 3 ) = ウ ェ イ ト (p) 頻 度 (f) 3 ∑2^4 ∑2^4 𝑖=1 [ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)] 𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )] = 3 ∑2^4 3 ∑2^4 𝑖=1 𝑓(𝑖 ) 𝑖=1 𝑓(𝑖 ) 三重条件では条件の数が 3 になります。 (4) 多 重 条 件 以 上 を 一 般 化 す る と 多 重 関 連 係 数 M.A. ( m ) は 次 の 式 に な り ま す 。 M.A. (m) = ∑2^(𝑚+1) [ 𝑝(𝑖 )𝑓(𝑖 )] 𝑖=1 2^(𝑚+1) 𝑚 ∑𝑖=1 𝑓 (𝑖 ) = ∑2^(𝑚+1) [ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑚 𝑗=1 𝑐(𝑖,𝑗)] 𝑖=1 2^(𝑚+1) 𝑚 ∑𝑖=1 𝑓 (𝑖 ) このように算出した多重関連係数を比較することにより、関係する条件の 働きの強さを調べることができます。次は、データ例を使って、多重条件 と結果の関係を見るために、 「類似係数行列」 ( 優 先 係 数 : Pref. S.: Preference = (2A – B – C) / (2A + B + C))と「 多 重 関 連 係 数 行 列 」を 比 較 し た も の で す 。 後者の数値の弁別力が強いことが分かります。 122 P r e f . 1+2+3 X Y Z A + C + F . 333 A + D + F . 333 A + D + G 1. 000 B + D + H . 333 B + E + H . 333 T o t . M . A . 1 + 2 + 3X Y Z A + C + F . 733 A + D + F . 467 A + D + G . 467 B + D + H . 600 B + E + H . 867 優先係数はデータ行列(上左表)の両軸を使って相対化しますが、多重関 連 係 数 は 条 件 の 構 成 ま で 考 慮 に 入 れ て 計 算 し ま す 。 た と え ば 、 [A+C+H]と [A+D+F]は 、 優 先 係 数 で は 単 に そ れ ぞ れ を 個 別 の 名 称 と す る だ け で す が 、 多重関連係数では、A と F が共通であることも考慮に入れます。 ●否定的証拠 プログラムでは、はじめに条件・結果のクロス集計表を作り(下左表)、 それをもとにして多重関連係数のクロス表を作ります(下右表)。 Freq.1+2 X A+C 1 A+D 1 Y Z 1 Tot.M.A.1+2 X Y A+C .600 A+D .200 Z .200 B +D 1 B +D .400 B +E 1 B +E .800 た と え ば 、 [A+D+F]と い う 条 件 と X と い う 結 果 の 間 の 多 重 関 連 係 数 は .733 ですが、これを計算するために次のような条件と結果のウェイトを求めま す。 Freq.1+2 X: +1 A + C: 1+1=2 1x(+2)x(+1)=2 A + D: 1–1=0 1x(0)x(+1)=0 Y: –1 Z: –1 1x(0)x(–1)=0 B + D: –1–1=–2 1x(–2)x(–1)=+2 B + E: –1–1=–2 1x(–2)x((–1)=+2 こ れ ら の 総 和 (2+0+0+2+2 = 6)を 、 該 当 デ ー タ の 個 数 (5) x 条 件 の 数 (2) = 10 で 割 り 、 そ の 結 果 .600 に な り ま す 。 こ の 計 算 過 程 を 見 る と 、 条 件 と 結 果 が と も に プ ラ ス (+)で あ る ケ ー ス の 数 値 (=2)よ り も 、ど ち ら も マ イ ナ ス (−)に な る ケ ー ス の 数 値 の 和 (=4)の ほ う が 多 い こ と が わ か り ま す 。 ど ち ら も マ イ ナ ス と い う ケ ー ス は 、条 件( 例:曇 り の 日 )が な け れ ば 結 果( 例:傘 の 携 帯 ) もなかった、というケース(曇りでない日に傘を携帯しない)ですから、 確かにこの場合も両者が互いに関連していること(曇りの日→傘の携帯) を 示 し ま す 。し か し 、条 件・結 果 と も に「 有 り 」( 肯 定 的 証 拠 )と 比 べ て 、 123 ともに「無し」(否定的証拠)のほうが非常に多いというときには、その 結果、関連係数が高くなりますので注意が必要です。たとえば、A という 本 を 読 む 人 の 数 と B と い う 本 を 読 む 人 の 数 の 関 連 を 調 べ る と 、ど ち ら も 読 んでいない人の数が非常に多いので確かに関連係数は高くなりますが、そ う で あ っ て も 、A を 読 む と い う 条 件 か ら B を 読 む と い う 結 果 が 高 く 予 想 さ れる、というわけではありません。 次 の 左 表 は 否 定 的 事 例 の 全 体 に 対 す る 割 合 を 示 し ま す 。 こ こ で は .600 を 示 す [B+E]と Z の 関 連 度 で は 、 否 定 的 証 拠 が 強 く 働 い て い る こ と が わ か り ます。そこで、すべて負の条件と結果が負であるケースを除外して計算し た 関 連 係 数 を 下 右 表 に 示 し ま す 。こ れ を「 正 多 重 関 連 係 数 」(Positive Multiple Association)と よ ぶ こ と に し ま す 。こ れ と 区 別 し て 先 の 関 連 係 数 を「 全 多 重 関 連 係 数 」(Total Multiple Association)と 呼 び ま す 。両 者 を 比 較 す る と 、「 正 多重関連係数」の数値が全体的に低くなっています。 R.Neg.C.1+2 X Y A+C .400 A+D .200 Z Pos.M.A.1+2 .200 X A+C .333 A+D .000 Y Z .000 B+D .200 B+D .250 B+E .600 B+E .500 5.5. 多変量解析 5.5.1. 重 回 帰 分 析 「 重 回 帰 分 析 」 (Multiple regression)と よ ば れ る 方 法 は 、 次 の よ う な 複 数 の 説 明 変 数 (x 1 , x 2 , …)と 目 的 変 数 (y: Yn)を も つ デ ー タ か ら 、未 知 の 目 的 変 数 を 予 想 す る 重 回 帰 式 を 求 め る 方 法 で す 。各 説 明 変 数 に 重 み( ウ ェ イ ト )Wp 掛 け て 重 回 帰 式 を 作 り ま す が 、 実 際 の 結 果 Yn と 重 回 帰 式 で 求 め た 予 測 値 ベ ク ト ル En の 差 が 小 さ け れ ば 小 さ い ほ ど そ の 式 が 高 く 評 価 さ れ ま す 。 そ こ で 、実 測 値 ベ ク ト ル Yn と 予 測 値 ベ ク ト ル En の 平 方 和 が 最 小 に な る よ う にします。 た と え ば 、次 の よ う な 成 績 表 で 、Read, Write, Vocab(ulary)の 小 テ ス ト と 、 最 終 成 績 (POINT)の 関 係 を 見 ま す 。 English Read Write Vocab. POINT d1 6 8 5 12 d2 7 10 6 11 d3 8 4 8 13 d4 9 7 2 7 d5 10 9 4 14 124 次 の よ う に 予 測 値 En を 、切 片 (W0)と 各 変 数 (X)に 重 み と し て の 係 数 (Wp) を 掛 け た も の を 加 算 し て 作 っ た 式 で 作 り ま す 。 [i = 1, 2, …, N] E(i) = W(0) + W(1) X(i, 1) + W(2) X(i, 2) + ... + W(p) X(i, p) こ の 式 の 第 1 項 W(0)は 回 帰 式 の 切 片 (intercept)を 示 し ま す 。 こ の 切 片 は すべての個体に共通に加えます。したがって、この列には単位ベクトル 1p を左積します。 E(i) = 1p W(0) + X(i, 1) W(1) + X(i, 2) W(2) + ... + X(i, p) W(p) [i=1…n] 行列で示すと、 En = X n p Wp [X n p の 第 1 列 は 単 位 ベ ク ト ル ] こ の 式 で 求 め ら れ た 値 と 実 測 値 Yn の 間 の 残 差 の ベ ク ト ル を Rn と し ま す 。 Rn = Yn – En = Yn – X np Wp こ の 残 差 Rn の 平 方 和 S を 求 め ま す 。 S = Rn' Rn = (Yn – X n p Wp)' (Yn – X n p Wp) = [Yn' – (X n p Wp)'] (Yn – X n p Wp) = Yn' Yn – Yn' X n p Wp – (X np Wp)' Yn + (X n p Wp)' X n p Wp = Yn' Yn – Yn' X n p Wp – Yn' (X n p Wp) + Wp' X n p ' X np Wp = Yn' Yn – 2 Yn' X n p Wp + Wp' X np ' X n p Wp S を最小化するために(多変数空間中の変数が形成する「曲面」の最小 値 の 位 置 を イ メ ー ジ し て く だ さ い )、S を 変 数 の ベ ク ト ル Wp で 微 分 し( 後 述 ) 、 そ の 値 が ゼ ロ ベ ク ト ル に な る と き の Wp を 求 め ま す 。 Df(S, Wp) = -2 Yn' X n p + 2 X np ' X n p Wp = 0p' こ こ で 、 S = Yn' Yn – 2 Yn' X n p Wp + Wp' X n p ' X n p Wp の 第 1 項 Yn' Yn に は 、Wp が な い の で 、Wp で 微 分 す る と ゼ ロ に な り ま す 。第 2 項 の –2 Yn' X np Wp と 第 3 項 の Wp' X np ' X n p Wp の 微 分 に つ い て は 後 述 し ま す 。 第 3 項 の 中 の X n p ' X np は 対 照 行 列 で す 。 よ っ て 、 上 式 か ら X n p ' X np Wp = Yn' X n p Wp を 求 め る た め に は Wp の 係 数 を Um( 単 位 行 列 )に す る 必 要 が あ る の で 、 両 辺 に (X np ' X n p ) ^ を 左 積 し ま す 。 (X n p ' X n p ) ^ (X np ' X n p ) Wp = (X np ' X n p ) ^ Yn' X n p Um Wp = (X n p ' X np ) ^ Yn' X n p Wp = (X np ' X n p ) ^ Yn' X n p 125 Wp = (X np ' X n p ) ^ X np ' Yn こ の よ う に し て 求 め た ベ ク ト ル Wp が 下 に 示 す 「 係 数 」 (Value)の 列 で す 。 Weight P: Intercept Value Read -3.819 Write .740 Vocab. .462 Std res. 1.157 1.545 「 予 測 値 」 ( 𝑦̂ ) は 前 述 の 式 (1) で 求 め ま す 。 残 差 ベ ク ト ル (Rn) と 標 準 残 差 (standard residual: Std.R.)は 、 そ れ ぞ れ 次 の 式 で 求 め ま す 。 Rn = Yn – En Std.R. = (Rn' Rn / N) 1 /2 English POINT Expected Residual d1 12.000 10.104 1.896 d2 11.000 12.926 -1.926 d3 13.000 13.207 -.207 d4 7.000 8.392 -1.392 d5 14.000 12.371 1.629 ●逆行列 (1) 逆 行 列 の 定 義 正 方 行 列 (X pp )に つ い て 、 X p p Y pp = U pp (単 位 行 列 ) と な る 正 方 行 列 (Y p p )は X pp の「 逆 行 列 」(inverse matrix: X p p -1 )と よ ば れ ま す 。 逆行列が関係する次の演算は統計の計算によく使われます。ここでは、逆 行 列 を X p p -1 で は な く て 、 X p p ^の よ う に 表 記 し ま す 。 (a) X p p X pp ^ = U p p X pp 1 2 × Xpp^ 1 2 4 = 1 7 8 1 -5 2 9 10 2 4.5 -3.5 (b) Xpp^ I 1 2 1 1 0 2 0 1 X p p ^ X pp = U p p 1 2 × X pp 1 2 = U pp 1 2 1 -5.0 4.0 1 7 8 1 1 0 2 4.5 -3.5 2 9 10 2 0 1 126 (2) 逆 行 列 の 性 質 (a) (X p p ^)^ = X pp 2 → Xpp^ X pp 1 2 → (X p p ^)^ 1 1 2 1 7 8 1 -5.0 4.0 1 7 8 2 9 10 2 4.5 -3.5 2 9 10 (b) (X p p Y p p )^ = Y pp ^ X p p ^ X pp 1 2 × Y pp 1 2 = X pp Ypp 1 → (X p p Y p p )^ 2 1 2 1 1 3 1 7 8 1 34 11 1 0.154 -0.085 2 2 4 2 9 1 2 50 20 2 -0.385 0.262 1 2 × Xpp^ Ypp^ 1 2 1 -2.00 1.500 2 1.00 -0.500 1 2 = Y p p ^ X pp ^ 1 -0.015 0.123 1 0.154 -0.085 2 0.136 -0.108 2 -0.385 0.262 (c) (X p p ')^ = (X p p ^)' X pp 1 2 → X pp ' 1 2 → (X pp ')^ 1 2 1 7 8 1 7 9 1 -5.0 4.5 2 9 10 2 8 10 2 4.0 -3.5 X pp 1 2 → X pp ^ 1 2 → (X pp ^)' 1 2 1 7 8 1 -5.0 4.0 1 -5.0 4.5 2 9 10 2 4.5 -3.5 2 4.0 -3.5 (3) 逆 行 列 の 求 め 方 与 え ら れ た 行 列 (X p p )と 、 初 期 値 が 単 位 行 列 で あ る 行 列 (Z p p =U pp )を 同 時 に 変 形 し て い き ま す 。 X p p が 単 位 行 列 (U p p )に な る よ う に 、 X p p と Z p p に 左 か ら Tp p を 繰 り 返 し て 掛 け て い き ま す 。 そ の た め に 、 (i) 1 つ の 行 全 体 に 実 数 倍 し 、 他 の 行 の 実 数 倍 を 加 算 す る (ii) 2 つ の 行 を 交 換 す る と い う 2 つ の 変 換 を 使 い ま す 。 こ れ ら の 変 換 を 可 能 に す る 変 形 行 列 T pp を 次 々 に 左 積 す る と 、Z p p が A pp の 逆 行 列 に な る こ と を 次 の 演 算 で 確 認 し ま し ょ う (「 Gauss の 消 去 法 」 Gauss reduction)。 0. X ( 0 ) , Z ( 0 ) = U [X, Z の 初 期 状 態 (0) ] 127 1. X ( 1 ) = T ( 1 ) X (0 ) , Z (1 ) = T ( 1) U [X (0) と Z ( 0 ) =U に T (1 ) を 左 積 ] 2. X ( 2 ) = T ( 2 ) T ( 1 ) X ( 0) , Z ( 2) = T ( 2 ) T ( 1 ) U [さ ら に T ( 2 ) を 左 積 ] [さ ら に T ( 3 ) , …,T ( k) を 順 次 左 積 ] (…) 3. U = T ( k ) … T ( 2 ) T (1 ) X ( 0 ) [X ( 0) に T を 順 次 左 積 し U に 至 る ] 4. Z ( k) = T ( k ) … T ( 2 ) T ( 1 ) U [Z ( 0 ) =U に T を 順 次 左 積 し Z ( k ) を 得 る ] 5. U X (0 ) ^ = T ( k ) … T (2 ) T ( 1) X (0 ) X ( 0) ^ 6. X ( 0 ) ^ = T ( k) … T ( 2 ) T ( 1 ) U 7. Z ( k) =X (0) ^ [3 の 両 辺 に X (0 ) ^を 右 積 ] [← 5. U A = A; A A^ =U] [4.右 辺 = 6.右 辺 、 よ っ て Z ( k) は X (0 ) の 逆 行 列 に な る ] た と え ば 次 の 行 列 X (0 ) の 逆 行 列 を 求 め る こ と を 考 え ま し ょ う 。 以 下 の 演 算 の た め に 、作 業 用 の 行 列 T ( 1) と 出 力 用 の 単 位 行 列 Z ( 1 ) = U を 用 意 し ま す 。 目 的 は T ( 1) , T ( 2 ) , …, T ( k) の 左 積 を 繰 り 返 し て 、 X (k ) を 単 位 行 列 に す る こ と で す。。 X(0) 1 2 3 Z(0) 1 2 3 1 0 2 1 1 1 0 0 2 2 1 2 2 0 1 0 3 2 1 1 3 0 0 1 は じ め に 、 X(1, 1)を 0 に す る た め に 次 の 演 算 を し ま す 。 R1 = R1 / X(1, 1) こ れ は 、R1 を X(1, 1)で 割 っ て 新 た な R1 に す る 、と い う こ と で す 。こ こ で は 、 X(1, 1)=0 な の で 割 り 算 が で き ま せ ん 。 そ の と き は 、 C1 が 0 で な い 行 と 交 換 し ま す 。 そ の 結 果 X (1 ) と な り ま す 。 R1 = R2, R2 = R1 X(1) 1 2 3 Z(1 ) 1 2 3 1 2 1 2 2 0 1 0 2 0 2 1 1 1 0 0 3 2 1 1 3 0 0 1 こ う し て 、 新 た な X(1, 1)=2 で 先 の 除 算 を し ま す 。 R1 = R1 / X(1, 1) = R1 / 2 X(2) 1 2 3 Z(2 ) 1 2 3 1 2/2=1 1/2 2/2=1 1 0/2=0 1/2 0/2=0 2 0 2 1 2 1 0 0 3 2 1 1 3 0 0 1 128 次 に 、R2 と R3 を R1 を 使 っ て 、そ れ ぞ れ の C1 の 値 を 0 に し ま す 。こ こ で は R2 の X(2, 1)=0 な の で 、 R3 だ け を 次 の よ う に し て 変 え ま す 。 R3 = R3 – X(3, 1) R1 = R3 – 2 R1 X(3) 1 2 3 Z(3 ) 1 2 3 1 1 1/2 1 1 0 1/2 0 2 0 2 1 2 1 0 0 3 2-2x1=0 1-2x(1/2)=0 1-2x1=-1 3 0-2x0=0 0-2x1/2=-1 1-2x0=1 こ れ で C1 は 完 成 で す 。 次 に 同 様 な こ と を C2 で 行 い ま す 。 X(4) 1 2 3 Z(4 ) 1 2 3 1 1 1/2 1 1 0 1/2 0 2 0 2 1 2 1 0 0 3 0 0 -1 3 0 -1 1 今 度 は 、 X(2,2)=2 は 0 で な い の で 、 そ の ま ま R2 を 2 で 割 り ま す 。 R2 = R2 / X(2,2) = R2 / 2 X(5) 1 2 3 Z(5 ) 1 2 3 1 1 1/2 1 1 0 1/2 0 2 0/2=0 2/2=1 1/2 2 1/2 0/2 0/2 3 0 0 -1 3 0 -1 1 そ し て 、 R1 と R2 の C2 を 次 の 演 算 で 、 0 に し ま す 。 R1 = R1 – X(1, 2) R2 = R1 – 1/2 R2 R3 = R3 – X(3, 2) R2 = R3 – 0 R2 X(6) 1 2 3 Z(6 ) 1 2 3 1 1 -(1/2)x0 1 /2-(1/2)x1 1 -(1/2)x(1/2 1 0-(1/2)x(1/2) 1/2-(1/2)x0 0 -(1/2)x0 =1 =0 )=3/4 =1/4 =1/2 =0 2 0 1 1 /2 2 1/2 0 0 3 0 -0x0=0 0 -0x1=0 -1 -0x(1/2)= -1 3 0 -0x(1/2)=0 -1 -0x0= -1 1-0x0=1 こ れ で C1 は 完 成 で す 。 次 に 同 様 な こ と を C3 で 行 い ま す 。 X(7) 1 2 3 Z(7 ) 1 2 3 1 1 0 3/4 1 1/4 1/2 0 2 0 1 1/2 2 1/2 0 0 3 0 0 -1 3 0 -1 1 129 R3 = R3 / X(3, 3) = R3 / -1 X(8) 1 2 3 Z(8 ) 1 2 3 1 1 0 3/4 1 1/4 1/2 0 2 0 1 1/2 2 1/2 0 0 3 0/-1=0 0/-1=0 -1/-1=1 3 0/-1=0 -1/-1=1 1/-1=-1 R1 = R1 – X(1, 3) R3 = R1 – 3/4 R3 R2 = R1 – X(2, 3) R3 = R1 – 1/2 R3 X(9) 1 2 3 Z(9 ) 1 2 3 1 1 -(3/4)x0 0-(3/4)x0 3 /4-(3/4)x1 1 1/4-(3/4)x0 1/2 -(3/4)x1 0 -(3/4)- 1 =1 =0 =0 =-1/4 =-1/4 =3/4 0 -(1/2)x0 1-(1/2)x0 1 /2-(1/2)x1 1 /2-(1/2)x9 0 -(1/2)x1 0 -(1/2)x -1 =0 =1 =0 =1/2 =-1/2 =1/2 0 0 1 0 1 -1 2 3 2 3 こ れ ら の 演 算 の 結 果 、次 の よ う に X は 単 位 行 列 に な り 、Z に X の 逆 行 列 が得られました。 X(k) 1 2 3 Z(k ) 1 2 3 1 1 0 0 1 -1/4 -1/4 3/4 2 0 1 0 2 1/2 -1/2 1/2 3 0 0 1 3 0 1 -1 プ ロ グ ラ ム で 実 行 す る と 、 確 か に X の 逆 行 列 X^が 得 ら れ 、 X と X^の 行 列積を計算すると確かに単位行列が得られます。 X 1 2 3 X^ 1 2 3 X X^ 1 2 3 1 0 2 1 1 -.250 -.250 .750 1 1 0 0 2 2 1 2 2 .500 -.500 .500 2 0 1 0 3 2 1 1 3 .000 1.000 -1.000 3 0 0 1 * 長 谷 川 (2000:129-136)を 参 照 し ま し た 。プ ロ グ ラ ム は 縄 田 (1999:58-80)を 参 照しました。 (4) 逆 行 列 演 算 の 証 明 次の演算はしばしば使われます。しっかりと理解しておくために証明を しておきましょう。 [1] U p p ^ = U pp 130 U p p U pp ^ = U p p [逆 行 列 の 定 義 : X X^ = U, こ こ で X = U p p ] U p p ^ = U pp [2] [U X = X, X=U] (A p p ^)^ = A p p A p p ^ (A p p ^)^ = U p p [逆 行 列 の 定 義 : A A^ = U] [両 辺 に A p p を 左 積 ] A p p A p p ^ (A p p ^)^ = A p p U pp U p p (A p p ^)^ = A p p U p p (A p p ^)^ = A p p [3] [逆 行 列 の 定 義 : A A^ = U] [X U = X; U X = X] (A p p B p p )^ = B pp ^ A p p ^ (A p p B p p ) (A p p B pp )^ = U p p [X X^ = U, X = A pp B pp ] (A p p B p p ) (A p p B pp )^ = A p p A p p ^ [A A^ = U] (A p p B p p ) (A p p B pp )^ = A p p U p p A p p ^ [A = A U] (A p p B p p ) (A p p B pp )^ = A p p B p p B pp ^ A p p ^ [U = B B^] (A p p B p p )^ = B pp ^ A p p ^ [両 辺 か ら A pp B pp を 削 除 ] [4] Ap p Ap p ^ = Ap p^ Ap p A p p A p p ^ = U p p [逆 行 列 の 定 義 : A A^ = U] (A p p ^ A p p ) (A p p A p p ^) = (A p p ^ A p p ) U p p A p p ^ A p p A p p A pp ^ = A p p ^ A p p [両 辺 に A^ A を 左 積 ] [X U = X, X=A p p ^ A p p ] U p p A pp A p p ^ = A p p ^ A p p [X U = X, X=A p p ^ A p p ] Ap p Ap p ^ = Ap p^ Ap p [U A = A] * [2, 3]は 足 立 (2005:110-111)を 参 照 し ま し た 。 ●変形行列 単位行列の一部を変更した行変形用行列を作成し、これをある行列に左 積すると、一定の行変形ができます。ここではそのような行列を「変形行 列 」 Ttransformation matrix と よ ぶ こ と に し ま す 。 こ れ ら を 後 述 す る 逆 行 列 の計算に使います。 (a) R1 = 0 Tpp x y z × App x y z = R pp x y z 1 0 0 0 1 1 2 3 1 0 0 0 2 0 1 0 2 4 5 6 2 4 5 6 3 0 0 1 3 7 8 9 3 7 8 9 (b) R1 = R2 131 Tpp x y z × App x y z = R pp x y z 1 0 1 0 1 1 2 3 1 4 5 6 2 0 1 0 2 4 5 6 2 4 5 6 3 0 0 1 3 7 8 9 3 7 8 9 (c) R1 ~ R2 (交 換 ) Tpp x y z × App x y z = R pp x y z 1 0 1 0 1 1 2 3 1 4 5 6 2 1 0 0 2 4 5 6 2 1 2 3 3 0 0 1 3 7 8 9 3 7 8 9 (d) R1 = 3 R1 (倍 数 ) Tpp x y z × App x y z = R pp x y z 1 3 0 0 1 1 2 3 1 3 6 9 2 0 1 0 2 4 5 6 2 4 5 6 3 0 0 1 3 7 8 9 3 7 8 9 (e) R2 = R2 + R1 Tpp x y z × App x y z = R pp x y z 1 1 0 0 1 1 2 3 1 1 2 3 2 1 1 0 2 4 5 6 2 5 7 9 3 0 0 1 3 7 8 9 3 7 8 9 (f) R2 = R2 + 2 R1 Tpp x y z × App x y z = R pp x y z 1 1 0 0 1 1 2 3 1 1 2 3 2 2 1 0 2 4 5 6 2 6 9 12 3 0 0 1 3 7 8 9 3 7 8 Tpp x y z × App x y z R pp x y z 1 2 3 9 (g) R2 = 3 R2 + 2 R1 1 1 0 0 1 1 2 3 1 2 2 3 0 2 4 5 6 2 3 0 0 1 3 7 8 9 3 14 19 24 7 8 9 最後の演算を見ると、変形行列の対角成分で自分の行を積算し、非対角 成分でその列番にあたる行を積算していることがわかります。行のゼロ化 [1]や 行 の 移 動 [2, 3]も 同 様 で す 。 132 ●行列の微分 行列をベクトルで微分する、という演算をします。行列の積の成分を展 開すればベクトルで微分した結果が行列とベクトルの積になることがわか ります。 [1] は じ め に 、 次 の よ う な 行 列 の 微 分 に つ い て 見 ま し ょ う 。 T p p = Yp’ X np 𝑥11 𝑥21 Wp = [y 1 , y 2 , ..., y p ] [ … 𝑥𝑛1 𝑤1 𝑤2 を , ベ ク ト ル Wp = [ … ] 𝑤𝑝 𝑥12 𝑥22 … 𝑥𝑛2 … … … … 𝑥1𝑝 𝑤1 𝑥2𝑝 𝑤2 … ] […] 𝑥𝑛𝑝 𝑤𝑝 で 微 分 す る 、 と い う 意 味 を 理 解 す る た め に Tp p を展開します。 T p p = [y 1 x 11 + y 1 x 12 + ... + y 1 x 1 p , y 1 x 2 1 + y 2 x 2 2 + ... + y 2 x 2 p , ..., y 1 x n 1 + y 2 x n 2 w 2 + ... + y p x n p 𝑤1 𝑤2 ] […] 𝑤𝑝 = y 1 x 11 w 1 + y 1 x 12 w 2 + ... + y 1 x 1p w 1 + y 1 x 21 w 1 + y 2 x 22 w 2 + ... + y 2 x 2p w 2 + ... + y 1 x n1 w 1 + y p x n2 w 2 + ... + y p x np w p 偏微分の記号 𝜕𝑆 𝜕𝑎 を Df(S, w)で 示 す と( S を w で 微 分 す る 、と い う 意 味 )、 Df(T p p , w 1 ) = y 1 x 1 1 + y 2 x 21 + Df(T p p , w 2 ) = y 1 x 1 2 + y 2 x 22 + ... + y 1 x n 1 ... + y 2 x n 2 … (上 式 の 縦 1 列 目 ) … (上 式 の 縦 2 列 目 ) … (上 式 の 縦 p 列 目 ) ... Df(T p p , w p )= y 1 x 1 p + y 2 x 2 p + ... + y p x n p これらをまとめて示すと次のようになります。 Df(T p p , Yp)= Df(Yp’ X p p Wp, Wp) = Yp' X p p [← 縦 ベ ク ト ル ] 高等学校で既習の次の微分を思い出して、比べてみてください。 133 Df(yxw, w) = yx [2] 次 は 、 微 分 す る 項 (Wp)が 2 乗 さ れ て い る 場 合 で す 。 た と え ば 、 T p p = Wp’ X p p 𝑥11 𝑥12 Wp = [w 1 , w 2 , ..., w p ] [ … 𝑥1𝑝 𝑥12 𝑥22 … 𝑥2𝑝 … … … … 𝑥1𝑝 𝑤1 𝑥2𝑝 𝑤2 … ] […] 𝑥𝑝𝑝 𝑤𝑝 𝑤1 𝑤2 を ベ ク ト ル Wp = [ … ]で 微 分 し ま す 。 こ こ で は X p p を 対 照 行 列 と し ま す 。 𝑤𝑝 T p p = [w 1 x 11 + w 1 x 12 + ... + w 1 x 1 p , w 1 x 21 + w 2 x 22 + ... + w 2 x 2 p , ..., w 1 x n1 + w 2 x n2 w 2 + ... + w p x n p 𝑤1 𝑤2 ] […] 𝑤𝑝 = w 1 x 11 w 1 + w 1 x 1 2 w 2 + ... + w 1 x 1 p w p + w 2 x 12 w 1 + w 2 x 2 2 w 2 + ... + w 2 x 2 p w p + ... + w p x 1p w 1 + w p x 2 p w 2 + ... + w p x pp w p = x 11 w 1 2 + w 1 x 12 w 2 + ... + w 1 x 1p w p + w 2 x 12 w 1 + x 2 2 w 2 2 + ... + w 2 x 2p w p + ... + w p x 1p w 1 + w p x 2 p w 2 + ... + x p p w p 2 は じ め に 、 w1 を 含 む 成 分 は 1 行 と 1 列 の 成 分 で す 。 よ っ て 、 Df(T p p , w 1 ) = 2w 1 x 11 + 2(w 2 x 12 + ... + w p x 1p ) = 2(w 1 x 1 1 + w 2 x 12 + ... + w p x 1 p ) 同 様 に 、 w2 を 含 む 成 分 は 2 行 と 2 列 の 成 分 で す 。 よ っ て 、 Df(T p p , w 2 ) = 2w 2 x 12 + 2(w 2 x 22 + ... + 2w p x 2 p ) = 2(w 2 x 12 + w 2 x 22 + ... + w p x 2p ) ... 同様にして、 Df(T p p , w p ) = 2w p x 1p + 2(w 2 x 2p + ... + w p x pp ) = 2(w p x 1 p + 以上をまとめて示すと次のようになります。 134 2 x 2p + ... + w p x p p ) Df(T p p , Wp) = Diff. (Wp’ X pp Wp, Wp) = 2 X p p Wp 次の微分と比べてみてください。 Df(wxw, w) = 2xw ■文字頻度の変遷と年代 下 左 表 は 、 13~19 世 紀 の 文 字 母 数 を 揃 え た ス ペ イ ン 語 文 献 (LEMI Corpus)の 特 定 の 文 字 の 頻 度 と 文 献 の 成 立 年 代 (Y)を 示 し ま す 。下 右 表 は 重 回 帰 分 析 の 結果です。 Obra > ñ è á τ Y Obra Y Expected Residual Cid 836 144 1207 Cid 1207 1396 -189 Fazienda 902 157 1220 Fazienda 1220 1382 -162 Alcalá 921 444 1230 Alcalá 1230 1249 -19 1,349 301 1270 GE 1270 1266 4 877 78 1300 Alexandre 1300 1421 -121 Lucanor 1,877 227 1330 Lucanor 1330 1241 89 Troyana 1,105 399 1350 Troyana 1350 1249 101 LBA 1,366 146 1389 LBA 1389 1335 54 Alba 464 156 543 1433 Alba 1433 1485 -52 1,024 52 215 1450 Especulo 1450 1419 31 Gramática 577 51 192 1492 Gramática 1492 1482 10 Celestina 573 41 131 1499 Celestina 1499 1491 8 Sumario 329 70 322 1514 Sumario 1514 1474 40 Diálogo 561 1535 Diálogo 1535 1492 43 Lazarillo 297 33 1554 Lazarillo 1554 1505 49 Casada 139 40 1583 Casada 1583 1598 -15 Quijote 165 57 3 2 1605 Quijote 1605 1621 -16 Buscón 93 47 7 1 1626 Buscón 1626 1617 9 Criticón 147 45 20 1651 Criticón 1651 1616 35 Instante 4 21 94 1677 Instante 1677 1641 36 Austria 7 60 39 1704 Austria 1704 1665 39 27 3 1726 Autoridades 1726 1780 -54 123 108 1747 Picarillo 1747 1798 -51 GE Alexandre Especulo Autoridades Picarillo 4 4 142 2 196 Delincuente 42 229 1787 Delincuente 1787 1831 -44 Ortografía 35 93 1815 Ortografía 1815 1694 121 Diablo 55 223 1841 Diablo 1841 1845 -4 Sombrero 89 222 1874 Sombrero 1874 1894 -20 135 Perfecta 63 184 1899 Perfecta 1899 1820 79 次は、切片と変数の係数を示します。 Intercept > 1554.853 ñ - .112 è 1.475 τ á .572 .936 Std res. - .457 70.948 ●数量化1類 次 の よ う に 、説 明 変 数 が 数 量 で は な く 、質 的 な デ ー タ (v)を 扱 う と き 、こ れ を 0-1 に 変 換 し て 、 同 様 に 重 回 帰 分 析 を す る こ と が で き ま す 。 こ の 方 法 は 「 数 量 化 1 類 」 Quantification method of first type と よ ば れ ま す 。 English Read Write Vocab. POINT d1 v v English POINT Expected Residual 12 d1 12.000 12.000 .000 v 11 d2 11.000 11.000 .000 v 13 d3 13.000 13.000 .000 d2 v d3 v d4 v v 7 d4 7.000 10.500 -3.500 d5 v v 14 d5 14.000 10.500 3.500 Weight P: Intercept Value Read Write Vocab. Std res. 14.000 -1.500 -2.000 .500 2.214 この方法を使用するにあたって、注意しなければならないのは、次のよ うなケースです。 English Read Write Vocab. POINT d1 v v d2 v v d3 v d4 v d5 v English Read White Vocab. POINT 12 d1 v 12 v 11 d2 v v 11 v 13 d3 v v 7 d4 v v 7 v 14 d5 v v 14 v 13 上 左 表 で は 、 Read が す べ て 選 択 さ れ て い ま す の で 、 こ の Read に は 弁 別 す る 情 報 が あ り ま せ ん 。 ま た 、 右 表 で は Write と Vocab. が 相 補 分 布 complementary distribution を し て い ま す 。 こ の 場 合 は 、 ど ち ら か を 選 択 す れば、他方が決まっているので、どちらか 1 つにしか弁別する情報がない ことになります。このような行列ではすべて逆行列が存在せず分析ができ ないので、データから該当する行を取捨選択しなければなりません。 136 5.5.2. 主 成 分 分 析 Pearson の 「 主 成 分 分 析 」 (Principal component analysis)を 使 っ て 、デ ー タ の各変数に適当な重み(ウェイト)を共通に掛け、データの変数の分散を 最大にし、かつ変数間の相関係数がゼロになるようにすると、そのような 重みは新たに総合的な意味をもつ変数となります。そのような重みを掛け られた個体の数値にもその新しい意味が与えられます。たとえば生徒の外 国語文解釈テストと外国語語彙解釈テストの結果を総合して、新しく外国 語解釈能力を示すような数値が得られます。 は じ め に デ ー タ 行 列 (X n p )を 標 準 化( → 3.5.2)し ま す 。こ れ に 適 当 な 重 み ベ ク ト ル (Wp)を 掛 け る と Zn と い う 合 成 さ れ た 変 数 ベ ク ト ル が で き ま す 。 [1] Zn = X n p Wp こ の 標 準 化 合 成 変 数 ベ ク ト ル Zn の 分 散 (V)を 求 め ま す 。 [2] (● 後 述 「 標 準 化 合 成 変 数 ベ ク ト ル の V = (Zn' Zn) / N 平均と分散」) = (X n p Wp)' (X n p Wp) / N [1] = Wp' X n p ' X np Wp / N [(A B)' = B' A] = Wp' (X n p ' X n p / N) Wp [N は ス カ ラ ー な の で 移 動 可 ] = Wp' R p p Wp [R p p = X n p ' X n p / N] こ の よ う な 重 み ベ ク ト ル Wp の 条 件 と し て そ の 長 さ ( 成 分 の 2 乗 和 ) を 1 とします。(このような条件をつけないと重みベクトルは無数に存在する ことになります。) [3] Wp' Wp = 1 こ の 条 件 [3]の も と で [2]分 散 V の 最 大 値 を 求 め る に は 、 F = Wp' R p p Wp – L (Wp' Wp – 1) と い う 式 F を Wp で 偏 微 分 し た 値 を 0 と し ま す 。 L は ラ グ ラ ン ジ ュ 乗 数 で す(●後述「ラグランジュの未定乗数法」)。 [4a] Df(F, Wp) = 2 R pp Wp – 2 L Wp = 0 [4b] R p p Wp = L Wp [4a の 中 項 の 左 辺 の L Wp を 右 辺 に 移 項 ] こ の 式( 固 有 方 程 式 )か ら 固 有 値 (L)と 固 有 ベ ク ト ル (Wp)を 求 め ま す 。( → 後述) 137 固有値も固有ベクトルも変数の数だけ存在します。それらを新しい合成変 数(「 成 分 」component)と し て 、固 有 値 の 大 き さ に よ っ て 順 に 成 分 番 号 を つけます。固有値が大きい順にデータの分散を強く反映しています。次が その分析例です。 3 subject s English Lat in Physics #2 #3 A 56 59 54 A - .104 1.197 - .078 B 28 88 20 B - 2.696 - .657 .195 C 43 64 32 C - 1.220 .253 - .368 D 50 16 100 D 2.056 - .228 - .090 E 58 51 78 E .783 1.113 .293 F 45 48 66 F .141 - .006 .027 G 32 22 90 G 1.041 - 1.672 .020 PCA.Vr. English Latin 1 .349 - .651 Physics 2 3 .930 - .113 .327 .685 .674 - .166 .719 PCA.Id. #1 P.C.A. 1 2 3 E.value 2.102 .859 .039 ●固有方程式 下左表はデータ行列、下右表はその相関係数行列です。 Result English Latin Science R pp A 45 48 66 E B 56 59 54 L C 58 51 78 S D 77 72 20 E 43 44 32 F 58 34 90 G 50 53 100 English Latin Science 1.000 .643 -.335 .643 1.000 -.545 -.335 -.545 1.000 こ の よ う な 正 方 行 列 Rp p に お い て 、 R p p Ap = L Ap の 等 式( 「 固 有 方 程 式 」 eigen equation と よ ば れ ま す )が 成 り 立 つ と き 、こ の 式 の 中 の 数 値 L は 「 固 有 値 」 eigen value と よ ば れ 、 ベ ク ト ル Ap は 「 固 有 ベ ク ト ル 」 eigen vector と よ ば れ ま す 。 固 有 値 (L)と 固 有 ベ ク ト ル (Ap)は R p p の 列 ( =行 ) の 数 だ け あ る の で 、 こ こ で は そ れ ら の 集 合 を 「 固 有 値 ベ ク 138 ト ル 」 eigen value vector: Lp と 「 固 有 行 列 」 eigen matrix: E p p と よ ぶ こ と に します。よって、先の式は次のようになります。 R p p E pp = Lp E pp 下 左 表 が 相 関 行 列 (R p p )、 下 中 表 が そ の 固 有 行 列 (E pp )、 下 右 表 が 両 者 の 行 列 積 (R p p E p p )で す 。 R pp E L S Em[M1] 1 2 3 M1 M2 1 2 3 E 1.000 .643 -.335 E .569 .616 -.545 E 1.152 .414 -.165 L .643 1.000 -.545 L .635 .093 .767 L 1.286 .062 .232 S -.335 -.545 1.000 S -.523 .782 .338 S -1.060 .526 .102 次 の 左 表 が 上 の 相 関 行 列 の 固 有 値 ベ ク ト ル (Lp) 、 中 表 が そ の 固 有 行 列 (E p p )、右 表 が 両 者 の 積 (Lp E p p )で す 。こ こ で 上 と 下 の そ れ ぞ れ の 右 表 が 同 じ に な る こ と を 確 認 し て く だ さ い (R p p E p p = Lp E p p )。 Ev[M1] 1 2 3 Em[M1] 1 2 3 M1^M2 1 2 3 E. value 2.026 .672 .303 E .569 .616 -.545 E 1.152 .414 -.165 L .635 .093 .767 L 1.286 .062 .232 S -.523 .782 .338 S -1.059 .526 .102 次のように固有行列の中のそれぞれの固有ベクトルは長さが 1 になり, 内 積 が ゼ ロ に な る こ と を 確 認 し ま す 。 (E pp ' E pp = U p p [単 位 行 列 ])。 E pp' E L S 1 .569 .635 2 .616 3 -.545 X E pp 1 2 3 -.523 E .569 .616 .093 .782 L .635 .767 .338 S -.523 = X 1 2 3 -.545 1 1.000 .000 .000 .093 .767 2 .000 1.000 .000 .782 .338 3 .000 .000 1.000 ●冪乗法 R p p の 固 有 値 ベ ク ト ル と 固 有 行 列 を 求 め る た め に「 冪 乗 法 」( べ き じ ょ う ほ う : Power method)を 使 い ま す 。こ の 方 法 は 最 大 固 有 値 を 求 め 、そ の 残 差 行列を使って次のステップで残差行列の最大固有値を求める、というステ ップを次々に列の数だけ行います。 R p p E pp = Lp E pp こ の 式 の Ep p は 、 そ れ を 倍 数 に し て も 成 立 す る の で 無 数 に 存 在 し ま す 。 そ こ で E pp 内 の そ れ ぞ れ の ベ ク ト ル (Ap)の 長 さ( 2 乗 和 )を 1 と す る 条 件 を つ け ま す 。 E p p の そ れ ぞ れ の 列 ベ ク ト ル を Ap(1), Ap(2), …, Ap(p)と す る と 139 Ap(i)' Ap(i) = 1 [i = 1, 2, …, p] そ し て Ap(i)と Ap(j) [i<>j]が 直 交 す る 、 と い う 条 件 を 加 え ま す 。 Ap(i)' Ap(j) = 0 [i, j = 1, 2, …, p; i <> j] よって、 E p p ' E pp = U pp (単 位 行 列 ) は じ め に E pp の そ れ ぞ れ の 列 ベ ク ト ル を Ap(1), Ap(2), …, Ap(p)と す る と 、 そ れ ら の 和 (Sp)の 初 期 状 態 Sp (0 ) を 次 に よ う に し ま す 。 Sp ( 0 ) = Ap(1) + Ap(2) + … + Ap(p) こ の 両 辺 に Rp p を 次 々 に 左 積 し て い き ま す 。 Sp (1 ) = R p p Sp ( 0) = R p p Ap(1) + R pp Ap(2) + … + R pp Ap(p) [両 辺 に R pp を 左 積 ] = L(1) Ap(1) + L(2) Ap(2) + … + L(p) Ap(p) [← R p p Ap = L Ap] Sp (2 ) = R p p 2 Sp (0 ) = L(1) 2 Ap(1) + L(2) 2 Ap(2) + … + L(p) 2 Ap(p) [さ ら に 両 辺 に R pp を 左 積 ] (…) [順 次 両 辺 に R pp を 左 積 ] Sp (k ) = R p p k Sp (0 ) = L(1) k Ap(1) + L(2) k Ap(2) + … + L(p) k Ap(p) こ こ で 右 辺 の L(1), L(2), …, L(p)の 中 の 最 大 の も の を L(m)と し ま す 。 Lm > L(1), L(2), …, L(p) 先の式は、 Sp (k ) = L(1) k Ap(1) + … + L(m) k Ap(m) + … + L(p) k Ap(p) [L(m)が 最 大 L] = Lm k [L(1) k /L(m) k A(p)1 + … + Ap(m) + … + L(p) k /L(m) k Ap(p)] [Lm k を 外 に 出 す ] k を 十 分 に 大 き く す る と […]の 中 の Ap(m)以 外 は 、 そ の 係 数 の 分 数 が ゼ ロに近づくので無視できるほど小さくなります。よって、 Sp (k ) ≒ L(m) k Ap(m) [k → ∞ , L(p) k /L(m) k → 0] 最 初 の( 最 大 の )固 有 値 L(1)と 固 有 ベ ク ト ル Ap(1)を 次 の 式 で 求 め ま す 。 L(1) = [Sp ( k ) ' Sp ( k ) ] 1 /2 [L の 長 さ は 1] 140 Ap(1) = Sp ( k ) / L(1) [Sp ( k) ≒ L(m) k Ap(m)] 次 に 大 き な 固 有 値 L(2)と 固 有 ベ ク ト ル Ap(2)を 求 め る た め の R pp (2)は 、最 初 の R p p (1)か ら 一 定 の 行 列 を 引 い た 残 差 行 列 に な り ま す 。 そ の た め に R p p を 次 の よ う に ス ペ ク ト ル 分 解 (Spectral decomposition: 後 述 ) し ま す 。 R p p = Lp * E pp E p p ' こ の 式 を 展 開 す る と 次 の よ う な ス ペ ク ト ル 分 解 の 式 に な り ま す( 後 述 )。 R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp E pp E p p ' そ こ で 、 上 式 か ら L1 A p 1 A p 1 'を 除 い た 残 差 行 列 を 次 の ス テ ッ プ の R pp (2)と します。 R p p (2) = R pp (1) – L(1) Ap(1) Ap(1)' こ の 新 た な R pp (2)を 使 っ て 、 先 の プ ロ セ ス を 繰 り 返 し ま す 。 同 じ プ ロ セ ス を 、R p p (3), R pp (4), …, R pp (p)ま で の う ち 、望 む 固 有 値 の 数 だ け 繰 り 返 し て 終了します。 ●固有行列の直交性 固 有 行 列 内 の 2 つ の 固 有 ベ ク ト ル Ap(i), Ap(j)を 次 の よ う に 掛 け 合 わ せ る と、その行列積は 0 になります。これは行列が直交していることを示しま す。 Ap(i)' Ap(j) = 0 [i<>j] このことを次のようにして導きます。 [固 有 方 程 式 の 定 義 ] 1. R p p Ap = L Ap 2. Ap(i)' R p p Ap(j) = Ap(i)' L(j) Ap(j) 3. = L(j) Ap(i)' Ap(j) 4. [1.の 両 辺 に Ap(i)'を 左 積 ] [L(j)は ス カ ラ ー な の で 移 動 可 ] Ap(i)' R p p Ap(j) = Ap(i)' R p p ' Ap(j) [R は 対 照 行 列 な の で R = R'] 5. = [R p p Ap(i)]' Ap(j) [A' B' = (BA)'] 6. = [Ap(j)' R p p ' Ap(i)]' [id.] 7. = [Ap(j)' L(i) Ap(i)]' [R p p Ap(i) = L(i) Ap(i)] 8. = L(i) [Ap(j)' Ap(i)]' [L(i)は ス カ ラ ー ] 9. = L(i) Ap(i)' Ap(j) [A' B' = (BA)'] [2.左 辺 = 9.左 辺 ] 10. L(j) Ap(i)' Ap(j) = L(i) Ap(i)' Ap(j) 11. [L(i) – L(j)] Ap(i)' Ap(j) = 0 [左 辺 を 右 辺 に 移 項 ] 12. Ap(i)' Ap(j) = 0 [L(i) <> L(j)] 141 ベクトル成分の 2 乗和が 0 であることは、それらのベクトルが直交して い る こ と を 示 し ま す 。ま た 、前 提 と し て 固 有 ベ ク ト ル の 長 さ は 1 と し ま す 。 13. Ap(i)' Ap(i) = 1 12.と 13.を す べ て の 固 有 ベ ク ト ル に つ い て み る と 、 次 の 式 に な り ま す 。 14. [A p p は 単 位 行 列 ] Ap p ' Ap p = U p p ●スペクトル分解 次 の 式 は Rp p の ス ペ ク ト ル 分 解 を 示 し た も の で す 。 a. R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p ' この式を導くために次を準備します。 [先 述 の 固 有 行 列 の 直 交 性 を 示 す 14.] b1. Ap p ' Ap p = U p p b2. A p p ^ A p p = U p p [逆 行 列 の 定 義 : A^ A = U] b3. Ap p ' = Ap p ^ b4. (A p p ')^ A p p ' = U p p [逆 行 列 の 定 義 : A^ A = U] b5 (A p p ^)' A p p ' = U p p [逆 行 列 の 規 則 : (A')^ = (A^)'] b6 (A p p ')' A p p ' = U p p [b3] b7 Ap p Ap p ' = U p p b8 Ap p ' Ap p = Ap p Ap p ' = U p p [b1, b2] [(A')' = A] [b1, b7] これで準備ができたので固有方程式から始めます。 [固 有 方 程 式 ] c1. R p p A pp = Lp A p p c2. R p p A pp A p p ' = Lp A p p A p p ' [両 辺 に A p p 'を 右 積 ] c3. R p p A pp ' A p p = Lp A p p A p p ' [b8: A p p ' A p p = A p p A p p '] c4. R p p A pp ^ A p p = Lp A p p A p p ' [b3: A p p ' = A p p ^] c5. R p p U pp = Lp A p p A p p ' [c4, b2: A p p ^ A p p = U p p ] c6. R p p = Lp A p p A p p ' [R U = R] こ の c6 を 展 開 す る と a.の 式 に な り ま す 。a の 右 辺 の そ れ ぞ れ の 項 Lp(i) Ap(i) Ap(i)' を 展 開 す る と 次 の よ う に な り ま す 。 d 𝐴𝑝(1, 𝑖) Lp(i) Ap(i) Ap(i)' = Lp [𝐴𝑝(…2, 𝑖 )] [Ap(i,1), Ap(i,2), … Ap(i,p)] 𝐴(𝑝, 𝑖) * 冪 乗 法 に つ い て は 白 井 (2009)を 参 照 し ま し た 。 固 有 ベ ク ト ル の 直 交 性 に 142 つ い て は 足 立 (2005)を 参 照 し 、 ス ペ ク ト ル 分 解 に つ い て は 足 立 (2005)と 岩 崎 ・ 吉 田 (2006)を 参 照 し ま し た 。 固 有 値 ベ ク ト ル と 固 有 行 列 を 導 出 す る プ ロ グ ラ ム の 手 順 は 、 R pp Ap = L Ap か ら 、 Ap ← (R p p Ap) / L を 導 き 、 こ れ を Ap に 変 化 が な く な る ま で 繰 り 返 し ま す 。 は じ め に Ap を 単 位 ベ ク ト ル (U p1 )と し ま す 。 Ap ← U p1 次 の 3 つ の プ ロ セ ス を Ap に 変 化 が な く な る ま で 繰 り 返 し ま す 。 Ap ← R pp Ap L ← (Ap' Ap) 1 /2 Ap ← Ap / L こ れ で 、最 初 の( 最 大 の )固 有 値 と 固 有 ベ ク ト ル が 求 め ら れ ま し た 。次 に 、 R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p ' から、 R p p (2) = R pp ( 1) – L1 A p 1 A p 1 ' を 計 算 し 、R pp (2)の 最 大 の 固 有 値 と 固 有 ベ ク ト ル を 求 め ま す 。以 下 同 様 に 、 R p p (p)ま で を 求 め て 、最 終 的 な 固 有 値 の 集 合 で あ る 固 有 値 ベ ク ト ル (Lp)と 固 有 ベ ク ト ル の 集 合 で あ る 固 有 行 列 (A p p )を 完 成 し ま す 。 ●ラグランジュの未定乗数法 「 ラ グ ラ ン ジ ュ の 未 定 乗 数 法 」 (Lagrange multiplier method)を 使 っ た 微 分 を します。次の関数 Y = f (x 1 , x 2 , …, x n ) (1) の 極 値 を 求 め る た め に 、 Y の (x1, x2, …, xn)に よ る 偏 微 分 Df(Y, x1)=0, Df(Y, x2)=0, …, Df(Y, xn)=0 か ら x 1 , x 2 , …, x n を 求 め ま す 。 こ の と き 、 G = g(x 1 , x 2 , …, x n ) = 0 (2) というような別の条件がついていることがあります。このように条件付き の 関 数 を 微 分 す る と き に は Lagrange の 未 定 乗 数 L を つ け て 、 143 W =Y −LG = f (x 1 , x 2 , …, x n ) – L g(x 1 , x 2 , …, x n ) (3) こ の W を 次 の よ う に x 1 , x 2 , …, x n , L で 微 分 し W の 極 値 を 求 め ま す 。 Df(W, x 1 ) = 0, Df(W, x 2 ) = 0, …, Df(W, x p ) = 0, Df(W, L) = 0 (3)の W= Y – L G を 代 入 す る と 、 そ れ ぞ れ 次 の よ う に な り ま す 。 Df(W, x 1 ) = Df(Y, x 1 ) – L Df(G, x 1 ) = 0 Df(W, x 2 ) = Df(Y, x 2 ) – L Df(G, x 2 ) = 0 (…) Df(W, x n ) = Df(Y, x n ) – L Df(G, x n ) = 0 そして、最後の式(下線)は次のようになります。 Df(W, L) = Df(Y – L G, L) = – G = 0 [Y は ゼ ロ ] よって G =0 こ の よ う に W を そ れ ぞ れ の 未 知 数 で 微 分 す る と 、 た し か に (2)の 条 件 が 満 たされることがわかります。この理由から条件付き関数を微分するときは そ の 条 件 に L と い う 乗 数 を つ け た 式 (3)を 使 っ て x 1 , x 2 , …, x n , L を 求 め る 、 と い う 方 法 を と り ま す 。 ( * 小 林 (1967:89-90)を 参 照 し ま し た 。 ) ●重みと得点のグラフ 「 項 目 散 布 図 」の「 行 」(Row)( → 2.1.5.)を 使 っ て 、ウ ェ イ ト と ス コ ア の 散 布図を描きます。ここでは第 1 成分と第 2 成分をそれぞれ x 軸と y 軸とし ます。 2.000 1.500 1.000 A E .500 C .000 #2 - 3.000 - 2.000 B - 1.000 - .500 F .000 1.000 2.000D - 1.000 - 1.500 - 2.000 G #1 144 3.000 1.000 English .800 .600 .400 #2 Latin .200 - .700 - .500 - .300 .000 - .100 - .200 .100 .300 .500 .700 Physics #1 ■集中分析 変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう な集中化した得点になります。 PCA.Cct B C A F E G D Latin English Physics 88 28 20 64 43 32 59 56 54 48 45 66 51 58 78 22 32 90 16 50 100 ■地域変異語彙の主成分分析 次 の 図 は 現 代 ス ペ イ ン 語 の 地 域 変 異 語 彙 841 語 を 20 か 国 で 調 査 し た 結 果 を 主成分分析し、第 1 主成分を行に、第 2 主成分を列にして各国をプロット し た も の で す 。 第 1 主 成 分 ( 行 ) は ス ペ イ ン (ES)と ラ テ ン ア メ リ カ 諸 国 を 分 け て い ま す 。 右 上 の ○ で 囲 ん だ 国 々 は メ キ シ コ (MX)・ 中 米 諸 国 (HO, EL, GU, PN)・ カ リ ブ 海 諸 国 (PR, CU, RD)・ コ ロ ン ビ ア (CO)・ ベ ネ ズ エ ラ (VE) で す 。そ の 下 に ア ン デ ス 諸 国 (EC, BO, PE)、チ リ (CH)、ラ プ ラ タ 諸 国 (PA, UR, AR)が 続 き ま す 。 こ の よ う に ラ テ ン ア メ リ カ 諸 国 は 第 2 主 成 分 ( 列 ) に よ っておよそ南北に配置されます。このように地域変異語彙はバラバラに分 布 す る の で は な く 、 一 定 の 地 理 的 な 連 続 性 continuum を 示 し て い ま す 。 145 ■中世・近代スペイン語文字使用頻度の主成分分析 13 世 紀 か ら 19 世 紀 ま で の ス ペ イ ン 語 史 の 中 に 位 置 づ け ら れ る 28 作 品 を サ ン プ ル に し 、使 用 さ れ て い る す べ て の 文 字 の 頻 度 か ら な る 行 列 を 作 成 し ま し た 。 それを主成分分析にかけると、第一成分はとくにデータを特徴づけることが あ り ま せ ん が 、 第 二 成 分 ( 中 世 と 近 代 ) と 第 三 成 分 ( 17-18 世 紀 と 19 世 紀 ) の 特 徴 が 明 ら か に 示 さ れ て い ま す 。 文 字 の 変 異 に 関 し て は 、 と く に s, d, r の バリアントが重要です。 146 .300 1815 1841 1874 1207 1787 1350 1899 .200 1492 1433 .100 1499 1535 1270 #3 - .300 1514 .000 - .200 - .100 1300 1450 .000 .100 1220 .200 1330 .300 - .100 1230 1554 1726 1626 1704 - .200 1389 1651 1747 1677 1583 1605 - .300 #2 5.5.3. 判 別 分 析 次のようなデータの説明変数行列に、適当な重みベクトルを与え、最終 列 の 質 的 目 的 変 数 を 予 想 す る 方 法 は 、 「 判 別 分 析 」 Discriminant Anal ysis とよばれます。そのとき求められた重みベクトルは、それぞれの変数の重 みの意味を探るのに役立ちます。また、その重みベクトルを使えば未知の データの目的変数を一定の精度で予想することもできます。 147 English Read Write Vocab. d1 6 8 5 d2 7 10 6 d3 8 4 8 d4 9 7 2 d5 10 9 4 POINT v v こ の 例 で は d1, d2, ..., d5 と い う 生 徒 の 小 テ ス ト (x1:Read, x2:Write, x3:Vocab[ulary])の 得 点 と 、最 終 試 験 の 評 価 (v:優 )が 示 さ れ て い る と し ま す 。 はじめに説明変数行列を次のように標準化します。 X n p = Std(X n p ) …標 準 化 : (Xij – 列 平 均 ) / 列 標 準 偏 差 Std.s. Read Write Vocab. d1 -1.414 .194 .000 d2 -.707 1.166 .500 d3 .000 -1.748 1.500 d4 .707 -.291 -1.500 d5 1.414 .680 -.500 … (1) こ の X np に 適 当 な 重 み ベ ク ト ル Wp を 右 積 し た 合 成 ベ ク ト ル を Zn と し ま す。 … (2) Zn = X n p Wp 重 み ベ ク ト ル Wp が 求 め ら れ れ ば 、 上 の 式 で Zn が 求 め ら れ ま す 。 Zn の 平 均 MT は 、 次 の よ う に ゼ ロ (0)に な り ま す 。 MT = (Σ ( i: N ) Zn) / N ← 平均の定義 = Σ ( i: N ) (X n p Wp) / N ← (2) = Σ ( i: N ) (X i1 W 1 + X i2 W 2 + … + X ip Wp) / N ← 行列積の成分 = (Σ ( i: N ) X i1 W 1 + Σ ( i:N ) X i2 W 2 + … + Σ ( i:N ) X ip Wp) / N ← Σ を 分 配 = (W 1 Σ ( i:N ) X i1 + W 2 Σ ( i:N ) X i2 + … + WpΣ ( i:N ) X ip ) / N ←定数を前に こ こ で Xn p は 標 準 化 さ れ て い る の で 、 そ れ ぞ れ の 列 和 は 0 で す Σ ( i:N ) X i1 = Σ ( i:N ) X i2 = … = Σ ( i:N ) X i p = 0 よ っ て 、 Zn の 分 子 の 項 が す べ て 0 に な る の で 、 Zn の 平 均 MT は 、 MT = 0 … (3) ← Zn の 全 変 動 St は 、 St = Σ ( i:N ) (Zi – MT) 2 ← 変動の定義 148 = Σ ( i:N ) Zi 2 ← (3) MT = 0 合 成 ベ ク ト ル Zn 全 体 を 、 優 を と っ た 学 生 群 Zv と 、 そ う で な い 学 生 群 Zc に 分 け て 考 え 、 そ れ ぞ れ の 群 の 個 数 ( 人 数 ) を NV, NC、 群 内 の 平 均 を MV, MC と し ま す 。 Zv 内 の 変 動 と Zc 内 の 変 動 の 和 は「 群 内 変 動 」(Within-groups sum of squares: SW)と よ ば れ ま す 。 SW = Σ ( i:N V ) (Zv i - MV) 2 + Σ ( i:N C ) (Zc i - MC) 2 MT は 0 で す が 、MV と MC は 0 に な る と は 限 り ま せ ん 。列 全 体 を 標 準 化 し て い る の で MT=0 に な る の で す が 、 Zv, Zc は そ れ ぞ れ の 群 内 で 標 準 化 し ているわけではないからです。 そ れ ぞ れ の 群 の 成 分 が す べ て 同 じ だ と 仮 定 し て 、 そ れ と 全 体 の 平 均 MT (= 0)と の 編 差 の 2 乗 和 は 「 群 間 変 動 」 (Between-groups sum of squares: SB) と よ ば れ ま す 。 群 間 変 動 は そ れ ぞ れ の 群 が 全 体 ( 平 均 は MT=0) の 中 で ど のように変動するかを示します。群間変動は次のような式になります。 SB = Σ ( i:N V ) (MV - MT) 2 + Σ ( i:N C ) (MC - MT) 2 = Σ ( i:N V ) MV 2 + Σ ( i:N C ) MC 2 ← (3) MT = 0 = NV MV 2 + NC MC 2 ← 定数の倍数 … (4) こ の と き 、 全 変 動 が 群 内 変 動 と 群 間 変 動 の 和 ST = SW + SB で あ る こ と が、次のようにして確かめられます。 SW = Σ ( i:N V ) (Zv i - MV) 2 + Σ ( i:N C ) (Zc i - MC) 2 = Σ ( i:N V ) (Zv i 2 - 2 Zv i MV + MV 2 ) ← 展開 + Σ ( i:N C ) ) (Zc i 2 - 2 Zc i MC + MC 2 ) ← 展開 = Σ ( i:N V ) Zv i 2 - Σ ( i:N V ) 2Zv i MV + Σ ( i: N V ) MV 2 2 + Σ ( i:N C ) ) Zc i - Σ ( i:N V ) 2Zc i MC + Σ ( i:N V ) MC 2 ← Σを分配 ← Σを分配 = Σ ( i:N V ) Zv i 2 - 2 MVΣ ( i:N V ) Zv i + NV MV 2 ←定数を前に + Σ ( i:N V ) Zc i 2 - 2 MCΣ ( i:N V ) Zc i + NC MC 2 ←定数を前に = Σ ( i:N V ) Zv i 2 - 2 MV NV MV + NV MV 2 2 + Σ ( i:N V ) Zc i - 2 MC NC MC + NC MC 2 ← Σ ( i:N V ) Zv i = NV MV ← Σ ( i:N V ) Zv i = NV MC ← *和=個数 c 平均 = Σ ( i:N V ) Zv i 2 - 2 NV MV 2 + NV MV 2 ← MV を 合 体 + Σ ( i:N V ) Zc i 2 - 2 NC MC 2 + NC MC 2 ← MC を 合 体 149 = Σ ( i:N V ) Zv i 2 - NV MV 2 + Σ ( i:N V ) Zc i 2 - NC MC 2 ← -2* + * = -* よって、 SW + SB = Σ ( i:N V ) Zv i 2 - NV MV 2 + Σ ( i:N C ) Zc i 2 - NC MC 2 ← SW + NV MV 2 + NC MC 2 ← SB = Σ ( i:N V ) Zv i 2 + Σ ( i:N C ) Zc i 2 = ST 次 に 、 群 間 変 動 (SB)が 全 変 動 (ST)の 中 で 占 め る 割 合 を 問 題 に し ま す 。 こ の 割 合 は 「 相 関 比 」 (Correlation ratio: Cr)と よ ば れ ま す 。 Cr = 群 間 変 動 (SB) / 全 変 動 (ST) = 群 間 変 動 (SB) / (群 内 変 動 (SW) + 群 間 変 動 (SB)) … (5) た と え ば 、す べ て の 成 分 が 群 内 の 平 均 と 等 し い と き は( Zv = MV, Zc = MC の と き )、群 内 変 動 (SW)は ゼ ロ に な り 、す べ て の 成 分 が 1 点 に 集 中 し 群 を 完 全 に 判 別 で き 、上 の 式 (5)か ら 相 関 比 は 最 大 の 1 に な り ま す 。ま た 、そ れ ぞ れ の 群 内 の 平 均( Zv の 平 均 と Zc の 平 均 )が 全 体 の 平 均 と 同 じ と き は (MV = MT, MC = MT), 群 間 変 動 SW は ゼ ロ に な る の で( 群 を 判 別 で き な い の で )、 相 関 比 は 最 小 の ゼ ロ (0)に な り ま す 。 次 に 、 相 関 比 Cr の 式 を 構 成 す る Zn の 全 変 動 (ST)と 、 群 間 変 動 (SB)を 、 求 め て い る Wp を 含 む 行 列 で 表 し ま す 。 相 関 比 Cr の 分 母 の Zn の 全 変 動 ST を Wp を 含 む 式 に し ま す 。 ST = Zn’ Zn = (X n p Wp)’ (X n p Wp) ← (2) Zn = X n p Wp = Wp’ X np ’ X np Wp ← 行列演算 S pp = X n p ’ X n p = Wp’ S p p Wp, 相 関 比 Cr の 分 子 の Zn の 群 間 変 動 SB を Wp を 含 む 式 に し ま す 。 SB = NV MV 2 + NC MC 2 ← (4) 2 ← SVp: X np の v 群 列 和 ベ ク ト ル + NC (SCp’/NC Wp) 2 ← SCp: X np の c 群 列 和 ベ ク ト ル = NV (SVp’/NV Wp) = NV (SVp’ Wp) 2 / NV 2 2 + NC (SCp’ Wp) / NC 2 ← NV は ス カ ラ ー ← NC は ス カ ラ ー = (SVp’ Wp) 2 / NV ← NV は ス カ ラ ー + (SCp’ Wp) 2 / NC ← NC は ス カ ラ ー = (SVp’ Wp)’ (SVp’ Wp) / NV ← 行 列 演 算 150 + (SCp’ Wp)’ (SCp’ Wp) / NC ← 行列演算 = Wp’ SVp SVp’ Wp / NV ← 行列演算 + Wp’ SCp SCp’ Wp / NC ← 行列演算 = Wp’ (SVp SVp’ / NV + SCp SCp ’ / NC) Wp ← B pp は 以 下 の 式 = Wp’ B pp Wp B p p = SVp SVp’ / NV + SCp SCp’ / NC よ っ て 、 先 の (5)の 相 関 比 Cr = SB / ST は 次 の よ う に な り ま す 。 Cr = SB / ST = Wp’ B p p Wp / Wp’ S pp Wp S p p = X np ’ X n p B p p = SVp SVp’ / NV + SCp SCp’ / NC こ の 相 関 比 が 最 大 に な る と き の ベ ク ト ル Wp を 求 め る の が 判 別 分 析 の 目 的 で す 。 つ ま り 、 も っ と も 良 く 2 群 を 判 別 す る と き の Wp を 探 す こ と に な り ま す 。 そ こ で 、 相 関 比 の 式 を 未 知 数 の Wp で 微 分 し ま す が 、 こ の よ う な 分 数 の 微 分 に つ い て は 、分 母 (ST: Wp’ S p p Wp)を 1 と す る 条 件 を つ け て 、相 関比が最大化する値を求めます。そこで、ラグランジュの未定乗数 L と、 全 変 動 ST = 1 → ST- 1 = 0 と い う 条 件 を つ け た 関 数 F (Wp)を 考 え ま す 。 F (Wp) = SB – L (ST – 1) ←ラグランジュの未定乗数法 = Wp’ B pp Wp - L (Wp’ S p p Wp - 1) こ の F を Wp で 微 分 し 、 こ れ が ゼ ロ (0)で あ る と き の Wp を 求 め ま す 。 Diff.(F, Wp) = 2 B p p Wp - 2L S p p Wp = 0 ←行列の微分 よって、 (B p p - L S p p ) Wp = 0 … (6) S p p ^ (B pp - L S p p ) Wp = S pp ^ 0 ← S pp の 逆 行 列 S p p ^を 左 積 (S p p ^ B pp - S p p ^ L S p p ) Wp = 0 ← S pp ^ を そ れ ぞ れ の 項 に (S p p ^ B pp - L S p p ^ S p p ) Wp = 0 ← スカラーL を移動 (S p p ^ B pp - L Um) Wp = 0 ← S pp ^ S p p = Um (単 位 行 列 ) S p p ^ B pp Wp - L Um Wp = 0 ← Wp を そ れ ぞ れ の 項 に S p p ^ B pp Wp - L Wp = 0 ← Um Wp = Wp と な り 、こ れ が 固 有 方 程 式 の 形 (R pp Ap- L Ap = 0)に な り ま す 。こ こ で 、S p p ^ 151 B p p か ら 固 有 値 L と 固 有 ベ ク ト ル Wp を 求 め る こ と が で き ま す 。 ま た 、先 の 式 (6)か ら 、次 の よ う に し て 固 有 値 が 相 関 比 で あ る こ と が わ か ります。 (B p p - L S p p ) Wp = 0 ← (6) Wp’ (B p p - L S p p ) Wp = Wp’ 0 ← 両 辺 に Wp’を 左 積 Wp’ B pp Wp - Wp’ L S p p Wp = 0 ←展開 Wp’ B pp Wp - L Wp’ S pp Wp = 0 ← スカラーL を移動 SB - L ST = 0 ← Wp’ B p p Wp = SB, Wp’ S p p Wp = ST SB = L ST ← L ST を 右 辺 に 移 動 L = SB / ST ← SB / ST = 相 関 比 相関比は分母も分子も変動を使い 2 次関数になるので、その根をとった ほ う が わ か り や す く 、そ れ が 使 わ れ る こ と も あ り ま す 。そ れ を「 根 相 関 比 」 (Root Correlation Ratio: R.C.R.)と よ ぶ こ と に し ま す 。 根 相 関 比 (R. C. R..) = (Sb / St) 1 /2 Std.s. Read Write Vocab. d1 -1.414 .194 d2 -.707 POINT Expect. Score Eval. .000 -1.090 Ok 1.166 .500 -.297 Ok d3 .000 -1.748 1.500 1.088 Ok d4 .707 -.291 -1.500 -.408 Ok d5 1.414 .680 -.500 .707 Ok v v v v 上 表 ( 標 準 得 点 Standard score: Std. s.) の 得 点 列 (Score)は 、 (2)の 合 成 ベ ク ト ル Zn で す 。 Zn = X n p Wp ← (2) 期 待 値 (Expect[ed value])の 列 で は Zn の 成 分 が 正 で あ れ ば v を 出 力 し ま す 。 実 測 値 ( こ こ で は POINT) と 期 待 値 が 一 致 し た と き に 評 価 列 (Eval[uation]) に Ok を 出 力 し ま す 。 次 の 変 数 表 (Var[iable]) の 重 み (Weight)は 、 求 め ら れ た 固 有 ベ ク ト ル Wp で あ り 、 そ の 下 に そ れ ぞ れ の 変 数 の 和 (Sum) 、 平 均 (Ave.) 、 標 準 偏 差 (St[andard] dev[iation])を 出 力 し ま す 。 152 Var. Read Weight Write Vocab. .761 -.070 .644 Sum 40.000 38.000 25.000 Ave. 8.000 7.600 5.000 St.dev. 1.414 2.059 2.000 最 後 の 表 、総 合 評 価 (T[otal] eval[uation])に は 、正 答 率 (Ac[curacy] R[atio]) と 根 相 関 比 (Root Correlation Ratio: R.C.R.)を 出 力 し ま す 。正 答 率 は 上 の 評 価 の Ok の 数 を 行 数 で 割 っ た 値 で す 。 T. eval. Ac. R. R.C.R. Value 1.000 .927 * 三 野 (157-161)、 石 井 (2014: 140-149)を 参 照 し ま し た 。 ■未知の判別値 既 知 の デ ー タ (X np )で 得 ら れ た 重 み ベ ク ト ル を 、 判 別 値 が 未 知 の デ ー タ (D n p )に 適 用 す る と き は 、 先 に 得 ら れ た 平 均 Av(X n p )と 標 準 偏 差 Sd(X np )を 使 って、判別値が未知のデータ行列を標準化し、これに重みベクトルを左積 します。 Y n p = [D n p - Ave(X n p )] / Sd(X n p ) En = Y n p Wp ■数量化2類分析 次 の よ う な 説 明 変 数 が 質 的 デ ー タ の 場 合 は 、チ ェ ッ ク (v)を 1 に 変 換 し て 数量化し、同じ判別分析をします。この方法は「数量化2類分析」とよば れます。 English-5 Read d1 Write Vocab. POINT v d2 v v d3 v d4 v v d5 v v v v v v 153 5.5.4. 対 応 分 析 「 対 応 分 析 」 Correspondence Analysis は フ ラ ン ス の Jean-Paul Benzécri が 開 発 し た 多 変 数 解 析 法 で す 30 。 次 の よ う な 分 割 表 か ら 個 体 ( X n 1 : Ana, Juan, Meryl, Ken)と 変 数 (Y 1 p : Japanese, English, Math)に 適 当 な 負 荷 値 を 与 え て 変 数と個体の間の相関数係数を最大化させ、そのときの個体と 変数の数値に よってそれぞれの意味を探る、という方法です。 Test: D np Y 1 : English Y 2 : Latin Y 3 : Science Sn1 X 1 : Ana 9 14 18 41 X 2 : Juan 17 7 11 35 X 3 : Mary 15 13 14 42 X 4 : Ken 5 18 8 31 T1p 46 52 51 149 対 応 分 析 の 目 的 は 、上 の 個 体 (X 1 , X 2 , X 3 , X 4 ) = X n1 と 変 数 (Y 1 , Y 2 , Y 3 ) = Y p 1 という未知の 2 つのベクトルを求めることです。 個 体 ベ ク ト ル X n 1 と 変 数 ベ ク ト ル Y p 1 の 平 均 (MX, MY)を そ れ ぞ れ 0 と し ます。 S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p ) [1a] MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n 1 ' X n 1 / N = 0 [1b] MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0 個 体 (X n1 )と 変 数 (Y p 1 )の 分 散 (VX, VY)を そ れ ぞ れ 1 と し ま す 。 S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対 角 行 列 ] [2] [2a] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149 = (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149 ← 1a. MX = 0 = X n 1 ' Sn n Xn 1 / N = 1 [2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149 = (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149 ← 1b. MY = 0 = Y p 1 ' Tp p Yp 1 / N = 1 D n p を 散 布 図 と 見 な し 、 そ の X 軸 : X n 1 と Y 軸 : Y p 1 の 間 の 相 関 係 数 (R) は, 30 [D n p :デ ー タ 行 列 ] 日本の林知己夫が独自に開発した数量化Ⅲ類と同じアルゴリズムです。 154 [3] R = [9(X 1 –MX)(Y 1 –MY) + 14(X 1 –MX)(Y 2 –MY) + 18(X 1 –MX)(Y 3 –MY) + 17(X 2 –MX)(Y 1 –MY) +... + 8(X 4 –MX)(Y 3 −MY)] / 149 ← MX = MY = 0 = (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149 = X n 1 ' D np Y p 1 / N こ の R を 最 大 化 す る た め に は 、 そ れ ぞ れ の 分 散 VX = VY = 1 と い う 条 件 を 加 え た 次 の 式 の S を X n1 と Y p1 で 微 分 し (Df(S, X n 1 ), Df(S,Y p1 ))、そ の 結 果 を ゼ ロ ベ ク ト ル (O n 1 , O p 1 )と し ま す 。 L 1 , L 2 は ラ グ ラ ン ジ ュ 乗 数 で す 。 S = (X n 1 ' D np Y p1 ) / N – L 1 [(X n 1 ' S n n X n 1 ) / N - 1] – L 2 [(Y p 1 ' T p p Y p 1 ) / N - 1] [4a] Df(S, X n1 ) = D np Y p 1 / N – 2 L 1 S nn X n 1 / N = O n1 (ゼ ロ ) Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 ) [4b] Df(S, Y p1 ) = D np ' X n 1 / N – 2 L 2 T pp Y p 1 / N = O p 1 (ゼ ロ ) Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 ) [5a] ← 4a.の 第 2 項 を 移 項 D n p Y p1 / N = 2 L 1 S nn X n1 / N X n 1 ' D np Y p 1 / N = 2 L 1 X n1 ' S n n X n1 / N ← 両 辺 に X n 1 'を 左 積 R = 2 L1 [5b] ← 2a. X n1 ' S n n X n1 / N = 1; 3. R = X n1 ' D n p Y p1 / N D n p ' X n1 / N = 2 L 2 T pp Y p 1 / N ← 4b.の 第 2 項 を 移 項 X n 1 ' D np / N = 2 L 2 Y p 1 ' T p p / N ← 行 列 移 動 ; T p p 対 角 行 列 X n 1 ' D np Y p 1 / N = 2 L 2 Y p1 ' T p p Y p1 / N ← 両 辺 に Y p 1 を 右 積 R = 2 L2 ← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N 5a, 5b か ら [6] R = 2 L1 = 2 L2 [7a] D n p Y p1 = R S n n X n 1 ← 5a. D np Y p 1 / N = 2 L 1 S n n X n 1 / N; 6. R = 2 L 1 R S n n X n 1 = D np Y p 1 ←両辺交換 S n n X n1 = D n p Y p1 / R ←スカラーR 移動 S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両 辺 に S n n ^を 左 積 155 [7b] X n 1 = S n n ^ D np Y p1 / R ← S n n ^ S n n = U nn D n p ' X n1 = R T p p Y p 1 ← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2 7a を 7b の X n 1 に 代 入 し て [8] D n p ' 1/R S n n ^ D n p Y p1 = R T pp Y p 1 D n p ' S n n ^ D n p Y p1 = R 2 T p p Y p1 ←スカラーR 移動 D n p ' Sn^ D n p (T p p 1 /2 )^ T p p 1 /2 Y p 1 = R 2 (T p p ) 1 /2 (T p p ) 1 /2 Y p 1 ← (T p p 1 /2 )^ T p p1 /2 = U p p ; (T p p ) 1 /2 (T p p ) 1 /2 = T p p ここで [9] (T p p ) 1 /2 Y p 1 = A p 1 とすると D n p ' S n n ^ D n p (T p p 1 /2 )^ A p 1 = T p p 1 /2 R 2 A p 1 (T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = (T p p 1 /2 )^ T p p 1 /2 R 2 A p 1 ← 両 辺 に (T p p 1 /2 )^を 左 積 (T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = R 2 A p 1 ← (T p p 1 /2 )^ T p p 1 /2 = Um こ こ で 、 (T p p 1 /2 )^ D n p ' S n n ^ D n p (T p p 1 /2 )^ = A p p と す れ ば Ap p Ap 1 = R2 Ap 1 と い う 固 有 方 程 式 に な り ま す 。プ ロ グ ラ ム は こ の 固 有 方 程 式 の R 2 と A p 1 を 同 時 に 求 め ま す 。 Y p1 は [9]よ り 、 Y p 1 = [T p p 1 /2 ]^ A p 1 こ こ で 、 ベ ク ト ル Y p1 は 行 和 ベ ク ト ル と の 積 和 の 平 均 が 0、 分 散 が 1 と な る よ う な 小 さ な 値 で す ( ← [1a])。 そ こ で デ ー タ 規 模 に 合 わ せ る た め に 、 全 体 に デ ー タ の 総 和 Sum(D n p )を 掛 け ま す 。ま た 、成 分 に 相 関 係 数 を 掛 け る と 相 関 係 数 の 大 き さ を 反 映 し た 座 標 に な り ま す 31 。 X n 1 は [7a]か ら 求 め ま す 。 X n 1 = S n n ^ D np Y p1 / R * 数 理 と プ ロ グ ラ ム は 奥 村 (1986), 高 橋 (2005), 三 野 (2005)を 参 照 し ま し た 。 31 高 橋 (2005: 127-129). 156 ● 行 列 の 1/2 乗 と -1/2 乗 正 方 行 列 A p p に つ い て 、X pp X p p = X p p 2 = A p p と な る X p p は A p p の 1/2 乗 A p p1 /2 と定義されます。 X p p 2 = X p p X pp = A p p , X pp = A pp 1 /2 ま た 、 正 方 行 列 A p p に 逆 行 列 A p p ^が 存 在 す る と き 、 Y pp Y p p = A p p ^と な る Y p p は A pp の -1/2 乗 A p p - 1 /2 と 定 義 さ れ ま す 。 Y p p 2 = Y p p Y pp = A p p ^, Y p p = A p p -1 /2 T p p 1 /2 T p p 1 /2 = T pp と な る T p p 1 /2 は 、 T p p が 対 角 行 列 の と き 、 T p p 1 /2 の 対 角 成 分 は 次 の よ う に Tp p の 対 角 成 分 の 根 に な り ま す 。 Tpp 1 2 Tpp1 /2 3 1 2 3 1 √A 1 A 2 B 3 2 C √B √C 3 ●対角行列の逆行列 対 角 行 列 T pp の 逆 行 列 T pp ^は 、T pp の 成 分 の 逆 数 を 成 分 と し た 対 角 行 列 に な り ま す 。 上 右 表 の (Tpp 1 /2 )^は Tpp 1 /2 の 逆 行 列 で す 。 (Tpp1 /2 )^ 1 2 3 1 1/√A 2 1/√B 3 1/√C ●個体と変数の対応 下 左 表 は デ ー タ 行 列 、 下 右 表 は 個 体 の 負 荷 値 Xn で す 。 Test y1: English y2: Physics y3: Latin CA.Id. #1 #2 x1: Ana 9 14 18 x1: Ana x2: Juan 17 7 11 x2: Juan .400 .086 x3: Mary 15 13 14 x3: Mary .108 .026 x4: Ken 5 18 8 x4: Ken -.473 .146 -.094 -.211 下 左 表 は 相 関 係 数 (Correl)を 示 し 、下 右 表 は 変 数 の 負 荷 値 (Yp)を 示 し ま す 。 Corresp. 1 2 CA.Vr. #1 157 #2 Correl. .300 .136 y1: English .377 .110 y2: Physics -.361 .087 y3: Latin .028 -.189 Xn と Yp を 連 続 さ せ た 項 目 名 付 散 布 図 (Item scatter)で す 。 .200 .150 x4: Ken y2: Physics y1: English x2: Juan .100 .050 -.500 #2 -.300 x3: Mary .000 - . 1 -0.00 5 0 .100 .300 -.100 -.150 - .x210:0A n a y 3 : L a t i n -.250 -.300 #1 こ の 図 を 見 る と 、 Ken と Physics, Juan と English、 Ana と Latin が そ れ ぞ れ 近 い 関 係 に な る こ と が わ か り ま す 。1 軸 が 言 語 (English, Latin)と Fisics を 分 け 、2 軸 が English と Latin を 分 け て い ま す (Physics が 中 立 )。Mary が 全 体 の 中 で 中 立 で す が 、 や や English に 近 づ い て い ま す 。 ■集中分析 変数と個体の係数得点を昇順でソートし得点を並び替えると次のような 集 中 化 し た 得 点 に な り ま す 。対 応 分 析 は 得 点 の 集 中 化 に 最 も 適 し て い ま す 。 C r p. c c t x4: K e n x1: Ana x3: Mary x2: Juan y 2 : L a t iny 3 : P h y s ic ys 1 : E n g lis h 18 8 5 14 18 9 13 14 15 7 11 17 5.5.5. 因 子 分 析 「 因 子 分 析 」(Factor analysis)は 主 成 分 分 析 と 対 照 的 な 考 え 方 を す る 分 析 法 で す 。主 成 分 分 析 で は デ ー タ 行 列 の 全 変 数 を 説 明 す る よ う な 軸 を 探 し ま す が 、 因子分析では、逆に、一定の変数と他の変数ができるだけ異なるような新 158 た な 変 数 ( 因 子 factor) を 探 し ま す 。 成 績 デ ー タ を 例 に す る と 、 た と え ば 英語と国語を説明するような変数(文系因子)が、数学と理科を説明する ような変数(理系因子)と明確に異なるようにします。因子分析には多く の 手 法 が あ り ま す が 、 こ こ で は Kaiser の 「 直 接 バ リ マ ッ ク ス 法 」 (Direct varimax method)を 説 明 し ま す 。 因 子 (A1, A2, …, Ap) が で き る だ け 互 い に 異 な る よ う に す る た め に 、因 子 ベ ク ト ル (Ap)の 分 散 (V)を 最 大 化 す る こ と が 目 的 で す 。以 下 は 簡 略 化 し て 分 散 の 分 母 (N)を 外 し ま す (V*)。 M は Ap の 平 均 を 示 し 、 P は Ap の 成 分 の 個 数 です。 V* = Σ (A i – M) 2 = Σ (A i 2 – 2MA i + M 2 ) = Σ A i 2 – 2MΣ A i + P M 2 = Σ A i 2 – 2 (Σ A i ) 2 / P + P (Σ A i ) 2 / P 2 [∵ M = (Σ A i ) / p] = Σ A i 2 – (Σ A i ) 2 / P これを行列で示すと次のようになります(後述:→●単位行列・単位ベク トルの利用)。 V* = Ap' (U p p – U p 1 U p1 ' / P) Ap こ こ で Σ A i の 計 算 で 負 値 が 相 殺 さ れ る の を 防 ぐ た め 、A で は な く A 2 と し た 「 分 散 」 (V**)を 求 め ま す 。 Ap ( 2 ) は ベ ク ト ル Ap の す べ て の 成 分 を 2 乗 し た ベクトルを示します。 V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2) … (1) ここで次の対角行列、 𝐴1 Ap p = 𝐴2 [ … 𝐴𝑝 ] を 導 入 す る と 、 先 の 式 (1)は 、 V** = Ap' A p p (U p p – U p 1 U p 1 ' / P) A p p Ap … (1b) となります(後述:→●単位行列・単位ベクトルの利用)。 こ れ か ら 求 め る ベ ク ト ル Ap は 相 関 行 列 R p p に 未 知 の ベ ク ト ル Tp を 右 積 し た も の と し ま す 。 Tp の 長 さ を 1 と 規 定 し ま す 。 Ap = R p p Tp … (2) 159 … (2b) Tp' Tp = 1 Tp' Tp = 1 (2b)と い う 条 件 付 き で V**の 最 大 値 を 求 め る た め に Lagrange 乗 数 L を つ け た 次 の 式 を 設 定 し ま す 。 (→ 3.7.3.) W = V** – L (Tp ' Tp -1) = Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap – L (Tp ' Tp – 1) [← (1b)] = Tp' R p p ' A p p (U p p – IpIp ' / P) A p p R p p Tp – L (Tp' Tp – 1) [← (2)] こ の W を Tp で 微 分 し た 式 Df(W, Tp)を 0 と し ま す 。 Df(W, Tp) = 2 [R pp ' A p p (U p p – U p 1 U p1 ' / P) A p p R p p Tp – L Tp] = 0 R p p ' A p p (U pp – U p1 U p 1 ' / P) A p p R p p Tp = L Tp 左辺 = R p p ' A p p (U p p – U p 1 U p1 ' / P) A p p Ap … (3) [← (2)] = R p p ' (A p p U p p A p p Ap – A p p U p1 U p 1 ' A p p Ap / P) = R p p (A p p Ap (2) [R p p 'を 外 に ] – Ap Ap' Ap / P) [R p p は 対 照 行 列 ; A p p U p p = A p p ; A p p Ap = Ap ( 2 ) ; U p1 ' A p p = Ap'] = R p p (Ap ( 3 ) – Ap Ap' Ap / P) [A p p Ap ( 2 ) = Ap (3 ) ] よ っ て (3)は 次 に な り ま す 。こ の (3b)式 が 成 り 立 つ と き に V は 最 大 化 し ま す 。 R p p (Ap (3 ) – Ap Ap' Ap / P) = L Tp … (3b) ここで、 Bp = Ap (3 ) – Ap Ap' Ap / P … (4) と お く と 先 の 式 (3b)は 次 に な り ま す 。 R p p Bp = L Tp, L Tp = R pp Bp, Tp = R pp Bp / L 上 中 式 は 相 関 行 列 R p p に ベ ク ト ル Bp を 負 荷 さ せ て 合 成 さ れ た 変 数 ベ ク ト ル は Tp の L 倍 に な る こ と を 示 し て い ま す 。 そ の と き 、 L と し て Z n p Bp の 標 準 偏 差 を 使 え ば 、標 準 化 さ れ た 合 成 変 数 ベ ク ト ル Tp (= R p p Bp / L:上 右 式 ) と 相 関 係 数 行 列 の 積 が 求 め る 因 子 ベ ク ト ル Ap で す [← (2)]。 は じ め に 、 標 準 得 点 デ ー タ 行 列 (Z np ) に ベ ク ト ル (Bp) を 右 積 し た ベ ク ト ル の 標 準 偏 差 SD(zb)を 求 め ま す 。 V(zb) = (Z n p Bp)' (Z n p Bp) / N [Z n p Bp の 分 散 ] = Bp' Z n p ' Z n p Bp / N [(A B)' = B' A'] = Bp' R p p Bp [R p p = Z np ' Z n p / N→ 3.6.1] SD(zb) = (Bp' R p p Bp) 1 /2 [SD = V 1 /2 → 3.3.4] 160 … (5) R p p Bp を SD(zb)で 割 っ た ベ ク ト ル を 新 た な Ap と し ま す 。 … (6) Ap = R p p Bp / SD(zb) こ の Ap を 使 っ て 再 度 (4)で Bp を 計 算 し ま す 。 Bp = Ap (3 ) – Ap Ap' Ap / P … (4) SD(Zb) = (Bp' R p p Bp) 1 /2 … (5) Ap = R p p Bp / SD(Zb) … (6) こ の プ ロ セ ス (4, 5, 6)を Ap に 変 化 が な く な る ま で 繰 り 返 し ま す( Ap が 因 子 ベクトルになる理由は後述:→●構造ベクトルの導出)。 1 つ の 因 子 が 見 つ か っ た 後 は 残 差 の 相 関 行 列 (R pp )か ら 、 順 次 同 じ プ ロ セ ス で 因 子 を 探 し ま す 。 最 後 の 因 子 を 得 た 後 、 標 準 化 デ ー タ 行 列 (Z n p )に 負 荷 ベ ク ト ル (Bp)を 掛 け る と 因 子 得 点 行 列 (S n p )が で き ま す 。 S n p = D np Bp * Horst (1965), 芝 (1975), 浅 野 (1971), 竹 内 ・ 柳 井 (1972)を 参 照 し ま し た 。 ●単位行列・単位ベクトルの利用 行列の演算は、その成分を展開すると理解できます。 [1] V* = Σ A i 2 – (Σ A i ) 2 / P = Ap' (U p p – U p 1 U p1 ' / P) Ap この右辺の成分を確かめます。 Ap' (U p p – U p 1 U p 1 ' / P) Ap 1 = Ap' ( [ 1 … 1 = Ap' ( [ 1 … 1 1 ] – [ ] … 1 1 [1, 1, …, 1] / P) Ap 1 1 ] – [ … 1 1 1 1 … 1 … … .. 1 1 1 ] 1 1 / P) Ap M = 1 / P とおくと、 1 V* = Ap' ( [ 1 … 𝑀 𝑀 ] – [ … 𝑀 1 𝑀 𝑀 … 𝑀 … … .. 𝑀 161 𝑀 𝑀 ]) 𝑀 𝑀 Ap = [A 1 , A 2 , …, A p ] 1−𝑀 −𝑀 [ … −𝑀 −𝑀 1−𝑀 … −𝑀 … … … … −𝑀 −𝑀 ] … 1−𝑀 Ap = [A 1 (1 - M) + A 2 (-M) + … + Ap(-M), A 1 (-M) + A 2 (1 - M) + … + Ap(-M), … A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)] 𝐴1 𝐴 [ …2 ] 𝐴𝑝 = [A 1 (1 - M) + A 2 (-M) + … + Ap(-M)] A 1 + [A 1 (-M) + A 2 (1 - M) + … + Ap(-M)] A 2 +… + [A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)] A p = A 1 2 + A 2 2 + … + Ap 2 – M (A 1 + A 2 + … + Ap) 2 = A 1 2 + A 2 2 + … + Ap 2 – (A 1 + A 2 + … + Ap) 2 / P = Σ A i 2 – (Σ A i ) 2 / P [2] = V* V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2) = Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap … (1b) 上 の 等 式 が 成 立 す る こ と を Ap' A p p と A p p Ap の 成 分 で 確 認 し ま す 。 𝐴1 Ap' A p p = [A 1 , A 2 , …, A p ] 𝐴2 … [ 𝐴1 A p p Ap = = [A 1 2 , A 2 2 , …, A p 2 ] = Ap (2 ) ' 𝐴𝑝 ] 2 𝐴2 [ … 𝐴1 𝐴1 𝐴2 𝐴22 […] = = … 𝐴𝑝 ] 𝐴 𝑝 [𝐴2𝑝 ] Ap (2 ) ●構造ベクトルの導出 標 準 化 さ れ た デ ー タ 行 列 の Z np の 相 関 行 列 は (N:デ ー タ の 個 数 )、 Rp p = Zn p ' Zn p / N …(1) Z n p に 重 み ベ ク ト ル Wp を 右 積 し て 合 成 変 数 ベ ク ト ル Fn と し ま す 。 Fn = Z n p Wp 162 合 成 変 数 ベ ク ト ル Fn の 分 散 V(Fn)は 、 V(Fn) = Fn' Fn / N = Wp' R p p Wp 合 成 変 数 ベ ク ト ル Fn を 標 準 化 し た ベ ク ト ル Gn は 、 … (2) Gn = Fn / V(Fn) = Z n p Wp / (Wp' R pp Wp) 1 /2 こ の 合 成 変 数 ベ ク ト ル Fn と 変 数 ベ ク ト ル と の 相 関 係 数 ベ ク ト ル を An と す る と 、 そ の 成 分 Aj は Aj = (Σ [i=1, N] Zij Gi) / N [j=1, P] 行列で表すと次の式になります。 Ap = Z n p ' Gn / N = Z n p ' Z n p Wp / (Wp' R pp Wp) 1 /2 / N = R p p Wp / (Wp' R p p Wp) 1 /2 [(2)] [(1)] * 芝 (1975)を 参 照 し ま し た 。同 書 は Ap を「 構 造 ベ ク ト ル 」と よ び 、そ の 重 要 性 を 強 調 し て い ま す 。 先 述 の 因 子 ベ ク ト ル の 導 出 で は Bp が Wp に 対 応 します。 ■音の感覚 下 左 図 は 1 音 節 の 音 の 個 人 的 な 感 覚 を 5 つ の -3 ~ 3 の 尺 度 で 記 入 し た も の で す 。 た と え ば pa と 聞 い て と て も clear と い う 感 じ が す れ ば 3, 逆 に と て も dark と い う 感 じ が あ れ ば -3 と し ま す 。ど ち ら で も な け れ ば 0 で そ の 間 に 2, 1, 0, -1, -2 と い う 段 階 を つ け て み ま し た( 自 分 で 実 験 し た デ ー タ 例 で す )。 Sound symb. a. Big 1.pa 2.ba 3.ta 4.da 5.ka 6.ga 7.sa 8.za 9.ma 10.na 11.ra b. Sharp -1 2 -1 2 0 3 -2 2 0 0 1 c. Clear 2 -3 2 -1 3 -2 2 -1 -1 -1 -2 d. Hard 2 -3 1 -3 1 -3 2 -2 -1 0 2 e. Heavy 2 1 2 1 3 2 1 0 -2 -2 -3 -3 2 -2 2 -1 3 -2 3 0 0 0 Fct.Id. 1.pa 2.ba 3.ta 4.da 5.ka 6.ga 7.sa 8.za 9.ma 10.na 11.ra 上右図が因子得点行列、下図が因子行列です。 163 1 - 1.329 .989 - .946 1.134 - .400 1.535 - 1.355 1.203 - .127 - .286 - .419 2 .823 .246 .823 .274 1.390 .813 .305 - .221 - 1.328 - 1.311 - 1.815 3 - .733 - 2.171 - .057 .664 1.430 - .684 - .138 1.416 .601 .257 - .585 4 .196 - .667 - .463 - .761 .912 .708 - .397 .522 - 1.663 - .589 2.202 Fct.Vr. a. Big b. Sharp c. Clear d. Hard e. Heavy 1 .960 - .728 - .940 .008 .979 2 - .063 .557 - .063 1.000 - .150 3 - .106 .399 .072 - .013 .016 4 .217 .004 .327 - .015 .048 第 1 因 子 は Big と Heavy に 強 く 反 応 し て い る の で 「 重 厚 さ 」 を 示 し て い る よ う で す 。第 2 因 子 は Hard と Sharp に 反 応 し て い る の で「 切 れ 味 」の よ う なものを示していると思います。それぞれの因子は次の相関係数行列が示 すように無相関になります。このことは軸が直交していることを意味しま す。 Correlation 1 2 3 4 1 1.000 .000 .000 .000 2 3 4 .000 1.000 .000 .000 .000 .000 1.000 .000 .000 .000 .000 1.000 そ れ ぞ れ の 音 節 の 得 点 と そ の グ ラ フ ( x 軸 =第 1 因 子 ; y 軸 =第 2 因 子 ; ) を示すと、第 1 因子では有声音と無声音が対立し、第 2 因子では、破裂音 (閉鎖音)と摩擦音・鼻音・流音の対立していることがわかります。 164 ■集中分析 変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう な集中化した得点になります。 Fct.cct 7.sa 1.pa 3.ta 11.ra 5.ka 10.na 9.ma 2.ba 4.da 8.za 6.ga c. Clear 2 2 1 2 1 0 -1 -3 -3 -2 -3 b. Sharp 2 2 2 -2 3 -1 -1 -3 -1 -1 -2 d. Hard 1 2 2 -3 3 -2 -2 1 1 0 2 a. Big -2 -1 -1 1 0 0 0 2 2 2 3 e. Heavy -2 -3 -2 0 -1 0 0 2 2 3 3 * 芝 (1975)を 参 照 し ま し た 5.6. 分散分析 次のようなデータから変数(国語、英語、数学)間の分散の差の有意性 を 調 べ る と き に 分 散 分 析 (Analysis of Variance: Anova)が 使 わ れ ま す 。 Teaching m. Method-1 Method-2 Method-3 A 44 34 33 B 39 29 32 C 42 33 35 D 45 36 32 E 48 30 31 こ の 分 析 の た め に 変 数 間 の 変 動 ( VB: 群 間 の 偏 差 平 方 和 ) と 、 各 変 数 の 中 で の 変 動 ( V I : 郡 内 の 偏 差 平 方 和 ) 、 そ し て 全 体 の 変 動 (V T : 全 体 の 偏 差 平 方 和 )を 求 め ま す 。目 的 は 群 間 の 偏 差 平 方 和 と 郡 内 の 偏 差 平 方 和 の 比(「 分 散比」)を計算し、それが有意であるかどうかを判定することです。 は じ め に 列( 群 )の 平 均 横 ベ ク ト ル (Mp)と 全 体 の 平 均( T)を 求 め ま す 。 個 数 を N, 変 数 を P と し ま す 。 Tm(X n p )は 行 列 X np の 成 分 の 合 計 を 計 算 す る ために作成した関数です。. Mp = U p 1 ' X np / N T = Tm(X n p ) / (N * P) 165 次 に そ れ ぞ れ の 偏 差 を 求 め ま す 。 は じ め は 群 間 (Among groups)の 偏 差 平 方 和 ベ ク ト ル VB を 計 算 し ま す 。 V B = N (Cp – T)' (Cp – T) VB は 各 列 の 平 均 を 成 分 と す る ベ ク ト ル か ら 全 体 の 平 均 を 引 い て 群 の 偏 差を求め、それを 2 乗和して個数 N を掛けたものです。 次 は 郡 内 (Within groups)の 偏 差 平 方 和 (Variation)を 示 す 式 で す 。 E 関 数 を 乗 数 2 で 使 用 し ま す 。次 の 式 に よ っ て 、そ れ ぞ れ の 群 内 の 偏 差 を 総 計 し ま す 。 V I = Tm(E((X n p – Mp), 2)) 全 体 の 偏 差 平 方 和 VT を 求 め る た め に は 次 の 式 を 使 い ま す 。 VT = Tm(E(X – T, 2)) プログラムはこの 3 つの値を使って次の分散分析表を出力します。 ANOVA Among groups Within groups All Variation 410.800 87.600 498.400 D.frd. 2 12 14 Variance 205.400 7.300 35.600 F.ratio 5%:1%:Prob. 28.137 3.885 6.927 .000 全 体 の 自 由 度 (Degree of freedom: D.frd.)は す べ て の 成 分 数 -1 で 計 算 さ れ ま す (N * P - 1)。 1 を 引 く の は 、 総 和 と 1 つ の 成 分 を 除 く 全 成 分 が 決 定 さ れ ていれば、その成分は自動的に決まるので自由がないからです。同様に群 間 の 自 由 度 は P - 1 に な り ま す 。郡 内 の 自 由 度 は 同 様 に し て 求 め た 各 群 の 自 由 度 (N - 1)に 群 の 数 (P)を 掛 け た 値 で す 。そ れ ぞ れ の 分 散 (Variance)は 変 動 を 自 由 度 で 割 っ て 求 め ま す 。 フ ィ ッ シ ャ ー 比 率 (Fisher ratio: F. ratio)は 群 間 の 分散を郡内の分散で割った値です。このフィッシャー比率があらかじめ決 め た 基 準 (5%, 1%)を 超 え て い れ ば 、 群 間 の 分 散 に 差 が な い 、 と い う 帰 無 仮 説 を 棄 却 で き ま す 。 上 図 の 最 後 の 列 は 、 F の 基 準 値 (5%, 1%)と 、 確 率 を 示 します。 5.7. 予測の分析 この節では、データ行列の右に 1 列にそれぞれのデータ行と関連する 1 つ の 実 測 値 が 示 さ れ て い る 行 列( デ ー タ 行 列 + 実 測 値 )を 入 力 行 列 と し て 、 はじめにデータ行列と実測値の関係を分析します。続いて、実測値を持た ないデータ行列について、先の実測値に対応する予測値を求めます。デー タ 行 列 と 実 測 値 に は 二 値 の 名 義 尺 度 (binominal) 、 多 値 の 名 義 尺 度 166 (multinominal)、 数 値 (numerical)の 3 種 が 考 え ら れ ま す 。 5.7.1. 共 起 回 数 に よ る 名 義 行 列 の 名 義 判 別 下 左 表 の 行 列 に は v1-3 の デ ー タ 列 と 右 端 の 判 別 列 (Discr[iminant])が あ り ま す 。こ の 行 列 と 、下 右 表 の 各 行 に つ い て 、そ の 群 (a, b, c)す る 方 法 を 考 え ます。 D.data v1 v2 v3 Discr. D.data v1 v2 v3 d1 A A B a x1 B A A d2 A A C b x2 A C C d3 A C B b d4 A B B c d5 C C A c d6 C C C c 簡 単 な 方 法 は 、デ ー タ が 一 致 す る 回 数 を 数 え 、そ の 平 均 を と る こ と で す 。 こ の 方 法 を 「 名 義 平 均 共 起 回 数 に よ る 多 名 義 判 別 」 (Multinominal discrimination by nominal mean cooccurrence と よ ぶ こ と に し ま す 。た と え ば 、 x1 は d1 と v2:A を 共 起 さ せ て い る の で 、 係 数 1/3 と な り 、 こ れ が d1-d6 の そ れ ぞ れ の 係 数 と 比 較 し て 最 大 と な る の で 、 判 別 は d1 の a と し ま す 。 Cooc. Value Discr. x1 .333 d1: a x2 .667 d2: b v2:A は d2 と も 共 起 し ま す が 、 d2 は 成 員 が 2 の 群 に な る の で 、 平 均 は 1/(2x3)に な り ま す 。 比較を個体ではなく、群で行うほうが群全体の情報を生かすことになり ま す 。 そ こ で た と え ば b 群 の d2 の v1:A は d3 に も あ る の で 、 1/2 の 価 値 を も つ と 考 え ま す 。x1 と a 群 全 体 の 共 起 回 数 は v2:A の 1 回 な の で 、1/3≒ .333 と な り ま す 。x2 と b 群 全 体 の 共 起 回 数 は 、v1: A, A, v2:C, v3:C の 4 回 で す 。 全 体 が 6 回 あ り ま す か ら 、 係 数 は 4/6≒ .667 に な り ま す 。 こ れ ら が 他 の 群 と比べたときの最大値です。 Cooc. Value Discr. x1 .333 a x2 .667 b 167 5.7.2. 距 離 に よ る 数 値 行 列 の 多 名 義 判 別 次 の (1)の よ う な 多 項 の 判 別 値 (Discr[iminated value]: a, b, c, …)が 既 知 の デ ー タ か ら 、 ベ ク ト ル 間 の 「 距 離 」( → 『 関 係 』 ) に よ っ て 、 (2)の よ う な 判 別 値 が 未 知 の デ ー タ を 分 析 し 、 (1)の 中 の 個 体 (d-1, d-2, …)、 ま た は 個 体 群 (a, b, c)に 近 い 行 ベ ク ト ル を 探 し 、 そ の 判 別 値 を (2)に 与 え ま す 。 D1 v1 v2 d1 5 2 d2 3 3 d3 2 d4 4 d5 d6 v3 Disc. D1x v1 v2 v3 7 a x1 4 2 5 2 b x2 3 7 6 2 b 2 2 c 2 4 3 c 1 8 7 c た と え ば 、d1 と x1 の 距 離 (Distance: D)を 次 の よ う に 定 義 し ま す 。こ の よ うに算出される距離は「ユークリッド距離」とよばれます。 D(d1, x1) = {Σ ( i: N ) [D n p (1, i) - X n p (1, i)] 2 } 1 /2 d1 の 成 分 は (5, 2, 7), x1 の 成 分 は (4, 2, 5)な の で 、 両 者 間 の 距 離 は 次 の よ うに計算されます。 D(d1, x1) = [(5 - 4) 2 + (2 – 2) 2 + (7 - 5) 2 ] 1 /2 = (1 2 + 0 2 + 2 2 ) 1 /2 = 5 1 /2 ≒ .236 こ の よ う な 計 算 を d2, d3, …, d6 で 行 い 、 こ れ ら 6 つ の 距 離 の 最 小 値 が 得 ら れ た と き の (1)の 行 の 判 別 値 (a, b, c)を x1 の 判 別 値 と し ま す 。x2 に つ い て も 同 様 で す 。そ の 結 果 、以 下 の よ う に x1 は d1 と 一 番 近 く 、ま た 、x2 は d6 に一番近い、ということがわかります。 D1x Distance Discr. x1 2.236 d1: a x2 2.449 d6: c ●群平均値などによる多名義判別 次 に 、(1)の デ ー タ の 個 々 の 行 で は な く 、そ れ ぞ れ の 判 別 群 全 体 と 比 較 し ます。そのとき群の代表値としてここでは次のように平均値を使います。 168 D1 v1 v2 v3 a 4.000 3.667 6.000 b 3.000 3.000 3.750 c 2.800 4.600 4.600 上 の 3 行 と 先 の D1x の 2 行 の 間 の そ れ ぞ れ の 距 離 を 比 較 す る と 、結 果 は 次のようになります。 D1x Distance Discr. x1 1.887 b x2 2.786 c 群の代表値として、平均値のほかに、データの分散の状態によって、中 央値、中間値、大数平均値を使うことも考えられます。次は大数平均値を 使ったときの結果です。 D1x Distance Discr. x1 1.601 a x2 2.885 c ●標準化距離による判別 次 の v3 の よ う に 平 均・標 準 偏 差 が 大 き く 異 な る デ ー タ を 使 う と き に は 注 意が必要です。 (1) 判 別 が 既 知 の デ ー タ . D2 v1 v2 d1 5 2 d2 3 3 d3 2 d4 4 d5 d6 (2) 判 別 が 未 知 の デ ー タ v3 Disc. D2x v1 v2 v3 56 a x1 4 2 50 33 b x2 3 7 60 21 b 2 22 c 2 4 45 c 1 8 72 c 上 の v3 の よ う な 変 数 が 判 別 に 過 大 に 影 響 す る こ と を 防 ぐ た め に 、デ ー タ (1)と (2)を 合 体 し た デ ー タ X np を 標 準 得 点 に 変 換 し ま す 。 X n p = [I n p – AveC(I n p )] / SdC(I n p ) 169 D2 v1 v2 v3 D2x v1 v2 v3 d1: a 1.633 -.588 .649 x1 .816 -.588 .299 d2: b .000 -.196 -.693 x2 .000 1.373 .883 d3: b -.816 -1.373 -1.393 d4: c .816 -.588 -1.335 d5: c -.816 .196 .007 d6: c -1.633 1.765 1.583 次 が 判 別 の 結 果 (群 平 均 )で す 。 D2x v1 v2 v3 D2x Distance Discr. x1 .816 -.588 .299 x1 .724 a x2 .000 1.373 .883 x2 1.126 c ●マハラノビスの距離による判別 主成分得点(→『関係』)を使って、各変数の標準偏差だけでなく、変 数間の相関もゼロになるように変換し、個体間の距離(「マハラノビスの 距離」→『関係』)を計算します。以下がその結果です。 D2 v1 v2 d1: a -.493 d2: b -.389 d3: b -1.009 d4: c -1.095 -.031 1.681 d5: c .341 -.732 -.277 d6: c 2.010 -.485 -.454 D2x Distance v3 D2x v1 v2 v3 1.811 -.907 x1 -.399 .866 -.397 .750 x2 1.036 .603 1.218 -.981 -1.636 -1.030 Discr. x1 .908 a x2 1.305 c 5.7.3. 確 率 に よ る 数 値 行 列 の 多 名 義 判 別 判別値が既知のデータ行列の群内の列相対頻度を、それが該当する事象 が起きる「確率」と見なして、行全体の確率を計算し、これを判別値が未 知のデータ(横ベクトル)にあてはめて、一番大きな確率を示すデータの 判別値を示す群の判別値を得ます。 170 (1) 判 別 が 既 知 の デ ー タ . (2) 判 別 が 未 知 の デ ー タ D.data v-1 v-2 v-3 Disc. D.pred v-1 v-2 v-3 d-1 5 2 7 a x-1 4 2 5 d-2 3 3 4 b x-2 3 7 6 d-3 2 2 b d-4 4 2 2 c d-5 2 4 3 c d-6 1 8 7 c 2 つ の 事 象 X と Y が 同 時 に 起 こ る 確 率 P(X, Y)を 次 の よ う に 計 算 し ま す 。 P(X, Y) = P(X) P(Y|X) P(X, Y) = P(Y) P(X|Y) 上 の 最 初 の 式 は 、 同 時 確 率 P(X, Y)が 、 X が 起 こ る 確 率 P(X)と 、 X が 起 き た と き Y が 起 こ る 確 率 P(Y|X)の 積 に な る 、 と い う こ と を 示 し て い ま す 。 たとえば、X がトランプのスペード、Y がエースであるとすると、スペー ド の エ ー ス が 出 る 確 率 は (1/4) x (1/13) = 1/52 に な り ま す 。 2 番 目 の 式 も 同 様です。そこで、どちらも左辺が同じなので、1 つの式にまとめます。 P(X) P(Y|X) = P(Y) P(X|Y) よ っ て 、 次 の 式 ( 「 ベ イ ズ の 定 理 」 Bayes’ theorem) が 導 か れ ま す 。 P(X|Y) = P(X) P(Y|X) / P(Y) この定理は重要なので、簡単な例を使って説明します。次の表は、 多数 の 文 書 か ら な る 資 料 を A 地 方 と B 地 方 の 割 合 P(X)と 、 そ れ ぞ れ の 地 方 の 資料の中で観察される、ある言語現象(たとえば語末母音の脱落)がそれ ぞ れ の 文 書 に 起 こ る 割 合 P(Y/X)を 示 し て い ま す 。た と え ば 、A 地 方 の 文 書 は 全 体 の 15 文 書 の 中 で 4 文 書 あ り (P(X))、そ の A 地 方 4 文 書 の 中 で 、3 文 書 で 語 末 母 音 の 脱 落 が あ っ た (P(Y|X))、 と い う こ と を 示 し ま す 。 資 料 (X) P(X) P(Y|X) P(X) P(Y|X) P(X) P(Y|X) / P(Y) = P(X|Y) X=A 4/17 3/4 4/17 x 3/4 = 3/17 (3/17) / (8/17) = 3/8 X=B 13/17 5/13 13/17 x 5/13 = 5/17 (5/17) / (8/17) = 5/8 和 1 8/17 = P(Y) 1 上 表 の P(X)は 、 P(Y)を 考 慮 し な い の で 「 事 前 確 率 」 (prior probability)と よ ば れ 、 P(Y|X)は 、 そ れ ぞ れ の 群 内 で の 確 率 を 示 す の で 「 尤 度 (ゆ う ど )」 (likelihood)と よ ば れ ま す 。事 前 確 率 と 尤 度 の 積 P(X) P(Y|X)は 、先 に 見 た よ 171 う に 、X と Y の 同 時 確 率 (joint probability)で す 。た と え ば A の 同 時 確 率 3/17 は 資 料 全 体 の 中 で の A 地 方 の 該 当 文 書( 現 象 の あ る 文 書 )の 割 合 を 示 し ま す 。 B の P(X) P(Y|X) = 5/17 も 同 様 で す 。 こ の 同 時 確 率 の 計 算 で 、 積 の 第 1 名義の分子が第 2 名義の分母と同じであることに注意してください。これ は、群内で占める該当文書の割合(事前確率)を計算する分子が、尤度を 計算するときのベース(分母)になる、と考えるとわかりやすいと思いま す。ここでそれぞれの確率を分数で示し、小数やパーセント表示にしなか ったのは、それぞれの分母と分子がどのような意味を持っているのかを確 認したかったためです。 さ て 、 A と B の 尤 度 の 和 (3/17 + 5/17=8/17)に な り ま す が 、 こ れ が 実 は ベ イ ズ の 定 理 の 分 母 P(Y)に あ た り ま す 。 つ ま り 、 文 書 の 全 数 17 の 中 で 現 象 (Y)が 起 き て い る 文 書 数 (8)の 確 率 (8/17)を 示 し ま す 。 最 後 に 、上 表 の 右 端 の 列 で ベ イ ズ の 定 理 に し た が っ て P(X|Y)を 求 め ま す 。 こ れ は 、先 に 求 め た 地 方 (X)と 現 象 (Y)の そ れ ぞ れ の 同 時 確 率 P(X) P(Y|X)を 、 その和である、文書全体で現象が起こる確率で割った割合を示します。 Y の 事 象 が 複 数 の と き は 条 件 付 き 確 率( 尤 度 )を 次 の よ う に 拡 張 し ま す 。 P(Y|X) = P(Y 1 |X) P(Y 2 | X) ... P(Y p |X) (1) 量 的 確 率 に よ る 多 名 義 判 別 た と え ば 、 上 表 の d-1, d-2, ..., d-6 が 文 書 -1, 2, ..., 6 で あ り 、 判 別 -a, b, c が A 地方、B 地方、C 地方で収集された古文書群である、とします。ここ で の 課 題 は 、 x-1, x-2 の よ う に 判 別 値 が な い 文 書 を そ の 文 書 の デ ー タ か ら 推 測 す る こ と で す 。 そ の と き 、 使 わ れ る 変 数 と し て v-1, 2, 3 が そ れ ぞ れ の 言語形式である、とします。よって、この課題をベイズの定理にあてはめ る と 、 あ る 文 書 (Y)が そ れ ぞ れ の 地 方 (X)に 属 す る 確 率 P(X|Y)を 求 め る こ と になります。 は じ め に 、P(X)を 求 め ま す 。こ れ は「 事 前 確 率 」(prior probability)と よ ば れ る も の で 、A 群 , B 群 , C 群 の 文 書 の 割 合 は 1/6, 2/6, 3/6 な の で 、こ れ が そ れぞれの事前確率になります。 P(X=a) = 1/6, P(X=b) = 2/6, P(X=c) = 3/6 次 に そ れ ぞ れ の 群 (X)の 中 で 、 変 数 (v1, 2, 3)が 起 こ る 確 率 を 計 算 し ま す 。 た と え ば 、 a 群 内 で v1 が 起 こ る 確 率 は 5 / (5+2+7) = .357 で あ り 、 b 群 内 で v-1 が 起 こ る 確 率 は (3+2)/(3+3+4+2+2)=.357 で す 。す べ て の ケ ー ス を 計 算 す る と 、 次 の よ う に な り ま す 。 こ れ は 「 尤 度 」 (likelihood)と よ ば れ 、 ベ イ ズ の 定 理 の 条 件 付 き 確 率 P(Y/X)に あ た り ま す 。 QT.likel. a v1 .357 v2 v3 .143 .500 172 b .357 .214 .429 c .212 .424 .364 このそれぞれの確率横ベクトルは、先のベイズの定理の分子にある P(Y 1 |X) P(Y 2 | X) ... P(Y p |X) に あ た り ま す 。分 子 内 の 最 初 の 名 義 P(X)は 、そ れ ぞ れ の 群 の 確 率 で す 。た と え ば 、 X が a で あ る 確 率 P(X=a)は 6 デ タ 中 の 1 個 に な る の で 、 1/6 に な り ま す 。 同 様 に P(X=b) = 2/6, P(X=c) = 3/6 で す 。 そ こ で 、 た と え ば 、 x1 (4, 2, 5)の 確 率 は 次 の よ う に 計 算 さ れ ま す 。 P(X=a|Y=x1) = (1/6) x (. 357) 4 x (.143) 2 x (.500) 5 P(X=b|Y=x1) = (2/6) x (. 357) 4 x (.214) 2 x (.429) 5 P(X=c|Y=x1) = (3/6) x (. 212) 4 x (.424) 2 x (.364) 5 この計算は現象の頻度が指数になるので、頻度が大きいとゼロに近くな って判別が困難になります。そこで次のように対数に 変換した値を判別に 使います。 Log[P(X=a|Y=x1)] = (1/6) + 4 x (.357) + 2 x (.143) + 5 x (.500) Log[P(X=b|Y=x1)] = (2/6) + 4 x (.357) + 2 x (.214) + 5 x (.429) Log[P(X=c|Y=x1)] = (3/6) + 4 x (.212) + 2 x (.424) + 5 x (.364) こ の 3 者 を 比 較 し て 最 も 大 き な 数 値 を 示 す b 値 が x1 の 判 別 値 (Discr[iminant])で す 。 次 の 判 別 表 の Ct(mx, mn)は 算 出 さ れ た 確 率 の 最 大 値 と最小値の対照値です。 D.pred Ct(mx, mn) Discr. x1 .492 b x2 .953 c なお、頻度がゼロのときは該当する確率もゼロになるので、先の式の積 算の結果がすべてゼロになってしまいます。そこで、横和で割るとき、分 母と分子に 1 を加える、という操作が行われています。 (2) 質 的 確 率 に よ る 多 名 義 判 別 次の左表のような質的デタの既知の判別値から、右のような未知の判別 値を確率を使って予測します。 173 D.data v1 v2 d1 v v d2 v d3 v v3 v D.pred v1 v2 a x1 v v a x2 v3 v a d4 v d5 Disc. a v d6 v v b v b 次が各群の確率表です。ここでは、それぞれの v が群内の列の中で使用 された率を示します。 QL.likel. v1 v2 v3 .250 a .750 .500 b .500 .500 1.000 こ こ で 、 た と え ば 、 x1 (v, v, x)の 確 率 は P(X=a|Y=x1) = (4/6) x (.750) x (500) x (1 - .250) P(X=b|Y=x1) = (2/6) x (. 500) x (.500) x (11) そ れ ぞ れ の 最 後 の 名 義 で (1 - .250)の よ う に 確 率 が 逆 転 す る の は 、v3 が 選択されていないため、それが起きない場合の確率を示すためです。 D.pred Ct(mx, mn) Discr. x1 .711 a x2 .339 b こ こ で も 確 率 が ゼ ロ や 1 の 場 合 、先 と 同 様 に 積 が す べ て ゼ ロ に な る た め 、 横 和 で 割 る と き 、分 母 と 分 子 に 1 を 加 え る 、と い う 操 作 が 行 わ れ て い ま す 。 * 高 村 (2000: 99-117), 加 藤 ・ 羽 室 ・ 矢 田 (2008: 111-115)を 参 照 し ま し た 。 174 6. 集中分析 行 と 列 に 適 当 な 値 を 与 え て 、デ ー タ 行 列 の 反 応 点 (v)や 数 値 を 一 定 の 箇 所 に集中させることにより、行と列に新しい解釈をすることができるように な り ま す 。こ の 方 法 を「 集 中 分 析 」(Concentration Analysis)と よ ぶ こ と に し ます。集中分析の典型的な方法として、前述の判別分析・数量化3類があ げられますが(これを「両側分析」とよぶことにします)、どちらも行と 列に同時に重みを与え、データ行列の分布の相関係数を最大化させていま す。ここでは、行と列のどちらかを固定し、これを外的基準として、残り の列または行に数値を与えて集中化する方法を探ります。これを「片側分 析」とよぶことにします。 6.1. 対応集中分析 前述の対応分析では、個体と変量に与える未知のベクトルを求めました が、ここでは、どちらかを既知のベクトルとし、残る法を未知のベクトル とします。既知のベクトルとして、この成分の順番を固定するために、連 続 数 1, 2, …, N( ま た は P)の 標 準 得 点 を 与 え ま す 。 こ れ を 外 的 基 準 と し て 固定し、未知の行、または列のベクトルを求めます。そのとき、ベクトル の平均を 0 とし、分散を 1 として標準化します。目的は、対応分析と同様 に、データ行列の分布の相関係数を最大化することです。 はじめに、変数のベクトルを連続数の標準得点で固定し、個体のベクト ルを未知として、これを求めます。 対応分析の説明で使ったデータを下に再掲します。 Test: D np Y 1 : English Y 2 : Latin Y 3 : Science Sn1 X 1 : Ana 9 14 18 41 X 2 : Juan 17 7 11 35 X 3 : Mary 15 13 14 42 X 4 : Ken 5 18 8 31 T1p 46 52 51 149 こ の 「 対 応 個 体 分 析 」 の 目 的 は 、 変 数 (Y 1 , Y 2 , Y 3 ) = Y p 1 を 既 知 と し て 、 未 知 の 個 体 (X 1 , X 2 , X 3 , X 4 ) = X n1 の ベ ク ト ル を 求 め る こ と で す 。 個 体 ベ ク ト ル X n 1 と 変 数 ベ ク ト ル Y p 1 の 平 均 (MX, MY)を そ れ ぞ れ 0 と し ます。 S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p ) 175 S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対 角 行 列 ] [1a] MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n1 ' X n 1 / N = 0 [1b] MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0 個 体 (X n1 )と 変 数 (Y p 1 )の 分 散 (VX, VY)を そ れ ぞ れ 1 と し ま す 。 [2] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149 = (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149 ← 1a. MX = 0 = X n 1 ' Sn n Xn 1 / N = 1 D n p を 散 布 図 と 見 な し 、 そ の X 軸 : X n 1 と Y 軸 : Y p 1 の 間 の 相 関 係 数 (R) は, [3] [D n p :デ ー タ 行 列 ] R = [9(X 1 –MX)(Y 1 –MY) + 14(X 1 –MX)(Y 2 –MY) + 18(X 1 –MX)(Y 3 –MY) + 17(X 2 –MX)(Y 1 –MY) +... + 8(X 4 –MX)(Y 3 −MY)] / 149 ← MX = MY = 0 = (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149 = X n 1 ' D np Y p 1 / N こ の R を 最 大 化 す る た め に は 、 分 散 VX = 1 と い う 条 件 を 加 え た 次 の 式 の S を X n 1 で 微 分 し (Df(S, X n 1 ))、そ の 結 果 を ゼ ロ ベ ク ト ル (O n 1 )と し ま す 。L はラグランジュ乗数です。 S = (X n 1 ' D np Y p1 ) / N – L [VX- 1] = (X n 1 ' D np Y p1 ) / N – L [(X n 1 ' S n n X n 1 ) / N - 1] [4] Df(S, X n1 ) = D np Y p 1 / N – 2 L S n n X n1 / N = O n 1 (ゼ ロ ) Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 ) [5] D n p Y p1 / N = 2 L S n n X n 1 / N ← 4.の 第 2 項 を 移 項 X n 1 ' D np Y p 1 / N = 2 L X n 1 ' S n n X n 1 / N ← 両 辺 に X n 1 'を 左 積 R =2 L [6] ← 2. X n 1 ' S n n X n 1 / N = 1; 3. R = X n 1 ' D n p Y p 1 / N D n p Y p1 = R S n n X n 1 ← 5. D n p Y p 1 / N = 2 L 1 S n n X n1 / N; 6. R = 2 L 1 R S n n X n 1 = D np Y p 1 ←両辺交換 S n n X n1 = D n p Y p1 / R ←スカラーR 移動 S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両 辺 に S n n ^を 左 積 176 X n 1 = S n n ^ D np Y p1 / R ← S n n ^ S n n = U nn こ の よ う に し て 、 X n1 が 求 め ら れ ま し た が 、 右 辺 の R( 相 関 係 数 ) は 既 知 で は な り ま せ ん 。 し か し 、 こ こ で は X n1 の ベ ク ト ル を 最 終 的 に 標 準 化 し ますので、R がどんな値であってもかまいません。そこで、 R を除いた次 の式を使います。 X n 1 ” = StdS(S n n ^ D np Y p 1 ) 一 方 、個 体 の ベ ク ト ル を 固 定 し て 、変 数 の ベ ク ト ル を 求 め る と き は 、 [2] 以下を次のようにします。 [2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149 = (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149 ← 1b. MY = 0 = Y p 1 ' Tp p Yp 1 / N = 1 [3] R = X n 1 ' D np Y p 1 / N こ の R を 最 大 化 す る た め に は 、 VY = 1 と い う 条 件 を 加 え た 次 の 式 の S を Y p 1 で 微 分 し Df(S,Y p 1 ))、そ の 結 果 を ゼ ロ ベ ク ト ル (O p 1 )と し ま す 。L は ラ グランジュ乗数です。 S = (X n 1 ' D np Y p1 ) / N – L [VY - 1] = (X n 1 ' D np Y p1 ) / N – L [(Y p 1 ' T p p Y p 1 ) / N - 1] [4b] Df(S, Y p1 ) = D np ' X n 1 / N – 2 L T p p Y p1 / N = O p1 (ゼ ロ ) Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 ) [5b] D n p ' X n1 / N = 2 L T p p Y p1 / N ← 4b.の 第 2 項 を 移 項 X n 1 ' D np / N = 2 L Y p1 ' T p p / N ← 行 列 移 動 ; Tp p 対 角 行 列 X n 1 ' D np Y p 1 / N = 2 L Y p 1 ' T p p Y p 1 / N ← 両 辺 に Yp 1 を 右 積 R = 2 L ← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N [6b] D n p ' X n1 = R T p p Y p 1 ← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2 R T p p Y p 1 = D np ' X n 1 ←両辺交換 T p p Y p1 = D n p ' X n1 / R ←スカラーR 移動 ← 両 辺 に T p p ^を 左 積 T p p ^ T p p Y p 1 = T p p ^ D np ' X n 1 / R Y p 1 = T p p ^ D np ' X n 1 / R ← T p p ^ T p p = Um ここでも先と同じ理由で R を無視し、標準化します。 Y p 1 ” = StdS(T p p ^ D np ' X n 1 ) 最後に、個体と変数に与えるベクトルが共に未知であるときは、前述の 対応分析を行い、固有値・固有ベクトルを使って、同時に 2 つのベクトル 177 を求めます。 6.2. 距離集中分析 データ行列の列と行の数値情報を使って、拡散した行列の分布パタンを 再編成し、行列の対角部分に高い数値を集中化することによって、データ 全 体 の 分 布 構 造 を 探 る 技 法 を 「 集 中 分 析 」 Concentration analysis と 名 づ け ます。原点からの距離の平均を測る方法と多変数解析を利用する方法を探 ります。集中化には列または行を外的基準として定める方法と、分類の外 的基準を定めないでデータ行列そのものを内的基準として分類する方法が あ り ま す 。集 中 化 し た 状 態 を 評 価 す る た め に 相 関 係 数( →『 基 礎 』p.**: 3.6.2)、 距 離 係 数 ( → 3.6.4 ) 、 そ し て 新 た に 定 め る 「 隣 接 係 数 」 な ど を 使 い ま す 。 6.2.1. 外 的 基 準 に よ る 集 中 化 は じ め に 「 外 的 基 準 に よ る 集 中 化 」 Concentration with exterior criterion を説明します。これは、たとえば下左表のようなデータ行列があり、これ の 行 (d-1, 2, …, 5)を 並 べ 替 え て v 印 で 示 し た 反 応 の 分 布 を 近 接 さ せ る ( こ の場合は対角線に近い位置に並べる)というのがねらいです。 Lv d-1 v-1 v-2 v-3 v-4 v v d-2 d-5 d-5 v v v v v d-3 v d-4 v-1 v-2 v-3 v-4 d-1 v d-3 Lv v v v v v v d-2 v d-4 v v こ の よ う に 集 中 化 す る と 行 に 関 し て は [d-1, 3, 5]と [d-2, 4]が そ れ ぞ れ 集 中 し 、列 に 関 し て は [v-1, 2]と [v-3, 4]が そ れ ぞ れ 集 中 化 さ れ て い る こ と が わ か り ま す 。こ こ で「 集 中 化 」(concentration)と は 反 応 の 分 布 が 互 い に 近 接 し 、 全 体 で 一 定 の 傾 向 を 示 す こ と を 意 味 し ま す 。(1)で 説 明 し た 各 行 の 数 値 を 基 準にして昇順で並べ替えると上右表のようになります。 d-1: [(1 2 + 2 2 ) / 2] d-2: [(3 2 ) / 1] 2 d-3: [(2 ) / 1] = 1.581 (...1) 1 /2 = 3.000 (...4) 1 /2 = 2.000 (...2) = 3.535 (...5) = 2.160 (...3) d-4: [(3 2 + 4 2 ) / 2] 2 2 1 /2 2 1 /2 d-5: [(1 + 2 + 3 ) / 3] 1 /2 178 列については縦方向で同様に距離の平均を計算します。 v-1: [(1 2 + 5 2 ) / 2] = 3.606 v-2: [(1 2 + 3 2 + 5 2 ) / 3] = 3.416 v-3: [(2 2 + 4 2 + 5 2 ) / 3] = 3.873 v-4: [(4 2 ) / 1] = 4.000 行 和 縦 ベ ク ト ル DSTv を 行 列 で 示 す と 、 DSTv = [SumR(X n p * SQp E X P ) / SumR(X n p )] 1 /E X P こ こ で SumR は 行 列 の 行 和 縦 ベ ク ト ル を 返 す 関 数 で す 。 SumR = X n p U p 1 SQp は 連 番 [1, 2, …, p]を 成 分 に す る 縦 ベ ク ト ル で す 。 EXP は Minkowki 距離の指数部です。 ●同距離異分布問題 原点からの距離の平均は等しいけれど分布のパタンが異なる 2 つのデー タ の あ り ま す 。 た と え ば 次 の よ う な 例 (P2)で す 。 P2 v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11 d-1 d-2 v v v v v v P2 係数 d-1 7.594 d-2 7.594 これを先のように計算すると次のように結果が同じになります。 d-1 ... [(4 2 + 6 2 + 11 2 ) / 3] 1 /2 = 7.594 d-2 ... [(3 2 + 8 2 + 10 2 ) / 3] 1 /2 = 7.594 こ の と き Minkowsky の 距 離 で 3 乗 を 選 択 す る と 、こ の 同 距 離 異 分 布 問 題 を 解 決 で き ま す 。 → 3.6.4. (2) P2 d-2 v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11 v d-1 v v v 3 3 d-2 ... [(3 + 8 + 10 ) / 3] 1 /3 係数 d-2 8.005 v d-1 ... [(4 3 + 6 3 + 11 3 ) / 3] 1 /3 3 v P2 d-1 8.128 = 8.128 = 8.005 ■地理的配列基準 次 の デ ー タ (p6)は ラ テ ン ア メ リ カ ス ペ イ ン 語 の 「 農 夫 」 を 示 す 言 語 形 式 179 と そ の 地 理 的 分 布 で す (Cahuzac: 1980)。 語 形 は ア ル フ ァ ベ ッ ト 順 に 並 べ 、 国 名 は 北 か ら 南 に 配 置 さ れ て い ま す 。(México, Cuba, República Dominicana, Puerto Rico, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica, Panamá, Venezuela, Colombia, Ecuador, Perú, Bolivia, Chile, Paraguay, Uruguay, Argentina). Use 1 cacahuero 2 cafetalista 3 camilucho 4 campero 5 camperuso 6 campirano 7 campiruso 8 campista 9 campusano 10 campuso 11 colono 12 comparsa 13 conuquero 14 coquero 15 chagrero 16 changador 17 chilero 18 chuncano 19 enmaniguado 20 estanciero 21 gaucho 22 guajiro 23 guanaco 24 guaso 25 huasicama 26 huertero 27 hulero 28 invernador 29 jíbaro 30 lampero 31 lanudo 32 llanero 33 macanero 34 manuto 35 montero 36 montubio 37 paisano 38 pajuerano 39 partidario 40 payazo 41 piona 42 ranchero 43 rondín 44 sabanero 45 veguero 46 viñatero 47 yanacón CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v UR AR v v v v v v v v v v v v v v v v v v v v v v v v v v v v こ の デ ー タ 行 列 の 行 を 基 準 に し て 、原 点 平 均 距 離 (N=2)に よ っ て 行 を 並 べ 替えると全体の分布は次のように集中化されます。 180 Dst.cct. CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA UR AR 22 guajiro v v 35 montero v v 19 enmaniguado v v v 29 jíbaro v v 11 colono v v 2 cafetalista v v v 42 ranchero v v v v 33 macanero v v 10 campuso v v v v v 34 manuto v v 45 veguero v v 17 chilero v v v v v v v 27 hulero v v v v v v v 8 campista v v v v v v v v v 13 conuquero v v v v v 23 guanaco v v v v v v 7 campiruso v v v v v v 6 campirano v v v v v v v v 36 montubio v v v v v 38 pajuerano v v v 37 paisano v v v 32 llanero v v 40 payazo v v 1 cacahuero v v 44 sabanero v v 5 camperuso v v 31 lanudo v v v 15 chagrero v v 25 huasicama v v 14 coquero v v v 24 guaso v v v v v v 26 huertero v v v v 43 rondín v 47 yanacón v v v v 30 lampero v v v 9 campusano v v v 46 viñatero v v v v v 28 invernador v v v v v 21 gaucho v v v v 39 partidario v v v 41 piona v v v 4 campero v v v 18 chuncano v v v 3 camilucho v v v 20 estanciero v v v 12 comparsa v v v 16 changador v v v このようにデータ行列全体の反応パタンが対角化されると、一定の地域 に集中する一定の語形の集まりを観察することができます。 6.2.2. 内 的 基 準 に よ る 集 中 化 先 の 外 的 基 準 に よ る 集 中 化 で は 行 を 固 定 し て( 外 的 基 準 と し て 選 択 し て )、 181 列 を 原 点 平 均 距 離 と い う 基 準 で 並 べ 替 え ま し た 。こ こ で は 行 も 固 定 せ ず に 、 つまり外的基準を設定しないで集中化する方法を考えます。 先 の サ ン プ ル デ ー タ は 、 た と え ば 5 つ の 地 域 (d-1, 2, …, 5)に つ い て 4 つ の 言 語 特 徴 (v-1, 2, 3, 4)が ど の よ う に 反 応 し て い る か を 示 し て い る こ と を 想定しましょう。ここでは言語地理区分をする上で外部的な基準がなく、 あるのは地域を共有する特徴の集合と特徴を共有する地域の集合だけです。 そこで、特徴がどの地域にあるかを調べ、該当するときに v 印をつけたの が下左表です。このままでは地域についても特徴についてもどのような 分 布パタンがあるのかわからないので、地域については特徴の選択が近いも のを並べ、特徴については地域の選択の仕方が近いものを並べるという操 作をすると下右表が得られます。 Lv d-1 v-1 v-2 v-3 v-4 v v d-2 v d-3 v v v v-2 v-1 v-3 v-4 d-3 v d-1 v v d-5 v v v d-4 d-5 Lv v v v d-2 v d-4 v v 「 内 的 基 準 に よ る 集 中 化 」 Concenration with interior criterion と は 上 左 表 のようなデータから上右表のようなパタンを得る方法です。「最良のパタ ン 」と は 反 応 す る デ ー タ (v 印 )が な る べ く 対 角 線 の 近 く に 集 ま る よ う な パ タ ンであると決めて、このようなパタンを得る方法を考えましょう。 先と同様の計算を何度か繰り返しますが方法はとても簡単です。はじめ に「外的基準のある集中化」と同様に横行の中で反応した v 印の原点から の 距 離 (原 点 か ら の 標 準 偏 差 )を 計 算 し ま す 。 d-1: [(1 2 + 2 2 ) / 2] 1 /2 = 1.581 (...1) d-2: [(3 2 ) / 1] 1 /2 = 3.000 (...4) 2 = 2.000 (...2) d-3: [(2 ) / 1] 1 /2 d-4: [(3 2 + 4 2 ) / 2] 1 /2 2 2 2 d-5: [(1 + 2 + 3 ) / 3] = 3.535 (...5) 1 /2 = 2.160 (...3) こ の 数 値 を 基 準 に し て 昇 順 (上 の 計 算 式 で ...で 示 し ま し た )で 並 べ 替 え る と 次 の よ う に な り ま す 。こ こ ま で は 前 節 の 外 的 基 準 に よ る 分 類 と 同 じ で す 。 182 Lv d-1 v-1 v-2 v-3 v-4 v d-3 d-5 v 係数 Lv v d-1 1.581 v d-3 2.000 v v d-5 2.160 d-2 v d-2 3.000 d-4 v v d-4 3.536 次にこの各縦列の原点からの距離を計算します。 v-1: [(1 2 + 3 2 ) / 2] 1 /2 2 2 2 v-2: [(1 + 2 + 3 ) / 3] 1 /2 v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2 2 v-4: [(5 ) / 1] 1 /2 = 2.236 (...2) = 2.160 (...1) = 4.082 (...3) = 5.000 (...4) こ の 数 値 に よ れ ば v-1 と v-2 が 位 置 を 交 代 し な け れ ば な り ま せ ん 。 そ の 結果が次の表です。 Lv v-2 v-1 d-1 v v d-3 v d-5 v v-3 v-4 Lv 係数 d-1 1.581 d-3 1.000 v d-5 2.160 d-2 v d-2 3.000 d-4 v v v-3 v-4 Lv v-2 v v-1 d-4 3.536 係数 2.160 2.236 4.082 5.000 これで第 1 回目の縦と横の並べ替えが終わりました。この段階で再び各横 行の原点からの平均距離を計算すると次のようになります。 d-1: [(1 2 + 2 2 ) / 2] 1 /2 d-3: [(1 2 ) / 1] 1 /2 2 2 2 d-5: [(1 + 2 + 3 ) / 3] d-2: [(3 2 ) / 1] 1 /2 2 2 d-4: [(3 + 4 ) / 2] 1 /2 1 /2 = 1.581 (...2) = 1.000 (...1) = 2.160 (...3) = 3.000 (...4) = 3.535 (...5) こ れ を 見 る と 、d-1 と d-3 を 交 替 し な け れ ば な ら な い こ と が わ か り ま す 。そ のように並べ替えたのが次の表です。 183 Lv v-2 v-1 v-3 d-3 v d-1 v v d-5 v v v-4 Lv 係数 d-3 1.000 d-1 1.581 v d-5 2.160 d-2 v d-2 3.000 d-4 v Lv v-2 v-1 v-3 v d-4 3.536 v-4 係数 2.160 2.550 4.082 5.000 さらに各縦列の原点からの標準偏差を計算すると次のようになります。 v-2: [(1 2 + 2 2 + 3 2 ) / 3] 1 /2 2 2 v-1: [(2 + 3 ) / 2] 1 /2 v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2 2 v-4: [(5 ) / 1] 1 /2 = 2.160 (...1) = 2.550 (...2) = 4.082 (...3) =5 (...4) これで横行も縦列も正しく昇順に並んだので分布パタンは集中したことに なります。さらに大きなデータ行列では繰り返しの数が増えます。 ■行列内的基準 先に行(南北の配置)を外的基準にした分析をしましたが、今回は外的 基 準 を 設 定 し な い で デ ー タ 行 列 (Cahuzac: 1980)の 内 的 基 準 に し た が っ て 同 じデータ行列を分析してみましょう。次の表を見ると先の分析と比べて、 さらにつよく集中化されていることがわかります。 184 D s t . c c t . EL HO NI GU CR PR PN MX RD VE CU CO EC PE CH BO AR UR PA 10 campuso v v v v v 23 guanaco v v v v v v 7 campiruso v v v v v v 17 chilero v v v v v v v 27 hulero v v v v v v v 8 campista v v v v v v v v v 6 campirano v v v v v v v v 33 macanero v v 29 jíbaro v v 11 colono v v 34 manuto v v 45 veguero v v 2 cafetalista v v v 42 ranchero v v v v 19 enmaniguado v v v 13 conuquero v v v v v 22 guajiro v v 35 montero v v 32 llanero v v 40 payazo v v 1 cacahuero v v 44 sabanero v v 5 camperuso v v 31 lanudo v v v 36 montubio v v v v v 37 paisano v v v 15 chagrero v v 25 huasicama v v 38 pajuerano v v v 26 huertero v v v v 14 coquero v v v 24 guaso v v v v v v 9 campusano v v v 47 yanacón v v v v 30 lampero v v v 43 rondín v 46 viñatero v v v v v 28 invernador v v v v v 39 partidario v v v 21 gaucho v v v v 41 piona v v v 4 campero v v v 18 chuncano v v v 3 camilucho v v v 20 estanciero v v v 12 comparsa v v v 16 changador v v v 一般にデータを扱うときは分析者が先に一定の基準を設けて、それにし たがって分析をすることが多いのですが、それではデータの構造が本来有 185 している内的基準が考慮されていません。このような方法を「前範疇化」 (precategorization)と よ ぶ こ と に し ま す 。 本 当 は さ ら に 良 い 結 果 が 得 ら れ る のに、分析者が先に基準に縛りをかけて、その結果に自らが縛られている ことがあります。いつも先に決めた基準で同じような分析をするよりも、 より柔軟な方法をとるべきでしょう。そうすれば新しい発見に出会う可能 性 が 高 ま り ま す 。こ の よ う な 方 法 を「 後 範 疇 化 」(postcategorization)と よ ぶ ことにしたいと思います。どちらの方法も可能ですが、文系の研究で後者 はあまり行われていないようです。 6.2.3. 軸 の 解 釈 横行と縦列の並べ替えの基準とした原点平均距離はパタン化が集中した とき各個体と各属性それぞれの近さを示しています。そこで、平均距離ま たはその標準測度を出力させ、それをグラフに示すことによって個体のグ ル ー ピ ン グ と 属 性 の グ ル ー ピ ン グ が で き ま す 。サ ン プ ル デ ー タ ( p 1 )が 内 的 基 準によって集中したとき、それぞれの軸の原点からの平均距離は次のよう になります。 次は先のサンプルデータの列と行の係数を標準化した結果です。 Lv v-2 v-1 v-3 d-3 v d-1 v v d-5 v v v-4 Lv 係数 d-3 -1.418 d-1 -0.709 v d-5 -0.014 d-2 v d-2 0.760 d-4 v d-4 1.381 Lv v-2 v-1 v-3 v v-4 係数 -1.097 -0.821 0.582 1.336 それぞれの軸を折れ線グラフにしてみましょう。 列 係 数 の 直 線 は 一 様 で す が 、 行 係 数 は v-2, v-1 の 傾 斜 が 緩 く な っ て い ま す 。 こ れ は v-2, v-1 の デ ー タ の 分 布 が 近 い こ と を 示 し ま す 。 186 ■軸の傾き 次 の 図 は 「 農 夫 」 (Cahuzac: 1980)の 分 析 の 行 係 数 を 標 準 化 し 、 折 線 グ ラ フ に し た も の で す( →『 基 礎 』p.**.)。こ れ を 見 る と 、大 き く 中 米 諸 国 (CR, EL, HO, NI, GU)か ら メ キ シ コ (MX)、 カ リ ブ 海 (RD, VE, CU), ア ン デ ス 諸 国 (CO, EC, PE, CH, BO)、 ラ プ ラ タ 諸 国 (AR, UR, PA)と い う 連 続 が あ る こ と が わかります。そして、この図は中米諸国は横に一直線に並んでいるので、 分布パタンが変わらないことを示しています。このことは集中化されたデ ー タ 行 列 の 分 布 パ タ ン (2)で 確 認 す る こ と が で き ま す 。 このようにグラフや係数は確かに全体の傾向をつかむのに役立ちますが、 一定の変形や抽象化を得ています。そこで、グラフや係数が示すことを、 データ行列で再確認すると分析結果がより納得できるものになります。数 字や図はそれを支援するものですが、最終的な判断をするときはデータ行 列に立ち返って確認すべきです。 ■相関行列の集中化 次 は 優 先 係 数 の 出 力 (上 図 )と 、 そ れ を 集 中 化 し た 結 果 ( 下 図 ) で す 。 Preference CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA UR AR CU 1.000 0.200 -0.200 -0.500 -1.000 -1.000 -1.000 -1.000 -1.000 -0.789 -0.778 -0.600 -0.294 -0.368 -0.750 -0.714 -1.000 -1.000 -0.840 RD 0.200 1.000 -0.059 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -0.429 -0.800 -0.636 -0.579 -0.619 -1.000 -1.000 -1.000 -1.000 -1.000 PR -0.200 -0.059 1.000 -0.385 -0.692 -0.692 -0.692 -0.692 -0.714 -0.750 -0.467 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 MX -0.500 -0.778 -0.385 1.000 -0.143 -0.143 -0.143 -0.143 0.067 -0.059 -0.750 -1.000 -1.000 -0.765 -1.000 -0.667 -1.000 -1.000 -0.826 GU -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 EL -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 HO -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 NI -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 CR -1.000 -1.000 -0.714 0.067 0.867 0.867 0.867 0.867 1.000 0.333 -0.529 -0.789 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 187 PN -0.789 -0.429 -0.750 -0.059 0.412 0.412 0.412 0.412 0.333 1.000 -0.579 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -0.846 VE -0.778 -0.800 -0.467 -0.750 -0.500 -0.500 -0.500 -0.500 -0.529 -0.579 1.000 0.600 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 CO -0.600 -0.636 -0.765 -1.000 -0.778 -0.778 -0.778 -0.778 -0.789 -0.810 0.600 1.000 -0.158 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000 EC -0.294 -0.579 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -0.158 1.000 0.111 -0.467 -0.692 -1.000 -1.000 -0.833 PE -0.368 -0.619 -1.000 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.810 0.111 1.000 -0.059 0.333 -0.600 -0.636 -0.077 BO -0.750 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.467 -0.059 1.000 -0.333 -0.765 -0.579 -0.130 CH -0.714 -1.000 -1.000 -0.667 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.692 0.333 -0.333 1.000 -0.467 -0.529 -0.048 PA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.600 -0.765 -0.467 1.000 0.818 0.538 UR -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -1.000 -1.000 -1.000 -0.636 -0.579 -0.529 0.818 1.000 0.714 AR -0.840 -1.000 -1.000 -0.826 -1.000 -1.000 -1.000 -1.000 -1.000 -0.846 -1.000 -1.000 -0.833 -0.077 -0.130 -0.048 0.538 0.714 1.000 Dst.cct. EL HO NI GU CR PN MX VE PR CO RD CU EC PE CH BO AR UR PA EL 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 HO 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 NI 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 GU 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 CR 0.867 0.867 0.867 0.867 1.000 0.333 0.067 -0.529 -0.714 -0.789 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 PN 0.412 0.412 0.412 0.412 0.333 1.000 -0.059 -0.579 -0.750 -0.810 -0.429 -0.789 -1.000 -1.000 -1.000 -1.000 -0.846 -0.818 -1.000 MX -0.143 -0.143 -0.143 -0.143 0.067 -0.059 1.000 -0.750 -0.385 -1.000 -0.778 -0.500 -1.000 -0.765 -0.667 -1.000 -0.826 -1.000 -1.000 VE -0.500 -0.500 -0.500 -0.500 -0.529 -0.579 -0.750 1.000 -0.467 0.600 -0.800 -0.778 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 PR -0.692 -0.692 -0.692 -0.692 -0.714 -0.750 -0.385 -0.467 1.000 -0.765 -0.059 -0.200 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 CO -0.778 -0.778 -0.778 -0.778 -0.789 -0.810 -1.000 0.600 -0.765 1.000 -0.636 -0.600 -0.158 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000 RD -1.000 -1.000 -1.000 -1.000 -1.000 -0.429 -0.778 -0.800 -0.059 -0.636 1.000 0.200 -0.579 -0.619 -1.000 -1.000 -1.000 -1.000 -1.000 CU -1.000 -1.000 -1.000 -1.000 -1.000 -0.789 -0.500 -0.778 -0.200 -0.600 0.200 1.000 -0.294 -0.368 -0.714 -0.750 -0.840 -1.000 -1.000 EC -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -1.000 -0.158 -0.579 -0.294 1.000 0.111 -0.692 -0.467 -0.833 -1.000 -1.000 PE -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -1.000 -1.000 -0.810 -0.619 -0.368 0.111 1.000 0.333 -0.059 -0.077 -0.636 -0.600 CH -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.667 -1.000 -1.000 -1.000 -1.000 -0.714 -0.692 0.333 1.000 -0.333 -0.048 -0.529 -0.467 BO -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.750 -0.467 -0.059 -0.333 1.000 -0.130 -0.579 -0.765 AR -1.000 -1.000 -1.000 -1.000 -1.000 -0.846 -0.826 -1.000 -1.000 -1.000 -1.000 -0.840 -0.833 -0.077 -0.048 -0.130 1.000 0.714 0.538 UR -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.636 -0.529 -0.579 0.714 1.000 0.818 PA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.600 -0.467 -0.765 0.538 0.818 1.000 【関係】で出力した様々な相関行列を集中化し、その集中化した 変数を 用いて得点全体を集中化する方法が考えられます。 次は本節で取り上げた原点距離法による集中化の主要部です。距離ベク ト ル を Vn と Hp に 確 保 し 、 配 列 の 変 化 が な く な る ま で 繰 り 返 し ま す 。 集 中係数 6.2.4. 集 中 係 数 データ行列が集中されると反応データが行列の対角線の近くに集まった り、行列の特定の部分に集まったりします。対角線の近くに集まると行列 内の分布から計算される相関係数が高くなります。また行列の特定の部分 に集まると反応点の間の距離が近くなりします。また、集中化は一般に隣 接する反応の数を増やします。ここでは、そのような相関係数、距離、隣 接 状 態 を 測 る 係 数「 集 中 係 数 」(Coefficient of concentration) を 設 定 し 、集 中 化の効果を示す指標とします。 (1) 連 番 平 均 距 離 集中化されたデータ行列は、かりに集中相関値があまり高くなくても反 応点が特定の位置に集中していれば、その集中領域は注目に値します。た とえば後で扱う「クラスター集中分析」では反応点の相関値よりもその集 中度を重視します。集中領域に列と行の強い関連を見ることができるから です。 「 連 番 平 均 距 離 」 Sequent Mean Distance: SMD は す べ て の 反 応 点 に つ い て 比 較 対 を つ く り 、そ の X 座 標 と Y 座 標 の 差 を 2 乗 し 、そ の 和 の 根 を と り 、 その対の数で割って平均をとり、さらにその根を求めます。数式で示すと 次のようになります。 SMD = Σ i Σ j Σ a Σ b {[(i – a) 2 + (j – b) 2 ] 1 /2 |x i j x a b | 1 /2 / n 188 こ こ で i, j は 比 較 対 の 一 方 の X 座 標 と Y 座 標 を 示 し 、 a, b は 他 方 の X 座 標と Y 座標を示します。 n は比較対の総数です。このように差を 2 乗して その和の根をとることはユークリッド距離を求めていることになります。 さらにそれぞれの値の積の絶対値の根をウェイトとして掛けます。この場 合 x ij , x a b は ど れ も 1 ま た は 0 で す か ら 、 掛 け 合 わ せ て 1 と な る と き だ け が 距離としてカウントされます。 一方、次のような量的データでは距離だけでなく対のそれぞれの値をウ ェイトとして考慮に入れることにします。同じ距離であってもウェイトが 異 な れ ば 、 そ の 評 価 が 異 な る か ら で す 。 た と え ば 、 (d1, v1)と (d2, v1)の 距 離 は (1, 1) 1 : (2, 1) 2 = (1 2 + 0 2 ) 1 /2 (1 x 2) 1 /2 = 1.41 で す が 、 (d1, v1)と (d1, v2) の 距 離 は (1, 1) 1 : (1, 2) 1 = (1 2 + 0 2 ) 1 /2 (1 x 1) 1 /2 = 1 に な り ま す 。 P2 v1 v2 v3 v4 d1 1 1 2 3 d2 2 4 3 4 d3 1 3 2 3 d4 3 3 2 4 d5 2 3 2 4 (2) 参 照 平 均 距 離 ここで単なる連番ではなく原点平均距離を使うとさらに精密な距離を測 る こ と が で き ま す 。 「 集 中 参 照 平 均 距 離 」 Referential Mean Distance: RMD の式は次のとおりです。 RMD = Σ i Σ j Σ a Σ b [(v i – h a ) 2 + (v j – h b ) 2 ] 1 /2 |x i j x a b | 1 /2 / n ここで v と h はそれぞれ列と行の係数ベクトルを示します。 P1 d1 v1 v2 v3 v4 v v d2 v d3 v d4 d5 v v v v v P1 v2 v1 v3 v4 d3 v d1 v v d5 v v v d2 v d4 v v 原点距離集中行列 集中前 集中後 差 連番相関係数 0.226 0.820 0.594 参照相関係数 0.563 0.835 0.273 連番平均距離 0.503 0.601 0.098 参照平均距離 0.174 0.471 0.297 189 この結果を見ると、集中化によって相関係数が上昇しても必ずしも平均 距離が小さくなるわけではないことがわかります。 (3) 連 番 相 関 係 数 以下に先の表を再掲します。 Lv v1 v2 v3 v4 Lv v2 v1 v3 v4 d1 d3 v d1 v v d5 v v v v d2 v d3 v d4 d5 v v v v v v d2 v d4 v v 上左表と比べて上右表では反応点(v 印)の分布が列と行に沿ってより 強 く 相 関 し て い ま す 。 そ こ で 、 列 の d3, d1, …, d4 に そ れ ぞ れ 1, 2, …, 5 と い う 数 値 を 与 え 、 行 の v2, v1, v3, v4 に 1, 2, 3, 4 と い う 数 値 を 与 え て 、 v 点 の X 座 標 と Y 座 標 の 相 関 を Pearson の 積 率 相 関 係 数 を 使 っ て 計 算 し ま す 。 X と Y の 軸 の デ ー タ 行 列 か ら な る 表 を 散 布 図 と 見 て 、こ れ か ら 次 の よ う な X と Y の 軸 の デ ー タ 行 列 を 作 り 、そ こ か ら「 連 番 相 関 値 」Sequent Correlation Coefficient: SCC を 計 算 し ま す 。 デ ー タ:(X, Y) = (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 3) (5, 3) (5, 4) SCC = 0.82 (4) 参 照 相 関 係 数 実 は 、そ れ ぞ れ の 反 応 点 は 連 番 の よ う に 等 間 隔 で 並 ん で い る の で は な く 、 次のように列と行の係数が対応しているので、次にそれぞれの係数を参照 した数直線を軸にすべきでしょう。 Lv v2 v1 v3 d3 v d1 v v d5 v v Lv 係数 v4 d3 1.42 d1 0.71 v d5 0.01 d2 v d2 0.76 d4 v d4 1.38 Lv v2 v1 v3 v v4 係数 1.10 0.82 0.58 1.34 次 の「 集 中 バ ブ ル 図 」( → 3.9 OptionButton: optIntChart)は そ れ ぞ れ の 反 190 応点を X 軸と Y 軸の標準化された係数の位置によってプロットしています。 X 軸は 4 座標あり、Y 軸は 5 座標です。 「 集 中 係 数 相 関 値 」 Referential Correlation Coefficient: RCC は こ の 座 標 に も とづいて計算した相関係数です。 デ ー タ : (X, Y) = (-1.10, -1.42) (-1.10, -0.71) … (1.34, 1.38) RCC = 0.84 原点距離集中行列 集中前 集中後 差 集中連番相関係数 0.226 0.820 0.594 集中参照相関係数 0.563 0.835 0.273 そ れ ぞ れ の セ ル に あ る 値 を 反 応 の 頻 度 と 見 な し ま す 。 (5) 平 均 隣 接 係 数 下 左 表 の d-1/v-1 と d-1/v2 は 横 方 向 で 隣 接 し て い ま す 。 ま た 、 d-4/v-3 と d-5/v3 は 縦 方 向 で 隣 接 し て い ま す 。 こ の よ う な 隣 接 点 の 数 は 全 部 で 5 つ で すが、集中化された下右表では 9 つになります。 P1 d-1 v-1 v-2 v-3 v-4 v v d-2 v d-3 v d-4 d-5 v v v v v P1 v-2 v-1 v-3 v-4 d-3 v d-1 v v d-5 v v v d-2 v d-4 v v 隣 接 度 数 は 質 的 デ ー タ ( 1-0 デ ー タ ) だ け で な く 、 次 の よ う な 量 的 デ ー タ についても適用します。このとき、縦または横で隣接する対の積の絶対値 の根をそれぞれの値のウェイトをつけた距離と見なします。これはウェイ トのあるデータの集中度を見るためです。 191 P2 v-1 v-2 v-3 v-4 d-1 1 1 2 3 d-2 2 4 3 4 d-3 1 3 2 3 d-4 3 3 2 4 d-5 2 3 2 4 このとき、それぞれの反応点を差異化するために、値がその全体の平均以 上のものを取り出して、そのすべての対についての隣接数の平均、つまり 全 隣 接 数 を 反 応 数 で 割 っ た 値 を 「 平 均 隣 接 指 数 」 (mean linkage index: MLI) とよび、集中化の度合いを示す指標とします。 (6) 標 準 隣 接 係 数 平均隣接係数は最大値が 1 になるとは限らないので標準化されていません。 そこで、隣接度数の理論的な最大値を求め、隣接度数の実測値をこの最大 値 で 割 れ ば 0 ~ 1 の 間 を 動 く 標 準 化 さ れ た 係 数 が 求 め ら れ ま す 。こ れ を「 標 準 結 合 係 数 」 (standard union coefficient: SUC) と し ま す 。 SUC で は 結 合 線 の 数だけを求め、それぞれのセルの値は考慮しません。 結 合 線 数 の 最 大 値 (U m a x )は 反 応 点 の 数 (N)に よ っ て 決 ま り す 。た と え ば 、N=2 で は U ma x は 1 で す 。こ れ を U m a x (2) = 1 と 表 現 し ま す 。N=3 で は 、次 の 図 の よ う に 、 ど ち ら の ケ ー ス で も U m a x (3) = 2 と な り ま す 。 «N=3; U m a x = 2» «N=3; U ma x =2» N=4 の と き 下 左 図 で は Ü3 で す が 、 下 右 図 の よ う に な る と Ü4 に な り ま す 。 よ っ て 正 方 形 の 分 布 で U m a x (4)=4 に な り ま す 。 «N=4; Ü3» «N=4; U m a x =4» N=5, 6, 7, 8 に つ い て は 、そ れ ぞ れ 次 の よ う に 正 方 形 を 含 む 分 布 で 最 大 値 を 示します。 192 «N=5; U m a x =5» «N=6; U m a x =7» «N=7; U m a x =8» «N=8; U ma x =10» N=8 の と き 下 左 図 で も 下 右 図 で も 同 じ 最 大 値 (10)に な り ま す 。 ど ち ら も 長 方形に 2 つの反応点が結合したものなので同じ値になるからです。 «N=8; U m a x =10» «N=8; U m a x =10» N=9 の と き は 結 合 の 仕 方 で 結 合 線 の 数 が 異 な り ま す 。 «N=9; Ü11» «N=9; U m a x =12» こ の よ う に 正 方 形 の 配 列 が 最 大 結 合 線 を 作 り ま す (U m a x = 3 2 = 9)。 N=14 の ケ ー ス を 見 ま し ょ う 。 次 が 最 大 結 合 線 (=20)を 作 る 結 合 で す 。 «N=14; U m a x =20» 最初に可能な正方形の 1 辺の長さを探します。 R = Int(Sqr(N)) こ こ で 関 数 Sqr(14)は 根 3.742 を 返 し 、関 数 Int(3.742...)は 整 数 部 3 を 返 し ま す。そして、3 x 3 の正方形には次のように横方向の結合が 2 x 3 個、縦方 向の結合が 2 x 3 個になります。 193 «N=9; Ü12» これを一般化すると、 U m a x (R) = 2 * R * (R - 1) 残りは次のように正方形に結合する部分と残余の部分に分けます。 N=5, Ü8 長 方 形 に な る 部 分 に つ い て は 、 そ の 列 数 ( こ こ で は 1) を 次 の 式 で 求 め ま す。 Int((N - R ^ 2) / R) ここで N は反応数で、R は正方形の 1 辺の長さです。 Int((N - R ^ 2) / R) = Int((14 - 3 2 ) / 3) = 1 それぞれの列は次の結合線をもちます。 R + R - 1 = 2 * R -1 たとえば、R = 3 であれば、次のように結合線が 5 になります。 «N=3, Ü5» 最後に残余の反応数の結節点を計算します。ここで、割った余りを示す演 算 子 Mod を 使 用 し ま す 。 た と え ば 、 14 Mod 3 = 2 と な り ま す 。 よ っ て 残 余 部の接合点は次の式で求められます。 (N Mod R) + (N Mod R) - 1 = 2 * (N Mod R) - 1 194 残余の反応数が 2 であれば結合線は 3 になります。 «N=2, Ü3» 次がサンプルデータを原点平均距離法によって集中した結果です。 P1 d-1 v-1 v-2 v-3 v-4 v v d-2 v d-3 v d-4 d-5 v v v v v P1 v-2 v-1 v-3 v-4 原点距離 値 連番相関係数 .820 参照相関係数 .835 v 連番平均距離 .601 d-2 v 参照平均距離 .471 d-4 v d-3 v d-1 v v d-5 v v v 平均隣接指数 1.000 標準結合係数 .750 (8) グ ッ ド マ ン と ク ラ ス カ ル の 順 序 連 関 係 数 反 応 点 を 示 す 記 号 (v)を 数 値 1 に 代 え て 計 算 し た 、「 グ ッ ド マ ン と ク ラ ス カ ル の 順 序 連 関 係 数 」を 集 中 係 数 と し て 利 用 し ま す( → 分 析「 順 序 連 関 係 数 」)。 (7) ク ラ メ ア の 連 関 係 数 ク ロ ス 集 計 表 の 列 と 行 の 関 連 度 の 指 数 と し て ク ラ メ ア (Cramer)の 連 関 係 数 が 使 わ れ ま す 。 Cramer の 連 関 係 数 は 期 待 値 ( → 『 基 礎 』 p.**; → 3.5.6) か ら計算されるχ2 乗値を計算し、その理論的な最大値で割ることによって 求められます。 次 は デ ー タ 例 ( 下 左 表 ) と そ の 期 待 値 ( 下 右 表 ) で す 。 A:国 語 の 計 算 は 、 =$E2*B$6/$E$6 に よ っ て 計 算 し ま す 。 成績 1 1.国語 2.英語 3.数学 和 期待値 1.国語 2.英語 3.数学 A 45 48 66 159 A 54.860 53.465 50.675 B 56 59 54 169 B 58.310 56.827 53.863 C 58 51 78 187 C 64.520 62.880 59.599 D 77 72 20 169 D 58.310 56.827 53.863 和 236 230 218 684 次 は 、 そ の χ 2 乗 値 (χ 2 )と Cramer の 連 関 係 数 (Cr)を 示 し ま す 。 χ 2 1.国語 2.英語 3.数学 A 4.634 1.772 0.559 Cr 0.185 195 B 0.092 0.083 0.000 C 0.659 2.245 5.681 D 5.991 4.051 21.289 A:国 語 の χ 2 乗 値 は =(B2-H2)^2/H2 で 計 算 し ま す 。Cramer の 連 関 係 数 (Cr)の 式は、 Cr = [χ 2 / (m - 1)n] 1 /2 ここで、m は行数と列数のうち小さな数を示し、n はデータの総和を示し ま す 。 こ れ は 以 下 で 示 す よ う に χ 2 の 最 大 値 が (m - 1)n に な る た め で す 。 はじめに、χ2 の式はその定義から次のようになります。 χ 2 = Σ i Σ j [(n i j – e i j ) 2 / e i j ] こ こ で 、 n ij は デ ー タ の 実 測 値 を 示 し 、 e ij は そ の 期 待 値 を 示 し ま す 。期 待 値 を 求 め る た め に 、横 和 (n i .)と 縦 和 (n. j )と 総 和 (n)を 使 い ま す 。→『 基 礎 』p.**. eij = n i .n. j / n χ2 = Σ i Σ j [(n i j – n i .n. j / n) 2 / (n i .n. j / n)] = Σ i Σ j [( n n ij – n i .n. j ) / n) 2 / (n i .n. j / n)] = Σ i Σ j {[(n 2 n i j 2 – 2 nn ij n i .n. j + n i . 2 n. j 2 ) / n 2 ] (n / n i .n. j )} = Σ i Σ j [(n 2 n i j 2 / n i .n. j – 2 n n ij + n i .n. j ) / n] = Σ i Σ j ( n n ij 2 / n i .n. j ) – 2Σ i Σ j n i j + Σ i Σ j (n i .n. j / n) こ こ で 、 第 2 項 の Σ i Σ j n ij は す べ て の n ij の 総 和 (n)を 示 し ま す 。 ま た 、 第 3 項 の Σ i Σ j n i .n. j は 総 和 (n)の 2 乗 (n 2 )を 示 し ま す 。 そ れ ぞ れ For ... Next の プ ログラムをイメージしてください。 よって、 χ2 = nΣ i Σ j (n i j 2 / n i .n. j ) – 2n + n = n [Σ i Σ j (n i j 2 / n i .n. j ) – 1] この式には期待値が表れていません。 さて、χ2 が最大となるのは、次のようにセルの縦和と横和がセルの値と 同じ、というケースです。このような状態は実測値と期待値の差の総和を 最大にするからです。 196 成績 1 1.国語 2.英語 3.数学 和 期待値 1.国語 2.英語 3.数学 A 45 0 0 45 A 11.126 14.588 19.286 B 0 59 0 59 B 14.588 19.126 25.286 C 0 0 78 78 C 19.286 25.286 33.429 D 0 0 0 0 D 0.000 和 45 59 0.000 0.000 78 182 x^2 1.国語 A 103.126 14.588 19.286 B 14.588 83.126 25.286 C 19.286 25.286 59.429 D 0.000 0.000 2.英語 3.数学 Cr 1.000 0.000 一般に、次のような最大の関連度を示すデータ行列の χ2 を求めてみまし ょう。 1 2 … p 1 x1 2 和 x1 x2 x2 … : … m x min(m, p) x min(m, p) 和 x1 x2 x min(m, p) n こ こ で min(m, p)は m と p を 比 べ て 小 さ な ほ う の 値 を 示 し ま す 。 先 の サ ン プルでは、D のデータがすべてゼロを示しています。このように長方形の デ ー タ 行 列 の 場 合 、そ の 中 の 最 大 の 正 方 形 の 中 で 縦 も 横 も 他 と 共 有 し な い 、 というケースを考えているからです。この場合、 先のχ2 式を使うと、次 のように計算されます。 χ2 = n [Σ i Σ j (n i j 2 / n i .n. j ) – 1] = n (x 1 2 / x 1 x 1 + x 2 2 / x 2 x 2 + ... + x min(m, p) - 1) = n [min(m, p) – ] よ っ て 、 ク ラ メ ア (Cramer)連 関 係 数 (Cr)は 次 の 式 に な り ま す 。 Cr = [χ 2 / (m – 1)n] 1 /2 この式で根をとるのは、以上の計算で次数が 2 になっているためです。 なお、クラメア連関係数は、軸の順序を変えても全体の期待値は変化しな いので、次のように集中化は影響しません。 197 v-1 v-2 v-3 v-4 P1 d-1 v 連番平均距離 .689 v d-4 d-5 参照相関係数 .563 v d-3 v v v 値 連番相関係数 .226 v d-2 原点距離 v 参照平均距離 .286 平均隣接係数 .556 v 標準隣接係数 .417 クラメア係数 .616 v-2 v-1 v-3 v-4 P1 d-3 v d-1 v v d-5 v v 原点距離 値 連番相関係数 .820 参照相関係数 .835 v 連番平均距離 1.052 d-2 v 参照平均距離 d-4 v v .842 平均隣接係数 1.000 標準隣接係数 .750 クラメア係数 .616 Cramer の 連 関 係 数 は 集 中 化 の 有 無 に か か わ ら ず 、デ ー タ 行 列 が も つ 列 と 行 の関連度を示すものとして使用します。 ■乗数と集中係数 次 は ラ テ ン ア メ リ カ ス ペ イ ン 語 「 農 夫 」 (Cahuzac: 1980)の デ ー タ 行 列 の 言語形式と国名をどちらもアルファベット順に並べた行列です。この状態 (集中化前の初期状態)の集中係数は次のように計算されます。 連 番 相 関 係 数 -0.064 参 照 相 関 係 数 0.037 連 番 平 均 距 離 0.575 参 照 平 均 距 離 0.233 平 均 隣 接 指 数 0.449 標 準 結 合 係 数 0.244 198 こ の デ ー タ 行 列 か ら 乗 数 (N)を 1 ~ 4 ま で 変 化 さ せ て 実 験 し 集 中 化 さ れ た データ分布パタンの変化を観察しましょう。 (N=1) (N=2) 199 (N=3) (N=4) このように乗数の変化によって集中パタンの形状が異なります。また、同 じ 乗 数 (N=2)で も 入 力 行 列 の 軸 の 配 列 に し た が っ て 集 中 し た 集 中 パ タ ン の 形状が異なります。 次 は 乗 数 (N)を 1 か ら 10 ま で 変 化 さ せ て 実 験 し た 集 中 効 果 係 数 の 結 果 で す 。 200 こ の 図 を 見 る と 、相 関 係 数 は N=1, 3, 4 で 比 較 的 高 い 値 を 示 し て い ま す が 、 平 均 距 離 に つ い て も か な り 高 い 値 を 示 し て い る こ と が わ か り ま す 。 N=2 の ときは相関係数の値を落としますが、平均距離かなり低くしています。隣 接 指 数 と 結 合 係 数 は 逆 に N=2 の と き に 高 く な り ま す 。集 中 化 さ れ た 分 布 パ タンでは相関係数が高いときは全体的に対角線付近に集まり、平均距離が 小さいときは反応が全体的に集結していることを示します。隣接指数と結 合係数は個々の反応点の結合状態を示します。それぞれに特徴があります から、はじめから方法を 1 に固定しないで、データ行列の性質を見ながら 比較検討するとよいでしょう。 ■多変数集中分析の比較 同 じ デ ー タ (Cahuzac 1980)を 使 っ て こ れ ま で に 見 た 集 中 化 の 4 つ の 方 法 の分析結果を比較します。次が集中化された分布パタンです。 201 (1) デ ー タ 行 列 202 (2) 原 点 距 離 集 中 分 析 (N=3) (3) 主 成 分 集 中 分 析 (5) 対 応 集 中 分 析 (4) 因 子 集 中 分 析 (6) ク ラ ス タ ー 集 中 分 析 こ れ ら の 図 を 見 る と 、 (2) 原 点 距 離 、 (4)主 成 分 、 (6) 対 応 分 析 は 分 布 の 対 角 化 を 示 し 、 (6)因 子 分 析 と (7)ク ラ ス タ ー 分 析 で は 分 布 の 局 在 化 を 示 し て いることがわかります。 主成分分析、因子分析、対応分析は両軸で分析しますが、原点距離とク ラスター分析では列または行だけでも分析可能です。しかし、クラスター 分析では 1 軸(列または行)だけでは次のようにあまり良い局在化の結果 203 が得られません。 (8) ク ラ ス タ ー 分 析 : 列 (9) ク ラ ス タ ー 分 析 : 行 一方、原点距離による集中化は、たとえば行を外的基準として固定し、列 を集中化することができます。そのとき、行の状態によって結果が変わる ので、対応分析など他の方法で適した配列を見つけ、それを外的基準にす る、という方法が考えられます。次は、先の主成分分析と対応分析の結果 として得られた行(各国の地理的な配置)を固定し、列を集中化した結果 です。 (10) 主 成 分 分 析 → 原 点 距 離 : 列 (11) 対 応 分 析 → 原 点 距 離 : 列 204 このように、主成分分析の結果を利用した原点距離法では相関係数と隣接 係数を上げています。一方、対応分析の結果と比べると少し成績が下がり ます。数量化Ⅲ類は理論的に相関係数を最大化する目的で考案された方法 だからです。 一方、原点距離法は相関係数だけでなく探索的な分析に適した分布パタ ンの集中化を目指します。たしかにこの方法は対応分析よりも少し成績を 下げているのですが、研究の目的によっては外的基準を変えられない場合 があるので、そのようなときは原点距離法が有効です。 次 の 研 究( Kawasaki 2012)は 発 行 日 が 記 さ れ て い な い 中 世 ス ペ イ ン 語 公 証 文書の年代を、発行日が記されている他の文書の言語特徴の集中化された v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v asta v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v この図では列に年代を入れ固定し、行(言語特徴)を集中化しています。 次に左上の部分を拡大しました。 この黄色の部分の横行が年代不詳の文献です。これを含めて全体を集中化 すると、この行が一定の年代に位置づけられるので、その年代を推定する ことができます。そのためには適切な言語特徴(年代差を示す、頻度が高 い、地域差が少ない、など)を選択し、実験を繰り返さなければなりませ ん。 205 ziudad -azgo xamas hazer hijo ciudad2 algun2 hasta segun reyno juzgar ciudad verdad castilla alcalde2 valladolid asi sellar para mente conocida2 viere tenido fasta algund segund cibdad2 merced ningun v v v v v v v v v v v despues assi v fijo2 fazer2 ciudad1 fasta v v v v v -adgo judgar regno v v v v v v v v v v v ciudat alcalle verdat segunt ssu v v v v v v v tenudo miente ffazer valladolit ffijo2 algun1 castiella seellar mercet cibdad1 alcalde1 Conoçuda fijo1 v v v pora fata v fazer1 mientre uiere v depues nengun castella conocida1 ffijo1 azer 1221-1240 1097-1200 1201-1220 1241-1260 1261-1280 1281-1300 1301-1320 1321-1340 X341(1326) 1341-1360 1361-1380 1381-1400 1401-1420 1441-1460 1421-1440 1461-1480 1481-1500 1501-1520 1521-1540 1541-1560 1581-1600 1561-1580 1601-1620 1621-1640 1641-1660 1661-1680 1681-1700 algunt 分布から推定しています。 v v v 6.3. クラスター分析 関係行列(相関行列、類似行列、距離行列、文字行列)や、多変数分析 の結果を見ると互いに関係の深い成分とそうでない成分があることがわか ります。こうした関係にもとづいて全体がどのようなグループ (群)に分 類 さ れ る の か を 見 る 手 法 の 1 つ が「 ク ラ ス タ ー 分 析 」(Cluster analysis)で す 。 「 樹 形 図 」 (Dendrogram)と い う グ ラ フ を 出 力 し ま す 。 6.3.1. 最 近 隣 法 クラスター分析には多くの方法があります。はじめに一番簡単な「最近 隣 法 」 (Nearest neighour method)を 取 り 上 げ ま し ょ う 。 ス ペ イ ン 語 圏 の 語 彙 バリエーション研究から得られた相関係数行列を用いて説明します。デー タの規模を小さくして 6 カ国だけにしたサンプルデータを使います。それ ぞ れ ES:ス ペ イ ン , GE:赤 道 ギ ニ ア , CU:キ ュ ー バ , RD:ド ミ ニ カ 共 和 国 , PR: プ エ ル ト リ コ , MX:メ キ シ コ を 示 し ま す 。 6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX 1. ES 1.00 2. GE 0.61 1.00 3. CU 0.51 0.45 1.00 4. RD 0.54 0.45 0.54 1.00 5. PR 0.58 0.49 0.56 0.68 1.00 6. MX 0.45 0.34 0.39 0.45 0.50 1.00 こ れ を 距 離 行 列 に 変 換 し ま す 。 → 3.6.4. 6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX 1. ES 0.00 0.20 0.25 0.23 0.21 0.28 2. GE 0.20 0.00 0.28 0.27 0.25 0.33 3. CU 0.25 0.28 0.00 0.23 0.22 0.30 4. RD 0.23 0.27 0.23 0.00 0.16 0.28 5. PR 0.21 0.25 0.22 0.16 0.00 0.25 6. MX 0.28 0.33 0.30 0.28 0.25 0.00 最 初 の ク ラ ス タ リ ン グ で 距 離 の 最 小 値 (0.16)を も つ 組 み 合 わ せ で あ る 4:RD と 5:PR が 合 体 し ま す 。 6 か国 1. ES 2. GE 3. CU 4. RD:5. PR 6. MX 1. ES 0.00 0.20 0.25 0.21 0.28 2. GE 0.20 0.00 0.28 0.25 0.33 206 3. CU 0.25 0.28 0.00 0.22 0.30 4. RD: PR 0.21 0.25 0.22 0.00 0.25 6. MX 0.28 0.33 0.30 0.25 0.00 2 番 目 の ク ラ ス タ リ ン グ で 次 に 距 離 が 近 い 値 (.20)を も つ 成 分 1 と 成 分 2 が 合体します。 6 か国 1. ES: 2. GE 3. CU 4. RD: .16;5. PR 6. MX 1. ES: 2. GE 0.00 0.25 0.21 0.28 3. CU 0.25 0.00 0.22 0.30 4. RD: 5. PR 0.21 0.22 0.00 0.25 6. MX 0.28 0.30 0.25 0.00 3 番 目 の ク ラ ス タ リ ン グ で は す で に 存 在 す る (1+2)の グ ル ー プ と (4+5)の グ ル ー プ が 合 体 し ま す 。こ の と き 、(1+2) と 3 の 距 離 は 、1-3, 2-3 の 間 の そ れ ぞ れ の 距 離 の う ち 小 さ な ほ う の 値 と し ま す 。 同 様 に (1+2)と (4+5)の 距 離 は 1-4, 1-5, 2-4, 2-5 の 中 で 一 番 小 さ な 値 を と り ま す 。 以 下 同 様 に し て 最 後 の 5 番目のクラスタリングで成分 6 が全体に組み込まれます。 6 か国 1. ES: 2. GE:4. RD:5. PR 3. CU 6. MX 1. ES: 2. GE:4. RD:5. PR 0.00 0.22 0.25 3. CU 0.22 0.00 0.30 6. MX 0.25 0.30 0.00 6 か国 1. ES: 2. GE: 4. RD:5. PR: ;3. CU 6. MX 1. ES: 2. GE: 4. RD:5. PR: ;3. CU 0.00 0.25 6. MX 0.25 0.00 各国を空間に配置しそのグルーピングを行うと次のようになります。 207 Nearest R. 1. ES -1.00 2. GE 0.61 4. RD 0.58 5. PR 0.68 3. CU 0.56 6. MX 0.50 Max. 1.00 + Min. 0.00 *この例では相関係数行列を一度距離に置き換えてからクラスター分析に かけていますが、上の図(樹形図)にはクラスターの合流点として入力の 数値(相関係数)が出力されています。 6.3.2. 最 遠 隣 法 最近隣法ではグループと1つの成分またはグループ間の距離をグループを 構成する成分のあらゆる組み合わせのペアで一番距離の近い数値を示すも のとして定義しました。たとえば次の図で、 [A+B+C] と い う グ ル ー プ と [D+E]と い う グ ル ー プ の 間 の 距 離 を A-D, A-E, B-D, B-E, C-D, C-E と い う ペ ア の 中 か ら 一 番 近 い も の を 選 ん で 、こ の 場 合 、 C-E に よ っ て 、 2 つ の グ ル ー プ 間 の 距 離 と 見 な し て い ま す 。 F も 含 め た 3 つ の グ ル ー プ の 距 離 は 、 C-E, C-F, E-F に よ っ て 計 測 さ れ ま す 。 次 に 取 り 上 げ る 「 最 遠 隣 法 」 (Furthest neighbour method)は グ ル ー プ 間 の 最 も 遠 い 成 分 の 間 の 距 離 を 採 用 し ま す 。 つ ま り 、 上 図 の A-D, A-F, D-F の 距 離で 3 つのグループの距離と見なすのです。最近隣法では近くにデータが あれば、それを結びつけるという手法をとりますが、最遠隣法では一番遠 くにあるデータを見つけ、これの距離を 2 つのグループの距離とする点が 違 い ま す 。グ ル ー プ 間 の 距 離 が 決 定 さ れ た な ら ば 、あ と の 操 作 は 同 じ で す 。 208 Farthest R. 1. ES -1.00 2. GE 0.61 3. CU 0.45 4. RD 0.54 5. PR 0.68 6. MX 0.34 Max. 1.00 + Min. 0.00 6.3.3. 平 均 結 合 法 最近隣法と最遠隣法はグループ間の距離を決定するのに正反対の考え方を しています。しかし、グループ間の距離を 1 つの代表値で計算しているこ と で は ど ち ら も 同 じ で す 。こ こ で 取 り 上 げ る「 平 均 結 合 法 」(Average linkage method)は グ ル ー プ 間 の 距 離 を 前 二 者 の よ う に 単 純 に そ れ ぞ れ の グ ル ー プ の 1 成分に代表させず、すべての組み合わせのペアの距離の平均値をもっ て 2 つのグループの距離と見なす手法です。たとえば、次の図で、 [A+B+C]と い う グ ル ー プ と [D+E]と い う グ ル ー プ 間 の 距 離 を A-D, A-E, B-D, B-E, C-D, C-E と い う ペ ア の す べ て の 距 離 を 足 し て 、ペ ア の 数 (6)で 割 っ た 値 を 2 つのグループ間の距離と見なします。 先 の 距 離 行 列 の 中 で 、す べ て の 距 離 の 中 で 最 小 値 は 4:RD と 5:PR の 間 の .16 です。最初にこの 2 国を 1 つのグループをなすと見なすのは最近隣法や最 遠 隣 法 と 同 じ で す 。新 し い グ ル ー プ 名 を (4+5)と 名 付 け て 、新 た に 相 関 行 列 を 作 成 し ま す 。 こ の と き グ ル ー プ (4+5)と 1, 2, 3, 6 と の 相 関 係 数 は 、 そ れ ぞれの組み合わせの平均値とします。これが群間平均法の要点です。たと え ば 、1 と (4+5)で は 、1-4 の .23 と 1-5 の .21 を 足 し て 2 で 割 り ま す 。以 下 、 2, 3, 6 に つ い て も 同 様 に 比 較 し ま す 。 最 後 に 次 の 図 が 得 ら れ ま す 。 209 Average R. 1. ES -1.00 2. GE 0.61 3. CU 0.50 4. RD 0.55 5. PR 0.68 6. MX 0.41 Max. 1.00 + Min. 0.00 6.3.4. 過 程 平 均 結 合 法 クラスター分析法にはほかにも多くの手法があります。これまで扱ってき た 3 つの手法は代表的なものですが、どれも原初の対照行列の成分をもと に距離を測っています。ここで提案する「過程平均法」は平均結合法に類 似しますが、クラスタリングの各ステップで、原初の対照行列の成分に戻 るのではなく、ステップを踏むときの対照行列の状態をもとに、新しく距 離を平均して求めます。 次 は 「 成 績 1」 の デ ー タ 行 列 ( 下 左 ) か ら マ ハ ラ ノ ビ ス 距 離 ( 下 右 ) を 計 算 し た 結 果 で す ( 平 均 化 、 最 大 値 比 : → 3.6.4 (3)) 。 項目 a.役立つ b.楽しい S A B C D E F G H A.文法解説 86 29 A 0.00 0.48 0.40 0.66 0.50 0.19 0.56 0.17 B.ビデオ 53 78 B 0.48 0.00 0.40 0.18 0.60 0.66 0.58 0.62 C.活動 48 53 C 0.40 0.40 0.00 0.54 0.81 0.48 0.19 0.44 D.映画 43 96 D 0.66 0.18 0.54 0.00 0.70 0.84 0.70 0.80 E.音読 110 42 E 0.50 0.60 0.81 0.70 0.00 0.63 1.00 0.63 F.筆写 93 11 F 0.19 0.66 0.48 0.84 0.63 0.00 0.59 0.04 G.観察 37 50 G 0.56 0.58 0.19 0.70 1.00 0.59 0.00 0.55 H.小テスト 89 15 H 0.17 0.62 0.44 0.80 0.63 0.04 0.55 0.00 は じ め に F+H が 全 体 の 最 短 距 離 (.04)に よ っ て 結 合 し ま す 。 S A B C D E A 0.00 0.48 0.40 0.66 0.50 0.18 0.56 B 0.48 0.00 0.40 0.18 0.60 0.64 0.58 C 0.40 0.40 0.00 0.54 0.81 0.46 0.19 D 0.66 0.18 0.54 0.00 0.70 0.82 0.70 E 0.50 0.60 0.81 0.70 0.00 0.63 1.00 [F+H] 0.18 0.64 0.46 0.82 0.63 0.02 0.57 G 0.57 0.00 0.56 0.58 0.19 0.70 1.00 [F+H] G 結 合 し た [F+H]と 他 の 成 分 、 た と え ば A と の 距 離 D ( [ F + H ] :A) は 次 の よ う に 計 210 算されています。 D ( [ F + H ] :A) = [D ( F : A) + D ( H : A) ] / 2 = (.19 + .17) / 2 = .18 他も同様です。これは平均結合法と同じです。次に上の表の中での最短距 離 (.18)を も つ [B+D]が 結 合 し ま す 。 D A [B+D] C E [F+H] G A 0.00 0.57 0.40 0.50 0.18 0.56 [B+D] 0.57 0.09 0.47 0.65 0.73 0.64 C 0.40 0.47 0.00 0.81 0.46 0.19 E 0.50 0.65 0.81 0.00 0.63 1.00 [F+H] 0.18 0.73 0.46 0.63 0.02 0.57 G 0.56 0.64 0.19 1.00 0.57 0.00 上 と 同 様 に [B+D] に 関 わ る 距 離 が 再 計 算 さ れ て い ま す 。 次 の ス テ ッ プ で [A+[F+H]]と い う 群 が 形 成 さ れ ま す ( 最 短 距 離 : .18) 。 D [A+[F+H]] [B+D] C E G [A+[F+H]] 0.09 0.65 0.43 0.57 0.57 [B+D] 0.65 0.09 0.47 0.65 0.64 C 0.43 0.47 0.00 0.81 0.19 E 0.57 0.65 0.81 0.00 1.00 G 0.57 0.64 0.19 1.00 0.00 こ の と き 過 程 平 均 法 で は 、た と え ば [A+[F+H]]と [B+D]の 距 離 を 次 の 式 で 計 算 し ま す 。上 の 表 で は な く 直 前 の ス テ ッ プ の 表 か ら D ( A:[ B + D ] ) と D ( [ F + H ] :[ B + D ] ) に該当する値を求めます。 D ( [ A+ [ F + H ] ] :[ B + D ] ) = [D ( A:[ B + D ] ) + D ( [ F + H ] :[ B + D ] ) ] / 2 = (.57 + .73) / 2 = .65 *一方、群平均法では、この計算を原初の対照行列に戻って次の式を適用 しました。 D ( [ A+ F + H ] :[ B + D ] ) = [D ( A :B ) + D ( A : D ) + D ( F :B ) + D ( F :D ) + D ( H :B ) + D ( H :D ) ] / 6 = 67.7 過程平均法における距離の再計算法として幾何平均を使用する次を提案し ます。先の最初のステップの例で示すと次のようになります。 D ( [ F + H ] :A) = [D ( F : A) D ( H : A) ] 1 /2 = (.19 x .17) 1 /2 = .18 この結果は先とほとんど変わりませんが、多くの計算では結果にかなりの 影 響 が 出 ま す 。先 の 算 術 平 均 を と る 方 法 を「 過 程 算 術 平 均 結 合 法 」と よ び 、 211 今 回 の 幾 何 平 均 を と る 方 法 を「 過 程 幾 何 結 合 平 均 法 」と よ ぶ こ と に し ま す 。 次は、これまで扱った 5 つの方法を同じデータに適用して比較した結果で す。 (1) 最 近 隣 法 Nearest D. A.文法解説 1.000 F.筆写 0.165 H.小テスト 0.044 B.ビデオ 0.402 D.映画 0.179 C.活動 0.400 G.観察 0.193 E.音読 0.496 Min. 0.000 + Max. 1.000 Min. 0.000 + Max. 1.000 Min. 0.000 + Max. 1.000 (2) 最 遠 隣 法 Furthest D. A.文法解説 1.000 F.筆写 0.190 H.小テスト 0.044 C.活動 0.587 G.観察 0.193 B.ビデオ 1.000 D.映画 0.179 E.音読 0.703 (3) 平 均 結 合 法 Average D. A.文法解説 1.000 F.筆写 0.178 H.小テスト 0.044 C.活動 0.503 G.観察 0.193 B.ビデオ 0.628 D.映画 0.179 E.音読 0.696 212 (4) 過 程 算 術 平 均 結 合 法 P . A . A v . D. A.文法解説 1.000 F.筆写 0.178 H.小テスト 0.044 C.活動 0.497 G.観察 0.193 B.ビデオ 0.602 D.映画 0.179 E.音読 0.694 Min. 0.000 + Max. 1.000 Min. 0.000 + Max. 1.000 (5) 過 程 幾 何 平 均 結 合 法 P . G. A v . D. A.文法解説 1.000 F.筆写 0.177 H.小テスト 0.044 C.活動 0.492 G.観察 0.193 B.ビデオ 0.590 D.映画 0.179 E.音読 0.680 5 つの方法を比較すると結果は類似していますが、最近隣法が他の方法に 比べて分類する力が弱いことがわかります。他の 4 つの方法ではそれぞれ の結合点が異なっています。一般に結合点が最小値に近いほどクラスター が原点に近い位置で形成されているので分類能力があると解釈できます。 上の例では過程幾何平均法が全体的に結合点が小さな値になっています。 ■地域語彙変異によるクラスター分析 クラスター分析はさまざまな分野で使われています。その理由のひとつ として他の多変数解析法と比べて理解しやすく、また結果も明示的でわか りやすいことが挙げられるでしょう。 類似度係数として何を使うか、また、クラスタリングアルゴリズムをど れにするかで、さまざまな組み合わせが可能です。それぞれの性質をよく 理解しデータの特徴や先行研究を踏まえたうえで納得できる結論を導くよ うにしたいと思います。 コンピュータは一定の条件さえ与えれば、それなりの答えを出してく れ ますが、これは可能な分析法の一つにすぎません。他の方法による結果と 比較しながら総合的に判断すべきです。 次は、スペイン語の語彙変異によるスペイン語圏地域をクラスター分類 したものです。全体はスペイン・アフリカ、カリブ海地域、メキシコ・中 213 米 、南 米 北 部 、ア ン デ ス・ラ プ ラ タ に 分 類 さ れ ま し た 。こ の よ う な 分 類 は 、 異なる言語特徴を選択しても、しばしば同じ結果になります。 クラスター分析:スペイン語圏の語彙バリエーション ■大規模データのクラスター集中分析 次は、カタルニア語の動詞形態の地理分布を列(動詞形態)と行(地点) でクラスター分析し、それぞれを集中化した結果です。大きな分布の塊の 他に、一定の語形と地点で収集した部分(赤い線で囲みました)が観察さ れます。その部分についての語形の特徴を探ると、地理的な基準ではなく 言語的な基準から地域を確定することができます。また、逆に、そのよう に確定された地域の言語特徴を抽出することができます。 214 * プ ロ グ ラ ム は 奥 村 (1986:170-180)を 参 照 し ま し た 。 6.4. 線状拡散度 データの性質を見るとき、その頻度と分散を調べることが重要です。デー タ が 複 数 あ る と き の 計 算 法 は 先 に 扱 い ま し た( → 2.5)。こ こ で は 次 の よ う に、連続して続く 1 つの文字データの頻度と拡散度を計算します。 N 1 2 3 4 5 6 7 8 9 10 11 L e mma L_ C ¡_B SU_ T COMIDA_ S ,_ B SIN_ P ADITIVO_ S !_B EL_ T ADITIVO_S DESACONSEJABLE_A (…) 文 字 デ ー タ の 頻 度 は Excel の ピ ボ ッ ト テ ー ブ ル を 使 っ て 計 算 で き ま す 。 一 215 方、同じデータが全体の中でどのように集中・拡散しているかを示す係数 を「 線 状 拡 散 度 」(linear dispersion: L.Disp .)と よ び 、次 の よ う に 定 義 し ま す 。 L.Disp. = 1 – (Σ (d(i) – md) 2 / n) 1 /2 / ((n – 1) 1 /2 * Σ (d(i) / n) こ こ で 、d(i)は 同 じ デ ー タ が 繰 り 返 さ れ る と き の 、そ れ ぞ れ の 間 隔 (distance) で す 。md は そ の 平 均 、n は 個 数 を 示 し ま す 。た と え ば 上 の デ ー タ の ADITIVO の 1 回 目 の 位 置 と 2 回 目 の 位 置 は 、そ れ ぞ れ 7 と 10 な の で 、そ の 間 隔 は 3 に な り ま す 。 md は 平 均 距 離 (mean distance)を 示 し 、 次 の よ う に し て 計 算 し ま す 。 た と え ば 5 つ の 単 語 が 次 の よ う に d(1), d(2), …, d(5)の 間 隔 で 出 現 し たとします。 d(0) x d(1) V d(2) d(3) V V y 一 方 、 こ の 単 語 が テ キ ス ト 内 で 、 完 全 に 等 間 隔 で 並 ん だ と き の 間 隔 が md です。 md(0) x md(1) V md(2) V md(3) V y d(1)と md の 差 を 計 算 し ま す 。同 様 に d(2)と md の 差 を 計 算 し ま す 。最 初 の d(0)と 最 後 の d(3)を 加 算 し 、そ れ と md(1)の 差 を 計 算 し ま す( V の 全 体 が 左 右 に 移 動 し て も 逸 脱 度 に 影 響 し な い た め で す md: md(1) = md(2) … = md(0) + md(n))。そ の 正 規 標 準 偏 差( → 1.1.6)は 平 均 分 布 か ら の 全 体 の 逸 脱 度 (0 .0~ 1.0)を 示 し ま す 。 「 線 状 拡 散 度 」 (L.Disp)は そ の 逆 数 に な る の で 、 1 か ら こ の値を引きます。結果は次のように出力されます。 Lemma L_C ¡_B SU_T COMIDA_S ,_B SIN_P ADITIVO_S !_B EL_T DESACONSEJABLE_A O_C SUSCEPTIBLE_A DE_P PROVOCAR_V Freq. F.Rank F.Permil L.Disp. L.D.Rank 1.000 1.000 .074 1.000 10.000 7.000 3.000 .516 .579 6.000 90.000 7.000 6.634 .866 9.000 38.000 6.000 2.801 .559 6.000 925.000 10.000 68.185 .965 10.000 17.000 5.000 1.253 .753 8.000 12.000 4.000 .885 .455 5.000 7.000 3.000 .516 .579 6.000 1148.000 10.000 84.623 .963 10.000 2.000 1.000 .147 .057 1.000 86.000 7.000 6.339 .888 9.000 1.000 1.000 .074 1.000 10.000 623.000 10.000 45.924 .958 10.000 5.000 3.000 .369 .682 7.000 216 Usage U.Rank 1.000 1.000 4.050 2.000 77.902 7.000 21.242 5.000 892.302 10.000 12.808 4.000 5.458 3.000 4.052 2.000 1105.631 10.000 .115 1.000 76.354 7.000 1.000 1.000 596.628 10.000 3.408 2.000 そ れ ぞ れ の 単 語 の 頻 度 数 (Freq.)、頻 度 数 ラ ン ク (F.Rank)、線 状 拡 散 度 (L.Disp)、 線 状 拡 散 度 ラ ン ク (L.D.Rank)、 使 用 度 (Usage)、 使 用 度 ラ ン ク (U.Rank)が 示 されています。使用度は頻度と線状拡散度を掛け合わせた値です。それぞ れ の 値 (n)の ラ ン ク (Rank: 1, 2, …, 10)は 最 大 値 (m)が 10 と な る よ う に 最 大 値 で 割 っ て 10 を 掛 け た 結 果 で す 。 RndUp は 小 数 点 以 下 の 繰 り 上 げ を す る 関 数 で す 。 こ れ に よ っ て ラ ン ク は 1 ~ 10 の 範 囲 の 整 数 に な り ま す 。 な お 、 頻 度の低い語の拡散度はあまり信頼できません。頻度が 1 の語の拡散度は必 ず 1 になります。 Rank = RndUp (n / m * 10) U.Rank = 5 の 単 語 に つ い て 、 F.Rank と L.D.Rank を 使 っ て 多 重 条 件 リ ス ト を出力すると、頻度と拡散の分布リストが作成できます。 Single Cond. 1 Freq.6 Freq.6 Freq.6 Freq.6 Freq.6 Freq.6 Freq.6 Freq.6 Freq.6 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.5 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 Freq.4 L.Disp.3 822_ENSEÑAR_V 1118_LUEGO_C 1525_LONGITUD_S 2126_ALMOHADA_S 2457_INFLAR_V 2786_POTENCIAL_S 7629_IRA_S 7736_MOLUSCO_S L.Disp.4 985_EN BUSCA DE_P 1107_MASTICAR_V 1273_EVENTUAL_A 1492_NIEVE_S 1772_REMOTO_A 1846_MACERACIÓN_S 1890_GENITAL_S 1981_LATA_S 2344_DE GOLPE_D 177_ANÓMALO_A 434_AUTOCONTROL_S 504_PESTICIDA_S 607_TENTEMPIÉ_S 755_HORNO_S 756_ATÚN_S 796_A LA PLANCHA_A 865_LIGHT_A 1162_PIMIENTA_S 1183_CORRELACIÓN_S L.Disp.5 L.Disp.6 L.Disp.7 98_ITU_S 520_TAPIOCA_S 626_MERENDAR_V 632_CENAR_V 1440_BERRO_S 1444_SILVESTRE_A 1731_AVALAR_V 1774_CONSIGO_N 1796_SISTEMA NACIONAL DE SALUD_X 156_REINFECCIÓN_S 1153_MOSTAZA_S 2163_SONAR_V 407_RASGO_S 1190_PROPENSO_A 2316_COMPETER_V 426_SOBRELLEVAR_V 1195_KIWI_S 2834_NOTORIO_A 580_AGUANTAR_V 1227_POPULAR_A 2904_ÉL_P 616_600_T 1339_SUPLEMENTARIO_A3163_SUBIDA_S 979_DESEADO_A 1424_TRIMESTRE_S 3854_IDÓNEO_A 1122_DESCUIDO_S 1474_NEGATIVAMENTE_D 4143_CUANTO_T 1145_AROMA_S 2016_POLEN_S 4257_CUARTO_T 1212_MADURACIÓN_S 2036_A MÁS DE_P 4278_71_T 1225_CURADO_A 2484_HINCAPIÉ_S 4388_VAPOR_S 736_PERDURAR_V 1290_CITADO_A 3404_XX_T 1102_FRASE_S 2014_RINITIS_S 3418_INQUIETAR_V 1164_CONVULSIÓN_S 2210_BUCODENTAL_A 4001_NORMALIZAR_V 1470_VACUNO_A 2827_PROTAGONISTA_S 4442_ADECUACIÓN_S 1824_PRESTIGIO_S 3241_DESCUIDAR_V 4522_SUBSANAR_V 1973_COCINADO_A 3419_COMPULSIVO_A 4688_ALMENDRA_S 1986_TOXIINFECCIÓN_S 3441_AJUSTADO_A 5642_EN MEDIO DE_P 2020_GRACIAS_I 3452_CONO_S 2044_ALIADO_S 3479_MUSLO_S 2931_INTRAMUSCULAR_A 3550_PERTURBAR_V 2956_LÁCTICO_A 3834_TRÁQUEA_S 2990_QUIRÚRGICAMENTE_D 3926_COMENTARIO_S L.Disp.8 L.Disp.9 3065_PROFUNDIZAR_V 4560_REPERCUTIR_V 4182_250_T 4511_CONTEMPLAR_V 4644_INEFICAZ_A 4418_BONITO_A 6.5. 検定 こ こ で は 、 ク ロ ス 集 計 の 表 か ら 関 連 度 を 数 値 化 す る 方 法 を 扱 い ま す 32 。 次 の表を見て下さい。 and 全体 but 58 so 43 合計 28 129 単純集計表 32 * 参 考 : 池 田 央 . 1976.『 統 計 的 方 法 I 基 礎 』 新 曜 社 . pp.121-132. 217 and but so 合計 文頭 12 7 11 30 文中 46 36 17 99 全体 58 43 28 129 クロス集計表 上の表は 1 つの指標(英語の等位接続詞)について数値(頻度)を表した も の で す 。一 方 、下 の 表 は (1)「 英 語 の 等 位 接 続 詞 」と (2)「 出 現 位 置 」と い う 2 つの指標を基に集計したものです。このようなものをクロス集計表と よびます。ここで問題となるのは、この 2 つの指標はお互いに関連してい るかどうかということです。具体的に言うと、2 つが関係している場合、 「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は 単 語 に よ っ て 異 な る 」 と い う 結 論 に な り ま す し 、関 係 し て い な い 場 合 、「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は 単語に左右されない」(それぞれの現象は「独立」である)ということに なります。この判定をする手法が、カイ二乗検定です。ここではカイ二乗 検 定 を 理 解 す る た め に 、 単 純 な 例 と し て 2-2 の 表 を 用 い て 説 明 し ま す 。 6.5.1. 検 定 の 方 法 なぜカイ二乗検定が必要なのでしょうか。次のようなケースで考えてみま しょう。ある現象を数えるにあたって、次のように、それが出現した場合 だけを数えるやり方があります。 「 方 法 A」 … 効 果 が あ っ た ケ ー ス : 59 「 方 法 B」 … 効 果 が あ っ た ケ ー ス : 49 「 方 法 A」 に 効 果 が あ っ た 場 合 の 数 を 59、 「 方 法 B」 に 効 果 が あ っ た 場 合 の 数 を 49 と し て 単 純 に 比 較 す る と 、確 か に「 方 法 A」の ほ う が 優 れ て い る 、 と い う 結 論 に な る か も し れ ま せ ん 。し か し 、こ こ で「 方 法 A」( そ し て「 方 法 B」 ) に 効 果 が あ っ た こ と を 確 か め る に は 、 「 方 法 A」 ( そ し て 「 方 法 B」 ) に 効 果 が な か っ た ケ ー ス も 調 べ る こ と が 必 要 で す 。 そ の 結 果 が 次 の 表です。 実 測 値 1 の 結 果 を 見 る と 、 や は り 「 方 法 A」 の ほ う が 「 方 法 B」 よ り 優 れ ているように見えますが、仮に次の実測値2ようなケースになったときは 判断が逆転してしまいます。 218 「 方 法 A」と「 方 法 B」は ど ち ら も 効 果 が あ る 場 合 よ り も 効 果 が な い 場 合 の 方 が 上 回 り 、そ れ ぞ れ の 方 法 の 差 は 6 で す が 、「 方 法 A」の「 効 果 が な い 」 の数が大きくなっています。 さ ら に 、 次 の 実 測 値 3 の よ う な ケ ー ス が あ り ま す 。 「 方 法 A」 も 「 方 法 B」 も ど ち ら も 「 効 果 が あ る 」 の 数 が 「 効 果 が な い 」 の 数 よ り も 上 回 っ て い ま す 。両 者 は「 効 果 が あ る 」と「 効 果 が な い 」の 差 は 10 と な っ て い ま す 。 は た し て 「 方 法 A」 が 「 方 法 B」 に 比 べ て 効 果 が あ る と 言 え る の で し ょ う か。 これらは単に「効果がある」という肯定的な反応だけを数えていては見つ か ら な か っ た 問 題 を 示 し て い ま す 。つ ま り 、方 法 A と 方 法 B の 差 を 考 え る には、効果があった場合と効果がなかった場合の両方を考える必要がある ということです(「方法」と「効果の有無」という 2 つの指標でクロス集 計する必要があるということです)。 そ れ で は 実 測 値 1~ 3 の 場 合 、 方 法 A と 方 法 B に 差 が あ る と い え る の は どれでしょうか。この数値を統計的に算出するのがカイ二乗検定です。こ の方法を用いることで、差があるかどうかをはっきりと数値で示すことが できます。 6.5.2. 期 待 値 を 計 算 す る カ イ 二 乗 検 定 の 基 に な る デ ー タ は 、(1)実 測 値 と (2)期 待 値 で す 。以 下 、例 と し て 実 測 値 1 を 見 て い き ま し ょ う 33 。 このデータをグラフにして視覚化しておきます。 33 比率は「効果がある」の値を「効果がない」の値で割った値です。1 よ り大きいと「効果がある」ほうが多いことを示します。 219 期待値の計算方法に関しては 5 章(→)で見ましたが、ここでは少し違っ た角度から算出方法を再度考えてみます。説明のために、観測値を次のよ うによぶことにします。 次 の 表 で は 各 セ ル に 「 期 待 さ れ る 」 得 点 (期 待 得 点 : expected score)が 示 さ れています。期待得点は次のような式で計算されます。 期待値 効果がある 効果がない 方法 A (a + b)×(a + c) a+b +c+d (a + b)×(b + d) a+b +c+d 方法 B (c + d)×(a + c) a+b +c+d (c + d)×(b + d) a+b +c+d た と え ば 、 方 法 A の 効 果 が あ る 期 待 値 は 、 方 法 A の 総 数 (a + b) 94 に 「 効 果 が あ る 」と 期 待 で き る 率 (a + c) 108、掛 け た 数 値 を 総 数 で 割 っ た 値 で す 。 総 数 94 が 108:88 に 分 割 さ れ る と き に 108 の 側 に 当 然 期 待 で き る 数 値 、94 x (108 / 196)を 示 し ま す 34 。 34 こ こ で 、こ れ ら の 期 待 値 の す べ て が 5 以 上 で あ る か ど う か を 確 か め て お きます。いずれかが 5 以下だと誤差が大きくてカイ二乗検定には向いてい 220 「 方 法 A」 ・ 「 効 果 が あ る 」 の 期 待 得 点 94 x 108 / 196 = 51.796 「 方 法 A」 ・ 「 効 果 が な い 」 の 期 待 得 点 94 x 88 / 196=42.204 「 方 法 B」 ・ 「 効 果 が あ る 」 の 期 待 得 点 102 x 108 / 196=56.204 「 方 法 B」 ・ 「 効 果 が な い 」 の 期 待 得 点 102 x 88 / 196=45.796 も し 実 際 に 観 察 さ れ る 値 が 当 然 予 測 さ れ る 値( 期 待 値 )と 近 い な ら ば 、「 偶 然でも起こるかもしれない分布」ということになります。逆に、もしそれ が期待値から大きく外れるならば、観察されたデータは有意味な分布を示 していると考えられます。「偶然ではほとんどあり得ない」と考えるので す 。つ ま り 、カ イ 二 乗 検 定 の ポ イ ン ト は 、「 実 測 値 と 期 待 値 の ズ レ を 見 る 」 というところにあります。 6.5.3. カ イ 二 乗 値 を 求 め る 期 待 値 と 実 測 値 の ず れ を 総 合 的 に 判 断 す る た め 、す べ て の 升 目 (a, b, c, d) における実際の観測値と期待値の「相対的な差」の総和で求めます。相対 化するには、実測値から期待値を引いたものを期待値で割ります。また、 「 相 対 的 な 差 」の 合 計 は 、そ の ま ま で は 0 に な っ て し ま い ま す の で 、単 純 に 期待値からの距離を求めるために二乗しておきます(これがカイ「二乗」 という名前の由来です)。 標準化した値 = (実 測 値 ―期 待 値 ) 2 期待値 このような操作を「標準化」とよびます。データには一定の単位がありま すが、標準化すると単位がなくなります。単位がなくなると、どのような デ ー タ で も 統 計 的 に 同 じ 処 理 が で き る よ う に な る の で す 35 。 次 が そ れ ぞ れ の相対的な差です。 ないデータと判断されます。 35 た と え ば 、デ ー タ の 絶 対 的 な 値 を 3 メ ー ト ル だ と し て 、そ れ が 全 体 の 10 メ ー ト ル の 中 で の 割 合 を 見 る と 、 0.3 と い う 単 位 ( メ ー ト ル ) が な く な っ た数値になり、この数値は他のケースの割合と同じ尺度で(標準化された 尺度で)比較できます。期待値を使った標準化もそれとよく似ています。 221 こ れ ら の 値 を 合 計 し た 値 が 「 カ イ 二 乗 の 統 計 量 」 ( χ2) と よ ば れ る も の で す。 χ 2 =1.002 + 1.230 + 0.923 + 1.133 = 4.288 式 を 一 般 化 し ま し ょ う 。 実 測 値 a, b, c, d の 期 待 値 を そ れ ぞ れ 、 a', b', c', d' とし、標準化した値の総和は次のようになります。 χ2 = (a - a') 2 (b - b') 2 (c - c') 2 (d - d') 2 + + + a' b' c' d' カイ二乗の統計量は、期待値からのズレ(距離)の総和ということになり ます。この値が大きいほど、期待値とのズレが大きいということが言えま す。 6.5.4. 検 定 の 考 え 方 値や差を推定する統計は確率に基づいています。確率は全くありえない 0% か ら 、絶 対 そ う で あ る 100% ま で あ り ま す が 、た と え ば 方 法 A と 方 法 B の 間 に 「 差 が 100% あ る 」 と 言 い 切 る こ と は 難 し い で す 。 で は 、 ど う す る かというと「差がないとは言えない」という消極的な言い方をします。こ の 証 明 に は 、100% と は 反 対 の 0% か ら 出 発 し ま す 。つ ま り 、「 方 法 A と 方 法 B に は( 全 く )差 が な い 」と い う 仮 説 か ら ス タ ー ト す る の で す 。こ の 仮 説 を 帰 無 仮 説 (H 0 )と よ び ま す 。 無 に 帰 し た い ( 棄 却 し た い ) 仮 説 な の で こ の よ う に よ ば れ ま す 。 こ の 逆 の 「 差 が あ る 」 と い う 仮 説 を 対 立 仮 説 (H 1 )と よびます。 H0: 方 法 A と 方 法 B に は 差 が な い H1: 方 法 A と 方 法 B に は 差 が あ る 推 測 統 計 が 求 め る 確 率 は H 0 が 成 立 す る 確 率 で す 。た と え ば 検 定 の 結 果 、3% と 出 れ ば 、 こ れ は 「 方 法 A と 方 法 B に は 差 が な い 可 能 性 が 3%」 と い う こ と で す 。 逆 に 言 え ば 、 97%の 確 率 で H 1 ( 差 が あ る ) が 成 立 し ま す 。 こ の 場 合 、H 1 が 成 立 す る 可 能 性 が か な り 高 い で す の で 、H 0 は 棄 却 で き る こ と に な ります。 こ の よ う に 棄 却 す る 基 準 の こ と を 「 有 意 水 準 」 と よ び ま す 。 一 般 に 5% と 1% が 用 い ら れ ま す 。 た と え ば 「 5% の 有 意 水 準 で H 0 が 棄 却 で き る 」 と い う 結 論 は 、H 0 の 成 り 立 つ 確 率 が 5% 以 下( H 1 が 成 り 立 つ 確 率 が 95% 以 上 ) ということになります。 222 6.5.5. 検 定 の 評 価 カイ二乗統計量は、期待値とのズレであるということを見ました。それで は こ の 値 が ど の 程 度 大 き け れ ば 差 が あ る と い え る の で し ょ う か 。 2-2 の 分 割表では次のように決まっています。 有意水準 閾値 5% 3.841 1% 6.634 閾値とは、カイ二乗統計量の値がそれ以下であれば成り立たないというこ と で す 。あ ら た め て 先 ほ ど の 値 は 4.288 な の で 、5% の 閾 値 よ り も 大 き い こ と に な り ま す 。従 っ て 、こ の 結 果 は「 5% 水 準 で 有 意 な 差 が あ る 」と 解 釈 で き ま す 。 一 方 、 1% 水 準 の 閾 値 は 6.634 で す の で 、 こ の 水 準 で は H 0 を 棄 却 することはできません。 さ き ほ ど 「 2-2 の 分 割 表 で は 」 と い う 但 し 書 き を つ け ま し た が 、 こ の 点 は重要ですので触れておきます。カイ二乗統計量は期待値からのズレの合 計であるということを見ましたが、マス目が増えれば増えるほど合計の値 が 大 き く な り ま す 。 た と え ば 、 2-2 の マ ス と 4-4 の マ ス で は マ ス の 数 は 4 マ ス と 16 マ ス で す の で 、平 等 に 扱 う の は お か し い で し ょ う 。つ ま り 、有 意 水準の閾値の値も、マス目の数によって大きくなっていくということにな ります。 こ の 基 準 は 「 自 由 度 」 (degree of freedom, df)と よ ば れ ま す 。 自 由 度 と い う の は 自 由 に 値 を 決 め る こ と が で き る マ ス の 数 の こ と で す 。た と え ば 、2-2 のマスでは、1 つのマスを決めると、縦と横の合計が同じならば他のすべ てのマスの値は自動的に決まってしまうので自由度は 1 ということになり ま す 。 次 の 表 で 方 法 A の 「 効 果 が あ る 」 を 10 と す る と 、 方 法 A の 「 効 果 が な い 」 は 84、 方 法 A の 「 効 果 が あ る 」 は 98、 方 法 B の 「 効 果 が な い 」 は 4 に決まります。 実測値 1 効果がある 効果がない 方法 A 10 94-10 94 方法 B 108-10 102-(108-10) 102 108 88 196 な お 、n-p の ク ロ ス 集 計 表 の 自 由 度 は 、(n-1)-(p-1)で 求 め る こ と が で き ま す 。 以 上 の こ と を ま と め て 次 の よ う に 表 し ま す 36 。 χ 2 = 4.288 > χ 2 (df: 1, p: 0.05) = 3.841 36 df は 自 由 度 (degree of freedom)、 p は 確 率 (probability)を 示 し ま す 。 223 こ れ は 「 カ イ 二 乗 統 計 量 は 4.288 で 、 自 由 で 1 の 場 合 の 5% 有 意 水 準 の 3.841 よ り も 大 き く 統 計 的 に 有 意 で あ る 」 と い う 意 味 で す 。 6.5.6. イ ェ イ ツ の 補 正 ( Yates’ correction) 2-2 の 数 値 表 で は カ イ 二 乗 の 統 計 量 が 一 般 に 大 き く な る 傾 向 が あ り ま す 。 そ の た め 、 先 の χ2 の 代 わ り に 次 の 式 を 使 っ て 少 し 補 正 し ま す 。 n n(|ad - bc| - ) 2 2 χ 2 (Yate's cor.) = (a+b)(a+c)(c+d)(b+d) そ う す る と 、 イ ェ イ ツ の 補 正 を し た 結 果 χ 2 (Yate’s cor.)は 3.714 と な っ て 、 先 ほ ど の 値 よ り も 少 し 小 さ く な り ま し た 。 こ の 場 合 も 有 意 水 準 1%で 帰 無 仮説を棄却できないことになります。このようにイェイツの補正を利用す ることでより慎重な評価ができます。 ● カ イ 二 乗 ・ イ ェ イ ツ の 補 正 ・ Phi 係 数 イ ェ イ ツ の 補 正 は χ 二 乗 値 の 分 子 か ら n / 2 を 引 い た 数 値 に な り ま す 。こ の ことを確かめておきましょう。 はじめに次が実測値です。 O X(+) X(-) 和 Y(+) a b a+b =s Y(-) c d c+d =t 和 a+c=u b +d=v a + b + c + d =n 次 に a, b, c, d そ れ ぞ れ の χ 二 乗 値 を 計 算 し ま す 。 χ 2 (a) = (a – su / n) 2 / (su / n) = [(an – su) 2 / n 2 ][n / su] = (an – su) 2 / nsu χ 2 (b) = (b – sv / n) 2 / (sv / n) = [(bn – sv) 2 / n 2 ][n / sv] = (bn – sv) 2 / nsv χ 2 (c) = (c – tu / n) 2 / (tu / n) = [(cn – tu) 2 / n 2 ][n / tu] = (cn – tu) 2 / ntu χ 2 (d) = (d – tv / n) 2 / (tv / n) = [(dn – tv) 2 / n 2 ][n / tv] = (dn – tv) 2 / ntv こ の 和 が χ 二 乗 (χ 2 )で す 。 χ2 = [ tv(an – su) 2 + tu(bn – sv) 2 + sv(cn – tu) 2 + su(dn – tv) 2 ] / nstuv = [ tv (a 2 n 2 – 2ansu + s 2 u 2 ) + tu (b 2 n 2 – 2bnsv + s 2 v 2 ) + sv (c 2 n 2 -2cntu + t 2 u 2 ) 224 + su (d 2 n 2 – 2dnvt + t 2 v 2 ) ] / nstuv = (a 2 n 2 tv – 2ansutv + s 2 u 2 tv + b 2 n 2 tu – 2bnsvtu + s 2 vtu 2 + c 2 n 2 sv -2cntusv + t 2 u 2 sv + d 2 n 2 su – 2dnvtsu + t 2 v 2 su) / nstuv 縦列で足します。 = [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2stuvn (a + b + c + d) + stuv (su + sv + tu + tv) ] / nstuv = [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2stuvn 2 + stuv (s + t)(u + v) ] / nstuv = [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2n 2 stuv + n 2 stuv] / nstuv = n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / nstuv = n (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / stuv s = a + b, t = c + d, u = a + c, v = b + d な の で = n [ a 2 (c + d)(b + d) + b 2 (c + d)(a + c) + c 2 (a + b)(b + d) + d 2 (a + b)(a + c) - (a + b)(c + d)(a + c)(b + d) ] / stuv = n [a 2 (bc + cd + bd + d 2 ) + b 2 (ac + c 2 + ad + cd) + c 2 (ab + ad + b 2 + bd) + d 2 (a 2 + ac + ab + bc) – (ac + ad + bc + bd)(ab + ad + bc + cd) ] / stuv = n [ a 2 bc + a 2 cd + a 2 bd + a 2 d 2 + ab 2 c + b 2 c 2 + ab 2 d + b 2 cd + abc 2 + ac 2 d + b 2 c 2 + bc 2 d + a 2 d 2 + acd 2 + abd 2 + bcd 2 - a 2 bc - a 2 cd – abc 2 – ac 2 d - a 2 bd – a 2 d 2 – abcd – acd 2 225 - ab 2 c – abcd – b 2 c 2 – bc 2 d - ab 2 d – abd 2 – b 2 cd – bcd 2 ] /stuv = n (a 2 d 2 – 2abcd + b 2 c 2 ) / stuv = n (ad – bc) 2 / [(a + b)(a + c)(c + d)(b + d)] こ の 式 は 先 に 見 た χ 2 (Yate's cor.)と わ ず か に 分 子 の 一 部 が 異 な る だ け で す 。 ま た 、こ の 式 は 先 に 見 た Phi 係 数 を 二 乗 し て n(= a + b + c + d)を 掛 け た 数 値 になります。 χ 2 = n Phi 2 ● Excel に よ る カ イ 二 乗 検 定 そ れ で は Excel で カ イ 二 乗 検 定 を 行 っ て み ま し ょ う 。 カ イ 二 乗 検 定 で は 実測値と期待値、そして標準化した値を基にして計算しますので、次のよ うなカイ二乗検定をするためのシートを作成します。 実測値は横和と縦和の両方を求めておきます。 期待値 「 実 測 値 」 の 和 を 参 照 し て 「 期 待 値 」 を 計 算 し ま す 。 B7 に 次 の 式 を 書 き 込 み、全体にコピーします。なお、表示はセルの書式設定から小数点以下 3 位までの設定にしました。 B7=$D2*B$4/$D$4 226 標準化 (1)「 実 測 値 」と「 期 待 値 」を 参 照 し て 期 待 値 と の 差 を 標 準 化 し た 各 値 を 計 算 し ま す 。二 乗 に は ^( キ ャ レ ッ ト )を 使 い ま す 。次 の 式 を 入 力 し 、残 り の セルにコピーします。 B11 =(B2-B7)^2/B7 227 カイ二乗統計量 カイ二乗統計量は標準化した値の合計です。次の式を入力します。 B14= sum(B11:C12)=4.288 有意水準・自由度・限界値 Excel に は CHIINV と い う 関 数 が 用 意 さ れ て お り 、 「 有 意 水 準 」と「 自 由 度 」 を 基 に 閾 値 を 算 出 で き ま す 。引 数 は 、CHIINV(確 率 ,自 由 度 )で す 。こ こ で は 自 由 度 1 の 場 合 の 5%と 1%の 閾 値 を 求 め て み ま し ょ う 。 B15=CHIINV(0.05,1) B16=CHIINV(0.01,1) 以 上 の 結 果 か ら 、 カ イ 二 乗 統 計 量 は 5%水 準 の 閾 値 よ り も 大 き く 、 1%水 準 の 閾 値 よ り も 小 さ い の で 、 5% 水 準 で 有 意 、 1% 水 準 で は そ う で は な い と い うことがいえます。 Yates の 補 正 イェイツの補正を求める関数は残念ながら用意されていませんので、数式 を 自 分 で 入 力 し ま す 。絶 対 値 に 変 換 す る に は ABS 関 数 を 利 用 し ま す 。次 の 式を入力してみましょう。 228 B17 =(ABS(B2*C3-B3*C2)-D4/2)^2*D4/(B4*C4*D2*D3)=3.714 CHITEST 関 数 を 使 う Excel に は CHITEST 関 数 が 用 意 さ れ て お り 、こ れ を 利 用 す る と 実 測 値 と 期 待 値 か ら H 0 が 成 り 立 つ 確 率 を 直 接 計 算 す る こ と が で き ま す 。 CHITEST(実 測 値 ,期 待 値 )と い う 形 で 使 い ま す 。 B18 =CHITEST(B2:C3,B7:C8) こ の 計 算 の 結 果 、 0.038 と 出 ま す 。 こ れ は H 0 が 成 り 立 つ 可 能 性 が 3.8% で 229 あ る こ と を 示 し て い ま す 。つ ま り 、5% 水 準 で は 十 分 に 棄 却 で き る 値 で あ る ということを示します。 この手法を使うと、標準化の手順が省略できるというメリットと、直接 確率を求めることができるというメリットがあります。先ほどまでの結果 で は 5% 水 準 で は 有 意 だ が 1% 水 準 で は 違 う と い う こ と で し た が 、 3.8% は ちょうどこの間に入ります。 実 測 値 2、 実 測 値 3 に つ い て 実測値 2 と 3 について同じように計算するにはシートをコピーして実測値 の値を入れ替えればよいでしょう。次のような結果になりました。 230 カイ二乗統計量もイェイツもかなり小さい値になっています。このことか ら 、 実 測 値 2 と 3 で は 方 法 A と 方 法 B に 差 が あ る と は 言 え ま せ ん ( H0 を 棄却できません)。 ■カイ二乗分布 カ イ 二 乗 の「 限 界 値 」は「 有 意 水 準 」と「 自 由 度 」に よ っ て 決 ま り ま す 。 た と え ば 、 自 由 度 =1、 有 意 水 準 =0.05 な ら ば 、 限 界 値 は 3.841 に な り ま す 。 この限界値は非常に複雑な数式によって導かれるもので、これを理解す ることは私たちの「文系のデータ分析」の範囲を超えていると思います。 次 に 示 す シ ー ト は 、カ イ 二 乗 分 布 を 示 す 関 数 を 自 由 度 1, 2, 3 に つ い て 求 め た も の で す が 、 セ ル [B2]の 数 式 は 、 次 の よ う な 関 数 を 使 い ま す 。 こ の よ う に非常に複雑な式なのです。 B2==$A2^(B$1/2-1)*EXP(-1*$A2/2)/(2^(B$1/2)*EXP(GAMMALN(B$1/2))) こ こ で 、 自 由 度 (F)=1 の 線 の 3.841 の 値 の 右 側 の 面 積 が 全 体 の 5%に な る こ とを示しています。 私たちは実験をすることによってこれを実際に納得することができます。 次 は 、 ラ ン ダ ム に 1000 ほ ど の 偏 り の な い ケ ー ス を 発 生 さ せ 、 自 由 度 =1 の カイ二乗値の頻度を計算した結果です。 231 それぞれ、先に示した理論的に導かれる連続線の形状に近似していること がわかります。この実験は何度やっても、具体的な数値は変わりますが、 グラフの形はそれぞれ類似しています。 ■ブラックボックス・リープ・ディスコネックション 書 店 に は 統 計 学 の 参 考 書 が 多 く 並 ん で い ま す 。 「 Excel を 使 っ て こ の よ うにすればよい」と説明する手法の本もたくさんあります。実際に手にと って見ると、簡単に統計処理ができるように書かれていて参考になる本も ありますが、中には、手法だけを扱って、応用法についての注意などがな く、数学的な背景については大まかに理解していればよい、という姿勢で 書かれているものも多いようです。 たしかに、書かれてあるとおりのテクニックを使えばそ れなりの結果が 出るのですが、どうしてそのような結果が出るのか具体的にわからないこ とがあります。これでは計算過程がブラックボックスになってしまい、自 分が出した結果を説明できません。 参考書の中には説明が「飛躍している」(リープ)と思われるケースも あります。これは説明の段落がどのようにつながるのかわからないような 状態です。もしかしたら自分の数学的な知識が不足しているため、リープ だと勝手に判断しているのかもしれません。 また、説明の中には「~ということが知られている」「~という公式を 使 う 」と い う よ う な 背 景 知 識 に 対 す る リ ン ク に な っ て い る こ と が あ り ま す 。 しかし、私たちが「知られている」という事実や「公式」に疎いとき、背 景知識とのリンクは切れてしまっています(ディスコネクション)。 このような理論的な理解がない状態で手法だけを応用してしまうと、結 局自分が何をやっているのかわからないのに、自分の名前をつけたレポー ト・論文・発表を生産してしまうことになりかねません。本人がわかって いないのに、レポート・論文を読む人や発表を聞く人がいるというのは望 ましくありません。 232 そこで、自分にとって、ブラックボックス、リープ、ディスコネクショ ンがあると思われる参考書の説明については、ぜひ自分で実際にいろいろ な 実 験 を し て 納 得 が い く ま で 確 か め て く だ さ い 。 Excel は そ の 実 験 道 具 と して役立ちます。そして、実験をしながら感覚的に様子がわかったら、今 度は統計学や数学の本を読んで数式を理解してください。誰でも難しそう な記号が並んだ数式を目にすると尻込みすることはよくあることですが、 そこでじっくり腰を据えて理解してみると案外身近なものであることはよ くあることです。理論の理解と実験の順番は逆でも、同時でもよいでしょ う 。 机 上 の 書 籍 と Excel の 往 復 作 業 で す 。 い ず れ に し て も 自 分 で 納 得 で き た手法を使うことを勧めます。ちょっと面倒かもしれませんが、努力の結 果自分が納得できる成果を得たとき、その達成感が次のステップにつなが ります。 233 7. 図 表 変 数 の 関 係 を 示 す 図 を 描 く た め の プ ロ グ ラ ム で す 。 Excel の 標 準 的 な グ ラ フにないものをマクロで作成しました。 7.1. 比率棒グラフ 入力データ「評価」は、スペイン語の授業についてのアンケートの結果で す。たとえば、第 1 行の「文法解説」について、それがスペイン語の学習 上「 効 果 が あ る 」と 思 う 人 の 総 数 は 86 名 で し た( 総 数 124 名 )。ま た 、同 じ 項 目 が 「 楽 し い 」 と 思 う 人 の 総 数 は 29 名 で あ る こ と を 示 し て い ま す 。 はじめに複数の棒グラフの間のパーセントの比較をします。 データと結果 項目 a.役立つ b.楽しい 項目 a.役 立 つ b.楽 し い A.文法解説 86 29 A.文 法 解 説 0.75 0.25 B.ビデオ 53 78 B.ビ デ オ 0.40 0.60 C.活動 48 53 C.活 動 0.48 0.52 D.映画 43 96 D.映 画 0.31 0.69 E.音読 110 42 E.音 読 0.72 0.28 F.筆写 93 11 F.筆 写 0.89 0.11 G.観察 37 50 G.観 察 0.43 0.57 H.小テスト 89 15 H.小 テ ス ト 0.86 0.14 *プログラムははじめに上右の表を作成し、これを参照して次のグラフを 表の上に出力します。グラフをドラッグして他の場所に移動すると、表の 内 容 を 確 認 す る こ と が で き ま す 。書 式 を「 0%」に す る と 次 の よ う に パ ー セ ント表示になります。 234 7.2. バブルチャート データの値をバブルの大きさで表示した散布図を作成します。 は じ め に 行 と 列 に 連 番 を つ け 、こ れ を 標 準 化 し た 値 を X と Y の 座 標 と し て 使います。それぞれの座標に位置するデータの値を第 3 列に用意します。 項目 行 列 値 1 -1.00 -1.53 86.00 2 1.00 3 -1.00 -1.09 53.00 4 1.00 5 -1.00 -0.65 48.00 6 1.00 7 -1.00 -0.22 43.00 8 1.00 9 -1.00 0.22 110.00 10 1.00 0.22 42.00 11 -1.00 0.65 93.00 12 1.00 0.65 11.00 13 -1.00 1.09 37.00 14 1.00 1.09 50.00 15 -1.00 1.53 89.00 16 1.00 15.00 -1.53 29.00 -1.09 78.00 -0.65 53.00 -0.22 96.00 1.53 次にこれを参照してバブルチャートを出力します。 235 * こ の 図 は Excel の 「 条 件 付 き 書 式 」 の 「 デ ー タ バ ー 」 ( 下 図 ) と ほ と ん ど同じ情報を示しますが、列と行の参照値を座標としていることが異なり ま す 。 → 『 基 礎 』 p.**. 7.3. ボックスチャート 「 QT ボ ッ ク ス チ ャ ー ト 」 は 最 大 値 、 最 小 値 、 第 1 四 分 点 、 第 3 四 分 点 、 中 央値を使ってデータの分布の様子を示します。四分点と中央値については →『 基 礎 』(p.**)。ボ ッ ク ス チ ャ ー ト は デ ー タ の 分 布 の 様 子( 拡 が り と 中 央 値の位置)を観察するときに役立ちます。プログラムはデータ行列から次 の表を作成します。 236 結果 要約値 a.役 立 つ b.楽 し い 90.00 59.25 最大値 110.00 96.00 最小値 37.00 11.00 第 1 四分位数 46.75 25.50 中央値 69.50 46.00 第 3 四分位数 次にこれを参照してボックスチャートを出力します。 「 SD ボ ッ ク ス チ ャ ー ト 」 を 選 択 す る と 要 約 値 と し て 平 均 と 標 準 偏 差 (SD)を 使います。 要約値 a.役 立 つ b.楽 し い 95.70 74.31 最大値 110.00 96.00 最小値 37.00 11.00 平 均 - SD 44.05 19.19 平均 69.88 46.75 平 均 + SD 237 7.4. 二変数対比図 棒グラフの一種である対比図は棒が左右に伸びていくので、それぞれの量 を比べながら観察するときに便利です。「最大値」は、セル内の最大値を 超 え る 値 で 切 り の よ い 数 を 設 定 を し ま す 。 こ こ で は セ ル の 最 大 値 が 110 な の で 、 グ ラ フ の 最 大 値 を 120 と し ま す 。 プログラムははじめに次のような行を反転した表を作成します。 項目 a.役立つ b.楽しい H.小テスト 89 15 G.観察 37 50 F.筆写 93 11 E.音読 110 42 D.映画 43 96 C.活動 48 53 B.ビデオ 53 78 A.文法解説 86 29 次にこれを参照して次のような二変数対比図を出力します。 238 結果 7.5. 項目散布図 散布図は 2 つの変数をもつデータが 2 次元の平面上にどのような配置され る の か を 見 る た め に 使 い ま す ( → 『 基 礎 』 p.**) 。 こ こ で は 散 布 図 の 中 に データの項目名を表示する「項目散布図」を作ります。 プログラムははじめにデータ行列から次の表を作成します。 A.文 法 解 説 86 53 48 43 B.ビ デ オ C.活 動 D.映 画 E.音 読 F.筆 写 G .観 察 H.小 テ ス ト 29 78 53 96 110 42 93 11 37 50 89 15 プログラムはこの表を参照して次のチャートを出力します。 239 結果 *この図を見ると、それぞれの項目が「+楽しい・-役立つ」のグループ と、「-楽しい・+役立つ」のグループに分類できることがわかるでしょ う。 ■グラフによる視覚化 データ行列には多くの情報が含まれていますが、縦と横に並んだ数値の連 続のままでは、その情報を読み取ることが困難です。そこで、さまざまな グラフを使って数値の情報を視覚化します。 先 に 扱 っ た 項 目 散 布 図 を 下 に 再 掲 し ま し ょ う 。こ こ で は「 描 画 キ ャ ン パ ス 」 を 使 っ て そ れ ぞ れ の グ ル ー プ を ○ で 囲 っ て み ま し た 。 → 『 基 礎 』 p.**. 240 8. Excel の操作 * 以 下 で は 、 Excel シ ー ト に 直 接 関 数 を 書 き 込 む こ と は し な い で 、 デ ー タ 行列全体を選択し、それを対象にして、プログラムを使って、様々な変換 や 分 析 を 行 い ま す 。プ ロ グ ラ ム は Excel の VBA (Visual Basic for A p p lication) を使います。 私 た ち が 開 発 し て き た NUMEROS の す べ て の プ ロ グ ラ ム コ ー ド を 解 説 す ることはスペースの関係でできません。また、プログラムは随時改訂して いるので、バージョンがすぐ古くなってしまいます。一定のコーディング を習得した後では、全体のプログラムの解説は不要になると思います。そ こ で 、★ プ ロ グ ラ ム で は NUMEROS の 主 要 部 だ け を 取 り 上 げ て 簡 単 に 説 明 します。ここでは、行列を受け取って一定の演算をした行列を返す一連の 関 数 を 「 行 列 関 数 」 と よ ぶ こ と に し ま す 。 行 列 関 数 の 引 数 は Variant 型 の 変数です。 このテキストでは、おもに言語の変化・変異を数量的に分析する方法を 説明しますので、プログラムで用いる様々な関数やコードの規則について は、自分に適した難易度の本を選択して、各自自習しておいてください。 Excel の Help や ウ ェ ブ で 提 供 さ れ て い る 多 く の 情 報 も 役 立 ち ま す 。 8.1. 相関係数 (1) 次 の デ ー タ を 使 用 し ま す ( 前 節 と 同 じ も の で す ) 。 鍵語 1 Madrid 2 Sevilla 151 163 con 38 45 de 202 195 en 105 81 por 54 45 a (2) 次 の 計 算 を し ま す 。 B7 =SUM(B2:B6) B8 =AVERAGE(B2:B6) B9 =STDEVP(B2:B6) 241 (3) B7:B9 を コ ピ ー し 、 C7 に 貼 付 け ま す 。 (4) D2 に 標 準 得 点 の 式 を 入 れ ま す 。 D2 =(B2-B$8)/B$9 (5) D2 を D2:E6 に コ ピ ー 。桁 数 が 不 統 一 だ と 比 較 し に く い の で D, E 列 の 書 式を小数点以下 3 とします。 (6) B7:C9 を コ ピ ー し て D7 に 貼 付 け ま す 。 これで正しく標準化されたことがわかります。次に、これらの数値をもと に相関係数を求めてみましょう。まず、それぞれの項目の標準得点の積と 全体の積平均を求めます。 242 F2 = D2*E2 F2 を (F3:F6)に コ ピ ー (B7:B8)を (F7:F8)に コ ピ ー これで標準得点をもとに相関係数を求めることができました。 結 果 を 確 認 す る た め に 、 Excel 関 数 を 使 っ て 相 関 係 数 を 算 出 し 比 較 し て み ま し ょ う 。 Excel に は COREEL と い う 関 数 が 用 意 さ れ て お り 、 対 象 と な る 2 つのデータをコンマ区切りで選択します。 B10 =CORREL(B2:B6,C2:C6) F8 と B10 の 値 が 同 じ に な る こ と を 確 認 し ま し ょ う 。 <Tips> そ れ ぞ れ の 特 徴 を 見 る た め に 値 を 操 作 す る の に「 ス ピ ン ボ タ ン 」を 使うと便利です。 (1) は じ め に リ ボ ン に 「 開 発 」 タ ブ を 設 定 し ま す 。 ◆ 「 フ ァ イ ル 」 → 「 オ プ シ ョ ン 」→「 リ ボ ン の ユ ー ザ ー 設 定 」→ ]を 選 択 し 、「 リ ボ ン の ユ ー ザ ー 243 設定」で「メインタブ」の「開発」のチェックボックスをオンにします。 Excel 2007: 「 Office ボ タ ン 」 → 「 Excel の オ プ シ ョ ン 」 → 「 基 本 設 定 」 → 「 [開 発 ]タ ブ を リ ボ ン に 表 示 す る 」 を チ ェ ッ ク (2)「 開 発 」 → 「 コ ン ト ロ ー ル 」 → 「 挿 入 」 → 「 フ ォ ー ム コ ン ト ロ ー ル 」 の 中のスピンボタンをクリック→シート内の適当な位置にドラッグして配置 します。 (3) シ ー ト に 配 置 し た ス ピ ボ タ ン を 右 ク リ ッ ク → 「 コ ン ト ロ ー ル の 書 式 設 定」 244 (4) 「 コ ン ト ロ ー ル 」 タ ブ → 「 最 小 値 」 「 最 大 値 」 「 変 化 の 増 分 」 「 リ ン クするセル」を設定します。「リンクするセル」にスピンボタンによる入 力の結果が表示されます。 (5) ス ピ ン ボ タ ン な ど の コ ン ト ロ ー ル は 右 ク リ ッ ク す る こ と に よ り 、 大 き さの変更、ドラッグ、コピー、などが可能になります。 ス ピ ン ボ タ ン は 便 利 な の で す が 、 た と え ば 1 か ら 100 ま で 移 動 す る と き は 大変です。スピンボタンをつけたらそれでしか値が操作できなくなるとい う わ け で は な く 、 直 接 セ ル に 100 と 記 入 す る こ と も で き ま す 。 8.2. 類似係数 類似係数を使ってデータを比較するにはまず量的なデータを質的なデータ に 変 換 す る 必 要 が あ り ま す 。こ れ に は IF 関 数 を 使 え ば 便 利 で す 。例 と し て 次のデータを使用します。 245 (1) は じ め に 、 量 的 デ ー タ の 質 化 の 基 準 を 設 定 し ま す 。 A17 を 質 的 デ ー タ に 変 換 す る た め の 基 準 値 と し ま す 。 こ の 値 よ り も 大 き い 場 合 、「 1」に 変 換 す る と い う ル ー ル に し ま す 。 0 よ り も 大 き い と き に 変 換 す る 場 合 は F17=0 と 記 入 し て お き ま す 。 (2) IF 関 数 を 使 っ て 量 的 デ ー タ (B2)を 質 的 デ ー タ (E2)に 変 換 し ま す 。 E2=IF(B2>$F$17, 1, 0) 37 こ の 式 の 意 味 は 、E2 が 基 準 値 の 値 (0)よ り も 大 き い 場 合 は 、1 を そ れ 以 外は 0 を返す、ということです。 (3) E2 を E2:F16 に コ ピ ー し ま す 。こ れ で 0 よ り 大 き い 値 を 1 と 表 示 す る こ とができました。 次に、さきほどの変換の結果を基に、共通して使われているもの、一方だ け使われているもの、どちらも使われていないものを集計しましょう。 37 こ こ で は 基 準 値 を 動 か す こ と が で き る よ う に $F$17 と し ま し た が 、 下 記 の よ う に $F$17 を 使 用 し な く て も 同 じ 結 果 を 得 る こ と が で き ま す 。 E2=IF(B2>0, 1, 0) 246 (5) は じ め に E2 と F2 を 対 象 と し て デ ー タ を 入 力 し ま す 。 H2 =IF(AND($E2=1, $F2=1), 1, 0) こ の 式 の 意 味 は 、 E2( 手 紙 ) と F2( 演 劇 ) が 共 に 1 の 場 合 、 1 を 返 し 、 そ れ 以 外 は 0 に す る 、と い う こ と で す 。AND を 使 っ て 複 数 の 条 件 を 指 定 し て いることに注意してください。 H2 を I2:K2 に コ ピ ー し て 、 一 部 を 次 の よ う に 修 正 し ま す 。 I2=IF(AND($E2=1, $F2=0), 1, 0) J2=IF(AND($E2=0, $F2=1), 1, 0) K2 IF(AND($E2=0, $F2=0), 1, 0) (6) H2:K2 を H2:K16 に コ ピ ー し ま す 。 (7) G17 を 書 き 込 み 、 SUM で H17:K17 を 計 算 し ま す 。 H17 =SUM(H2:H16) H17 を I17:K17 に コ ピ ー し ま す 。 I17 =SUM(I2:I16) J17 =SUM(J2:J16) K17 =SUM(K2:K16) 最終的には次のような値になります。 これで四象限での集計が完了です。 247 各種の類似係数 それでは各種の類似係数を計算してみましょう。 M19:M27 で そ れ ぞ れ の 係 数 を 求 め ま す 。 (1) 共 起 回 数 : M19=H17 (2) Simple match 係 数 : M20=(H17+K17)/(H17+I17+J17+K17) (3) Russel and Rao 係 数 : M21=H17/(H17+I17+J17+K17) (4) Jaccard 係 数 : M22=H17/(H17+I17+J17) (5) Yule 係 数 : M23=((H17*K17)-(I17*J17))/((H17*K17)+(I17*J17)) (6) Hamann 係 数 : M24=((H17+K17)-(I17+J17))/((H17+K17)+(I17+J17)) (7) Phi 係 数 : M25=((H17*K17)-(I17*J17)) /SQRT((H17+I17)*(H17+J17)*(I17+K17)*(J17+K17)) (8) Ochiai 係 数 : M26=H17/SQRT((H17+I17)*(H17+J17)) (9) Prominence 係 数 : M27=(H17/(H17+I17)+H17/(H17+J17))/2 (10) Preference 係 数 : M30=(2*H17-I17-J17)/(2*H17+I17+J17) 8.3. マクロプログラム Excel VBA に よ る マ ク ロ プ ロ グ ラ ム (NUMEROS.xlsm)を 使 っ て 言 語 資 料 の分析をします。そのときに用いる簡単な統計の概念についても説明しま す。ここで扱う統計的手法の多くは一般の参考書(→参考書)で説明され ているものですが、一部は私たちが提案する手法や計算法も含めます。 248 Excel フ ァ イ ル NUMEROS.xlsm は Excel2010 で 動 作 し ま す 。 起 動 時 に マ クロを有効にしてください。 すべての演算の対象は次のような行列です。シート内の一定の範囲に展 開されているデータは条件として次のような構成にしなければなりません。 A L1 L2 L3 L4 L5 w1 10 19 14 7 12 w2 11 7 10 0 1 w3 0 0 1 12 1 w4 0 1 2 3 3 こ の 行 列 は 「 タ イ ト ル セ ル 」 (A), 「 タ イ ト ル 行 」 (L1, L2, …, L5),「 タ イ ト ル 列 」(w1, w2, w3, w4),「 デ ー タ 」(10, 19, …, 3, 3)と い う 構 成 に な り ま す 。 こ の 行 列 を 「 デ ー タ 行 列 」 D np と よ び ま す 。 D n p (1,1)=10, D n p (1,2)=19, と い う 行 列 で す 。タ イ ト ル セ ル は D n p (0,0)に 、タ イ ト ル 行 は D np (0,1), D np (0, 2), … に 、 タ イ ト ル 列 は D n p (1, 0), D n p (2,0), …に 格 納 さ れ ま す 。 シ ー ト 内 の 上 の よ う な デ ー タ の 一 部 の セ ル を 選 択 し 、 NUMEROS の 「 入 力 1」 ボ タ ン を 押 す と 、 そ の 行 列 全 体 が 選 択 さ れ ま す 。 そ の 後 、 こ の 行 列 から離れたセルをクリックし、「出力」ボタンを押すと、選択されたセル が出力の開始セルになります。ここが出力領域の上・左端になります。こ のテキストで説明したさまざまな数値データ処理のメニューはタブを開い て、選択してください。「始」以外のタブを開くと、「実行」ボタンがク リックできる状態になります。 249 次が「行列入力」のコードの主要部です。これを適当なコマンドボタン と連結させます。 Sub MATRIX_INPUT() '● 行 列 入 力 () Inp = Selection: N = Ur(Inp ) - 1: P = Uc(I n p ) - 1 ReDim G n p (N, P) For i = 0 To N: For j = 0 To P D n p (i, j) = I n p (i + 1, j + 1) '入 力 行 列 Next: Next I n p =D n p End Sub Function Ur(Fnp): Ur = UBound(Fnp, 1): End Function ' 行 数 Function Uc(Fnp): Uc = UBound(Fnp, 2): End Function ' 列 数 バ リ ア ン ト 型 変 数 Inp に 選 択 範 囲 (Selection)の 内 容 を 代 入 し 、 N を 行 数 、 P を 列 数 と し ま す 。 Ur と Uc は そ れ ぞ れ 行 列 の 行 数 と 列 数 を 返 す ユ ー ザ ー 定 義 関 数 で す (Function … End Function)。 Ubound(*, *)は Excel 関 数 で す 。 概 説 書 や ウ ェ ブ で 確 認 し て く だ さ い 。Inp に は シ ー ト に 選 択 さ れ た 内 容 が 、 そ の ま ま 格 納 さ れ て る の で 、Inp(1,1)="O.S"に な り ま す 。行 に つ い て も 列 に つ い て も 、 番 地 を 1 つ ず つ 減 ら し て 移 動 し た も の が Dnp で す 。 For … Next を 0 か ら N, 0 か ら P ま で 繰 り 返 し て 移 動 し ま す 。そ の 結 果 Dnp(0,0)="O.S.", Dnp(1,1)=10, …, Dnp(4,5)=3 に な り ま す 。こ の Dnp を 改 め て Inp に 代 入 し ま す 。 こ の Inp が 新 た な 入 力 行 列 に な り ま す 。 こ れ に 、 以 下 で 説 明 す る 一 定 の処理をして、できあがった行列を次の「行列出力」に渡します。ユーザ ー は 、適 当 な コ マ ン ド ボ タ ン と 連 結 し た 次 の「 出 力 位 置 」を 実 行 し て お き 、 出力位置の情報を確保しておきます。 Sub OUTPUT_POSITION() '● 出 力 位 置 OpSheet% = ActiveSheet.Index '出 力 シ ー ト 番 号 OpPosition$ = ActiveCell.Address(bF, bF) ' 出 力 位 置 の ア ド レ ス OpRowNum& = ActiveCell.Row '出 力 位 置 の 行 番 号 OpColNum& = ActiveCe ll.Column '出 力 位 置 の 列 番 号 End Sub これらを、「入力」「出力」ボタンに連動させます。 次が行列出力の主要部です。 250 Sub MATRIX_OUTPUT(Fnp, F1&, F2&) '● 行 列 出 力 Sheets(OpSheet%).Select '出 力 シ ー ト を 選 択 Cells(OpRowNum&, OpColNum&).Offset(F1, F2).Select ' 出 力 セ ル を 選 択 Selection.Resize(Ur(Fnp) + 1, Uc(Fnp) + 1).Selec t '拡 大 リ サ イ ズ Selection = Fnp '行 列 を 代 入 End Sub 「出力位置」で得た出力シート番号で出力シートを選択し、出力位置の セ ル を 選 択 し 、F1, F2 で 位 置 を 移 動 し( 複 数 の 出 力 が あ る 処 理 の た め で す )、 さらに、行列の行数と列数にそれぞれ 1 を加えた数だけ拡大リサイズした 選 択 位 置 に 行 列 Fnp を 代 入 し ま す 。こ れ で 指 定 さ れ た シ ー ト 位 置 に 行 列 が 出力されます。 これを、たとえば、次のように出力部から呼び出します。 Sub MATRIX() Dim Xnp, Ynp: Xnp = Inp : Ynp = Dnp Select Case fN.lstMat.ListIndex + 1 'ListBox Case 1: Onp = Uv(fN.cboScalar1) '0. 単 位 ベ ク ト ル _Uv Case 2: Onp = Um(fN.cboScalar1) '1. 単 位 行 列 _Um ‘… End Select Call MATRIX_OUTPUT(Onp, 0, 0) End Sub ExcelVBA の プ ロ グ ラ ミ ン グ に つ い て は 多 く の 書 籍 が 出 版 さ れ て い ま す 。 また、ウェブサイトでも情報がたくさん得られます。以下では、 NUMEROS.xlsm の 主 要 部 の コ ー ド に つ い て 解 説 し ま す 。コ ー ド 全 体 に つ い て は VBA Editor を 開 い て く だ さ い 。 251 9. 参考書 基礎 池 田 央 (1976)『 統 計 的 方 法 I 基 礎 』 新 曜 社 ( 記 述 統 計 に つ い て 数 理 と 具 体 例で納得できる説明がなされています。) 石 村 貞 夫 (1995)『 グ ラ フ 統 計 の は な し 』 東 京 図 書 ( や さ し く 説 明 し て あ る のでクラスター分析がどのようなものかがわかります。) 芝 祐 順 ・ 渡 部 洋 ・ 石 塚 智 一 (1984)『 統 計 用 語 辞 典 』 新 曜 社 (一 般 的 な 統 計 学 の用語と英語を知るのに便利です。参考書目も充実しています。) 東 京 大 学 教 養 学 部 統 計 学 教 室 (1991)『 統 計 学 入 門 』 ( 東 京 大 学 出 版 会 ) (理 論をしっかりと理解するために役立つ入門書です。) 渡 辺 美 智 子 ・ 神 田 智 弘 (2008)『 統 計 デ ー タ 分 析 』秀 和 シ ス テ ム( Excel を 使 った記述統計学の分析法を具体的に説明しています。) 応用・開発 足 立 堅 一 (2005)『 多 変 数 解 析 入 門 : 線 形 代 数 か ら 多 変 数 解 析 へ 』 篠 原 出 版 新 社 .( 多 変 数 解 析 に 向 け て 線 形 代 数 の 基 本 を 語 り か け る よ う な 文 体 で丁寧に説明されています。) Anderberg, Michael R. (1973) Cluster analysis for a p p lications. New York, Academic Press. 西 田 英 朗・佐 藤 嗣 二 他 訳『 ク ラ ス タ ー 分 析 と そ の 応 用 』 内 田 老 鶴 圃 (1988). ( ク ラ ス タ ー 分 析 を 知 る た め の 古 典 的 な 図 書 で す 。) Ávila, R. Samper, J. A. y Ueda, H. (2003) Pautas y pistas en el análisis del léxico hispano(americano). Iberoamericana Vervuert, 278 p p .( Ueda は 言 語 統計分析の方法をスペイン語の語彙バリエーションの研究に応用しま した。) Bertin, Jacques. (1977) La graphique et le traitement graphique de l'information. Paris: Flammarion. 森 田 喬 訳 『 図 の 記 号 学 』 平 凡 社 , 1982. ( こ こ で 取 り上げた集中分析に類似したことを手作業で実行しています。) Cahuzac, Phili p p e. (1980) "La D/isión del español de América en zonas dialectales: Solución etnolingüística o semántico-dialectal." Lingüística Española Actual, 10.( 集 中 分 析 で 資 料 を 引 用 し ま し た 。 ) Hartigan, J. A. (1975) Clustering Algorithms. New York. John Wiley & Sons. Horst, Paul. (1965) Factor Analysis of Data Matrices. Holt, Rinehart and Winston. 柏 木 繁 男 ・ 芝 祐 順 ・ 池 田 央・ 柳 井 晴 夫 訳『 コ ン ピ ュ ー タ に よ る 因 子 分 析 法 』 科 学 技 術 出 版 社 , 1978.( か な り 難 解 で す 。 ) 井 上 勝 雄 (1998)『 パ ソ コ ン で 学 ぶ 多 変 数 解 析 の 考 え 方 』 筑 波 出 版 会 ( 説 明 が や さ し く わ か り や す い で す 。数 量化 Ⅲ 類・対 応 分 析 の プ ロ グ ラ ム を 252 参考にしました。) 井 上 勝 雄 ・ 広 川 美 津 雄 (2000)『 エ ク セ ル で 学 ぶ 多 変 数 解 析 の 作 り 方 』 筑 波 出 版 会( Excel VBA の プ ロ グ ラ ミ ン グ 法 の 具 体 的 な 説 明 が あ り ま す 。) 石 井 俊 全 (2014)『 意 味 が わ か る 多 変 数 解 析 』 ベ レ 出 版 ( 数 理 の 証 明 が わ か りやすく納得できます。) 岩 崎 学・吉 田 清 隆 (2006)『 統 計 的 デ ー タ 解 析 入 門 線 形 代 数 』東 京 図 書( 線 形代数のエッセンスを簡潔に説明しています。) 加 藤 直 樹 ・ 羽 室 行 信 (2008)『 デ ー タ マ イ ニ ン グ と そ の 応 用 』 朝 倉 書 店 ( さ らに高度な発展学習のための出発点です。) 河 口 至 商 (1978)『 多 変 数 解 析 入 門 I, II』森 北 出 版 (類 似 係 数 行 列 の 説 明 が 参 考になります。) 小 林 竜 一 (1967)『 社 会 科 学 の た め の 数 学 概 説 』 共 立 出 版 (私 が 1 年 生 の と き の数学の教科書でした。今でも参照しています。) 三 野 大 來 (2001)『 統 計 解 析 の た め の 線 形 代 数 』 共 立 出 版 ( 多 変 数 解 析 に と って重要な行列演算が簡潔にわかりやすく説明されています。) 奥 村 晴 彦 (1986)『 パ ソ コ ン に よ る デ ー タ 解 析 入 門 . 数 理 と プ ロ グ ラ ミ ン グ 実 習 』技 術 評 論 社 .( BASIC 言 語 に よ る プ ロ グ ラ ム が あ り ま す 。ク ラ ス タリングとデンドログラムのマクロはこのプログラムを参考にしまし た。) Rosemburg, Ch. H. (1989) Cluster analysis for researchers. Robert E. Krieger Publishing Company, Inc. Malabar, Florida. 西 田 英 朗 ・ 佐 藤 嗣 二 訳 『 実 例 ク ラ ス タ ー 分 析 』 内 田 老 鶴 圃 (1992). 芝 祐 順 (1975)『 行 動 科 学 に お け る 相 関 分 析 法 』 東 京 大 学 出 版 会 . ( さ ま ざ ま な 相 関 分 析 法 が 簡 潔 に 説 明 さ れ て い ま す 。巻 末 の FORTRAN プ ロ グ ラムが参考になります。) 白 井 豊 (2009)『 Excel と VBA に よ る 実 用 数 値 解 析 入 門 』ゆ た か 創 造 舎 .( 固 有値と重回帰分析のプログラムを参考にしました。) 高 村 大 也 (2010)『 言 語 処 理 の た め の 機 械 学 習 入 門 』 コ ロ ナ 社 . ( 数 式 の 意 味が例題の具体例でわかるように工夫されています。) 高 橋 信 (2005)『 Excel で 学 ぶ コ レ ス ポ ン デ ン ス 分 析 』オ ー ム 社 .( 対 応 分 析 の 手 順 が 具 体 的 に わ か り や す く 説 明 さ れ て い ま す 。こ の テ キ ス ト の プ ロ グ ラ ム を 作 成 す る と き に N>P の 条 件 を 統 一 し な が ら 参 考 に し ま し た。) 竹 内 啓 ・ 柳 井 晴 夫 (1972)『 多 変 数 解 析 の 基 礎 』東 洋 経 済 新 報 社( Horst で は わ か り に く い Varimax 法 の 理 論 を 詳 し く 論 じ て い ま す 。 ) 縄 田 和 満 (1999)『 Excel に よ る 線 形 代 数 入 門 』 朝 倉 書 店 ( Excel の 操 作 を 通 して数理と具体的な方法が学べます。) 253 長 谷 川 勝 也 (2001)『 は じ め て の 行 列 と ベ ク ト ル 』技 術 評 論 社 (高 校 で 数 学 III を履修していない人ははじめてに読んでおくとよいでしょう。) 安 田 三 郎 ・ 海 野 道 朗 (1977)『 社 会 統 計 学 』 ( 改 訂 2 版 ) 丸 善 ( ク ラ ス タ ー 分析がわかりやすく具体的に解説されています。) * は じ め て 行 列 と ベ ク ト ル に つ い て 勉 強 す る 人 は 、 長 谷 川 (2001) → 縄 田 (1999)→ 三 野 (2001)→ 芝 (1975)→ 白 井 (2009)の 順 で 読 み 進 め る と よ い で し ょ う。 254
© Copyright 2024 Paperzz