1. - 東京大学

NUMEROS.docx
ver. 2015.1.25
言語研究のための
数値データ分析法
2 015
これは 1 学期間の授業用テキストです。
随時更新します。
(c) 上 田 博 人 ( 東 京 大 学 ) Hiroto Ueda (University of Tokyo)
0. はじめに
こ の テ キ ス ト は 後 期 課 程 (情 報 学 環・言 語 情 報 科 学 『
) 言 語 の 変 化・変 異 』、
『 言 語 デ ー タ 分 析 』お よ び 大 学 院( 学 際 情 報 学 環: 言 語 情 報 科 学 専 攻 )『 言
語情報解析』の授業のために作成しました。
内容は、言語の変化・変異を数量的に観察するときに有用だと思う方法
を取り上げました。数値が並ぶデータ行列を前にして、目視だけではよく
わからない状況を、さまざまな分析手法を用いて明らかにしていきます。
私たちは文系なので、この分野(行列とベクトル、線形代数)を高校の
数学で習っていないのですが、その基礎のはじめの部分だけでも学習して
おくと、数理の理解も、行列関数を使ったプログラミングの作業も容易に
なります。さらに、このテキストでは、一般に定義されていないような行
列演算をあえて導入しました。そのような演算を各所で活用しますので確
認してください。このテキストで扱う内容は基本的なことばかりで、難易
度はそれほど高くはありません。
学 部・後 期 課 程 で は .基 礎 的 な こ と を 中 心 に 、そ し て 大 学 院 の 授 業 の た め
に作成してきたプログラムを応用します。大学院では基礎的の内容を確認
した後、主としてプログラム開発の練習をします。
ここで扱う方法は一般によく使われているものばかりですが、各所で私
たちが独自に開発してきた方法も紹介します。おおまかに「~とよばれま
す」という受動文であれば周知の方法を指します。一方、「~とよぶこと
にします」のような能動文で紹介する方法は、私たち独自の方法(または
呼 称 )だ と 思 い ま す が 、す で に 開 発 さ れ て い る 方 法 で あ る か も し れ ま せ ん 。
一応、各種の統計学書で確認しているのですが、すべてを見渡すことは不
可能なので、既存の同じ方法をご存じの方はぜひご教示ください。
授業で扱った内容について考察したこと、確認したこと、自分の 言語数
量データに応用したことなどを書いたレポートを毎回提出してください。
それらをまとめて、最終レポートを提出してください。
質問があれば、授業中に発言するか、またはレポートの中に書いてくだ
さい。そのとき具体的なデータがあるとわかりやすいと思います。
学期期間中は、このテキストとプログラムのコードを毎週更新していま
す。常に最新のファイルをダウンロードしてください。
*ダウンロードサイト:
http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/index.html
2.3. NUMEROS: 数 量 デ ー タ 分 析 用 プ ロ グ ラ ム
NUMEROS para análisis de datos cuantitativos
1
1. 行 列
はじめに行列のさまざまな演算について確認します。一般の行列・線形
代数で扱われる演算のほかに、このプリントで特別に定義する演算も含み
ます。これらを理解すると、数値データ処理の意味と利用法がわかり、応
用範囲が広がります。また、少ないコードでプログラムが書けるのでプロ
グラミング開発の能率が高まります。
手元の言語データから 1 つの数値、たとえば、ある地域に特有の語の出
現頻度が得られたとします。この 1 つの数字そのものが、異常に高い数値
であるのか、または、ほかの地域でも多く見つかるのか、調べなければな
り ま せ ん 。 L1, L2, L3, …と い う 地 域 で 比 較 す る と 、 そ の 分 布 の 特 徴 が わ か
り ま す 。さ ら に 関 連 す る ほ か の 語 w1, w2, … の 頻 度 も 調 べ る と よ い で し ょ
う。そうすると、地域と語からなる頻度分布表が出来上がります。
O.S. L1 L2 L3 L4 L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
以下では、このような頻度分布表の分析法を扱います。 例としてあげた
分 布 表 は 小 さ な も の ば か り で す が 、 実 際 は 数 千 行 ×数 十 列 の よ う に 大 き な
行列を扱うこともあります。
1.1. 単位ベクトルと単位行列
下 左 表 の よ う に 成 分 が す べ て 1 の 列 ベ ク ト ル は 「 単 位 ベ ク ト ル 」 Unit
vector と よ ば れ ま す 1 。 下 右 表 は 横 に 並 ん だ 行 ベ ク ト ル で す 。
U n1 1
1
1
2
1
U 1p 1 2 3
1
1 1 1
こ の プ リ ン ト は 上 左 表 の よ う な 列 ベ ク ト ル を n 行 1 列 の 行 列 U n1 と 見 な
し 、 上 右 表 の よ う な 行 ベ ク ト ル を 1 行 p 列 の 行 列 U 1p と 見 な し ま す 。 数 値
(スカラー)は M のように、添え字の n も p もつけません。
次 の よ う に 「 対 角 成 分 」 ( U(1,1), U(2,2)の よ う に 行 番 と 列 番 が 同 じ 位 置
1
「単位ベクトル」には他の定義もありますが、ここでは以下でよく使う
この定義(成分がすべて 1 のベクトル)を採用します。
2
の成分)がすべて 1 で、非対角成分がすべて 0 である正方行列(行数と列
数 が 同 じ 行 列 ) は 「 単 位 行 列 」 (unit matrix, identity matrix)と よ ば れ ま す 。
以 下 で は 単 位 行 列 を U pp の よ う に 表 記 し ま す 。 一 般 に 、 添 え 字 の n, p は 表
記されませんが、以下の演算ではこれを意識すると理解が深まるので付記
することにします。
U pp
1
2
3
1
1
0
0
2
0
1
0
3
0
0
1
1.2. 行列成分の演算
1.2.1. 行 列 と 行 列 の 演 算
行列間で対応する成分について加減乗除の演算をします。
X np 1 2 + Y np 1
2
= Znp
1
2
1
1 4
1
7 10
1
8 14
2
2 5
2
8 11
2
10 16
3
3 6
3
9 12
3
12 18
X n p + Y np = Z np , Z n p = A(X n p , Y n p )
こ の 加 算 の 演 算 X n p + Y np = Z np は 一 般 の 行 列 演 算 で 定 義 さ れ て い ま す 。
上 左 式 で は 、 た と え ば X np の よ う に 「 大 文 字 + 小 文 字 + 小 文 字 」 で 行 列 を
示 し 、 普 通 体 の n と p は 行 数 と 列 数 を 示 し ま す 。 上 右 式 Z n p = X(X np , Y n p )
は プ ロ グ ラ ム の コ ー ド で X は 引 数 1 (=X n p )と 引 数 2 (=Y n p )の 和 を 返 す 行 列
のユーザー定義関数です。
次 は 行 列 成 分 間 の 乗 算 (*)を 示 し ま す 。こ れ は 一 般 の 行 列 演 算 で は 定 義 さ
れていませんが、この演算は以下の章で頻用するので、ここで定義してお
き ま す 。M は 対 応 す る 行 列 成 分 間 の 積 を 成 分 と す る 行 列 を 返 す ユ ー ザ ー 定
義 関 数 で す 。こ の 行 列 成 分 間 の 乗 算 は 後 述 す る「 行 列 積 」(X)と は 異 な り ま
すから注意してください。
X np 1 2 * Y np 1
2
= Znp
1
2
1
1 4
1
7 10
1
7 40
2
2 5
2
8 11
2
16 55
3
3 6
3
9 12
3
27 72
X n p * Y n p = Z n p , Z np = M(X n p , Y np )
3
このテキストではベクトルを行、または列が 1 である行列とみなします
ので、次のように演算とプログラミングの手続きを統一することができま
す。
X n1 1 * Y n1 1 = Zn1
1
1
1
1
4
1
4
2
2
2
5
2
10
3
3
3
6
3
18
X n 1 * Y n 1 = Z n 1 , Z n 1 = M(X n 1 , Y n1 )
1.2.2. 行 列 と 数 値 の 演 算
行 列 ( や ベ ク ト ル ) の 成 分 全 体 に 「 ス カ ラ ー 」 (scalar)と よ ば れ る 数 値 を
足 し た り (行 列 関 数 A)、 引 い た り (行 列 関 数 S), 掛 け た り (行 列 関 数 M)、 割
っ た り (行 列 関 数 D)す る こ と が で き ま す 。
X np 1 2 * 5
= Znp
1
2
1
1 4
1
5 20
2
2 5
2
10 25
3
3 6
3
15 30
X n p * 5 = Z n p , Z n p = M(X n p , 5)
このような行列とスカラーの積算は一般に定義されています。一方、次
のような加算は一般に定義されていませんが、ここに定義します。
X np 1 2 + 5
= Znp 1
2
9
1
1 4
1
6
2
2 5
2
7 10
3
3 6
3
8 11
X n p + 5 = Z np , Z np = X(X n p , 5)
以 下 で は 加 算 (+, X)や 積 算 (*, M)だ け で な く 、 減 算 (-, S)、 除 算 (/, D)、 指
数 (^, E)・ 対 数 (@, L)の 演 算 も 含 め て 統 一 的 な 行 列 成 分 の 演 算 を 定 義 す る こ
とにします。次のようなベクトルを対象にした場合も同様です。
4
X n1 1 ^ 2 = Z n 1 1
1
1
1
1
2
2
2
4
3
3
3
9
X n 1 ^ 2 = Z n 1 , Z n1 = E(X n 1 , 2)
先述のように、このテキストではベクトルを 1 列または 1 行の行列と見
なします。そして、数値(スカラー)も 1 行 1 列の行列と見なすことがで
きます。このように考えればさまざまな演算を、数値、ベクトル、行列と
いう異なったデータどうしを統一して計算できるようになります。
こ こ で「 一 様 行 列 」 (homogeneous matrix)と い う 概 念 を 提 案 し ま す 。 た と
え ば 、 次 の よ う な 行 列 + 数 値 の 演 算 で 、 数 値 (5)を 下 の Y np よ う な 成 分 を も
つ 行 列(「 全 体 一 様 行 列 」homogeneous matrix in all を よ び ま す )と す れ ば 、
一般に認められている行列の加算ができるようになります。
X np 1 2 + 5 = X np 1 2 + Y np 1 2 = Znp 1
2
1
1 4
1
1 4
1
5 5
1
6
9
2
2 5
2
2 5
2
5 5
2
7 10
3
3 6
3
3 6
3
5 5
3
8 11
そこで、行列成分演算では次のようにスカラーと全体一様行列は同等と
と見なします。
5 = Y np 1 2
1
5 5
2
5 5
3
5 5
1.2.3. 行 列 と ベ ク ト ル の 演 算
行列成分とベクトル成分の演算をします。この演算は一般の行列の計算
で行われませんが、以下で多用するので次のように定義しておきます。
次 の よ う な 縦 ベ ク ト ル を 用 い た 演 算 で は 、「 2 列 一 様 行 列 」(homogeneous
matrix in 2columns)で あ る Y n p を 使 え ば 、 す べ て の 演 算 が 可 能 に な り ま す 。
5
X np 1 2 + Y n1 1 = X np 1 2 + Y np 1 2 = Znp
1
2
1
1 4
1
7
1
1 4
1
7 7
1
8 11
2
2 5
2
8
2
2 5
2
8 8
2
10 13
3
3 6
3
9
3
3 6
3
9 9
3
12 15
同様にして、次のような横ベクトルを用いた演算では、それを「行一様
行 列 」(homogeneous matrix in row)に し ま す 。下 の Y np は 3 行 一 様 行 列 で す 。
X np 1 2 + Y 1p 1 2 = X np 1 2 + Y np 1 2 = Znp
1
1 4
2
3
1
7 8
1
2
1
1 4
1
7 8
1
8 12
2 5
2
2 5
2
7 8
2
9 13
3 6
3
3 6
3
7 8
3
10 14
このようにベクトルを一様行列に変換するのは、行列演算を可能にする
ための方法に過ぎません。元のベクトルとそれぞれの一様行列の間に数値
の本質的な変化はない、と見なすことができるでしょう。
Y n1 1 = Y np 1 2
1
7
1
7 7
2
8
2
8 8
3
9
3
9 9
Y 1p 1 2 = Y np 1 2
1
7 8
1
7 8
2
7 8
3
7 8
●四則演算の一般化
以上のように考えれば、たとえば、X * Y = Z ならば Y = Z / X である、
というような一般の四則演算の導出も可能になります。この導出は数値ど
うしの演算、ベクトルどうしの演算、行列どうしの演算では次のように可
能です。
2 *3 =6 → 3 =6 /2
X n1 1 * Y n1 1 = Zn1
1
→ Y n1 1 = Zn1
1
/ X n1 1
1
1
1
7
1
7
1
7
1
7
1
1
2
2
2
8
2
16
2
8
2
16
2
2
3
3
3
9
3
27
3
9
3
27
3
3
6
X n1
1
2
1
1
2
3
*
Y n1
1
2
4
1
7
2
5
2
3
6
3
=
Z n1
1
2
10
1
7
8
11
2
9
12
3
→
Y n1
1
2
40
1
7
16
55
2
27
72
3
=
Z n1
1
2
10
1
7
8
11
2
9
12
3
/
X n1
1
2
40
1
1
4
16
55
2
2
5
27
72
3
3
6
それでは、数値とベクトル、数値と行列、ベクトルと行列のような異種
の デ ー タ 間 で も 同 じ よ う に 演 算 の 導 出 が 可 能 に な る か 、試 し て み ま し ょ う 。
X
1
2
1
1
2
*
5
=
Z
1
2
4
1
5
2
5
2
3
3
6
3
X
1
2
1
1
2
3
→
Z
1
2
20
1
5
10
25
2
15
30
3
Y 1 = Z
1
2
4
1
7
1
7
2
5
2
8
2
3
6
3
9
3
*
5
→
=
/
X
1
2
20
1
1
10
25
2
15
30
3
Y 1 = Z
1
2
28
1
7
1
7
16
40
2
8
2
27
54
3
9
3
A
1
2
4
1
5
5
2
5
2
5
5
3
6
3
5
5
/
=
=
B 1 2
X
1
2
28
1
1
4
1
7 7
16
40
2
2
5
2
8 8
27
54
3
3
6
3
9 9
上の最初の表の右端の行列 A は全体一様行列ですから、先述のように、
数 値 ( ス カ ラ ー ) (=5)と 見 な す こ と が で き ま す 。 ま た 、 下 の B は 2 列 一 様
行 列 な の で 、1 列 行 列( 縦 ベ ク ト ル )の Y と 同 じ と 見 な す こ と が で き ま す 。
よって、以上のすべての場合で X * Y = Z ならば、Y = Z / X であることが
確認できました。このことは、乗算と除算の演算だけでなく、加算と減算
の演算、指数と対数の演算でも基本的に同じです。
X の 成 分 に ゼ ロ (0)が あ る と 先 の 行 列 の 割 り 算 Z / X が で き な く な り ま す 。
し か し 、上 の 演 算 で X の 成 分 が 0 な ら ば Z の 対 応 成 分 も 0 に な る の で 、0 /
0 という計算が行われます。この計算は一般にできないことになっていま
すが、これを 0 / 0 = 0 と決めておけば、これも可能になります。
1.3. 行列積
「 行 列 積 」(matrix product)は 先 述 の「 行 列 成 分 の 積 」(multiplication of matrix
elements)と は 異 な り ま す 。 一 般 に 「 行 列 の 積 」 と い え ば こ の 「 行 列 積 」 を
指 し ま す 。こ の 演 算 は「 積 和 」sum product と い う 少 し 複 雑 な 計 算 を し な け
れ ば な り ま せ ん 。そ こ で 簡 単 な 行 ベ ク ト ル と 列 ベ ク ト ル の 積 か ら は じ め て 、
少しずつ複雑になる行列とベクトルの積、行列と行列の積という順番で進
みます。
7
1.3.1. ベ ク ト ル と ベ ク ト ル の 積
行ベクトルと列ベクトルの積は、それぞれ対応する 成分の積の和になり
ま す 。 た と え ば 次 の 例 で は 、 X 1 3 Y 3 1 = 1*4 + 2*5 + 3 *6 = 32 に な り ま す 。
下 左 の 行 列 計 算 で は 行 列 間 に +, -, *, …な ど の 演 算 記 号 ( 算 術 演 算 子 ) を つ
け ま せ ん 。下 右 の 行 列 関 数 で は X と い う 関 数 名 を 使 う こ と に し ま す 。表 と
表 の 行 列 積 を 示 す と き は 、 2 つ の 表 の 間 に ×を つ け る こ と に し ま す 。
X 1 3 Y 31 = Z, Z=X(X 1 3 , Y 31 )
X 13 1 2 3 × Y 31 x = Z11
1
1 2 3
1
4
2
5
3
6
1
x
32
逆に、列ベクトルと行ベクトルを掛け合わせると、それぞれの 成分の積
か ら な る 行 列 を 作 り ま す 。た と え ば 、Y 3 1 X 13 の 積 の 行 列 Z 3 3 の Z1(第 1 行 ) [4,
8, 12]は Y 31 の Z1: 4 に X 13 の [1, 2, 3]を 掛 け た も の で す 。 Z 33 の Z2(第 2 行 )
の [5, 10, 15]は Y 31 の 5 に X 13 の [1, 2, 3]を 掛 け た も の で す 。
X 3 1 Y 13 = Z 3 3 , Z 3 3 = X(X 31 , Y 1 3 )
Y 31 x × X 13 1 2 3 = Y 31 X 13 1
1
4
2
3
1
1 2 3
2
3
1
4
8 12
5
2
5 10 15
6
3
6 12 18
1.3.2. 行 列 と ベ ク ト ル の 積
行列のそれぞれの行に列ベクトルを掛けます。この計算はデータ行列に
重みベクトルを掛けた合成ベクトルを作るときに使います。
X 3 2 Y 21 = Z 3 1 , Z 3 2 = X(X 32 , Y 2 1 )
8
X 32
1
2
1
1
2
3
×
Y 21
1
2
1
3
4
2
5
1
=
Z31
1
2
1
8
3
2
18
3
13
●行列と単位ベクトルの積
行 列 に 単 位 ベ ク ト ル (U p 1 )を 右 か ら 掛 け る と 行 和 縦 ベ ク ト ル が 得 ら れ ま
す。
X 32
1
2
1
1
2
3
×
U 21
1
2
1
3
4
2
5
1
=
Z31
1
1
1
3
1
2
7
3
6
逆に、次のような単位行ベクトルと行列の積では、列和横ベクトルが得
られます。
U 13 1 2 3 × X 32 1 2 =
1
1 1 1
1
1 4
2
2 5
3
3 6
Z12
1
1
2
6 15
ここで、行列積に関わる行列の行数と列数について確認します 。次の 2
つの式を見てください。
X 3 2 U 21 = Z 3 1
U 1 3 X 32 = Z 1 2
どちらの式でも左の行列の列数と右の行数が同じです。これが異なると
行 列 積 が で き ま せ ん 。ま た 、行 列 積 の 結 果 の 行 列 (Z)の 行 数 は 左 の 行 列 の 行
数 と な り 、 行 列 積 の 結 果 の 行 列 (Z)の 列 数 は 右 の 行 列 の 列 数 に な り ま す 。
1.3.3. 行 列 と 行 列 の 積
行列と行列の積の成分の位置は左行列の行番号と右行列の列番号と同じ
で す 。 た と え ば 、 次 の Z(1, 1)の 成 分 は X の 1 行 (1, 2)と Y の 1 列 (7, 8)の 積
和になります。
X 3 2 Y 23 = Z 3 3 , Z 3 3 = X(X 32 , Y 2 3 )
9
X 32 1 2 × Y 23 1 2 3
1
1 2
1
7 9 2
2
3 4
2
8 1 3
3
5 1
= Z33
1
2
3
= Z33
1
2
3
1
1x7+2x8 1x9 + 2x1 1x2 + 2x3
1
23 11
8
2
3x7+4x8
3x9+4x1
3x2+4x3
2
53 31 18
3
5x7+1x8
5x9+1x1
5x2+1x3
3
43 46 13
*行列積の注意
行列積は第 1 行列の列数と第 2 行列の行数が同じでなければ計算できま
せ ん 。行 列 積 の 結 果 の 行 列 は 第 1 行 列 の 行 数 と 第 2 行 列 の 列 数 に な り ま す 。
次の式のそれぞれの添え字に注意してください。
Xnp Ypm = Znm
*行列積の交換
一 般 に 行 列 積 X n n Y nn 行 列 積 Y n n X n n と は 異 な り ま す 。 そ こ で 、 行 列 積 の
演 算 で は「 X nn に Y nn を 右 か ら 掛 け る (X n n Y n n )」や「 X nn に Y nn を 左 か ら 掛 け
る (Y n n X n n )」と い う 表 現 を 使 い ま す 。以 下 で は 、そ れ ぞ れ「 右 積 す る 」「 左
積する」という表現を使うことにします。
●単位行列の積
行 列 に 単 位 行 列 (U p p )を 右 積 し て も 左 積 し て も そ の 結 果 は 元 の 行 列 は 変
わりません。
(a) A p p U pp = A p p
App x y z × U pp x y z = App x y z
1
1 2 3
1
1 0 0
1
1 2 3
2
4 5 6
2
0 1 0
2
4 5 6
3
7 8 9
3
0 0 1
3
7 8 9
(b) U p p A pp = A p p
U pp x y z × App x y z = App x y z
10
1
1 0 0
1
1 2 3
1
1 2 3
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
1.4. 転置行列
行 列 の「 転 置 」 (transposition)と は 、行 列 の 成 分 X(i,j)を X(j,i)と 交 換 す る
こ と で す 。 行 列 X n p の 転 置 行 列 (transposed matrix)は X n p 'と 表 記 さ れ ま す 。
An1 1
1
1
2
2
3
3
An1 ' 1 2 3
x
An p 1 2
1 2 3
An p ' 1 2 3
1
1 4
1
1 2 3
2
2 5
2
4 5 6
3
3 6
こ の プ リ ン ト で は X np 逆 行 列 X n p 'を X pn と 書 く こ と も あ り ま す 。
X n p ' = X pn
転置行列には次の性質があります。これらは行列演算でよく使う演算で
す。
(a) (X n p ')' = X n p
X np 1 2
X np ' 1 2 3
(X np ')' 1 2
1
1 4
x
1 2 3
1
1 4
2
2 5
y
4 5 6
2
2 5
3
3 6
3
3 6
(b) (X n p + Y n p )' = X np ' + Y n p '
X np 1 2 + Y np 1
2 = R np
1
2
R np '
1
2
3
1
1 4
1
7 10
1
8 14
1
8 10 12
2
2 5
2
8 11
2
10 16
2
14 16 18
3
3 6
3
9 12
3
12 18
11
X np ' 1 2 3 + Y np '
1
1 2 3
1
2
4 5 6
2
1
2
3 = R np
1
2
3
7
8
9
1
8 10 12
10 11 12
2
14 16 18
(c) (X n p Y n p )' = Y np ' X n p '
X np 1 2 × Yn x = Rn
x
1
1 4
1
1
a
9
2
2 5
2
2
b
12
3
3 6
c
15
Rn' 1
1
Yn' 1 2 × X np ' 1 2 3 = X 1
1
1 2
1
1 2 3
2
4 5 6
1
2
3
9 12 15
2
3
9 12 15
1.5. その他の関数
よく使う次の関数を用意しました。
Ms(X11): 行 列 (1:1)を ス カ ラ ー に 変 換
Sm(X): ス カ ラ ー ( 数 値 ) を 行 列 (1:1)に 変 換
SumR(X n p ): 行 和 縦 ベ ク ト ル
SumC(X n p ): 列 和 横 ベ ク ト ル
SumA(X n p ): 行 列 成 分 の 総 和 ( ス カ ラ ー )
「 行 和 縦 ベ ク ト ル 」 SumR(*)と 「 列 和 横 ベ ク ト ル 」 SumC(*)の 導 出 に は 、
転 置 行 列 と 行 列 積 の 行 列 関 数 を 使 っ て い ま す 。総 和 は ス カ ラ ー な の で 、
「行
列 を ス カ ラ ー に 変 換 」 Ms(*)を 使 い ま す 。
SumR = X n p U p 1
SumC = U n 1 ' X n p
*線形代数の基礎(行列とベクトル)については次を参照しました:足立
(2005), 井 上 (1998), 井 上・広 川 (2000), 三 野 (2001), 奥 村 (1986), 小 林 (1967),
芝 (1975), 白 井 (2009), 縄 田 (1999), 長 谷 川 (2001)。「 単 位 ベ ク ト ル 」の 定 義
に つ い て は 芝 (1975)に 従 い ま し た 。
12
2. 統 計量
行列演算を使ってデータ行列全体の性質を要約する「和」「平均」「分
散 」「 標 準 偏 差 」な ど の 統 計 量 statistic measure を 計 算 し ま す 。要 約 す る 対
象の行列を「列」「行」「全体」の中から選択します。
2.1. 和
デ ー タ 行 列 D np の 横 和 、 縦 和 、 全 体 の 和 を 計 算 し ま す 。 デ ー タ 行 列 D n p
の 横 和 ( 行 和 ) Sn 1 は 、 次 の よ う な 行 列 積 で 計 算 し ま す 。
S n 1 = D np U p 1
Up 1 は P 個 の 成 分 を も つ 縦 ベ ク ト ル で す 。
D
1
2
3 X Uv 1 = D Uv
1
1
6
8
5
1
1
1
19
2
7
10 6
2
1
2
23
3
8
4
8
3
1
3
20
4
9
7
2
4
18
5
10
9
4
5
23
縦 和 ( 列 和 ) S1 p は 、 次 の よ う な 行 列 積 で 計 算 し ま す 。
S 1 p = U n1 ' D n p = U 1 n D n p
こ こ で U n 1 'は 単 位 ベ ク ト ル U n1 を 転 置 さ せ た も の で す (=U 1 n )。
Uv' 1 2 3 4 5 X D
1
1 1 1 1 1
1
2
3 = Uv' D
1
1
6
8
5
40 38 25
2
7
10 6
3
8
4
8
4
9
7
2
5
10
9
4
1
2
3
最 後 に 行 列 全 体 の 総 和 S は 、横 和 S n 1 ま た は 縦 和 S 1p 'の 和 に な り ま す 。次
は 、 縦 和 Sp'の 総 和 S を 求 め る 式 で す 。
S = S1 p Up 1
13
Uv' D
1
1
2
3
40 38 25
Uv
1
Uv' D Uv
1
1
1
1
103
2
1
3
1
●群(グループ)の中の統計量
下 左 表 の よ う な デ ー タ 列 (v1, v2, v3)+ 群 列 (Group)か ら な る 入 力 行 列 を
群の分類内で各種の統計量を求めます。下右表は統計量として和を求めた
結果です。
D1
1
2
3
Group
和
1
2
3
1
5
2
7
a
a
5
2
7
2
3
3
2
b
b
5
3
4
3
2
2
b
c
7
14
12
4
4
2.000
2
c
5
2
4
3
c
6
1
8
7
c
2.2. 最大値・最小値・範囲・中間値
デ ー タ 行 列 の「 最 大 値 」(maximum)、
「 最 小 値 」(minimum)、
「 範 囲 」(range)、
「 中 間 値 」 (mid)を 計 算 し ま す 。 範 囲 は 最 大 値 か ら 最 小 値 を 引 い た 値 で す 。
中 間 値 は 範 囲 / 2 の 値 で す 。中 間 値 は「 範 囲 中 央 」ま た は「 ミ ッ ド レ ン ジ 」
mid-range と よ ば れ ま す が 、こ こ で は 簡 単 に「 中 間 値 」と よ ぶ こ と に し ま す 。
D
1
2
3
縦軸
1
6
8
5
最小値
6
4
2
2
7
10 6
最大値
10
10
8
3
8
4
8
中間値
8
7
5
4
9
7
2
範囲
4
6
6
5
10
9
4
範 囲 : 最 小 値 -最 大 値
1
2
3
4:6-10 6:4-10 6:2-8
2.3. 中央値
「 中 央 値 」median は デ ー タ を 昇 順 ま た は 降 順 に 並 べ 替 え て 、そ の 順 位 の
ちょうど中央にあるデータの値です。データの個数が偶数のときは中央の
2 つのデータの平均をとります。
14
D
1
2
3
縦軸
1
6
8
5
中央値
2
7
10 6
3
8
4
8
4
9
7
2
5
10
9
4
1
2
3
8.000 8.000 5.000
中 央 値 -中 間 値
(中 央 値 -中 間 値 )/範 囲
.000 1.000
.000
.000
.000
.167
2.4. 平均値
平 均 値 average, mean: Ave は デ ー タ の 和 を そ の 個 数 で 割 っ た 値 で す 。
Ave = Sum(Dnp) / Num(Dnp)
D
1
2
3
縦軸
1
6
8
5
平均値
2
7
10 6
3
8
4
4
9
5
10
1
2
3
8.000 7.600 5.000
平 均 値 -中 間 値
.000
.600
.000
8
(平 均 値 -中 間 値 )/範 囲
.000
.100
.000
7
2
平 均 値 -中 央 値
.000
-.400
.000
9
4
●調和平均値
速度、濃度、平均、比率など、割り算を使って算出された値の平均は、
そのまま合計して個数で割るとうまくいきません。たとえば、次のような
ケースの平均時速を計算してみましょう。あるグループがハイキングで一
定 の 行 程 を 往 復 し 、往 路 は 時 速 6 km/h、復 路 は 時 速 4 km/h だ っ た と し ま す 。
こ の と き 往 復 の 平 均 時 速 を 算 術 平 均 で 出 す と (6 + 4) / 2 = 5 に な る か ら と い
っ て 、 平 均 時 速 を 5(km/h)と し た の で は 、 不 都 合 な こ と が 起 こ り ま す 。 往
復の距離を平均時速で割っても時間が正しく出てこないのです。たとえば
片 道 12km だ と す る と 、24(km) / 5(km/h) = 4.8(h)に な っ て し ま い ま す が 、実
際 の 往 路 は 12 (km) / 6 (km/h) = 2(h) で あ り 、復 路 は 12 (km) / 4 (km/h) = 3(h)
で 、 往 路 と 復 路 を 併 せ て 5(h)に な り ま す 。
そ こ で 、 次 の よ う な 「 調 和 平 均 」 (Harmonic average: H. Ave.)が 使 わ れ ま
す 2 。 片 道 の 距 離 を a (km)と す る と 、 a(km) / 6(km/h)が 往 路 の 時 間 に な り ま
す 。 同 様 に 、 復 路 の 時 間 は a (km) / 4(km/h)で す 。 往 路 と 復 路 の 平 均 時 間
(Ave.h)は
2
た と え ば 池 田 (1976: 40-41)を 参 照 。「 調 和 平 均 」は Harmonic mean と よ ば
れ て い ま す が 、こ こ で は Harmonic average と し ま す 。
「 平 均 値 」(mean), 「 中
央 値 」 (median), 「 中 間 値 」 (mid)の イ ニ シ ャ ル が す べ て m と な る の で 紛 ら
わしいためです。
15
H.ave. = (a / 6 + a / 4) / 2
= [(1 / 6 + 1 / 4) / 2 ] a
= [(2 / 12 + 3 / 12) / 2] a
= [5 / (12 * 2) ] a
= (5 / 24) a
= (1 / 4.8) a
この第 2 式と最後の式を取り出すと、
[(1 / 6 + 1 / 4) / 2 ] a = (1 / 4.8) a
(1 / 6 + 1 / 4) / 2 = 1 / 4.8
1 / [(1 / 6 + 1 / 4) / 2] = 4.8
調 和 平 均 H.ave.を 一 般 式 で 書 く と 次 の よ う に な り ま す 3 。
H.Ave.(x, y) = 1 / [(1 / x + 1 / y) / 2]
な お 、こ の 調 和 平 均 は 次 の「 分 数 平 均 」(F.ave.: Fractional average)の 特 殊
な ケ ー ス で す ( 分 母 が 同 数 ) 。 分 母 が 異 な る と き は 次 の 分 数 平 均 (F.Ave)
を使います。
●分数平均
比 率 R 1 と R 2 の そ れ ぞ れ の 分 子 (A 1 , B 1 )と 分 母 (A 2 , B 2 )が わ か っ て い る と
き は (R 1 = A 1 / B 1 , R 2 = A 2 / B 2 )、 R 1 と R 2 の 分 子 の 和 (A 1 + B 2 )を 平 均 の 分 子 と
し 、R 1 と R 2 の 分 母 (B 1 + B 2 )の 和 を 平 均 の 分 母 と し た 分 数 を 使 う こ と も 考 え
ら れ ま す 。 こ れ を 「 分 数 平 均 」 (F.av: Fractional Average)と よ ぶ こ と に し ま
す 4。
F.av. = (A 1 + B 2 ) / (B 1 + B 2 )
それぞれの平均の結果は類似することがありますが、比率としての分数を
扱うとき、分数平均は 2 つの分数の元の数に遡って計算するので、他の平
均より正確です。また、結果の解釈もわかりやすいと思います。ちょうど
濃度と量の異なる食塩水を混ぜ合わせた食塩水の濃度のようなものになる
か ら で す 。 た と え ば 1/4 と 2/5 と い う 比 率 の 平 均 は 簡 単 な 算 術 平 均 (A.av.)
ならば、
A.Ave. = (1/4 + 2/5) / 2 = 0.325,
3
こ こ で は 2 つ の 値 の 調 和 平 均 を 説 明 し ま し た が 、2 個 以 上 で も 同 様 で す 。
H.av. = 1 / {[Σ (1 / x i )] / n}, こ こ で x i は そ れ ぞ れ の 値 を 示 し 、n は x i の 個 数
を示します。
4
一 般 に 「 加 重 算 術 平 均 」 (Weighted arithmetic mean)と よ ば れ て い ま す 。
16
幾 何 平 均 (G.av.)な ら ば
G.av. = ( 1 x 2 / 4 x 5) 1 /2 ≒ 0.316
調 和 平 均 (H.av.)な ら ば 、
H.av. = 1 / [(4 / 1 + 5 / 2) / 2] ≒ 0.308
になります。どちらも分子と分母の大きさに関わりなく一義的に計算され
ま す 。こ こ で 提 案 し た 分 数 平 均 (F.av.)を 使 う と 、次 の よ う に 計 算 さ れ ま す 。
F.av. = (1 + 2) / (4 + 5) ≒ 0.333
10/40 と 4/10 の そ れ ぞ れ の 平 均 を 比 べ て み ま し ょ う 。
平均
1/4, 2/5
10/40, 4/10
算 術 平 均 A.Ave.
0.325
0.325
幾 何 平 均 G.Ave.
0.316
0.316
調 和 平 均 H.Ave.
0.308
0.308
分 数 平 均 F.Ave.
0.333
0.280
このように、他の平均と比べて、分数平均では第一項の分子と分母を大
きくすると、全体的に薄まって数値が下降していることがわかります。
次の表は、調和平均の説明によく使われる往復(ハイキングなど)の平
均速度の計算を示すものです。この表が示すように、距離と時間のそれぞ
れの和から速度を計算すると、調和平均と分数平均は正しい平均値を出し
ます。
同距離
昨日 今日 和
算術平均 調和平均 分数平均
距離(km)
12
12
24
時間(h)
2
3
5
速度(km/h)
6
4 4.80
5.00
4.80
4.80
しかし往復ではなく、二日目は一日目の道を引き返すのではなく、さら
に先に進むような場合、次のように両日の距離が異なるのがふつうです。
異距離
昨日 今日 和
算術平均 調和平均 分数平均
距離(km)
12
15
27
時間(h)
2
3
5
速度(km/h)
6
5 5.40
5.50
5.45
5.40
このとき、調和平均は距離と時間の和から算定される速度を正しく示し
て は い ま せ ん 。分 数 平 均 は 、そ の ま ま 距 離 と 時 間 の 和 か ら 算 定 さ れ る の で 、
17
直感的に理解できると思います。
このように分数平均は、分子の値の和を分母の値の和で割る、という簡
単な操作で求められます。2 つの値だけでなく、次のように N 個のデータ
でも、同じ計算方法を使うことができます。
F.av. = (X 1 + X 2 + …, + X n ) / (Y 1 + Y 2 + …, +Y n ) = Sum(X n ) / Sum(Y n )
こ こ で Xi は そ れ ぞ れ の 分 子 の 値 、Yi は そ れ ぞ れ の 分 母 の 値 を 示 し ま す 。
そ う す る と 、Y i が す べ て 1 で あ る と き が 算 術 平 均 に な る こ と が わ か り ま す 。
F.Ave. = (X 1 + X 2 + …, + X n ) / (1 + 1 + …, +1) = Sum(X n ) / N
●切除平均値
デ ー タ の 中 に 極 端 に 大 き な 値 や 小 さ な 値 ( 「 外 れ 値 」 outlier と よ ば れ ま
す)があるとき、それが作用して平均値が代表値として役に立たない こと
が あ り ま す 。 た と え ば 、 {1, 55, 5, 2, 4}の よ う な デ ー タ で は 55 が あ る た め
に 、 全 体 の 平 均 値 が 13.4 に な り 、 こ の 平 均 値 が 対 多 数 を 占 め る {1, 2, 4, 5}
からは大きく外れた値になり、代表値として適していません。
そこで外れ値の影響を除くために中央値が使われます。そのためにデー
タ を {1, 2, 4, 5, 55}の よ う に 大 小 順 に 並 べ 替 え 、そ の 中 央 に あ る 値 4 を 選 び
ます(データ数が偶数のときは中央にある 2 つの数の平均を使います)。
しかし、中央値には中央値以外のデータの大きさは考慮されていません。
た と え ば 、 {2, 3, 4, 6, 9}で も 、 {2, 3, 4, 7, 12}で も 、 中 央 値 は 同 じ 4 に な り
ます。このような場合には中央値よりも平均値の方がデータの代表値とし
て適しているように思われます。
このように平均値と中央値には一長一短があり、データの代表値として
どちらを採用するか迷うことがあります。そこで、平均値と中央値の 2 つ
の 考 え 方 を 総 合 し た 「 切 除 平 均 値 」 (trimmed mean [average])と い う 数 値 が
使 わ れ て い ま す 5 。切 除 平 均 値 を 計 算 す る た め に は 、は じ め に デ ー タ の 平 均
値を計算し、次にデータから最大値と最小値を除いたデータの平均値を計
算し、さらにデータがあれば、同様に最大値と最小値を除いたデータの平
均値を計算します。こうして、データがなくなるまで平均値を計算して、
集めた平均値の合計をその平均値の数で割ります。
実際の計算では、最大値と最小値を簡単に探すために、データを大小順
に 並 べ 変 え て お く と よ い で し ょ う 。以 下 に 先 の 例 {1, 55, 5, 2, 4}を 使 っ て 具
体的にプロセスを示します。
(1)
(1 + 2 + 4 + 5 + 55} / 5 = 13.4
5
芝 ・ 渡 部 ・ 石 塚 編 『 統 計 用 語 辞 典 』 (新 曜 社 1984)で は 「 切 除 平 均 値 」 は
「調整平均値」と訳されています。
18
(2)
(2 + 4 + 5) / 3
= 3.67
(3)
(4) / 1 =4
(4)
(13.4 + 3.67 + 4) / 3 = 7.02
次は、ほかのデータ例を使ってそれぞれの平均値、 切除平均値、中央値
を比べた結果です。
Inp
L1
L2
L3
L4
L5
Inp
Average Trim.ave.
Median
d1
10
19
14
7
12
d1
12.400
12.133
12.000
d2
11
7
10
0
1
d2
5.800
6.267
7.000
d3
0
0
1
12
1
d3
2.800
1.489
1.000
d4
0
1
2
3
3
d4
1.800
1.933
2.000
切 除 平 均 値 (T.ave.)の 計 算 の 過 程 で 、最 初 は 全 体 の 平 均 値 を と り 、最 後 の
平均値は中央値になります。そして途中の平均値は外れ値である可能性が
ある最大値と最小値を徐々に取り除いて計算します。そうすると、外れ値
は切除平均値の計算に除外されませんが、考慮される回数が少なくなりま
す。逆に中央値に近い数値は考慮される回数が多くなります。
L = Int(
𝑁+1
2
)
T.ave. = [∑𝐿−1
𝑖=0
1
𝑁−2𝑖
∑𝑁−𝑖
𝑗=1+𝑖 𝑋(𝑗)] / L
こ こ で 、 L は (N+1)/2 の 整 数 部 (Int)、 N は デ ー タ 数 、 X(j)は ソ ー ト さ れ た
データを示します。
●大数平均値
データの外れ値の影響を少なくする方法として前出の「 切除平均値」が
考案されました。しかし、切除平均値を計算する過程で各段階の平均を算
出する際、徐々にデータ数が減少し、初めはデータ全体を含みますが、最
後は中央値だけになり、それぞれの平均の母数が異なるので、中央値(付
近)のデータの影響度が非常に大きくなります。
そこで、各段階で最小値と最大値をトリムするのではなく、データ数の
半数以上が含まれるグループを左から徐々に切り出しながら、各段階の平
均 値 を 求 め 、 そ の 和 の 平 均 を 求 め た 「 大 数 平 均 値 」 (Majority average)と い
う 数 値 を 考 え て み ま し ょ う 。以 下 に 先 の 例 {1, 55, 5, 2, 4}を ソ ー ト し た デ ー
タ (1 + 2 + 4 + 5 + 55}を 使 っ て 具 体 的 に プ ロ セ ス を 示 し ま す 。 デ ー タ 数 は 5
なので、過半数は 3 個になります。
(1)
(1 + 2 + 4} / 3 = 2.33
19
(2)
(2 + 4 + 5) / 3
= 3.67
(3)
(4 + 5 +55) / 3 = 21.33
(4)
(2.33 + 3.67 + 21.33) / 3 = 9.11
次は、ほかのデータ例を使ってそれぞれの平均値を比べた結果です。 大
数平均値でも中央値付近のデータは重視されますが、それでも過半数の広
がりの中で平均を求めているので、より「平均性」が高い、と言えるでし
ょう。
Inp
L1
L2
L3
L4
L5
Row
Average Trim. ave.
Major ave.
d1
10
19
14
7
12
d1
12.400
12.133
12.222
d2
11
7
10
0
1
d2
5.800
6.267
6.000
d3
0
0
1
12
1
d3
2.800
1.489
1.889
d4
0
1
2
3
3
d4
1.800
1.933
1.889
次 が 大 数 平 均 値 (M.ave.)の 算 出 式 で す 。
L = Int(
𝑁+1
)
2
M = Int(
𝑁+2
2
)
𝑖+𝐿−1
M.ave. = [∑𝑀
𝑋(𝑗)] / (L * M)
𝑖=1 ∑𝑗=𝑖
ここで、L は過半数の幅、M は最後のデータセットの開始位置を示しま
す。
●歪度
平均値を中心にして、データの左右の偏りを計る指標として、「歪度」
( わ い ど ) (skewness: Sk)が 使 わ れ ま す ( 芝 ・ 渡 部 ・ 石 塚 1984: 282) 。 歪 度
を 算 出 す る た め に 、 初 め に デ ー タ を 「 標 準 得 点 」 (Standard score)に 変 換 し
なければなりません(後述→「標準得点」)。標準得点はそれぞれの数値
から平均を引き、標準偏差で割った値です。歪度は、標準得点の 3 乗和を
データ数で割った値です。
Sk = Sum{E[(Dn – Ave(Dn)) / Sd(Dn), 3]} / Ctn(Dn)
こ こ で 、 Sum(X n p )は 行 列 X np の 成 分 の 総 和 を 示 し 、 E(X np , Y)は 行 列 X n p
の 成 分 を そ れ ぞ れ Y 乗 に し た 行 列 を 示 し 、 Ave(Dn), Sd(Dn), Ctn(Dn)は 、そ
れ ぞ れ Dn の 成 分 の 平 均 、 標 準 偏 差 、 個 数 を 示 し ま す 。
データの標準測度は平均よりも大きければプラスになり、小さければマ
イナスになるので、その 3 乗もプラスとマイナスの符号は変わりません。
20
標準測度をそのまま使わずにそれを 3 乗にする理由は、標準測度の分子が
偏 差( デ ー タ 値 –平 均 )な の で 、そ の ま ま 総 和 を 出 す と 、ど の よ う な デ ー タ
でもゼロになってしまうからです(後述→●「偏差の和はゼロ」)。
歪度は標準測度の 3 乗和の平均なので標準測度が正規化されていないた
め ( –1 ~ 1 の 範 囲 に な ら な い ) 、 歪 度 も 正 規 化 さ れ て い な い こ と を 次 の デ
ータで確認しておきましょう。
横軸 平均値
歪度
A
L1 L2 L3 L4 L5
d1
10
19
14
7
12
d1
12.400
.367
d2
11
7
10
0
1
d2
5.800
-.192
d3
0
0
1
12
1
d3
2.800 1.465
d4
0
1
2
3
3
d4
1.800
縦軸
L1
L2
L3
L4
-.363
L5
平均値 5.250 6.750 6.750 5.500 4.250
歪度
.014
.775
.183
.263 1.049
●偏差の和はゼロ
偏 差( デ ー タ –平 均 )の 和 (SumDv)が ゼ ロ に な る こ と は 感 覚 的 に 理 解 で き
ますが、数理で確認しておきましょう。
Ave(Dn) = Sum(Dn) / N
… Dn の 平 均 =Dn の 和 / N
Dv = Dn – Ave(Dn)
…偏 差 ベ ク ト ル
Sum(Dv) = Sum[Dn – Ave(Dn)]
…偏 差 の 和
= Sum(Dn) – N [Ave(Dn)]
…2 項 の 和 を 分 離 す る
= Sum(Dn) – N [Sum(Dn) / N] …Ave(Dn)は Dn の 平 均
= Sum(Dn) – Sum(Dn) = 0
…2 項 と も Dn の 和
■言語データの L 字型分布
身長や学力などの「正規分布」とよばれる分布を示すデータの頻度とそ
の順位は下図(行:順位、列:頻度)のようになります。つまり、順位の
最下位と最上位の数は少なく、中央値が平均値にほぼ一致して高頻度とな
ります。一方、言語データ(文字、音韻、語彙、など)は、高順位のデー
タ(少数)の頻度がきわめて高く、低順位のデータ(多数)の頻度がきわ
めて低い、という特徴を示します。これは「L 字型分布」とよばれていま
す 。以 下 で 示 す よ う に 、正 規 分 布 を 示 す デ ー タ と L 字 型 分 布 を 示 す デ ー タ
は扱い方が異なります。
21
2.5. 最頻値
デ ー タ の 中 で 最 も 多 く 現 れ る 数 値 は 「 最 頻 値 」 (Mode)と よ ば れ ま す 。
横軸
最頻値
12
d1
No mode
No mode
0
1
d2
No mode
No mode
1
12
1
d3
No mode
No mode
2
3
3
d4
3
3: 2
D
L1 L2 L3 L4 L5
d1
10
19
14
7
d2
11
7
10
d3
0
0
d4
0
1
最頻値:頻度
こ の デ ー タ の d1 と d2 は ど れ も 異 な る 数 値 な の で 最 頻 値 が あ り ま せ ん 。
d3 は 0 と 1 が そ れ ぞ れ 2 回 ず つ 現 れ て い る の で 、最 頻 値 が 決 定 で き ま せ ん 。
d4 で は 、 3 が 2 回 現 れ て い る の で 、 こ れ が 最 頻 値 に な り ま す 。
●大数最頻値
最頻値はそれぞれのデータが異なる数値を示しているときには役立ちま
せ ん 。 ま た 、 最 頻 値 と 2, 3…番 目 に 頻 度 が 高 い 値 が 離 れ て い る と き は 、 そ
の最頻値だけが「最頻性」を代表している、とは言えないでしょう。そこ
で数値が集中しているデータの探し方として、データの過半数ができるだ
け狭い範囲に集中しているデータセットの平均を、集中した数値として代
表 さ せ る 方 法 を 考 え ま す 。こ れ を「 大 数 最 頻 値 」Majority mode と よ ぶ こ と
にします。ここで、「最も多く存在する同一の値」という「最頻値」とい
う概念を「最も多く存在する、近い値の中心」という概念に拡大します。
た と え ば d1 = {10, 19, 14, 7, 12}を ソ ー ト し た {7, 10, 12, 14, 19}と い う 行
に つ い て 、次 の よ う に 個 数 =5 の 過 半 数 3 個 で 一 番 小 さ い 数 値 範 囲 の デ ー タ
セット(下線)を探します。
1: {7, 10, 12, 14, 19} 範 囲 : 12 – 7 = 5
2: {7, 10, 12, 14, 19} 範 囲 : 14 – 10 = 4
3: {7, 10, 12, 14, 19} 範 囲 : 19 – 12 = 7
22
こ こ で 、2:の 範 囲 (14-10=4)が 一 番 小 さ い の で 、こ の デ ー タ セ ッ ト の 10, 12,
14 の 平 均 12 を 大 数 最 頻 値 と し ま す 。 最 小 の 範 囲 が 複 数 あ る と き に は 、 セ
ッ ト の 幅 を 3, 4, 5 の よ う に 1 つ ず つ 増 や し て 検 索 を 続 け ま す 。極 端 な 場 合
と し て 、 {3, 4, 5, 6, 7}の よ う に 連 続 す る デ ー タ セ ッ ト で は 、 ど の よ う な 幅
のデータセットをとっても集約させることができません。そのときは最大
の 幅 と し て デ ー タ の 大 き さ (5)を 使 う こ と に な り 、こ の 場 合 は 平 均 値 と 等 し
くなります。
横軸 大数最頻値 大数最頻値:範囲
D
L1 L2 L3 L4 L5
d1
10
19
14
7
12
d1
12.000
10.000 - 14.000
d2
11
7
10
0
1
d2
9.333
7.000 - 11.000
d3
0
0
1
12
1
d3
.500
.000 - 1.000
d4
0
1
2
3
3
d4
2.667
2.000 - 3.000
2.6. 分散・標準偏差
分 布 の 様 子 ( 散 ら ば り 方 ) を 示 す 指 標 と し て の 「 分 散 」 (Variance: V)と
「 標 準 偏 差 」 (Standard deviation: Sd)が 使 わ れ ま す 。 分 散 (V)は そ れ ぞ れ の デ
ー タ 値 (Dn)か ら 平 均 (Ave)を 引 い た 偏 差 の 2 乗 和 を デ ー タ の 個 数 で 割 っ た
値 で す 。 標 準 偏 差 (Sd)は 分 散 の 2 乗 根 で す 。
Ave = Sum(Dn) / N
V = Sum(Dn – Ave) / N
Sd = V 1 /2
統計量
分散
a.効果がある b.楽しい
統計量
全体
分散
846.96
667.11
759.44
標準偏差
25.83
27.56
標準偏差
29.10
変動係数
0.37
0.59
変動係数
0.50
集中度
0.14
0.22
正規変動係数
0.13
拡散度
0.86
0.78
拡散度
0.87
●変動係数・正規変動係数・拡散度
標準偏差は個々のデータの規模(平均)が大きくなると、それに応じて
大きくなる性質があります。そこで、こうした規模の違いを超えて比較で
き る よ う に 標 準 偏 差 を 平 均 で 割 っ た 値 が 「 変 動 係 数 」 (Coefficient of
variation: Cv)で す 6 。 標 準 偏 差 も 平 均 も デ ー タ の 規 模 を 反 映 し て い ま す か ら 、
標準偏差を平均で割った変動係数はデータの規模に左右されることなく、
6
芝他『統計用語辞典』(新曜社)
23
だいたいのばらつき具合がわかります。
次 に 、標 準 偏 差 を [0.0 ~ 1.0]の 範 囲 を も つ 値 に し た も の を「 正 規 変 動 係 数 」
(Normal coeficient of variation: N.C.V.)と よ ぶ こ と に し ま す 。 標 準 変 動 係 数
は 標 準 偏 差 (Sd.)を そ の 最 大 値 Sd.max で 割 る こ と で 求 め ら れ ま す 7 。
N.C.V. = Sd. / Sd.max
先 に 見 た よ う に 標 準 偏 差 Sd.は 次 の よ う に 定 義 さ れ て い ま す 。
Sd = {[(x 1 –m) 2 + (x 2 – m) 2 + … + (x n – m) 2 ] / n} 1 /2
Sd = Sqr(V) = Sqr[Sum(Dn – Ave) / N]
こ こ で 、 た と え ば {10, 0, 0, 0, 0}と い う よ う な 1 つ だ け に 数 値 が あ る デ ー
タを考えましょう。このようなときが変動係数が最大値になるときです。
こ こ で 一 般 化 し て {K, 0, 0, …, 0}と い う N 個 の デ ー タ を 考 え ま す 。 そ う す
る と 、 上 の 式 の 分 子 の 第 1 項 だ け が (K – Ave) 2 に な り 、 残 り N – 1 個 は ど
れ も (0 – Ave) 2 = Av 2 に な り ま す 。 よ っ て 変 動 係 数 の 最 大 値 は 、
Sd.max = {([(K – Ave) 2 + (N – 1)Av 2 ]} 1 /2
このとき K 以外にデータがないので K が総和になります。よって、
K = Sum(Dn) = N Ave
という関係がわかります。よって
Sd.max = {[(N Ave – Ave) 2 + Ave 2 (N – 1)] / N} 1 /2
= {[(Ave (N – 1)) 2 + Ave 2 (N – 1)] / N} 1 /2
= {[Ave 2 (N – 1) 2 + Ave 2 (N – 1)] / N} 1 /2
= {(Ave 2 (N – 1) [(N – 1) +1] / N} 1 /2
= {(Ave 2 (N – 1) N / N} 1 /2
= [(Ave 2 (N – 1)]
1 /2
= Ave (N – 1) 1 /2
よ っ て 、 正 規 標 準 偏 差 (N.S.D.)は 、
N.C.V. = Sd. / Sd.max = Sd. / [Ave (N – 1) 1 /2 ]
正 規 変 動 係 数 (N.C. V.)と 変 動 係 数 (C.V.)の 違 い は 、正 規 標 準 偏 差 の 分 母 に
(N – 1) 1 /2 を 掛 け て い る こ と で す 。デ ー タ 行 列 は 一 般 に N の 数 値 が 大 き い の
で、正規標準偏差は小さくなります。そのような場合には正規標準偏差は
7
この正規化の方法は以下でもしばしば使います。
24
個体間の得点の変動ではなく、むしろ比較的少数の変数間の変動を見ると
きに使うべきです。
■語の使用度
A. Juilland and E. Chang and Rodríguez. Frequency dictionary of Spanish
words, (The Hague: Mouton, 1964)は 5 つ の 分 野( 演 劇 、小 説 、随 筆 、科 学 技
術 文 、報 道 文 )の 言 語 資 料 で 使 わ れ る ス ペ イ ン 語 単 語 の 頻 度 辞 典 を 作 成 し 、
単 語 の 「 使 用 度 」 (Usage: U)を 示 す 数 値 と し て 、
U =Fx D
と い う 式 を 提 案 し ま し た 。 こ こ で F は 単 語 の 頻 度 (Frequency)を 示 し 、 D は
分 野 間 の 「 拡 散 度 」 (Dispersion)を 示 し ま す 。 つ ま り 、 単 語 の 使 用 度 を 見 る
た め に は 頻 度 (F) だ け で な く 、 各 分 野 に 均 等 に 使 用 さ れ て い る 度 合 ( 拡 散
度 : D)も 勘 案 す べ き だ と い う 考 え 方 で す 。 そ し て 、 次 の よ う な 拡 散 度 (D)
の式が提示されました。
D = 1 – 標 準 偏 差 / (2 x 平 均 値 )
分 母 に あ る 2 は (分 野 数 5 – 1) 1 /2 の こ と だ と 思 い ま す 。 よ っ て 次 の よ う な
関係になります。
拡 散 度 (D) = 1 – 正 規 変 動 係 数 (N.C.V.)
2.7. 弁別度・対立度
たとえばある言語の古文献に i と j という文字が用いられ、どちらも
同 じ 条 件 で /i/ と い う 音 韻 を 示 し て い た と し ま す 。 そ れ ぞ れ の 頻 度 (F) が
F(i)=32 と F(j)=2 の 間 の よ う に 大 き な 差 が あ れ ば 、 ほ と ん ど の ケ ー ス で j
が使われたことになるので、その弁別する力は強かったと判断できます。
一 方 、そ れ が 32 と 28 の よ う に 僅 差 で あ れ ば 、i ~ j は ほ と ん ど「 自 由 変 異 」
(free variation)で あ っ た 、つ ま り 両 者 は 弁 別 さ れ て い な か っ た と 考 え ら れ ま
す 。 そ こ で 、 「 弁 別 度 」 Distinction grade : Dg を 次 の よ う に 定 義 し ま す 。
Dg(i, j) = [F(i) – F(j)] / F(i)
こ こ で F(i)は i の 頻 度 を 示 し 、F(j)は j の 頻 度 を 示 し ま す 。F(i)と F(j)が 等
し い と 弁 別 度 は ゼ ロ に な り 、F(j)が ゼ ロ に な る と i の 弁 別 度 は 1 に な り ま す 。
こ の 弁 別 度 は バ リ ア ン ト が 2 つ の 場 合 に つ い て 計 算 し ま し た 。さ ら に i, j
だけでなく y が現れる文献では、次のように計算します。
Dg(i : j, y) = {F(i) – [F(j) + F(y)] } / F(i)
25
一 般 に Fn = F(1, 2, …, n)の 中 の F(1)の 弁 別 度 Dg(1)は 、
Dg(1) = {F(1) – [F(2) + F(3) + … F(n)] } / F(1)
= {F(1) – [Sum(Fn) – F(1)] } / F(1)
= [2 F(1) – Sum(Fn)] / F(1)
= 2 – Sum(Fn) / F(1)
F(1)を F(1, 2, …, n)の 最 大 値 (Max(Fn))と す れ ば 、
Dg(Max(Fn)) = 2 – Sum(Fn) / Max(Fn)
と な り ま す 。 こ の 弁 別 度 は 、 成 分 の 最 大 値 F(1) = Max(Fn)が 他 の 成 分 の 和
( [F(2) + F(3) + … F(n)])よ り も 小 さ い と マ イ ナ ス に な り 、そ の 理 論 的 最 小 値
が一定になりません。そこで、先の弁別度の分母を次のように対照型にし
て 、 新 た に 「 対 立 度 」 (Opposition grade: Og)を 設 定 し ま す 。
Og(i, j) = [F(i) – F(j)] / [F(i) + F(j)]
= [F(i) – F(j)] / Sum(Fn)
一 般 に F(1, 2, …, n)の 中 の F(1)の 対 立 度 (Og(1))は 、
Og(1) = {F(1) – [F(2) + F(3) + … F(n)] } / {F(1) + [F(2) + F(3) + … F(n)] }
= {F(1) – [Sum(Fn) – F(1)] } / Sum(Fn)
= [2 F(1) – Sum(Fn)] / Sum(Fn)
= 2 F(1) / Sum(Fn) – 1
F(1)を F(1, 2, …, n)の 最 大 値 Max(Fn)と す れ ば 、
Og(Max(Fn)) = 2 Max(Fn) / Sum(Fn) – 1
となります。
一般に、成分の最大値が他の成分の和よりも大きいときには弁別度を使
用し、そうでないときは対立度を使用するとよいでしょう。
■ 16-17 世 紀 の ス ペ イ ン 語 の u と v
従 来 の 研 究 で は 15-17 世 紀 ス ペ イ ン で 発 刊 さ れ た 書 籍 で は u と v が 弁 別
せ ず に 使 わ れ て い た 、 と 説 明 さ れ て い ま す 。 次 は 15-17 世 紀 に ス ペ イ ン で
発刊された 6 冊の本(初頭から 2 万字に限る)について、文字 u と v の頻
度と弁別度を計算したものです。
26
全体
1.Nb
2.Rj
3.Lz
4.Cv
5.Qv
6.Gc
Total
u
949
820
1.040
1250
1051
849
5959
v
165
139
191
194
209
402
1300
0.826
0.830
0.816
0.845
0.801
0.527
0.782
弁別度
このように全体を見るとたしかに比較的弁別度が低いことがわかります。
ところが、文字の現れる位置について、それぞれの弁別度を計算してみる
と 、 次 の よ う に な り ま し た 8。
位置
1.Nb
2.Rj
3.Lz
4.Cv
5.Qv
6.Gc
Tot al
#_V
0.974
1.000
0.942
1.000
1.000
1.000
0.996
#_C
1.000
1.000
0.985
1.000
1.000
1.000
0.896
V_V
0.625
1.000
1.000
1.000
1.000
0.939
0.757
V_C
0.971
0.429
0.917
1.000
1.000
0.978
0.929
C_V
0.967
1.000
0.998
1.000
0.998
0.901
0.980
C_C
0.995
1.000
1.000
1.000
0.996
0.997
0.998
た し か に 、 複 数 の 本 を 取 り 上 げ れ ば 全 体 的 に u-v の 弁 別 が な い よ う に 見
えます。しかし、それぞれの本の中では、下線のような弁別度が低い本も
ありますが、それを除けば文字の位置によって比較的統一されていたこと
がわかります。一般に、データの分布にさまざまな要因が隠れているにも
かかわらず、それを見ないで全体的な把握をすると、弁別や対立の真の姿
を見失うことがあります。
●検索
データ行列の特徴的な値を観察するために特定の条件に一致したセルの文
字 色 や 背 景 色 を 変 え ま す 。た と え ば 、「 A 以 上 」と い う 条 件 に つ い て「 A」
に あ た る 部 分 を 「 A:」 の コ ン ボ ボ ッ ク ス か ら 選 択 し ま す 。 「 平 均 」 を 選 択
すると「平均以上」が条件になりまる。ここで「指定」を具体的な数値に
すると、その数値以上の値を持つセルを検索します。
データ
データ
v-1
v-2
v-3
v-4
v-5
d-1
10
40
70
50
20
d-2
20
40
60
50
20
d-3
100 400 700 500 200
8
ここでは最大値を示すバリアントの弁別値を計算したので、すべてプラ
ス の 値 に な り ま し た 。v が 使 わ れ る ほ う が ふ つ う の 位 置 で は 、u の 弁 別 値 が
マイナスになります。
27
条 件 : A 以 上 、 A:平 均
結果
データ
v-1
v-2
v-3
v-4
v-5
d-1
10
40
70
50
20
d-2
20
40
60
50
20
d-3
100 400 700 500 200
次 は「 文 字 色 」と「 背 景 色 」を「 不 変 」と し 、「 変 換 」の「 一 致 」を「 v」、
「不一致」を空白とした場合の入力と出力です。
項目
a.役立つ b.楽しい
項目
a.役立つ b.楽しい
A.文法解説
86
29
A.文法解説
v
B.ビデオ
53
78
B.ビデオ
v
C.活動
48
53
C.活動
v
D.映画
43
96
D.映画
v
E.音読
110
42
E.音読
v
F.筆写
93
11
F.筆写
v
G.観察
37
50
G.観察
H.小テスト
89
15
H.小テスト
v
v
■異常値と欠測値
サンプルのデータ行列は小さなものですが、実際の言語データ分析では
行数も列数もかなり大きな行列を扱うことがあります。そのとき、それぞ
れ の セ ル の デ ー タ は 全 体 の 中 に 紛 れ て し ま い 、貴 重 な 情 報 が 見 失 わ れ ま す 。
とくに「異常値」とよばれるデータに注目しなければなりません。そこ
に何か特別なことが生じているためです。一般にデータ分析では普通では
ないデータを異常値として退けるのではなく、むしろそのようなデータが
特別な「情報」をもっている、とも考えられます。逆に普通のことにはあ
ま り 情 報 が あ り ま せ ん 。そ こ で 平 均 か ら の 距 離 が 大 き な 値 や 上 位 N 番 な ど
をマークして注目するのです。
デ ー タ 行 列 の「 欠 測 値 」(missing value)も 異 常 値 の 1 つ と 考 え ら れ る で し
ょ う 。次 の サ ン プ ル デ ー タ で は 、10 点 満 点 の テ ス ト で 欠 席 の ケ ー ス x で マ
ー ク し て あ り ま す が 、「 指 定 」「 N:x」で さ ら に 背 景 色 や 文 字 色 を 変 え て み
ました。このようにデータを視覚化すると、欠測値を見失うことはありま
せん。欠測値については後述します。.
28
29
3. 変 換
データ行列の成分全体を一定の規則で変換することがあります。変換す
るための規則にはデータ分析の目的によってさまざまなものがあります。
3.1. 得点
こ の 節 で は 、デ ー タ を 構 成 す る 個 々 の デ ー タ の「 得 点 」(Score)に 着 目 し 、
データ内のそれぞれの値の特徴をデータ全体の中で観察します。以下で扱
う得点の中には「度数」という用語を使って「相対度数」「期待度数」の
ように一般によく使われるものもありますが、「加重得点」「限定得点」
「 代 表 得 点 」「 卓 立 得 点 」は 一 般 に 使 わ れ て い ま せ ん 。「 標 準 得 点 」は「 標
準スコア」「標準測度」などとよばれますが、ここではデータの個々の数
値を変換した値を成分としてもつ行列をすべて「得点行列」という用語で
統一しました。
3.1.1. 修 正 得 点
実測値に適当な数値を加減乗除したり、指数化したり、対数化したりす
ることがあります。とくに、言語数量データは指数関数のような頻度分布
を示すことが多いので、そのようなときは対数変換が有効です。このよう
に 実 測 値 に 一 定 の 修 正 を 加 え た 得 点 を 「 修 正 得 点 」 (Modified Score: M.S.)
とよぶことにします。
下 左 図 は 実 測 値 Observed Score: O.S. 、下 右 図 は 実 測 値 .に 2 を 加 算 し た 修
正得点行列です。
O.S. L1 L2 L3 L4 L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
M.S.Add L1 L2 L3 L4 L5
w1
w2
w3
w4
12 21 16 9 14
13
9 12 2
3
2
2
3 14 3
2
3
4
5
5
こ の よ う に 、デ ー タ 行 列 Dnp の 個 々 の 成 分 に 一 定 の 数 値 (2)を ス カ ラ ー と
して加える、という操作を行列演算式と行列関数で示すと次のようになり
ます。
D n p + 2 = R np , R n p = A(D n p , 2)
こ こ で 、 Dnp が 上 左 表 (O.S.)に 対 応 し 、 Rnp は 上 右 表 (M.S.Add.)に 対 応 し
ます。A は行列、ベクトル、数値の加算を示す行列関数です。この行列関
30
数 は 、 こ の 演 算 に 必 要 な 2 つ の 引 数 (argument)を 受 け 取 る と 、 そ の 和 と な
る 1 つ の 行 列 を 返 し ま す (return)。こ の よ う な プ ロ グ ラ ム の 作 成 法 に つ い て
は、後述します。
下 左 図 は 実 測 値 の 対 数( 底 =2)を 示 す 修 正 得 点 で す 。左 図 の #NUM!が 示 す
よ う に 、 ゼ ロ (0) の 対 数 は 定 義 さ れ ま せ ん が 、 NUMEROS で は Log(0) が
Log(1)=0 よ り も 小 さ な 数 、と い う 考 え 方 で Log(0)=0 と 定 義 し て ま す 。こ れ
は数学的には正しくありませんが、大きな数を含むデータ全体を見渡すと
きに、実測値 0 を外すわけにはいかない、という実際的な理由によるもの
です。
M.S.Log.
L1
L2
L3
L4
L5
M.S.Log.
L1
L2
L3
L4
L5
w1
3.32
4.25
3.81
2.81
3.58
w1
3.32
4.25
3.81
2.81
3.58
w2
3.46
2.81
3.32
#NUM!
.00
w2
3.46
2.81
3.32
.00
.00
w3
#NUM!
#NUM!
.00
3.58
.00
w3
.00
.00
.00
3.58
.00
w4
#NUM!
.00
1.00
1.58
1.58
w4
.00
.00
1.00
1.58
1.58
■語彙の文法カテゴリーと出現頻度
次 は セ ル バ ン テ ス『 ド ン ・ キ ホ ー テ 』(1605, 1615)の 全 出 現 語 彙 を 文 法 カ
テゴリーと頻度のランクによって分類したものです。頻度のランクは出現
度 数 を 対 数 に 変 換 し 、 そ れ に 従 っ て 1( 最 小 頻 度 ) か ら 10( 最 大 頻 度 ) に
分類しました(後述の「限定得点」による)。それぞれのセルには該当す
る異なり語数を示しています。
31
Grammatical category (Members) and Rank (1 – 10)
Category / Rank
Noun
1
2
3
4
5
6
7
8 9 10 Total
1656 973 579 349 171 70 10 2
4
Verb
631 399 271 183
93 41 16 9 2
Adjective
562 279 191 122
39 25
5 2
1
8 4
169
Adverb
55
36
20
17
18 11
Interjection
10
7
3
1
1
Numeral
7
8
8
8
Demonstrative pronoun
1
2
Indefinite pronoun
2
2
1
Interrogative
1
2
22
1
3
1
36
1
1
1
6
8
3
16
2
1
2
2
1
1
1
3
2
2 2
1
4
4
1 3 2
3
21
11 10
5 4 3
2
39
1
4 3
2
13
Unstressed personal pronoun
3
7
Relative
1
3
Personal pronoun tonic
1
Preposition
3
Determinant
Conjunction
4
1
1
1
8
12
3
13
1
5
語彙は冠詞や前置詞・接続詞などの「機能語」(一般に高頻度で小数メ
ンバー)と、名詞、形容詞、動詞などの「内容語」(一般に低頻度で多数
メンバー)に分類されます。しかし、上の表を見ると、機能語であっても
比較的低頻度の語があり、また、内容語であっても比較的頻度が高い語が
あります。そこで、二分される文法カテゴリーと段階的な頻度について、
次のような 4 分割をしてみました。
Lexicon type / Frequency
High Frequency
Low Frequency
Function Words
Grammatical Words Instrumental Words
Content Words
Common Words
Specific Words
一般に、高頻度語は短縮しやすく、また、高頻度の不規則変化形が保持
されやすい、と言われます。しかし、短縮化と語形の保持というのでは、
一見、反対方向の変化のように思われます。そこで、それぞれのメンバー
を調べると、傾向として、語彙の短縮化はむしろ高頻度の機能語
( Grammatical Words: 強 勢 ア ク セ ン ト が な い た め 弱 化 ) で 起 こ り や す く 、
一 方 、 不 規 則 変 化 の 保 持 は 高 頻 度 の 内 容 語 ( Common Words: 強 勢 が あ る
ので弱化しない)の特徴だということがわかりました。そこで、言語変化
の直接的な要因として頻度を考えるのではなく、むしろ、語の機能の違い
が、語彙の頻度や語形の(不)変化を引き起こしている、と考えたほうが
よいと思います。
32
3.1.2. 相 対 得 点
先に見た実測値の問題点は、行と列ごとにスケールが異なるため、比較
が 難 し い と い う こ と で す 。た と え ば 、w1 の 11 と w4 の 10 を そ の ま ま 比 較
することができません。それぞれの和と平均が異なるからです。そこで有
効 に な る の が 「 相 対 得 点 」 (Relative Score: R.S.)( 割 合 ) で す 。 そ れ ぞ れ の
得 点 x を 和 Sm で 割 る こ と で 算 出 で き ま す 。 x = 0 の と き R.S.の 最 小 値 は 0
で 、 x = Sm の と き 最 大 値 1 に な り ま す 9 。
R.S. = x / Sm
R.S.: [0.0 (x = 0) ≦ 0.5 (x = Sm/2) ≦ 1.0 (x = Sm)]
データを相対化することによって、さまざまな性格をもつデータを一定
の範囲で比較することが可能になります。
は じ め に Excel 関 数 SUM を 使 っ て 、行 和 (Sm.r)、列 和 (Sm.c)、総 和 (Sm.a)
を用意します。
実測値
L1
L2
L3
L4
行和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
列和
21
27
27
22
17
114
(1) 行 と 列 の 相 対 得 点
R.F.r.
L1
L2
L3
L4
L5
R.F.c
L1
L2
L3
L4
L5
w1
.16 .31 .23 .11 .19
w1
.48 .70 .52 .32 .71
w2
.38 .24 .34 .00 .03
w2
.52 .26 .37 .00 .06
w3
.00 .00 .07 .86 .07
w3
.00 .00 .04 .55 .06
w4
.00 .11 .22 .33 .33
w4
.00 .04 .07 .14 .18
相 対 得 点 は 行 に つ い て も (Relative Score in row: R.S.r.)、 列 に つ い て も
(Relative Score in column: R.S.c.)、 そ れ ぞ れ 計 算 す る こ と が で き ま す 。
行 相 対 得 点 (R.S.r.) = x / Sm.r
列 相 対 得 点 (R.S.c.) = x / Sm.c
こ こ で 、 x は そ れ ぞ れ の セ ル の 値 で す 。 Sm.r が 行 (row)の 和( 行 和 )を 示
し 、Sm.c は 列 (column)の 和( 列 和 )を 示 し ま す 。た と え ば 、相 対 得 点( 行 )
9
こ の 数 値 に 100 を 掛 け た 値 が 「 百 分 率 」 (percent)で す 。
33
の w3 で は x = 11 な の で 、 そ れ を Sm.r (= 29)で 割 る と 11
/
29
=
0.38
になります。
◆ Excel で は す べ て 参 照 を 使 い ま す 。相 対 得 点( 行 )で は 、 = B18 / $G18 の
よ う に 分 母 の 列 文 字 ( こ こ で は G) を 絶 対 参 照 し ま す 。 分 子 は 列 も 行 も 相
対参照します。それを全範囲にコピーします。次がその結果です。同様に
し て 相 対 得 点 ( 縦 列 ) を 作 成 し ま す 。 こ の と き 、 分 母 Sm.c.は 最 下 行 の 和
の セ ル を 参 照 し ま す 。 相 対 得 点 ( 列 ) で は 、 = B18 / B$22 の よ う に 、 分 母
の行番号を絶対参照します。
(2) 行 列 と 全 体 の 相 対 得 点
R.F.b
L1
L2
L3
L4
L5
R.F.a.
L1
L2
L3
L4
L5
w1
.24 .43 .31 .17 .30
w1
.09 .17 .12 .06 .11
w2
.44 .25 .36 .00 .04
w2
.10 .06 .09 .00 .01
w3
.00 .00 .05 .67 .06
w3
.00 .00 .01 .11 .01
w4
.00 .06 .11 .19 .23
w4
.00 .01 .02 .03 .03
行 と 列 を 総 合 し た「 行 列 相 対 得 点 」Relative Score in matrix: R.S.m. を 次 の
ように定義します。
R.S.m. = 2 Xnp / [NumR(Xnp) + NumC(Xnp)]
こ こ で 行 の 相 対 得 点 と 列 の 相 対 得 点 の「 分 数 平 均 」 (→「 統 計 量 」「 平 均
値 」 ) を 使 う こ と に し ま す 。 つ ま り 、 行 の 相 対 得 点 Xnp/ NumR(Xnp)と 列
の 相 対 得 点 NumC(Xnp)の そ れ ぞ れ の 分 子 を 足 し た も の を 分 子 と し( こ こ で
は分子は同じなので、それぞれもセルの値を 2 倍します)、それぞれの分
母 を 足 し た も の を 分 母 と し た も の で す 。た と え ば w1:L1 の 分 数 平 均 は 行 の
平 均 が 10/62、 列 の 平 均 が 10/21 な の で 、 (10 + 10) / (62 + 21) = 0.24 に な り
ま す 。◆ Excel で は =2*B4/($G4+B$8)の よ う に 、そ れ ぞ れ の 行 和 、列 和 を 複
合参照し、分子を相対参照します。
「 全 体 相 対 得 点 」 Relative Score in all: R.S.a. は 、 そ れ ぞ れ の セ ル の 値 を
全 範 囲 の 和 Sm.a で 割 っ た も の で す 。 上 右 図 の よ う に 数 値 が 非 常 に 小 さ く
な る 傾 向 が あ り ま す 。◆ Excel で は = B18 / $G$22 の よ う に 、分 母 を 絶 対 参
照にして動かしません。
R.S.a. = x / Sm.a.
割 合 や 百 分 率 な ど の 相 対 得 点 (R.S.)の 問 題 点 は 、デ ー タ の 規 模 が 大 き く な
る と 分 母 が 大 き く な る の で 、 R.S.が 小 さ な 数 値 に な り や す い こ と で す 。 と
く に 全 体 相 対 得 点 (R.S.a.)が 小 さ な 数 値 に な る 傾 向 が あ り ま す 。
34
●相対値と対照値
数 値 X と 数 値 Y を 比 較 す る に は 、 「 差 」 (X – Y)と 「 比 」 (X / Y)が 使 え
ま す 。 さ ら に 、 X / (X + Y), Y / (X + Y)と い う 式 も 考 え ら れ ま す 。 こ れ は 、
分 子 の X や Y を 全 体 (X + Y)の 中 で 相 対 化 し て い ま す 。 こ れ を 「 相 対 値 」
(Relative value: R.v.)と よ ぶ こ と に し ま す 。
相 対 値 (R.v.) = X / (X + Y)
相 対 値 は [0.0 ~ 1.0]の 範 囲 を 持 ち ま す 。 最 小 値 (0.0)は X = 0 の と き 、 最 大
値 (1.0)は Y = 0 の と き に 発 生 し ま す (X / X = 1)。中 間 値 は X = Y の と き に 発
生 し ま す (X / (2 X) = 1/2)。
ま た 、 (X – Y) / (X + Y)と い う 計 算 も よ く 使 わ れ ま す 。 こ れ を 「 対 照 値 」
(Contrastive value: C.v.)と よ ぶ こ と に し ま す 。
対 照 値 (C.v.) = (X – Y) / (X + Y)
次 が 先 に 扱 っ た デ ー タ の 行 相 対 得 点 (R.F.r)を 対 照 値 (R.F.r.+c)に 変 換 し た
結果です。ここで Y は横和から X の値を引いた値になります。
R.F.r. L1
w1
w2
w3
w4
.16
.38
.00
.00
L2
L3
L4
L5
R.F.r.+c
L1
L2
.31
.24
.00
.11
.23
.34
.07
.22
.11
.00
.86
.33
.19
.03
.07
.33
w1
w2
w3
w4
-0.68
-0.24
-1.00
-1.00
-0.39
-0.52
-1.00
-0.78
L3
L4
L5
-0.55 -0.77 -0.61
-0.31 -1.00 -0.93
-0.86 0.71 -0.86
-0.56 -0.33 -0.33
対 照 値 の 範 囲 は [-1.0 ~ 1.0]に な り ま す 。0.0 を 中 心 に し て 、正 負 が 対 照 的
に な り ま す 。 最 小 値 (-1.0)は X = 0 の と き 、 そ し て 最 大 値 (1.0)は Y = 0 の と
き に 発 生 し ま す 。中 間 値 は 0.0 で す が 、や は り X = Y の と き に 発 生 し ま す 。
このように、対照値の最大値と最小値はそれぞれ「割合」と同じ条件で発
生しますが、その範囲が異なります。
相対値と対照値は次の関係があります。
相 対 値 ×2 – 1 =
対照値
2 [X / (X + Y)] – 1
= 2X / (X + Y) – 1
= [2X – (X + Y)] / (X + Y)
= (X – Y) / (X + Y)
この 2 つの値は便利なモデルなので、あえて「相対値」と「対照値」と
い う 名 前 を つ け て お く こ と を 提 案 し ま し た 。相 対 値 は 一 般 に「 割 合 」(ratio)
ともよばれていますが、割合は「X / 全体」という式で示されます。ここ
35
で「 相 対 値 」と よ ぶ 概 念 は 本 質 的 に は 割 合 と 同 じ で す が 、分 母 の 中 を X と
Y, つ ま り 、 比 較 す る も の と 比 較 さ れ る も の を 分 け て 考 え ま す 。 そ の よ う
に見ると、以下で扱うように、いろいろなことがわかるからです。割合で
は隠れて見えなかったことが、相対値にすると、自己を含めた全体と比べ
る、ということからわかることがあるからです。
一 方 、 対 照 値 は 「 自 己 と 他 者 の 差 」 (X−Y)と 「 自 己 と 他 者 の 和 」 (X+Y)
を比べるわけですから、それにどのような意味があるのか、一見しただけ
ではよくわかりません。そこで、相対値が数値をポジティブに評価するた
めのもの、対照値が数値をポジティブにもネガティブにも評価するための
もの、と考えます。対照値を直感的に納得するには、次のように式を変形
するとよいでしょう。
(X – Y) / (X + Y) = X / (X + Y) − Y / (X + Y)
つ ま り 、対 照 値 は X の 相 対 得 点 と Y の 相 対 得 点 の 差 を 求 め た こ と に な り
ます。よって X と Y を対照的に評価することになります。
●卓立化
[1] 行 と 列 の 卓 立 化
「自分(セル)が他のメンバー(セル)たちと違う」ことを示す「卓立
得 点 」 Prominent score: P.S.と い う 数 値 を 提 案 し ま す 。 こ こ で は 1 つ の セ ル
の 値 (x)、 た と え ば w1:L1=10 を 取 り 出 し て 説 明 し ま し ょ う 10 。
実測値
L1 L2 L3 L4 L5 和 Sm.r. 個数 Cn.r
w1
10
19
14
7
12
62
5
w2
11
7
10
0
1
29
5
w3
0
0
1
12
1
14
5
w4
0
1
2
3
3
9
5
和 Smc.
21
27
27
22
17
114
個数 Cn.c.
4
4
4
4
4
20
こ こ で 、 x の 実 測 値 (=10)を 、 横 行 の 他 の 値 全 体 の 和 (Sm.r. – x = 62 - 10 =
52)と 比 較 し ま す 。 こ の と き 、 そ の ま ま 比 較 す る の で は な く 、 X に 行 数 (p) 1 = 5 - 1 = 4 を 掛 け た 値 (Cn.r. – 1) X と Sm.r. – X を 比 較 し ま す 。こ れ は X (1
個 )の 大 き さ を 、他 の セ ル 全 部 (p - 1 個 )と 比 べ る と 不 利 に な る か ら で す 。そ
こ で 、 セ ル の 数 を 同 じ と 見 な し た と き の X の 値 (Cn.r. – 1) X を 考 え ま す 。
(Cn.r. - 1) X を (Sm.r. – X)と 相 対 化 し た 値 は (Cn.r – 1) X / [(Cn.r. – 1) X +
10
こ こ で 扱 う 式 は 少 し 複 雑 な の で 、 こ れ ま で の よ う に Sm.r., Sm.c., Sm.a.,
Cn.r., Cn.c., Cn.a. で は な く 、 そ れ ぞ れ s, t, N, p, n, pn を 使 い ま す 。
36
(Sm.r. – X)]で す 。 こ れ を 行 の 「 卓 立 相 対 得 点 」 (Prominent Relative Score in
row: P.R.S.r.)と し ま す 。 卓 立 係 数 (P.S.)は 相 対 値 X / (X + Y)な の で 、 [0.0 ~
1.0]の 範 囲 に な り ま す 。
P.R.S.r. = (Cn.r. – 1) X / [(Cn.r. – 1) X + (Sm.r. – X)]
= (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.]
こ こ で 、 P.S.は X と X 以 外 の メ ン バ ー の 平 均 (s – X) / (p – 1)を 要 素 と す
る 相 対 値 X / (X + Y)に な っ て い る こ と が わ か り ま す 。そ こ で 、最 小 値 (0.0)
は X = 0 の と き な の で x = 0 の と き に な り ま す 。最 大 値 (1.0)は Y = 0 の と き
な の で s- x = 0 の と き で す 。そ し て 、中 間 値 (0.5)は X = Y の と き で す か ら 、
(p – 1)X = (p – 1) (s – X) / (p – 1)、 よ っ て X = (s – X) / (p – 1)の と き で す 。
こ れ は 、 X が 他 の メ ン バ ー (s – X)の 平 均 (s – X) / (p – 1)の と き で す 。 つ ま
り 、 P.S.は 自 身 と 他 の メ ン バ ー の 平 均 を 比 べ た 値 で す 。 そ れ よ り も 小 さ け
れ ば 0.5 以 下 に な り 、 大 き け れ ば 0.5 以 上 に な り ま す 。
P.S.: 0.0 (X = 0) ≦ 0.5 [(Cn – 1) X = (Sm – X)] ≦ 1.0 (X = Sm)
セ ル の 数 が 多 く な る と 、相 対 得 点 (R.S.)は 小 さ く な り が ち で す が 、卓 立 得
点 (P.S.)で は セ ル の 数 (Cn)の 大 小 に あ ま り 左 右 さ れ な い 数 値 が 得 ら れ ま す 。
こ れ は P.S.の 式 の 分 子 に も 分 母 に も Cn X が あ る た め で す 。
同 様 に 、 行 と 列 の そ れ ぞ れ の 卓 立 得 点 ( P.S.r.; P.S.c.) は
P.S.r.
= (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.]
P.S.c.
= (Cn.c. – 1) X / [(Cn.c. – 2) X + Sm.c.]
P.R.F.r.p
L1
L2
L3
L4
L5
w1
0.43
0.64
0.54
0.34
0.49
w2
0.71
0.56
0.68
0.00
w3
0.00
0.00
0.24
w4
0.00
0.33
0.53
P.R.F.c.
L1
L2
L3
L4
L5
w1
0.73
0.88
0.76
0.58
0.88
0.13
w2
0.77
0.51
0.64
0.00
0.16
0.96
0.24
w3
0.00
0.00
0.10
0.78
0.16
0.67
0.67
w4
0.00
0.10
0.19
0.32
0.39
[2] 行 列 と 全 体 の 卓 立 化
行 と 列 の 卓 立 得 点 の 分 数 平 均 を 求 め 、こ れ を「 卓 立 得 点 」
( 両 軸 : Prominent
score in matrix: P.S.M.と 定 義 し ま す 。
P.R.S.m.
= [(Cn.r. – 1) X + (Cn.c. – 1) X]
/ {[(Cn.r. – 2) X + Sm.r.] + [(Cn.c. – 2) X + Sm.c.]}
= (Cn.r. + Cn.c. – 2) X / [(Cn.r. + Cn.c. – 4) X + Sm.r + Sm.c]
全 体 の 卓 立 得 点 Prominent Score in all: P.S.a は X を 行 列 全 体 の そ の 他 の メ
37
ン バ ー と 比 較 し ま す 。そ の と き 、X に は 行 列 全 体 の 個 数 Cn.a. – 1 を 加 重 し
て不利にならないようにします。
P.S.a. = [Cn.a – 1) X / [(Cn.a. – 2) X + Sm.a.]
P.R.F.m.
L1
L2
L3
L4
L5
P.R.F.a.
L1
L2
L3
L4
L5
w1
0.53 0.72 0.62 0.41 0.60
w1
0.65 0.79 0.73 0.55 0.69
w2
0.73 0.54 0.66 0.00 0.14
w2
0.67 0.55 0.65 0.00 0.14
w3
0.00 0.00 0.15 0.88 0.19
w3
0.00 0.00 0.14 0.69 0.14
w4
0.00 0.17 0.30 0.46 0.51
w4
0.00 0.14 0.25 0.34 0.34
■相対頻度とパーミル比
次 は 中 世 ス ペ イ ン 語 (公 証 文 書 )の 鼻 音 と 流 音 の 2 重 文 字 を 有 す る 語 の 頻
度 の 実 測 値 (O.)で す 。
O.
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
550
66
143
57
1
2
2
4
4
1
0
2
30
ll
2310
1166
4524
1354
243
367
325
571
902
217
439
589
776
rr
625
327
1563
846
109
309
283
533
290
181
152
249
273
こ の 3 者 nn, ll, rr)だ け を 比 較 し た 列 相 対 得 点 は 次 の よ う に な り ま す 。
R..
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
0.158
0.042
0.023
0.025
0.003
0.003
0.003
0.004
0.003
0.003
0.000
0.002
0.028
ll
0.663
0.748
0.726
0.600
0.688
0.541
0.533
0.515
0.754
0.544
0.743
0.701
0.719
rr
0.179
0.210
0.251
0.375
0.309
0.456
0.464
0.481
0.242
0.454
0.257
0.296
0.253
次 は 年 代 ご と の す べ て の 文 書 の 総 語 数 (W.)を 示 し ま す 。
W
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
&
62549
29396
114499
44040
6000
11732
10506
19276
27990
8131
15952
20792
27048
先 の 実 測 値 (O.)を 総 語 数 (W.)で 割 り 、 1000 を 掛 け る と と 次 の パ ー ミ ル 比
が 得 ら れ ま す (M.)。 こ の 計 算 で は 本 節 の 行 列 演 算 (行 列 (O.)の ベ ク ト ル (W.)
に よ る 除 算 と 、 行 列 (O./W.)の 数 値 1000 に よ る 積 算 )を 使 い ま し た 。
M n p = O np * 1000 / Wp
M.
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
9
2
1
1
0
0
0
0
0
0
0
0
1
ll
37
40
40
31
41
31
31
30
32
27
28
28
29
srr
10
11
14
19
18
26
27
28
10
22
10
12
10
38
相 対 得 点 (R.)で は 比 較 す る 相 手 が 自 分 を 除 い た 2 者 に 限 ら れ ま す が 、 全
数 を 母 数 と す る パ ー ミ ル 比 (M.)を 使 う と 、 全 体 の 語 数 (W.)の 中 で そ れ ぞ れ
の 2 重 文 字 語 の 趨 勢 を 見 る こ と が で き ま す 。 14 世 紀 に
nn
が急減したのは、
これが n の上に省略記号の~を付けた形に変わったためです。これがスペ
イ ン 語 特 有 の 文 字 エ ニ ェ (ñ)の 起 源 に な り ま し た 。
■中世・近代スペイン語の前置詞
次 は 中 世 ・ 近 代 ス ペ イ ン 語 で 起 き た 前 置 詞 の 形 態 変 化 pora > para(「 ~ の
た め に 」 と い う 意 味 : 英 語 for)を 示 す 相 対 頻 度 と 対 照 頻 度 の 比 較 で す 。 相
対頻度を使うと、それぞれの形に注目して変化を観察することができ、対
照 頻 度 を 使 う と 、両 者 を 同 時 に 対 照 さ せ て 変 化 を 観 察 す る こ と が で き ま す 。
相 対 頻 度 : Pora
相 対 頻 度 : Para
39
対 照 頻 度 : Pora - Para
3.1.3. 加 重 得 点
絶対頻度と相対頻度はそれぞれの特徴があるので、データを観察すると
きに併用されることがあります。それぞれの頻度を比較するときは、分母
を等しくするために相対頻度が使われます。そのとき、分母の規模が極端
に異なるとき比較が困難になることがあります。その 1 つの解決法を提案
します。
(1) 行 と 列 の 加 重 得 点 行 列
た と え ば 、w1L2 の 19 は 横 和 が 62 で す か ら 、こ の 相 対 得 点 は 19/62 = .31
に な り ま す 。一 方 、w4L4 の 3 の 相 対 得 点 は 3/9 = .33 に な り 、w1L2 よ り も
大 き な 値 に な り ま す 。し か し 、私 た ち の 直 感 で は 前 者 の 19 の ほ う が 後 者 の
3 よりも「重い」値だと感じられます。
実測値
L1
L2
L3
L4
行和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
列和
21
27
27
22
17
114
こ の よ う に 実 測 値 の 得 点 を 比 較 す る と き 、 そ の 実 測 値 (O.S.)と 相 対 得 点
(R.S.)の 積 に す る と 、実 態 を 表 す 数 値 と し て 直 感 的 に 納 得 が い く こ と が あ り
ます。実測値に相対得点という重みを与えたからです。たとえば、上表の
w1L1 の 10 に は 10/62 と い う 重 み を 与 え 、 w2L3 の 10 に は 10/29 と い う 重
み を 与 え ま す 。そ こ で「 加 重 得 点 」W.S.: Weighted Score と し て 次 の 式 を 提
案 し ま す 。加 重 得 点 は X=0 の と き に 最 小 値 ゼ ロ に な り 、X = 和 (Sm)の と き 、
つまりデータの中に X 以外の数値がないときに最大値 X になります。
W.S. = O.S.×R.S. = X X / Sm = X 2 / Sm
W.S.: 0.0 (X=0) ≦ 0.5 (x 2 = Sm / 2) ≦ X (X = Sm)
次 が 行 (W.S.r.)、 列 (W.S.c.)の 加 重 得 点 で す 。
W.S.r.
L1
L2
L3
L4
L5
W.S.c.
L1
L2
L3
L4
L5
w1
1.61 5.82 3.16
0.79 2.32
w1
4.76 13.37 7.26 2.23 8.47
w2
4.17 1.69 3.45
0.00 0.03
w2
5.76
1.81 3.70 0.00 0.06
w3
0.00 0.00 0.07 10.29 0.07
w3
0.00
0.00 0.04 6.55 0.06
w4
0.00 0.11 0.44
w4
0.00
0.04 0.15 0.41 0.53
1.00 1.00
40
(2) 行 列 と 全 体 の 加 重 得 点 行 列
W.S.m.
L1
L2
L3
L4
L5
W.S.a
L1
L2
L3
L4
L5
w1
2.41 8.11 4.40 1.17 3.65
w1
0.88 3.17 1.72 0.43 1.26
w2
4.84 1.75 3.57 0.00 0.04
w2
1.06 0.43 0.88 0.00 0.01
w3
0.00 0.00 0.05 8.00 0.06
w3
0.00 0.00 0.01 1.26 0.01
w4
0.00 0.06 0.22 0.58 0.69
w4
0.00 0.01 0.04 0.08 0.08
行 列 加 重 得 点 (Weighted Score in matriX: W.S.m.)の 式 は 行 の 加 重 得 点 と 列
の加重得点の分数平均です。
W.S.m. = (X 2 + X 2 ) / (Sm.r + Sm.c.) = 2 X 2 / (Sm.r + Sm.c.)
全 体 加 重 得 点 (Weighted Score in all: W.S.a.)を 求 め る に は 、 分 母 に 全 体 の
得 点 (Sm.a.)を 使 い ま す 。表 全 体 の 総 和 (N)で 相 対 化 さ れ る た め に 全 体 的 に 数
値低くなる傾向があります。
W.S.m. = X 2 / Sm.a.
■打率と安打数
た と え ば 、シ ー ズ ン を 通 し て 10 打 数 3 安 打 と い う 成 績 の 野 球 選 手 と 100
打 数 25 安 打 の 選 手 の 成 績 を 比 べ る と き 、 打 率 だ け を 見 る と 0.3 と 0.25 に
なり、前者のほうが優秀ということになります。しかし、安打数で比べる
な ら ば 後 者 の ほ う が 優 秀 で す 。こ れ を 加 重 得 点 で 比 べ る な ら ば 、0.9 と 6.25
と い う 数 値 に な り 、 後 者 の ほ う が 前 者 の 7 倍 (6.944)近 い 成 績 に な り ま す 。
このように数値の評価をするときは、実測値や相対得点よりも加重得点の
ほうが直感に合う数値だと思います。
3.1.4. 限 定 得 点
実 測 値 の 最 小 値 を 0 と し 、最 大 値 を 1 と し て 、範 囲 を [0.0 ~ 1.0]に 限 定 し
て 計 算 し た 値 を 「 限 定 得 点 」 (Limited Score: L.S.)と よ ぶ こ と に し ま す 。 次
のように行、列、全体の、最小値と最大値を使います。
実測値 L1 L2 L3 L4 L5 最小値 最大値
w1
10
19
14
7
12
7
19
w2
11
7
10
0
1
0
11
w3
0
0
1
12
1
0
12
w4
0
1
2
3
3
0
3
最小値
0
0
1
0
1
0
最大値
11
19
14
12
12
19
41
L.S. = (X – Min) / (Max - Min)
L.S.: 0.0 (X = Min) ≦ 0.5 (X = (Max - Min) / 2) ≦ 1.0 (X = MaX)
こ こ で Min が デ ー タ の 最 小 値 、 MaX が そ の 最 大 値 を 示 し ま す 。 X = Min
の と き 、 L.S.は 最 小 値 0.0 に な り 、 X = Max の と き 、 L.S.は 最 大 値 1.0 に な
り ま す 。 中 点 (0.5)は X が Max と Min の 中 間 に あ る と き で す 。
(1) 行 と 列 の 限 定 得 点
L.S.r.
L1
L2
L3
L4
L5
L.S.c.
L1
L2
L3
L4
L5
w1
0.25 1.00 0.58 0.00 0.42
w1
0.91 1.00 1.00 0.58 1.00
w2
1.00 0.64 0.91 0.00 0.09
w2
1.00 0.37 0.69 0.00 0.00
w3
0.00 0.00 0.08 1.00 0.08
w3
0.00 0.00 0.00 1.00 0.00
w4
0.00 0.33 0.67 1.00 1.00
w4
0.00 0.05 0.08 0.25 0.18
行 の 限 定 得 点 (L.S.r.)は 次 の よ う に な り ま す 。
L.S.r. = (X – Min.r.) / (Max.r. – Min.r.)
こ こ で Min.r.は 行 の 最 小 値 を 示 し 、 Max.r.は 行 の 最 大 値 を 示 し ま す 。
同 様 に し て 、 次 は 列 の 限 定 得 点 (L.S.c.)で す 。
L.S.c. = (X – Min.c.) / (Max.c. – Min.c.)
(2) 行 列 全 体 の 限 定 得 点
L.S.m.
L1
L2
L3
L4
L5
L.S.a.
L1
L2
L3
L4
L5
w1
0.57 1.00 0.80 0.29 0.70
w1
0.53 1.00 0.74 0.37 0.63
w2
1.00 0.47 0.79 0.00 0.05
w2
0.58 0.37 0.53 0.00 0.05
w3
0.00 0.00 0.04 1.00 0.04
w3
0.00 0.00 0.05 0.63 0.05
w4
0.00 0.09 0.19 0.40 0.36
w4
0.00 0.05 0.11 0.16 0.16
行 の 限 定 得 点 と 列 の 限 定 得 点 の 分 数 平 均 を「 行 列 限 定 得 点 」Limited Score
in matriX: L.S.m.と し ま す 。
L.S.m. = [(X – Min.r.) + (X – Min.c.)] / [(Max .r. – Min.r.) + (Max.c. – Min.c.)]
= (2X – Min.r. – Min.c.) / (Max.r.+ Max.c – Min.r. – Min.c.)
「 全 体 限 定 得 点 」 (Limited Score in all: L.S.a.)は 行 列 全 体 の 最 小 値 Min.a.
と 最 大 値 Max.a.を 使 い ま す 。
L.S.a. = (X – Min.a.) / (Max.a. – Min.a.)
42
3.1.5. 比 較 得 点
個々のセルの値(実測値)を平均値、中央値、中間値、最小値、最大値
と い う デ ー タ の「 代 表 値 」と 比 較 し た も の を「 比 較 得 点 」Comparative Score:
C.S. と よ び 、 そ れ ぞ れ を 「 平 均 値 比 較 得 点 」 Comparative Score. Average:
C.S.Ave., 「 中 央 値 比 較 得 点 」 Comparative Score. M edian: C.S.Med.,「 中 間
値 比 較 得 点 」 Comparative Score. Mid: C.S.Mid, 「 最 小 値 比 較 得 点 」
(Comparative Sco re. Minimum: C.S.Min.), 「 最 大 値 比 較 得 点 」 Comparative
Score. Maximum: C.S.Max.)と よ ぶ こ と に し ま す 。 比 較 の 仕 方 と し て 「 差 」
Difference: D.、 「 比 」 Ratio:R.、 「 差 比 」 Difference ratio:Dr. を 考 え ま す 。
(1) 平 均 値 比 較 得 点
「 平 均 値 差 比 較 得 点 」 (Comparative Score. Average Difference: C.S.Av. D.)
は 、 そ れ ぞ れ の セ ル の 値 (x)の 、 平 均 値 か ら の 差 を 示 し ま す 11 。 こ れ は x が
ゼ ロ の と き 最 小 値 の -Av と な り 、 x が 和 (Sm)と 同 じ と き 、 つ ま り 、 デ ー タ
の 中 で x 以 外 は す べ て ゼ ロ の と き 、最 大 値 が Sm - Av = AvCn – Av = (Cn – 1)
Av に な り ま す( Cn は デ ー タ 数 )。0.0 は 中 点 で は あ り ま せ ん が 、中 点 と 同
様 に 重 要 な 「 参 照 値 」 ( = 平 均 Av) で す 。 参 照 値 と い う の は 、 こ れ を 境
に数値の方向が異なる、ということです。
C.S.Av.D.r.
L1
L2
L3
L4
L5
C.S.Av.D.c.
L1
L2
L3
L4
L5
w1
-2.40
6.60
1.60
-5.40
-0.40
w1
4.75
12.25
7.25
1.50
7.75
w2
5.20
1.20
4.20
-5.80
-4.80
w2
5.75
0.25
3.25
-5.50
-3.25
w3
-2.80
-2.80
-1.80
9.20
-1.80
w3
-5.25
-6.75
-5.75
6.50
-3.25
w4
-1.80
-0.80
0.20
1.20
1.20
w4
-5.25
-5.75
-4.75
-2.50
-1.25
C.S.Av.D. = x – Av
C.S.Av.D.: – Av (x = 0) ≦ 0.0 (x = Av) ≦ Sm – Av (x = Sm)
「 列 平 均 値 差 比 較 得 点 」 (Comparative Score, Average Difference in matrix:
C.S.Av.D.m.)は 行 と 列 の 2 つ の 平 均 値 差 得 点 の 算 術 平 均 と し ま す 12 。平 均 値
差 (全 体 : D.A.S. in all: D.A.S.a.)で は 行 列 全 体 の 平 均 (Av.a.)を 使 い ま す 。
C.S.Av.D.m. = [(D.A.S.r.) + (D.A.S.c.)] / 2
C.S.Av.D.a. = x – Av.a.
11
「 平 均 値 差 」 は 「 偏 差 」 (deviation)と よ ば れ て い ま す 。
こ こ で 分 数 平 均 を 使 わ な い 理 由 は 、比 較 得 点 が 相 対 値 X/(X+Y)で な い か
らです。
12
43
C.S.Av.D.m.
L1
L2
L3
L4
L5
C.S.Av.D.a.
L1
L2
L3
L4
L5
w1
1.18
9.43
4.43
-1.95
3.68
w1
4.30
13.30
8.30
1.30
6.30
w2
5.48
0.73
3.73
-5.65
-4.03
w2
5.30
1.30
4.30
-5.70
-4.70
w3
-4.03
-4.78
-3.78
7.85
-2.53
w3
-5.70
-5.70
-4.70
6.30
-4.70
w4
-3.53
-3.28
-2.28
-0.65
-0.03
w4
-5.70
-4.70
-3.70
-2.70
-2.70
「 平 均 値 比 比 較 得 点 」 (Comparative Score, Average Ratio: C.S.Av. R.)は 実
測値を平均値で割った値(比)です。それぞれ行、列、全体の平均値比を
見 ま す 。x = 0 の と き に 最 小 値 0.0 に な り 、x = 和 (Sm) の と き 、和 (Sm) / 平
均 (Av) = 個 数 (Cn)に な り ま す 13 。 中 点 の 1.0 は x = Av の と き で す 。
C.S.Av.R. = x / Av
C.S.Av.R.: 0.0 (x = 0) ≦ 1.0 (x = Av) ≦ Cn (x = Sm)
C .S. A v.R .r.
L1
L2
L3
L4
L5
C .S.A v.R . c.
L1
L2
L3
L4
L5
w1
0.81
1.53
1.13
0.56
0.97
w1
1.90
2.81
2.07
1.27
2.82
w2
1.90
1.21
1.72
0.00
0.17
w2
2.10
1.04
1.48
0.00
0.24
w3
0.00
0.00
0.36
4.29
0.36
w3
0.00
0.00
0.15
2.18
0.24
w4
0.00
0.56
1.11
1.67
1.67
w4
0.00
0.15
0.30
0.55
0.71
「 行 列 比 較 平 均 値 比 得 点 」 (Comparative Score, Averag e Ratio in matrix:
C.S.Av.R.m.)は 、 「 行 比 較 平 均 値 比 得 点 」 と 「 列 比 較 平 均 値 比 得 点 」 の 分
数 平 均 と し ま す 。「 全 体 平 均 値 比 得 点 」(Comparative Score, Average Ratio in
all: C.S.Av.R.a.)は 全 体 の 平 均 値 (Av.a.)を 使 い ま す 。
C.S.Av.R.m. = 2 x / (Av.r. + Av.c.)
C.S.Av.R.a.. = x / Av.a.
C.S.Av.R.m.
L1
L2
L3
L4
L5
C.S.Av.R.a.
L1
L2
L3
L4
L5
w1
1.13
1.98
1.46
0.78
1.44
w1
1.75
3.33
2.46
1.23
2.11
w2
1.99
1.12
1.59
0.00
0.20
w2
1.93
1.23
1.75
0.00
0.18
w3
0.00
0.00
0.21
2.89
0.28
w3
0.00
0.00
0.18
2.11
0.18
w4
0.00
0.23
0.47
0.82
0.99
w4
0.00
0.18
0.35
0.53
0.53
「平均値差得点」はデータのスケールによって左右されるで、平均差得点
を平均値で割ってデータのスケールに合わせます(完全な正規化ではあり
ま せ ん )。こ れ を「 平 均 値 差 比 得 点 」(Comparative Score. Average Difference
Ratio: C.S.Av.Dr.)と 名 づ け る こ と に し ま す 。 0.0 は 参 照 値 (x = Av)で す 。
13
そ こ で 、(R.A.S.) / Cn と い う 数 値 で 標 準 化 さ せ れ ば [0.0 ~ 1.0]の ス ケ ー ル
に な り ま す が 、 こ れ は (R.A.S.) / Cn = x / (Av Cn) = x / Sm に な る の で 、 相 対
得 点 (r.s)、 つ ま り 「 割 合 」 [0.0 ~ 1.0]に な り ま す 。
44
C.S.Av.Dr. = (d.a.s) / Av = (x. - Av) / Av
C.S.Av.Dr.: -1 (x=0) ≦ 0.0 (x = Av) ≦ Sm – Av) / Av (x=Sm)
C.S.Av.Dr.r.
L1
L2
L3
L4
L5
C.S.Av.Dr.c.
L1
L2
L3
L4
L5
w1
- .19
.53
.13
- .44
- .03
w1
.90
1.81
1.07
.27
1.82
w2
.90
.21
.72
- 1.00
- .83
w2
1.10
.04
.48
- 1.00
- .76
w3
- 1.00
- 1.00
- .64
3.29
- .64
w3
- 1.00
- 1.00
- .85
1.18
- .76
w4
- 1.00
- .44
.11
.67
.67
w4
- 1.00
- .85
- .70
- .45
- .29
L2
L3
L4
L5
L2
L3
L4
L5
C.S.Av.Dr.m.
L1
C.S.Av.Dr.a.
L1
w1
.13
.98
.46
- .22
.44
w1
.75
2.33
1.46
.23
1.11
w2
.99
.12
.59
- 1.00
- .80
w2
.93
.23
.75
- 1.00
- .82
w3
- 1.00
- 1.00
- .79
1.89
- .72
w3
- 1.00
- 1.00
- .82
1.11
- .82
w4
- 1.00
- .77
- .53
- .18
- .01
w4
- 1.00
- .82
- .65
- .47
- .47
差 で は プ ラ ス と マ イ ナ ス の 値 で 実 測 値 と 期 待 値 が 比 較 さ れ ま す が 、比 で は 、
実測値も期待値もプラスなので、すべてプラスの数値になり、実測値から
の(プラスとマイナスの)差がわかりません。
●差・比・差比
比較に用いるときの差の欠点は、実測値と比較値の差が絶対化されている
ことです。そこで、比を用いることよって、それぞれのケースの数値のス
ケール(相対的な大きさ)に合わせて、全体を見回した比較ができるよう
になります。しかし、比には相手との差がどの程度あるのか不明です。そ
こで、差(のスケール)を比較する相手(のスケール)で割れば、絶対的
な数値ではなく、その数値のスケールに合った差の相対的な数値が得られ
ま す 。 そ れ が 「 差 比 」 (Difference ratio)で す 14 。 差 比 は 差 と 比 を 総 合 し た 値
です。プラスとマイナスの符号は差の場合と同じです。差比差は実測値と
比較値が同じになったときはゼロになります。
●差比の平均と「複合平均」
分子に比較項との差をとり、この差と比較項の比を求める「差比」の両
軸の計算をするために、はじめに、先に見た「差の平均」(算術平均 :
Arithmetic average: A.A.) を 求 め ま す 。
A.A.= [(x –Av.r.) + (x – Av.c.)] / 2
14
東 京 大 学 教 養 学 部 統 計 学 教 室 (1991:247)は 「 差 比 」 を 「 相 対 誤 差 」 と よ
んでいます。
45
次 に こ れ を 分 子 と し て Av.r.と の 比 の 平 均( 分 数 平 均 : F.A.)を 求 め ま す 。
(A.A + A.A.) / (Av.r. + Av.c.)
= 2 A.A / (Av.r. + Av.c.)
= [(x –Av.r.) + (x – Av.c.)]
= (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
この式は行と列のそれぞれの比較項を導入しているので「複合平均」
Complex average: C.a. と よ ぶ こ と に し ま す 。
C.a. = (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
(2) 中 央 値 比 較 得 点
比較する相手を平均値ではなく中央値にして、差、比、差比を計算した
も の が 「 中 央 値 得 点 」 Median Score: M.S.で す 。
実測値
L1
L2
L3
L4
L5
中央値
w1
10
19
14
7
12
12.00
w2
11
7
10
0
1
7.00
w3
0
0
1
12
1
1.00
w4
0
1
2
3
3
2.00
中央値 5.00 4.00 6.00 5.00 2.00
3.00
(a) 差 得 点
C.S.Md.D.r.
L1
L2
L3
L4
L5
C.S.Md.D.c.
L1
L2
L3
L4
L5
w1
-2.00
7.00
2.00
-5.00
0.00
w1
5.00
15.00
8.00
2.00
10.00
w2
4.00
0.00
3.00
-7.00
-6.00
w2
6.00
3.00
4.00
-5.00
-1.00
w3
-1.00
-1.00
0.00
11.00
0.00
w3
-5.00
-4.00
-5.00
7.00
-1.00
w4
-2.00
-1.00
0.00
1.00
1.00
w4
-5.00
-3.00
-4.00
-2.00
1.00
C.S.Md.D.m.
L1
L2
L3
L4
L5
C.S.Md.D.a.
L1
L2
L3
L4
L5
w1
1.50
11.00
5.00
-1.50
5.00
w1
7.00
16.00
11.00
4.00
9.00
w2
5.00
1.50
3.50
-6.00
-3.50
w2
8.00
4.00
7.00
-3.00
-2.00
w3
-3.00
-2.50
-2.50
9.00
-0.50
w3
-3.00
-3.00
-2.00
9.00
-2.00
w4
-3.50
-2.00
-2.00
-0.50
1.00
w4
-3.00
-2.00
-1.00
0.00
0.00
(b) 比 得 点
比得点であるため、行列得点は行と列の分数平均とします。
46
C.S.Md.R.r.
L1
L2
L3
L4
L5
C.S.Md.R.c.
L1
L2
L3
L4
L5
w1
0.83
1.58
1.17
0.58
1.00
w1
2.00
4.75
2.33
1.40
6.00
w2
1.57
1.00
1.43
0.00
0.14
w2
2.20
1.75
1.67
0.00
0.50
w3
0.00
0.00
1.00
12.00
1.00
w3
0.00
0.00
0.17
2.40
0.50
w4
0.00
0.50
1.00
1.50
1.50
w4
0.00
0.25
0.33
0.60
1.50
C.S.Md.R.m.
L1
L2
L3
L4
L5
C.S.Md.R.a.
L1
L2
L3
L4
L5
w1
1.18
2.38
1.56
0.82
1.71
w1
3.33
6.33
4.67
2.33
4.00
w2
1.83
1.27
1.54
0.00
0.22
w2
3.67
2.33
3.33
0.00
0.33
w3
0.00
0.00
0.29
4.00
0.67
w3
0.00
0.00
0.33
4.00
0.33
w4
0.00
0.33
0.50
0.86
1.50
w4
0.00
0.33
0.67
1.00
1.00
(c) 差 比 得 点
C.S.Md.Dr.r.
L1
L2
L3
L4
L5
C.S.Md.Dr.c.
L1
L2
L3
L4
L5
w1
-0.17
0.58
0.17
-0.42
0.00
w1
1.00
3.75
1.33
0.40
5.00
w2
0.57
0.00
0.43
-1.00
-0.86
w2
1.20
0.75
0.67
-1.00
-0.50
w3
-1.00
-1.00
0.00
11.00
0.00
w3
-1.00
-1.00
-0.83
1.40
-0.50
w4
-1.00
-0.50
0.00
0.50
0.50
w4
-1.00
-0.75
-0.67
-0.40
0.50
C.S.Md.Dr.m.
L1
L2
L3
L4
L5
C.S.Md.Dr.a.
L1
L2
L3
L4
L5
w1
0.18
1.38
0.56
-0.18
0.71
w1
2.33
5.33
3.67
1.33
3.00
w2
0.83
0.27
0.54
-1.00
-0.78
w2
2.67
1.33
2.33
-1.00
-0.67
w3
-1.00
-1.00
-0.71
3.00
-0.33
w3
-1.00
-1.00
-0.67
3.00
-0.67
w4
-1.00
-0.67
-0.50
-0.14
0.50
w4
-1.00
-0.67
-0.33
0.00
0.00
(3) 中 間 値 比 較 得 点
比 較 す る 相 手 を 中 間 値 ( Mid: C: 最 大 値 と 最 小 値 の 中 間 値 ) に し て 、 差 、
比、差比を計算したものが「中間値比較得点」です。
実測値
L1
L2
L3
L4
L5
中間値
w1
10
19
14
7
12
13.00
w2
11
7
10
0
1
5.50
w3
0
0
1
12
1
6.00
w4
0
1
2
3
3
1.50
中間値 5.50 9.50 7.50 6.00 6.50
9.50
(a) 差 得 点
C.S.Ct.D.r.
L1
L2
L3
L4
L5
C.S.Ct.D.c.
47
L1
L2
L3
L4
L5
w1
-3.00
6.00
1.00
-6.00
-1.00
w1
4.50
9.50
6.50
1.00
5.50
w2
5.50
1.50
4.50
-5.50
-4.50
w2
5.50
-2.50
2.50
-6.00
-5.50
w3
-6.00
-6.00
-5.00
6.00
-5.00
w3
-5.50
-9.50
-6.50
6.00
-5.50
w4
-1.50
-0.50
0.50
1.50
1.50
w4
-5.50
-8.50
-5.50
-3.00
-3.50
C.S.Ct.D.m.
L1
L2
L3
L4
L5
C.S.Ct.D.a.
L1
L2
L3
L4
L5
w1
0.75
7.75
3.75
-2.50
2.25
w1
0.50
9.50
4.50
-2.50
2.50
w2
5.50
-0.50
3.50
-5.75
-5.00
w2
1.50
-2.50
0.50
-9.50
-8.50
w3
-5.75
-7.75
-5.75
6.00
-5.25
w3
-9.50
-9.50
-8.50
2.50
-8.50
w4
-3.50
-4.50
-2.50
-0.75
-1.00
w4
-9.50
-8.50
-7.50
-6.50
-6.50
(b) 比 得 点
C.S.Ct.R.r.
L1
L2
L3
L4
L5
C.S.Ct.R.c.
L1
L2
L3
L4
L5
w1
0.77
1.46
1.08
0.54
0.92
w1
1.82
2.00
1.87
1.17
1.85
w2
2.00
1.27
1.82
0.00
0.18
w2
2.00
0.74
1.33
0.00
0.15
w3
0.00
0.00
0.17
2.00
0.17
w3
0.00
0.00
0.13
2.00
0.15
w4
0.00
0.67
1.33
2.00
2.00
w4
0.00
0.11
0.27
0.50
0.46
C.S.Ct.R.m.
L1
L2
L3
L4
L5
C.S.Ct.R.a.
L1
L2
L3
L4
L5
w1
1.08
1.69
1.37
0.74
1.23
w1
1.05
2.00
1.47
0.74
1.26
w2
2.00
0.93
1.54
0.00
0.17
w2
1.16
0.74
1.05
0.00
0.11
w3
0.00
0.00
0.15
2.00
0.16
w3
0.00
0.00
0.11
1.26
0.11
w4
0.00
0.18
0.44
0.80
0.75
w4
0.00
0.11
0.21
0.32
0.32
(c) 差 比 得 点
C.S.Ct.Dr.r.
L1
L2
L3
L4
L5
C.S.Ct.Dr.c.
L1
L2
L3
L4
L5
w1
-0.23
0.46
0.08
-0.46
-0.08
w1
0.82
1.00
0.87
0.17
0.85
w2
1.00
0.27
0.82
-1.00
-0.82
w2
1.00
-0.26
0.33
-1.00
-0.85
w3
-1.00
-1.00
-0.83
1.00
-0.83
w3
-1.00
-1.00
-0.87
1.00
-0.85
w4
-1.00
-0.33
0.33
1.00
1.00
w4
-1.00
-0.89
-0.73
-0.50
-0.54
C.S.Ct.Dr.m.
L1
L2
L3
L4
L5
C.S.Ct.Dr.a.
L1
L2
L3
L4
L5
w1
0.08
0.69
0.37
-0.26
0.23
w1
0.05
1.00
0.47
-0.26
0.26
w2
1.00
-0.07
0.54
-1.00
-0.83
w2
0.16
-0.26
0.05
-1.00
-0.89
w3
-1.00
-1.00
-0.85
1.00
-0.84
w3
-1.00
-1.00
-0.89
0.26
-0.89
w4
-1.00
-0.82
-0.56
-0.20
-0.25
w4
-1.00
-0.89
-0.79
-0.68
-0.68
48
(4) 最 小 値 比 較 得 点
比 較 す る 相 手 を 最 小 値( Minimumr: Mn.)に し て 、差 、比 、差 比 を 計 算 し た
も の が 「 最 小 値 」 (Minimumr Score: Mn.S.)で す 。
実測値
L1
L2
w1
10
19
14
7
12
7.00
w2
11
7
10
0
1
.00
w3
0
0
1
12
1
.00
w4
0
1
2
3
3
.00
最小値 .00 .00 1.00 .00 1.00
.00
L3
L4
最小値
L5
(a) 差 得 点
C. S .M n. D.r .
L1
L2
L3
L4
L5
C. S .M n. D. c.
L1
L2
L3
L4
L5
w1
3.00
12.00
7.00
0.00
5.00
w1
10.00
19.00
13.00
7.00
11.00
w2
11.00
7.00
10.00
0.00
1.00
w2
11.00
7.00
9.00
0.00
0.00
w3
0.00
0.00
1.00
12.00
1.00
w3
0.00
0.00
0.00
12.00
0.00
w4
0.00
1.00
2.00
3.00
3.00
w4
0.00
1.00
1.00
3.00
2.00
C. S .M n. D. m.
L1
L2
L3
L4
L4
L5
L5
C. S .M n. D.a .
L1
L2
L3
w1
6.50
15.50
10.00
3.50
8.00
w1
10.00
19.00
14.00
7.00
12.00
w2
11.00
7.00
9.50
0.00
0.50
w2
11.00
7.00
10.00
0.00
1.00
w3
0.00
0.00
0.50
12.00
0.50
w3
0.00
0.00
1.00
12.00
1.00
w4
0.00
1.00
1.50
3.00
2.50
w4
0.00
1.00
2.00
3.00
3.00
(b) 比 得 点
最小値がゼロである部分については、それを分母とする比を演算できない
の で 、 D//0 が 示 さ れ ま す 。
C .S.M n.R .r.
L1
L2
L3
L4
L5
C .S.M n.R .c.
L1
L2
L3
L4
L5
w1
1.43
2.71
2.00
1.00
1.71
w1
D v/ 0
D v/ 0
14.00
D v/0
12.00
w2
D v/0
D v/0
D v/0
D v/ 0
D v/0
w2
D v/ 0
D v/ 0
10.00
D v/0
1.00
w3
D v/0
D v/0
D v/0
D v/ 0
D v/0
w3
D v/ 0
D v/ 0
1.00
D v/0
1.00
w4
D v/0
D v/0
D v/0
D v/ 0
D v/0
w4
D v/ 0
D v/ 0
2.00
D v/0
3.00
C .S.M n.R .m.
L1
L2
L3
L4
L5
C .S.M n.R .a .
L1
L2
L3
L4
L5
w1
2.86
5.43
3.50
2.00
3.00
w1
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w2
D v/0
D v/0
20.00
D v/0
2.00
w2
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w3
D v/0
D v/0
2.00
D v/0
2.00
w3
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
49
w4
D v/0
D v/0
4.00
D v/0
6.00
w4
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
(c) 差 比 得 点
C .S.M n.D r.r.
L1
L2
L3
L4
L5
C .S.M n.D r.c.
L1
L2
L3
L4
L5
w1
0.43
1.71
1.00
0.00
0.71
w1
D v/ 0
D v/ 0
13.00
D v/0
11.00
w2
D v/0
D v/0
D v/0
D v/0
D v/ 0
w2
D v/ 0
D v/ 0
9.00
D v/0
0.00
w3
D v/0
D v/0
D v/0
D v/0
D v/ 0
w3
D v/ 0
D v/ 0
0.00
D v/0
0.00
w4
D v/0
D v/0
D v/0
D v/0
D v/ 0
w4
D v/ 0
D v/ 0
1.00
D v/0
2.00
C .S.M n.D r.m.
L1
L2
L3
L4
L5
C .S.M n.D r.a .
L1
L2
L3
L4
L5
w1
1.86
4.43
2.50
1.00
2.00
w1
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w2
D v/0
D v/0
19.00
D v/ 0
1.00
w2
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w3
D v/0
D v/0
1.00
D v/ 0
1.00
w3
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w4
D v/0
D v/0
3.00
D v/ 0
5.00
w4
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
(5) 最 大 値 比 較 得 点
比 較 す る 相 手 を 最 大 値( Maximum: Mx.)に し て 、差 、比 、差 比 を 計 算 し た
も の が 「 最 大 値 得 点 」 (Maximum Score: Mx.S.)で す 。
実測値 L1 L2 L3 L4 L5 最大値
w1
10
19
14
7
12
19
w2
11
7
10
0
1
11
w3
0
0
1
12
1
12
w4
0
1
2
3
3
3
最大値
11
19
14
12
12
19
(a) 差 得 点
C.S.Mx.D.r.
L1
L2
L3
L4
L5
C.S.Mx.D.c.
L1
L2
L3
L4
L5
w1
-9.00
0.00
-5.00
-12.00
-7.00
w1
-1.00
0.00
0.00
-5.00
0.00
w2
0.00
-4.00
-1.00
-11.00
-10.00
w2
0.00
-12.00
-4.00
-12.00
-11.00
w3
-12.00
-12.00
-11.00
0.00
-11.00
w3
-11.00
-19.00
-13.00
0.00
-11.00
w4
-3.00
-2.00
-1.00
0.00
0.00
w4
-11.00
-18.00
-12.00
-9.00
-9.00
C.S.Mx.D.m.
L1
L2
L3
L4
L5
C.S.Mx.D.a.
L1
L2
L3
L4
L5
w1
-5.00
0.00
-2.50
-8.50
-3.50
w1
-9.00
0.00
-5.00
-12.00
-7.00
w2
0.00
-8.00
-2.50
-11.50
-10.50
w2
-8.00
-12.00
-9.00
-19.00
-18.00
w3
-11.50
-15.50
-12.00
0.00
-11.00
w3
-19.00
-19.00
-18.00
-7.00
-18.00
w4
-7.00
-10.00
-6.50
-4.50
-4.50
w4
-19.00
-18.00
-17.00
-16.00
-16.00
50
(b) 比 得 点
C.S.Mx.R.r.
L1
L2
L3
L4
L5
C.S.Mx.R.c.
L1
L2
L3
L4
L5
w1
0.53
1.00
0.74
0.37
0.63
w1
0.91
1.00
1.00
0.58
1.00
w2
1.00
0.64
0.91
0.00
0.09
w2
1.00
0.37
0.71
0.00
0.08
w3
0.00
0.00
0.08
1.00
0.08
w3
0.00
0.00
0.07
1.00
0.08
w4
0.00
0.33
0.67
1.00
1.00
w4
0.00
0.05
0.14
0.25
0.25
C.S.Mx.R.m.
L1
L2
L3
L4
L5
C.S.Mx.R.a.
L1
L2
L3
L4
L5
w1
0.67
1.00
0.85
0.45
0.77
w1
0.53
1.00
0.74
0.37
0.63
w2
1.00
0.47
0.80
0.00
0.09
w2
0.58
0.37
0.53
0.00
0.05
w3
0.00
0.00
0.08
1.00
0.08
w3
0.00
0.00
0.05
0.63
0.05
w4
0.00
0.09
0.24
0.40
0.40
w4
0.00
0.05
0.11
0.16
0.16
(c) 差 比 得 点
C.S.Mx.Dr.r.
L1
L2
L3
L4
L5
C.S.Mx.Dr.c.
L1
L2
L3
L4
L5
w1
-0.47
0.00
-0.26
-0.63
-0.37
w1
-0.09
0.00
0.00
-0.42
0.00
w2
0.00
-0.36
-0.09
-1.00
-0.91
w2
0.00
-0.63
-0.29
-1.00
-0.92
w3
-1.00
-1.00
-0.92
0.00
-0.92
w3
-1.00
-1.00
-0.93
0.00
-0.92
w4
-1.00
-0.67
-0.33
0.00
0.00
w4
-1.00
-0.95
-0.86
-0.75
-0.75
C.S.Mx.Dr.m.
L1
L2
L3
L4
L5
C.S.Mx.Dr.a.
L1
L2
L3
L4
L5
w1
-0.33
0.00
-0.15
-0.55
-0.23
w1
-0.47
0.00
-0.26
-0.63
-0.37
w2
0.00
-0.53
-0.20
-1.00
-0.91
w2
-0.42
-0.63
-0.47
-1.00
-0.95
w3
-1.00
-1.00
-0.92
0.00
-0.92
w3
-1.00
-1.00
-0.95
-0.37
-0.95
w4
-1.00
-0.91
-0.76
-0.60
-0.60
w4
-1.00
-0.95
-0.89
-0.84
-0.84
3.1.6. 標 準 得 点
それぞれの行、列または行列全体を同じスケールとばらつきで評価する
には、データの平均が 0 に、標準偏差が 1 になるようにする必要がありま
す 。こ の 操 作 は 平 均 値 差( 偏 差 )を 標 準 偏 差 で 割 る こ と で 可 能 に な り ま す 。
こ の 値 は 「 標 準 得 点 」 (Standard Score: S.S.と よ ば れ ま す 15 。
実測値
L1
L2
L3
L4
w1
10
19
14
7
w2
11
7
10
0
L5
平均
12 12.40
1
5.80
15
標準偏差 個数
4.03
5
4.53
5
「 標 準 得 点 」は Standarized measure, Z-Score と も よ ば れ て い ま す 。池 田 央
(1975)『 統 計 的 方 法 I 基 礎 』 ( 新 曜 社 ) 。
51
w3
0
0
1
12
1
2.80
4.62
5
w4
0
1
2
3
3
1.80
1.17
5
5.25 6.75 6.75 5.50 4.25
5.70
平均
標準偏差 5.26 7.56 5.45 4.50 4.55
個数
4
4
4
4
5.66
4
20
標 準 得 点 (S.S.)の 式 は 次 の と お り で す (→ 1.1.5.)。
S.S. = (x – Av) / SD
こ こ で 、 x は 実 測 値 、 Av は 平 均 値 、 SD は 標 準 偏 差 を 示 し ま す 。 こ の よ う
に標準得点はそれぞれ元の値から全体の平均値を引いて、さらにその値を
全体の標準偏差で割って得られた数値です。次は、このデータを行と列の
標 準 得 点 (S.S.r., S.S.c.)に 置 き 換 え た 結 果 で す 。
S.S.r.
L1
L2
L3
w1
-0.60
1.64
w2
1.15
0.26
L4
L5
S.S.c.
L1
L2
L3
L4
L5
0.40 -1.34 -0.10
w1
0.90
1.62
1.33
0.33
1.70
0.93 -1.28 -1.06
w2
1.09
0.03
0.60 -1.22 -0.71
w3
-0.61 -0.61 -0.39
1.99 -0.39
w3
-1.00 -0.89 -1.06
w4
-1.54 -0.69
1.03
w4
-1.00 -0.76 -0.87 -0.56 -0.27
0.17
1.03
1.44 -0.71
行 列 の 標 準 得 点 (S.S.m,)は 、行 の 標 準 得 点 と 列 の 標 準 得 点 の 分 数 平 均 と し ま
す 。 全 体 の 標 準 得 点 (S.S.a.)は 、 全 体 の 平 均 と 標 準 偏 差 を 使 い ま す 。
S.S.b.
L1
L2
L3
L4
L5
S.S.a.
L1
L2
L3
L4
L5
w1
0.25
1.63
0.93 -0.46
0.86
w1
0.76
2.35
1.47
0.23
1.11
w2
1.12
0.12
0.75 -1.25 -0.89
w2
0.94
0.23
0.76 -1.01 -0.83
w3
-0.81 -0.78 -0.75
1.72 -0.55
w3
-1.01 -1.01 -0.83
1.11 -0.83
w4
-1.10 -0.75 -0.69 -0.23 -0.01
w4
-1.01 -0.83 -0.65 -0.48 -0.48
●標準得点の平均と標準偏差
標 準 得 点 (SS)の 平 均 は 0 に な り 、 標 準 偏 差 が 1 に な り ま す 。 は じ め に 、 標
準 得 点 の 平 均 (M S S )が ゼ ロ に な る こ と を 確 か め ま す 。
M S S = (SS 1 + SS 2 + .... + SS N ) / N
SS の 定 義 に し た が っ て 、
= [(X 1 - M)/SD + (X 2 - M)/SD + ... + (X N - M)/SD] / N
= [(X 1 - M) + (X 2 - M) + ... + (X N - M)] / (N SD)
= [(X 1 + X 2 + ... + X N ) – N M] / (N SD)
52
こ こ で 、分 子 の (X 1 + X 2 + ... + X N )は 総 和 を 示 し ま す 。 N M は 平 均 の N 倍 だ
から、これも総和となるので、分子はゼロになります。よって標準得点の
平 均 (M S S )も ゼ ロ で す 。
次 に 標 準 得 点 の 分 散 (SD S S 2 )は 、 次 の よ う に な り ま す 。
SD S S 2 = [(SM 1 - M S S ) 2 + (SM 2 - M S S ) 2 + ... + (SM N - M S S ) 2 ] / N
先 に 標 準 得 点 の 平 均 (M S S ) が ゼ ロ で あ る こ と を 確 か め た の で 、
= {(SM 1 - 0) 2 + (SM 2 - 0) 2 + ... + (SM N - 0) 2 } / N
それぞれの標準得点を定義の式に置き換えると、
= {[(X 1 - M)/SD] 2 + [(X 2 - M)/SD] 2 + ... + [(X N - M) / SD] 2 ]} / N
全 体 の SD 2 を く く っ て 外 側 の 分 母 に 移 し ま す 。
= [(X 1 - M) 2
+ (X 2 - M) 2
+ ... + (X N - M) 2 ]
/ (N SD 2 )
ここで、
[(X 1 - M) 2
+ (X 2 - M) 2
+ ... + (X N - M) 2 ] / N
は 、 X 1 , X 2 , ...X N の 分 散 (SD 2 )で す か ら 、 先 の 式 は 次 の よ う に な り ま す 。
= SD 2 / SD 2 = 1
標 準 偏 差 SD は 分 散 の 根 ( ル ー ト ) で す か ら 、 標 準 得 点 の 標 準 偏 差 も 1 と
なります。
こ の よ う に し て 尺 度 を 、 平 均 が 0、 標 準 偏 差 が 1 に な る よ う に 標 準 化 さ せ
た値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺度
になり、全データの中での相対的な価値が勘案されていないことになりま
す。一方、標準得点は平均がゼロ、標準偏差が 1 になるように標準化され
ているので、点数とか温度とか価格とか(キロ)メートルのような単位が
なくなります。これにより、異なる概念(単位)の数値の間の関係も標準
得点によって数値化できるようになります。
●偏差値
テ ス ト で よ く 使 わ れ る 「 偏 差 値 」 は 標 準 得 点 を 10 倍 し 50 を 足 し て 計 算
します。
偏 差 値 = 標 準 得 点 ×10 + 50
そ う す る と 偏 差 値 の 平 均 は 50 に な り 、 標 準 偏 差 は 10 に な り ま す 。 標 準
53
得 点 に よ っ て 、 せ っ か く 平 均 0, 標 準 偏 差 1 に し て 標 準 化 し た の に 、 偏 差
値 で は も う 一 度 そ れ を 10 倍 し て 、さ ら に 50 を 足 し て い る の で す 。こ れ は 、
私 た ち が 100 点 満 点 の テ ス ト に 慣 れ て い る た め で 、 そ の ほ う が わ か り や す
いからでしょう。
●正規標準得点
標 準 得 点 を よ く 観 察 す る と 絶 対 値 が 1.00 を 超 え る 数 値 が し ば し ば 現 れ
ることがわかります。これは平均との差が標準偏差を超えたことを示して
い ま す 。 偏 差 値 で 言 え ば 40 点 以 下 の ケ ー ス や 60 以 上 の ケ ー ス な の で 、 よ
く 生 じ る 現 象 で す 。 そ こ で 、 標 準 得 点 の 範 囲 を [-1.00 ~ 1.00]と い う ス ケ ー
ルで正規化した数値を求めれば、他の正規得点と同様に数値を正規化した
尺 度 で 比 較 す る こ と が で き ま す (→ 「 統 計 量 」 「 正 規 変 動 係 数 」 )。 こ れ を
「 正 規 標 準 得 点 」 (Normalized Standard Score: N.S.S.) と 名 付 け る こ と に し ま
し ょ う 。 正 規 標 準 得 点 (N.S.S.)は 標 準 得 点 (S.S.)を 標 準 得 点 の 理 論 的 な 最 大
値 (S.S.max)で 割 っ た 値 と し ま す 。 先 の 「 正 規 変 動 係 数 」 で 見 た よ う に 、 標
準偏差の最大値は
SD.max = Ave (N – 1) 1 /2
そ し て 、 標 準 得 点 (S.S.)の 最 大 値 (S.S.max)は
S.S.max = (X – Ave) / SD.max
= (X – Ave) / (Ave (N -1) 1 /2 )
= (X – X / N) / X / N (N -1) 1 /2
= (N X – X) / N / X / N (N -1) 1 /2
= (N – 1) X / N / X / N (N -1) 1 /2
= (N – 1) / (N - 1) 1 /2
= (N- 1) 1 /2
よ っ て 、 正 規 標 準 得 点 (N.S.S.)は
N.S.S. = S.S. / S.S.max = S.S. / (N - 1) 1 /2
N.S.S.r.
L1
L2
L3
L4
L5
N.S.S.c.
L1
L2
L3
L4
L5
w1
-0.30
0.82
0.20
-0.67
-0.05
w1
0.52
0.94
0.77
0.19
0.98
w2
0.57
0.13
0.46
-0.64
-0.53
w2
0.63
0.02
0.34
-0.71
-0.41
w3
-0.30
-0.30
-0.19
1.00
-0.19
w3
-0.58
-0.52
-0.61
0.83
-0.41
w4
-0.77
-0.34
0.09
0.51
0.51
w4
-0.58
-0.44
-0.50
-0.32
-0.16
54
N.S.S.m.
L1
L2
L3
L4
L5
N.S.S.a.
L1
L2
L3
L4
L5
w1
0.14
0.89
0.51
-0.25
0.46
w1
0.17
0.54
0.34
0.05
0.26
w2
0.60
0.07
0.40
-0.67
-0.48
w2
0.21
0.05
0.17
-0.23
-0.19
w3
-0.44
-0.43
-0.40
0.92
-0.29
w3
-0.23
-0.23
-0.19
0.26
-0.19
w4
-0.62
-0.42
-0.39
-0.13
0.00
w4
-0.23
-0.19
-0.15
-0.11
-0.11
3.1.7. 期 待 得 点
こ こ で 提 案 す る「 期 待 得 点 」(Expectation Score: E.S.)は 、次 に 示 す「 期 待
値 」 (Expected Frequency: E.F.)を 使 い ま す 16 。 期 待 値 は そ れ ぞ れ の セ ル の 値
が横の和と縦の和から見て、平均に分布しているとすればどのような値と
して期待されるかを示すものです。「期待される」というよりも「予想さ
れ る 」 (expected)と 考 え た ほ う が わ か り や す い か も 知 れ ま せ ん 。
実測値
L1
L2
L3
L4
和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
和
21
27
27
22
17 114
期 待 値 は 行 と 列 の 和 の 割 合 か ら 計 算 さ れ ま す 。 w1 の 行 和 が 62 と な っ て い
ま す 。 一 方 、 列 和 の 行 に 注 目 す る と 、 L1 の 和 は 21 で す 。 総 和 は 114 で す
か ら 、 w1:L1 は 、 行 和 の 62 回 の う ち 、 21 / 114 の 割 合 で 出 て く る と 予 想 さ
れ ま す 。 つ ま り 、 62×(21 / 114) ≒ 11.42 と な り ま す 。 ◆ Excel シ ー ト で は
行 和 Sm.r.を 列 固 定 で 参 照 し 、 列 和 Sm.c.を 行 固 定 で 参 照 し ま す 。 分 母 の 総
和 Sm.a.は 列 も 行 も 固 定 し ま す ( 絶 対 参 照 ) 。 そ れ ぞ れ の セ ル に つ い て の
計算結果が次の表です。
E.F. = (Sm.r. Sm.c.) / Sm.a.
E.F.
w1
w2
w3
w4
L1
L2
L3
L4
L5
11.42 14.68 14.68 11.96 9.25
5.34 6.87 6.87 5.60 4.32
2.58 3.32 3.32 2.70 2.09
1.66 2.13 2.13 1.74 1.34
16
「 期 待 値 」(E.F.)は 一 般 に「 期 待 度 数 」と よ ば れ る こ と が 多 い の で す が 、
ここでは「実測値」と「期待値」を対等に比較する、という意図から両者
に「値」という訳語を使います。この訳語「期待値」も使われています。
「 期 待 値 得 点 」 と 、 以 下 で 扱 う 得 点 (Score)は 使 わ れ て い ま せ ん 。
55
実 測 値 と 期 待 値 を 比 較 し た 得 点 を「 期 待 得 点 」 (Expectation Score)と よ ぶ
ことにします。
実 測 値 (x)と 期 待 値 (E.F.)の 差 (Difference: D)、比 (Ratio: R)、差 比 (Difference
ratio: Dr.)で 比 較 し た も の を「 比 較 期 待 得 点 」(Comparative Expectation Score:
C.E. S.)と よ ぶ こ と に し ま す 。 そ れ ぞ れ を 次 の 式 で 導 き ま す 。
C.E. S.D. = x – E.F.
C.E. S.R. = x / E.F.
C.E. S.Dr.. = (x – E.F.) / E.F.
C.E.S.D.
L1
w1
-1.42
w2
5.66
L2
L3
L4
L5
C.E.S.R.
2.75
w1
0.88 1.29 0.95 0.59 1.30
3.13 -5.60 -3.32
w2
2.06 1.02 1.46 0.00 0.23
4.32 -0.68 -4.96
0.13
L1
L2
L3
L4
L5
w3
-2.58 -3.32 -2.32
9.30 -1.09
w3
0.00 0.00 0.30 4.44 0.48
w4
-1.66 -1.13 -0.13
1.26
w4
0.00 0.47 0.94 1.73 2.24
1.66
C.E.S.Dr.
L1
L2
L3
L4
L5
w1
-0.12
0.29
-0.05
-0.41
0.30
w2
1.06
0.02
0.46
-1.00 -0.77
w3
-1.00
-1.00
-0.70
3.44 -0.52
w4
-1.00
-0.53
-0.06
0.73
1.24
3.1.8. 順 位 得 点
(1) 正 順 位 得 点
「 正 順 位 得 点 」 (Descendig Rank Score: D.R.S.) に よ っ て 横 、 縦 、 全 体 の 範
囲 で 降 順 の 順 位 を つ け ま す 。◆ Excel 関 数 の RANK(c,R)を 使 い ま す 。c は 対
象のセルを示し、R はその範囲を示します。
実測値
L1
L2
L3
L4
L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
D.R.S.a.
L1
L2
L3
L4
L5
w1
6
1
2
8
3
w2
5
8
6
17
w3
17
17
13
3
D.R.S.c.
L1
L2
L3
L4
L5
w1
2
1
1
2
1
13
w2
1
2
2
4
3
13
w3
3
4
4
1
3
56
w4
17
13
12
10
10
w4
3
3
3
3
2
行 列 の 順 位 得 点 (D.R.S.m.)は 行 の 順 位 得 点 と 列 の 順 位 得 点 の 平 均 と し ま す 。
D.R.S.m.
L1
L2
L3
L4
L5
D.R.S.a.
L1
L2
L3
L4
L5
w1
3.0 1.0 1.5 3.5 2.0
w1
6
1
2
8
3
w2
1.0 2.5 2.0 4.5 3.5
w2
5
8
6
17
13
w3
3.5 4.0 3.0 1.0 2.5
w3
17
17
13
3
13
w4
4.0 3.5 3.0 2.0 1.5
w4
17
13
12
10
10
(2) 逆 順 位 得 点
逆 順 位 得 点 は 最 小 値 を 1 と し た 昇 順 の 順 位 を 示 し ま す 。 ◆ Excel 関 数 の
RANK(c,R, 1)を 使 い ま す 。c は 対 象 の セ ル を 示 し 、R は そ の 範 囲 を 示 し ま す 。
3 番目の引数として 1 を使います。
A.R.S.r. L1 L2 L3 L4 L5
A.R.S.c. L1 L2 L3 L4 L5
w1
w2
w3
2
5
1
5
3
1
4
4
3
1
1
5
3
2
3
w1
w2
w3
3
4
1
4
3
1
4
3
1
3
1
4
4
1
1
w4
1
2
3
4
4
w4
1
2
2
2
3
L2
L3
A.R.S.m. L1
L4
L5
A.R.S.a. L1 L2 L3 L4 L5
w1
w2
w3
2.5 4.5 4.0 2.0 3.5
4.5 3.0 3.5 1.0 1.5
1.0 1.0 2.0 4.5 2.0
w1
w2
w3
w4
1.0 2.0 2.5 3.0 3.5
w4
14 20 19 12 17
16 12 14
1
5
1
1
5 17
5
1
5
9 10 10
3.1.9. 逸 脱 得 点
確 率 的 に 見 て 異 常 な 度 数 を 検 知 す る 「 逸 脱 得 点 」 (Divergent Score: D.S.)
を提案します。
ある事象が起こる確率にはさまざまなものがあります。たとえば、サイ
コ ロ に は {1, 2, 3, 4, 5, 6}と い う 目 が あ る の で 、 1 回 サ イ コ ロ を 投 げ る と き
(「 試 行 」と 言 い ま す )、そ れ ぞ れ の 目 が 出 る 確 率 は そ れ ぞ れ 1/6 ず つ で す 。
こ れ ら の 目 の 中 の 1 つ 、た と え ば「 1」が 出 る 確 率 は 1/6 な の で 、逆 に「 1」
が 出 な い 確 率 は 1 - 1/6 = 5/6 で す 。 次 の 表 の F (False)は 「 1 」 が 出 な い こ
と を 示 し 、 T (True)は 「 1 」 が 出 る こ と を 示 し て い ま す 。 確 率 の 総 和 が 1
に な る こ と を 確 認 し て く だ さ い (5/6 + 1/6 = 1)。
「1」
T の数
確率
57
F
0
5/6≒ 0.833
T
1
1/6≒ 0.167
次 に サ イ コ ロ を 2 回 投 げ る 場 合 (試 行 回 数 =2)を 考 え ま し ょ う 。 た と え ば 1
回 目 が F で 2 回 目 が T と す る と 、こ れ を F, T と 書 き ま す 。こ の 場 合 も 確 率
の 総 和 は 1 に な り ま す (25/36 + 5/36 + 5/36 + 1/36 = 1) 。
「1」
T の数
確率
F, F
0
(5/6) (5/6) = 25 /36≒ 0.694
F, T
1
(5/6) (1/6) = 5/36≒ 0.139
T, F
1
(1/6) (5/6) = 5/36≒ 0.139
T, T
2
(1/6) (1/6) = 1/36≒ 0.028
さ ら に 、 サ イ コ ロ を 3 回 投 げ る 場 合 (試 行 回 数 =3)を 考 え ま す 。 こ の 場 合 も
確率の総和は 1 になることを確かめてください。
「1」
T の数
確率
F, F, F
0
(5/6) (5/6) (5/6) = 125/216≒ 0.579
F, F, T
1
(5/6) (5/6) (1/6) = 25/216≒ 0.116
F, T, F
1
(5/6) (1/6) (5/6) = 25/216≒ 0.116
T, F, F
1
(1/6) (5/6) (5/6) = 25/216≒ 0.116
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
T, T, T
3
(1/6) (1/6) (1/6) = 1/216≒ 0.005
ここで、たとえばサイコロを 3 回投げて順番を問題にせずに、全部で 2 回
「 1 」 が 出 る 場 合 (T の 数 =2)の 確 率 を 求 め る と 、 上 の 表 か ら 、
「1」
T の数
確率
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
を 合 わ せ た 確 率 、 つ ま り 、 5/216 + 5/216 + 5/216 = 15/216≒ 0.069 に な る こ
と が わ か り ま す 。 こ れ は 「 1 」 が 2 回 出 る 場 合 の 確 率 (5/216)を 3 倍 し た 数
で す 。 そ れ ぞ れ の 場 合 の 確 率 5/216 は (1/6) 2 (5/6)、 つ ま り T の 確 率 1/6 の 2
回 分 と F の 確 率 5/6 の 1 回 分 の 積 に な り ま す 。
次 に 、T, T, F だ け で な く 、他 に も T,F,T と F,T,T が あ る の で 、こ の 積 5/216
を 3 倍 し ま す 。 こ の 倍 数 の 3 を 求 め る の は 、 こ の よ う に 少 な い 試 行 回 数 (3
回 )な ら ば す ぐ 計 算 で き ま す が 、そ れ が 多 く な る と 一 般 式 を 使 わ な け れ ば な
58
り ま せ ん 。 n 回 の 試 行 で T が r 回 選 ば れ る 場 合 の 数 は nCr と い う 「 組 み 合
わ せ 」 (Combination: nCr)の 値 に な り ま す 17 。 こ こ で は 、 T が 2 個 で F が 1
個 の 組 み 合 わ せ に な る の で 3C2 で 計 算 し ま す 。 そ こ で 、 3 回 の 試 行 で T が
順番を問わずに 2 回出る確率は
3C2
(1/6) 2 (5/6) = (3 x 2) / (2 x 1) (1/6) 2 (5/6) = 15/216≒ 0.069
この確率を一般化した式で示すと、
nCr
(p) r (1 – p) n -r
になります。ここで n はサイコロを投げた総回数(試行数)、r は選ばれ
る 回 数 ( 成 功 数 ) 、 p は T の 確 率 (成 功 確 率 :1/6)、 1 - p は F の 確 率 (失 敗 確
率 : 5/6)を 示 し ま す 。こ の 確 率 の 分 布 は 「 二 項 分 布 」 (Binomial distribution)
と よ ば れ て い ま す 。◆ 二 項 分 布 の 確 率 の 計 算 は 階 乗 を 多 く 使 う の で 、n や r
が 大 き く な る と 計 算 が 複 雑 に な り ま す 。そ こ で 、Excel 関 数 の BINOMDIST(r,
n, p, 0)を 使 用 し ま す 。
次 は 、 試 行 回 数 = 4 を 固 定 し 、 成 功 率 を 1/2, 1/3, …, 1/6 と 変 化 さ せ 、 成
功 回 数 = 0, 1, 2, 3, 4 の そ れ ぞ れ の 確 率 を 計 算 し た 結 果 で す 。
二項分布(実験) 成功率
成功回数:y
1/2
x
1/3
1/4
試行回数
4
1/5
1/6
0
0.0625 0.1975 0.3164
0.4096 0.4823
1
0.2500 0.3951 0.4219
0.4096 0.3858
2
0.3750 0.2963 0.2109
0.1536 0.1157
3
0.2500 0.0988 0.0469
0.0256 0.0154
4
0.0625 0.0123 0.0039
0.0016 0.0008
た と え ば 、 BINOMDIST(0, 4, 1/2, 0)は 0.0625 を 示 し て い ま す 。 こ れ は コ
インを投げて表を出す確率などで 4 回投げて一度も表にならない確率
(1/2)4 = 1/16 = 0.0625 を 示 し て い ま す 。こ の よ う に 確 率 が 1/2 の と き は 、確
率の分布が 2 を最大値として、上下対称になります。サイコロの目(たと
え ば「 1」)が 出 る 確 率 は 1/6 で す が 、そ の と き の 成 功 回 数 =0 の 確 率 は 、(5/6) 4
= 0.4823, 成 功 回 数 =4 の 確 率 は 、(1/6) 4 = 0.0008 と な っ て 、上 下 対 称 で は あ
17
こ れ は 互 い に 区 別 の つ く 3 個 の 物 {a, b, c}の 中 か ら 任 意 の 2 個 (= T)を 取
り 出 す 場 合 の 数 と 同 じ で す 。も し 、取 り 出 す 順 番 を 考 え る な ら ば 、ab, ac, ba,
bc, ca, cb と い う 6 個 の 場 合 が あ り ま す 。 こ れ が 「 順 列 」 (Permutation: nPr)
で 、n P r = n (n – 1)(n – 2) … (n – r + 1). こ こ で 、順 番 を 考 慮 し な け れ ば(「 組
み 合 わ せ 」 3 C 2 )、ab と ba, ac と ca、bc と cb は そ れ ぞ れ 同 じ な の で 場 合 の
数 を 2 で 割 ら な け れ ば な り ま せ ん 。 こ の 2 は 2P2 の 順 列 (2! = 2 x 1)で す 。
よ っ て 3 C 2 = (3 x 2) / (2 x 1). 一 般 式 は
nCr
= n P r / r! = [n (n – 1) (n – 2) … (n – r + 1)] / r! = n! / [r! (n - r)!]
59
りません。
と こ ろ が 次 の よ う に 試 行 回 数 を 4, 5, 6, …, 20 の よ う に 増 加 さ せ る と 、次
第 に 分 布 が 上 下 対 称 に 近 づ き ま す 。そ の 確 率 の 最 大 値 は 、成 功 率 =1/2 の と
きのように試行回数の中央値ではなく、試行回数と確率の積に近似した成
功 回 数 の と き の 確 率 に な り ま す 。た と え ば 確 率 が 1/6 で 20 回 の 試 行 す れ ば 、
成 功 回 数 が (1/6) x 20 ≒ 3 と な り ま す か ら 、 成 功 数 =3 の 確 率 が 一 番 高 い 、
ということは直感的にも納得できます。
成功率
成功回数:y
4
0
0.4823
1
0.3858
2
0.1157
3
0.0154
4
0.0008
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1/6
5
0.4019
0.4019
0.1608
0.0322
0.0032
0.0001
6
0.3349
0.4019
0.2009
0.0536
0.0080
0.0006
0.0000
試行回数
10
0.1615
0.3230
0.2907
0.1550
0.0543
0.0130
0.0022
0.0002
0.0000
0.0000
0.0000
x
15
0.0649
0.1947
0.2726
0.2363
0.1418
0.0624
0.0208
0.0053
0.0011
0.0002
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
20
0.0261
0.1043
0.1982
0.2379
0.2022
0.1294
0.0647
0.0259
0.0084
0.0022
0.0005
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
ここで提案する「逸脱得点」は二項分布の確率を利用して求めます。この
とき、r = 実測値、n = 母数、p = 全体の中での割合、を使います。
実測値
L1
L2
L3
L4
和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
和
21
27
27
22
17
114
上の実測値を使って、たとえば「行」の二項分布得点は、該当するセルの
行 和 (Sm.r.)を n と し 、列 和 / 総 和 を p と し ま す 。w1:L1(=10)を 例 に す る と 、
62 回 の 試 行 で 10 回 起 こ る 確 率 ( 成 功 回 数 ) を 、 21/114 と い う 全 体 の 確 率
の 二 項 分 布 の 中 で の 確 率 を 求 め (Binomial Score: B.S)、 62 x 21 / 114 と い う
成 功 回 数( 期 待 値 )で の 確 率( 二 項 分 布 の の 最 大 値:B.S.max)で 割 り ま す 。
これで得られた商は、最大確率と比較したときの当該確率を正規化した大
き さ を 示 す の で 、「 ふ つ う に 起 こ り う る 確 率 」 (0.00 ~ 1.00)を 示 し ま す 。こ
こ で は 逆 に「 ふ つ う に は 起 こ り え な い 逸 脱 し た 確 率 」(0.00 ~ 1.00)を 求 め た
60
いので、1 からこの数値を引いた数値にします。さらに、実測値が期待値
よ り 小 さ い と き は 、そ れ を マ イ ナ ス 値 に し て 、評 価 し や す い 形 に し ま す (sgn
= –1)。 ◆ Excel 関 数 の SGN(*)を 使 い ま す 。
D.S. = sgn * [1- B.S. / B.S. (max)]
D.S.r.
L1
L2
L3
w1
-0.06
0.58
0.00 -0.70
w2
0.96 -0.02
L4
L5
D.S.c.
L1
L2
L3
0.43
w1
-0.16
0.73
0.00 -0.88
0.61 -0.99 -0.77
w2
0.97 -0.02
L4
L5
0.57
0.61 -0.99 -0.82
w3
-0.78 -0.91 -0.60
1.00 -0.12
w3
-0.76 -0.88 -0.53
1.00 -0.11
w4
-0.51 -0.19
0.47
w4
-0.44 -0.10
0.49
0.00
0.71
0.00
0.71
B.D.S.を 両 軸 で 求 め る と き は 、 B.D.S.R.と B.D.S.C.の 分 数 平 均 と し ま す 。
D.S.m.
L1
L2
L3
w1
-0.12
0.66
0.00 -0.80
w2
0.97 -0.02
L4
L5
D.S.a.
L1
0.51
w1
-0.81
0.61 -0.99 -0.80
w2
0.91
L2
L3
L4
1.00 -0.99 -0.22
0.22
L5
0.96
0.81 -0.98 -0.90
w3
-0.77 -0.89 -0.57
1.00 -0.11
w3
-0.98 -0.98 -0.90
0.96 -0.90
w4
-0.48 -0.15
0.48
w4
-0.98 -0.90 -0.70
0.41
0.00
0.71
0.41
●相対値から対照値へ
相 対 得 点 、限 定 得 点 、期 待 得 点 、逸 脱 得 点 は [0.0 ~ 1.0]の ス ケ ー ル( 範 囲 )
で 正 規 化 さ れ て い ま す 。そ の 中 間 点 は 0.5 で す 。こ の よ う に [0.0 ~ 1.0]の ス
ケ ー ル ( 範 囲 ) で 正 規 化 さ れ た 得 点 を [-1.0 ~ 1.0]の ス ケ ー ル に す る に は 、
そ の 得 点 を 2 倍 し て 1 を 引 き ま す 。 [0.0 ~ 1.0]を 2 倍 す る と [0.0 ~ 2.0]に な
り 、 こ れ か ら 1 を 引 く と [-1.0 ~ 1.0]に な る か ら で す 。
一 般 に 、 相 対 値 X / (X + Y)を 2 倍 し て 1 を 引 い て 、 [-1.0 ~ 1.0]の ス ケ ー
ル に す る と 、次 の よ う に (X – Y) / (X + Y)と い う 対 照 値 に な り ま す (→ 1.2.1.)。
これをモデルに使いましょう。
2X
X+Y
−1=
2X−X−Y
X+Y
=
X−Y
X+Y
そ こ で 、 相 対 得 点 R.S.を 次 の よ う に 対 照 値 に す る た め に 、 は じ め に 相 対 値
X / (X + Y)に し ま す 。
R.S. =
X
=
Sm
X
X + (Sm−X)
0.0 (X=0) ≦ R.S. ≦ 1.0 (X=Sm)
こ れ を 対 照 値 に し た 相 対 得 点 (R.S.)を 「 対 照 相 対 得 点 」 (Relative Score in
contrast: R.S.+c)と よ ぶ こ と に し ま す 。 R.S.+c は R.S.の X と Sm – X を 、 そ
61
れ ぞ れ X, Y と し て 、 先 の 対 照 値 (X – Y) / (X + Y)に し た も の で す 。
R.S.C. =
X − (Sm−X)
X + (Sm−X)
2X − Sm
=
Sm
-1 (X=0)≦ R.S.(c) ≦ 1 (X=Sm)
R.S.+c の 左 式 の ほ う が わ か り や す い で す が 、 EXcel で 計 算 す る と き は 右 式
の ほ う が 簡 単 で す 。 ま た は R.S.を 計 算 し て あ れ ば 、 そ れ を 参 照 し 2 を 掛 け
て 1 を引きます。次がその結果です。
R.F.r.
L1
L2
L3
L4
L5
R.F.r.+c
L1
L2
L3
L4
L5
w1
.16 .31 .23 .11 .19
w1
-0.68 -0.39 -0.55 -0.77 -0.61
w2
.38 .24 .34 .00 .03
w2
-0.24 -0.52 -0.31 -1.00 -0.93
w3
.00 .00 .07 .86 .07
w3
-1.00 -1.00 -0.86
w4
.00 .11 .22 .33 .33
w4
-1.00 -0.78 -0.56 -0.33 -0.33
0.71 -0.86
相 対 頻 度 は デ ー タ の 規 模 が 大 き く な る と 一 般 に 全 体 の 数 値 が 下 が り 、 0.5
を超えることが少なくなります。その対照相対頻度は、上の図のように、
ほとんどが負になります。
卓 立 相 対 得 点 (P.R.S.)は 次 の よ う に 相 対 値 X / (X + Y)で 示 さ れ ま す 。
P.S. =
(p – 1)X
(p – 1)X + (s – X)
0.0 (X=0) ≦ P.R.S. ≦ 1.0 (X = s)
よ っ て 、「 対 照 卓 立 相 対 得 点 」 (Prominent Score (contrast): P.S.(c)) は 次 の よ
うになります。
P.S.C. =
(p – 1)X −(s – X)
(p – 1)X + (s – X)
次がその結果です。
P.R.F.r.
L1
L2
L3
L4
L5
P.R.F.r.+c
L1
L2
L3
L4
L5
w1
0.43
0.64
0.54
0.34
0.49
w1
-0.13
0.28
0.08
-0.33
-0.02
w2
0.71
0.56
0.68
0.00
0.13
w2
0.42
0.12
0.36
-1.00
-0.75
w3
0.00
0.00
0.24
0.96
0.24
w3
-1.00
-1.00
-0.53
0.92
-0.53
w4
0.00
0.33
0.53
0.67
0.67
w4
-1.00
-0.33
0.07
0.33
0.33
次 に 限 定 得 点 ( L.S.)を 対 照 化 し ま す 。 は じ め に 、 L.S.を 次 の よ う に 相 対 値
(X – Y) / (X + Y)に し ま す 。 Mn が X を 含 む デ ー タ の 最 小 値 、 MX が そ の 最
大値を示します。
L.S. =
X−Mn
=
MX−Mn
X−Mn
(X−Mn)+(MX−X)
62
0.0 (X=Mn) ≦ L.S. ≦ 1.0 (X=MX)
上 の 右 式 は 相 対 値 X / (X + Y)な の で 、 そ れ を 対 照 値 (X – Y) / (X + Y)に し
た も の が 「 対 照 限 定 得 点 」 (Limited Score (contrast): L.S.C.)で す 。
L.S.+c. =
(X−Mn)−(MX−X)
=
=
(X−Mn)+(MX−X)
- 1.0 (X=Mn)
2X− MX−Mn
MX−Mn
≦ L.S.c. ≦ 1.0 (X=MX)
こ の L.S.+c.を 最 初 か ら 計 算 す る に は 上 の 右 式 を 使 い ま す 。 L.S.が す で に
計 算 さ れ て い る な ら ば 、 そ れ を 参 照 し て L.S.C. = (L.S.) × 2 – 1 の 計 算 を
します。次がその結果です。
L.S.r.
L1
L2
L3
L4
L5
L.S.r.+c
L1
L2
L3
L4
L5
w1
0.25 1.00 0.58 0.00 0.42
w1
-0.50
1.00
0.17 -1.00 -0.17
w2
1.00 0.64 0.91 0.00 0.09
w2
1.00
0.27
0.82 -1.00 -0.82
w3
0.00 0.00 0.08 1.00 0.08
w3
-1.00 -1.00 -0.83
1.00 -0.83
w4
0.00 0.33 0.67 1.00 1.00
w4
-1.00 -0.33
1.00
0.33
1.00
3.1.10. 類 似 得 点
後述する各種の「類似係数」を応用して、行と列の関連性を示す得点を
「 類 似 得 点 」(Association Score: A.S.) と よ ぶ こ と に し ま す 。こ の 節 は 、1.3.11.
を学習してから確認してください。
た と え ば 、 w1L1 の 10 を 、 w1(+):L1(+) の 回 数 (A:+/+) と み な し ま す 。
w1(+):L1(–)の 回 数 (B:+/–)は 、行 和 (Sm.r.) – x (10) = 62 – 10 = 52 に な り ま す 。
ま た 、w1(–):L1(+)の 回 数 (C:–/+)は 、列 和 (Sm.c.) – x(10) = 21 – 10 + 11 で す 。
そ し て w1(–):L1(–) の 回 数 (D:–/–) は 、 総 和 (Sm.a.) – 行 和 (Sm.r.) – 列 和
(Sm.c.) + x(10) = 104 と な り ま す 。 ◆ こ の よ う な A, B, C, D は Excel の 複 合
参照を使ってすべてのセルで計算します。結果は次のようになります。
実測値(A) L1 L2 L3 L4 L5 Sm.r
B
L1 L2 L3 L4 L5
w1
10
19
14
7
12
62
w1
52
43
48
55
50
w2
11
7
10
0
1
29
w2
18
22
19
29
28
w3
0
0
1
12
1
14
w3
14
14
13
2
13
w4
0
1
2
3
3
9
w4
9
8
7
6
6
Sm.c
21
27
27
22
17
114
63
C
L1 L2 L3 L4 L5
D
L1 L2 L3 L4 L5
w1
11
8
13
15
5
w1
41
44
39
37
47
w2
10
20
17
22
16
w2
75
65
68
63
69
w3
21
27
26
10
16
w3
79
73
74
90
84
w4
21
26
25
19
14
w4
84
79
80
86
91
こ れ ら の A, B, C, D を 各 セ ル で 参 照 し て 、 た と え ば 「 単 純 一 致 係 数 得 点 」
(Simple matching Scpre: S.m.S.) を 計 算 す る と 結 果 は 下 左 図 に な り ま す 。 ◆
Excel で は 相 対 参 照 を 使 い ま す 。 な お 、 各 種 の 類 似 得 点 は 、 そ れ ぞ れ の セ
ルを同じ行と列の他のセル全体と比較するので、行数や列数が大きくなる
と、全体に数値が小さくなる傾向があります。そこで、相対得点と同様に
して、卓立化のオプションを選択すると下右図の結果になります。
S.m.S. = (A + D) / (A + B + C + D)
S.m.S.
L1
L2
L3
L4
L5
P.S.m.S.
L1
L2
L3
L4
L5
w1
.45
.55
.46
.39
.52
w1
.66
.79
.71
.57
.72
w2
.75
.63
.68
.55
.61
w2
.85
.74
.80
.55
.64
w3
.69
.64
.66
.89
.75
w3
.69
.64
.68
.94
.76
w4
.74
.70
.72
.78
.82
w4
.74
.72
.75
.81
.85
他 も 同 様 で す 。 以 下 は 「 Jaccard 係 数 得 点 」 (Jc.S.), 「 Jaccard-2 係 数 得 点 」
(Js2.S.), 「 Russel and Rao 係 数 得 点 」(R-R.S.), 「 Russel and Rao-3 係 数 得 点 」
(R-R3.S.), 「 Hamann 係 数 得 点 」 (Hm.S.), 「 Yule 係 数 得 点 」 (Yl.S.), 「 Phi
係 数 得 点 」(Ph.S.), 「 Ochiai 係 数 得 点 」(Oc.S.), 「 Preference 係 数 得 点 」(Pr.S.)
の結果です。卓立化はそれぞれ右図の結果になります。
Jc.S.
L1
L2
L3
L4
L5
P.Jc.S.
L1
L2
L3
L4
L5
w1
.14
.27
.19
.09
.18
w1
.56
.75
.65
.44
.64
w2
.28
.14
.22
.00
.02
w2
.76
.57
.69
.00
.15
w3
.00
.00
.03
.50
.03
w3
.00
.00
.17
.89
.22
w4
.00
.03
.06
.11
.13
w4
.00
.19
.33
.49
.55
Jc2.S.
L1
L2
L3
L4
L5
P.Jc2.S.
L1
L2
L3
L4
L5
w1
.24
.43
.31
.17
.30
w1
.72
.86
.79
.62
.78
w2
.44
.25
.36
.00
.04
w2
.86
.73
.82
.00
.27
w3
.00
.00
.05
.67
.06
w3
.00
.00
.29
.94
.36
w4
.00
.06
.11
.19
.23
w4
.00
.32
.50
.66
.71
64
R-R.S
L1
L2
L3
L4
L5
P.R-R3.S
L1
L2
L3
L4
L5
w1
.09
.17
.12
.06
.11
w1
.70
.83
.77
.61
.74
w2
.10
.06
.09
.00
.01
w2
.72
.61
.70
.00
.18
w3
.00
.00
.01
.11
.01
w3
.00
.00
.18
.74
.18
w4
.00
.01
.02
.03
.03
w4
.00
.18
.30
.39
.39
R-R3.S
L1
L2
L3
L4
L5
P.R-R3.S
L1
L2
L3
L4
L5
w1
.22
.38
.30
.16
.26
w1
.70
.83
.77
.61
.74
w2
.24
.16
.22
.00
.03
w2
.72
.61
.70
.00
.18
w3
.00
.00
.03
.26
.03
w3
.00
.00
.18
.74
.18
w4
.00
.03
.05
.08
.08
w4
.00
.18
.30
.39
.39
Hm.S.
L1
w1
- .11
w2
L5
P.Hm.S.
L1
L2
L3
L4
L5
.11 - .07 - .23
.04
w1
.32
.59
.42
.14
.44
.51
.26
.37
.11
.23
w2
.71
.48
.61
.11
.27
w3
.39
.28
.32
.79
.49
w3
.39
.28
.36
.88
.52
w4
.47
.40
.44
.56
.65
w4
.47
.44
.50
.63
.70
L2
L3
L4
L5
- .52
.39
w1
.70
.90
.75
.43
.90
.36 - 1.00 - .73
w2
.95
.78
.89 - 1.00
.10
Yl.S.
L1
w1
- .16
w2
.64
L2
L3
.42 - .07
.02
L4
P.Yl.S.
L1
L2
L3
L4
L5
w3
- 1.00 - 1.00 - .64
.96 - .42
w3
- 1.00 - 1.00
.27
1.00
.53
w4
- 1.00
.39
w4
- 1.00
.76
.90
.93
Ph.s.
L1
w1
- .06
w2
.29
- .45 - .04
L2
L3
L4
.18 - .03 - .22
.01
.53
L5
P.Ph.s.
.50
L1
L2
L3
L4
L5
.14
w1
.36
.53
.39
.20
.49
.15 - .29 - .19
w2
.71
.48
.61 - .29
.04
w3
- .18 - .21 - .15
.63 - .08
w3
- .18 - .21
.10
.88
.21
w4
- .14 - .09 - .01
.10
w4
- .14
.38
.55
.62
.15
.19
Oc.S.
L1
L2
L3
L4
L5
P.Oc.S.
L1
L2
L3
L4
L5
w1
.28
.46
.34
.19
.37
w1
.73
.86
.79
.63
.79
w2
.45
.25
.36
.00
.05
w2
.86
.73
.82
.00
.27
w3
.00
.00
.05
.68
.06
w3
.00
.00
.30
.94
.36
w4
.00
.06
.13
.21
.24
w4
.00
.34
.52
.67
.71
65
Pr.s.
L1
L2
L3
L4
w1
- .52
- .15 - .37
- .67 - .39
w1
.43
.71
.57
w2
- .12
- .50 - .29 - 1.00 - .91
w2
.73
.45
.63 - 1.00 - .47
w3
- 1.00 - 1.00 - .90
w4
- 1.00
- .89 - .78
L5
P.Pr.s.
L1
L2
L3
L4
.23
L5
.55
.33 - .87
w3
- 1.00 - 1.00 - .42
.88 - .29
- .61 - .54
w4
- 1.00
.32
- .36
.00
.41
●行列演算による類似係数得点
下 左 表 (A)は 実 測 値 の 得 点 例 で す 。 こ こ で 、 w1:L1 の 10 を 「 w1 と L1 が
共 に 選 択 さ れ た 回 数 」 (A: +/+)と み な し ま す 。 B は 「 w1 は 選 択 さ れ 、 L1 が
選 択 さ れ て い な い 回 数 」(B:+/−)で す 。B(1,1)の 52 は 、A の w1 列 の L1 以 外
の 得 点 の 和 (19+14+7+12 = 52)に な り ま す 。
A
L1 L2 L3 L4 L5
w1 10 19 14
w2 11
w3
0
w4
0
7 12
7 10
0
0
1 12
1
2
3
1
1
3
B
L1 L2 L3 L4 L5
w1
52
43
48
55
50
w2
18
22
19
29
28
w3
14
14
13
2
13
w4
9
8
7
6
6
同 様 に し て 、 下 の C は 「 w1 が 選 択 さ れ ず 、 L1 が 選 択 さ れ て い る 回 数 」
(C:−/+)で あ り 、D は「 w1 と L1 が 共 に 選 択 さ れ い な い 回 数 」(D: −/−)を 示 し
ます。
C
L1 L2 L3 L4 L5
D
L1 L2 L3 L4 L5
w1
11
8
13
15
5
w1
41
44
39
37
47
w2
10
20
17
22
16
w2
75
65
68
63
69
w3
21
27
26
10
16
w3
79
73
74
90
84
w4
21
26
25
19
14
w4
84
79
80
86
91
こ の A, B, C, D と い う 行 列 を 用 い て 、 そ れ ぞ れ の セ ル に 該 当 す る 類 似 係
数 を 求 め 、 こ れ を 「 類 似 係 数 得 点 」 (Similarity coefficient score: Scs)と よ ぶ
ことにします。
A n p = X np [実 測 値 行 列 ]
B n p = S n 1 [行 和 ベ ク ト ル ] – X n p
C n p = T 1 p [列 和 ベ ク ト ル ] – X n p
D n p = S [総 和 ス カ ラ ー ] − A n p – B np − C n p
た と え ば 、 次 は 「 単 純 一 致 係 数 」 Simple matching coefficient を 使 っ た 単
純 一 致 係 数 得 点 」 Simple matching score: S.m.s.を 示 し ま す 。 S.m.s.は D 値 を
重視するため、全体に数値が高くなる傾向があります。
66
Sms. = (A n p + D n p ) / (A n p + B n p + C np + D n p )
Sms.
L1
L2
L3
L4
L5
w1
0.447 0.553 0.465 0.386 0.518
w2
0.754 0.632 0.684 0.553 0.614
w3
0.693 0.640 0.658 0.895 0.746
w4
0.737 0.702 0.719 0.781 0.825
次 は Jaccard 係 数 得 点 (J.s.)と Jaccard-2 係 数 得 点 (J.2.s.)で す 。
J.s. = A n p / (A n p + B np + C n p )
J.2.s. = A n p *2 / (A n p *2 + B n p + C n p )
J.s.
L1
L2
L3
L4
L5
J.2.s.
L1
L2
L3
L4
L5
w1
0.137 0.271 0.187 0.091 0.179
w1
0.241 0.427 0.315 0.167 0.304
w2
0.282 0.143 0.217 0.000 0.022
w2
0.440 0.250 0.357 0.000 0.043
w3
0.000 0.000 0.025 0.500 0.033
w3
0.000 0.000 0.049 0.667 0.065
w4
0.000 0.029 0.059 0.107 0.130
w4
0.000 0.056 0.111 0.194 0.231
次 は Russel & Rao 係 数 得 点 R.r.s.と Russel & Rao-3 係 数 得 点 R.r.3.s.で す 。
R.r.s. = A n p / (A n p + B n p + C n p + D np )
R.r.3.s = A n p *3 / (A n p *3 + B np + C n p + D n p )
R.r.s.
L1
L2
L3
L4
L5
R.r.3.s.
L1
L2
L3
L4
L5
w1
0.088
0.167
0.123
0.061
0.105
w1
0.224
0.375
0.296
0.164
0.261
w2
0.096
0.061
0.088
0.000
0.009
w2
0.243
0.164
0.224
0.000
0.026
w3
0.000
0.000
0.009
0.105
0.009
w3
0.000
0.000
0.026
0.261
0.026
w4
0.000
0.009
0.018
0.026
0.026
w4
0.000
0.026
0.051
0.075
0.075
次 は Hama nn 係 数 得 点 H.s.と Yule 係 数 得 点 Y.s.で す 。
H.s. = [(A n p + D np ) – (B n p + C n p )] / [(A n p + D np ) + (B n p + C n p )]
Y.s. = [(A n p * D n p ) – (B np * C np )] / [(A n p * D np ) + (B np * C np )]
H.s.
L1
L2
L3
L4
L5
Y.s.
L1
L2
L3
L4
L5
w1
-0.105
0.105
-0.070
-0.228
0.035
w1
-0.165
0.417
-0.067
-0.522
0.386
w2
0.509
0.263
0.368
0.105
0.228
w2
0.642
0.017
0.356
-1.000
-0.733
w3
0.386
0.281
0.316
0.789
0.491
w3
-1.000
-1.000
-0.641
0.964
-0.425
w4
0.474
0.404
0.439
0.561
0.649
w4
-1.000
-0.449
-0.045
0.387
0.529
次 は Phi 係 数 得 点 Ph.s.と Ochiai 係 数 得 点 O.s.で す 。
67
Ph.s. = [(A n p * D n p ) – (B n p * C np )]
/ [(A n p + B n p )*(C n p +D n p )*(A n p +C n p )*(B n p +D n p )] 1 /2
O.s. = S n p / [(A n p + B n p )*(A n p +C n p )] 1 /2
Phs.
L1
L2
L3
L4
L5
O.s.
L1
L2
L3
L4
L5
w1
-0.065
0.179
-0.028
-0.222
0.136
w1
0.277
0.464
0.342
0.190
0.370
w2
0.294
0.006
0.148
-0.286
-0.188
w2
0.446
0.250
0.357
0.000
0.045
w3
-0.178
-0.208
-0.146
0.630
-0.082
w3
0.000
0.000
0.051
0.684
0.065
w4
-0.139
-0.087
-0.010
0.104
0.151
w4
0.000
0.064
0.128
0.213
0.243
次 は 優 先 係 数 得 点 (Pr.s.)で す 。
Pr.s. = [A n p * 2 – (B np + C n p )] / [A n p * 2 + (B np + C n p )]
Pr.s.
L1
L2
L3
L4
L5
w1
-0.518 -0.146 -0.371 -0.667 -0.392
w2
-0.120 -0.500 -0.286 -1.000 -0.913
w3
-1.000 -1.000 -0.902
w4
-1.000 -0.889 -0.778 -0.613 -0.538
0.333 -0.871
これらの類似係数得点は、いずれも得点分布を行と 列の係数間の類似度
を占めるものとみなして、それを標準化して示したものです。それぞれ算
式によって示される特徴があります。
3.1.11. 識 別 得 点
す べ て の 絶 対 頻 度 (1)に つ い て 識 別 度 を 計 算 し (2)、負 値( マ イ ナ ス の 値 )と
ゼロ商値(分数の分母がゼロになる値)をゼロにした得点を「識別得点」
を名付けます。
(1)
A
L1
L2
L3
L4
w1
10
19
14
w2
w3
w4
11
7
21
L5
7
12
62
12
3
1
1
3
29
1
10
1
2
27
27
22
17
114
(2)
Dis.s.
L1
L2
L3
w1
- .100
.579
.071
w2
.091
- 1.857
- .700
L4
- 1.143
L5
.583
Dv/0 - 15.000
68
14
9
w3
Dv/0
Dv/0 - 25.000
w4
Dv/0 - 25.000 - 11.500
.167 - 15.000
- 5.333
- 3.667
(3)
Dis.s.
L1
w1
w2
L2
L3
.579
.071
L4
L5
.583
.091
w3
.167
w4
上 の (3)の 得 点 は 縦 列 に つ い て 「 識 別 得 点 」 を 計 算 し た 結 果 で す 。
3.2. 正規化得点
データ行列全体の総和を 1 として、それぞれのセルの値を相対化する方
法 を 「 正 規 化 得 点 」 Normalized score と よ ぶ こ と に し ま す 。
3.2.1. 総 和 に よ る 正 規 化 得 点
そ れ ぞ れ の セ ル の 値 を 総 和 で 割 り ま す 。た と え ば 、d1:L1 の セ ル で は 10 /
114 = 0.088 と な り ま す 。
O n p = I n p / Sum(I n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.088 .167 .123 .061 .105
.544
d2
11
7
10
0
1
29
d2
.096 .061 .088 .000 .009
.254
d3
0
0
1
12
1
14
d3
.000 .000 .009 .105 .009
.123
d4
0
1
2
3
3
9
d4
.000 .009 .018 .026 .026
.079
和
21
27
27
22
17 114
和
.184 .237 .237 .193 .149 1.000
Nml. sum
L1
L2
L3
L4
L5
和
* 池 田( 1976: 121-123)の「 総 和 を 基 礎 に し た 相 対 度 数 」を 参 照 し ま し た 。
3.2.2. 比 率 の 分 数 平 均 に よ る 正 規 化 得 点
A という条件で Y ではなく X となる 相対頻度だけでなく、X となった
とき、条件が A であった相対頻度も考慮に入れた正規化得点を考えます。
それぞれのセルの値の横和による比率と縦和による比率の分数平均を求め
ます。
O n p = I n p x 2 / [ SumR(I n p ) + SumC(I n p ) ]
次に、この演算で得られた行列全体をその総和で割ることにより、総和
69
を 1 にします。
O n p = O np / Sum(O n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.062 .109 .080 .043 .078
.371
d2
11
7
10
0
1
29
d2
.112 .064 .091 .000 .011
.279
d3
0
0
1
12
1
14
d3
.000 .000 .012 .170 .016
.199
d4
0
1
2
3
3
9
d4
.000 .014 .028 .049 .059
.151
和
21
27
27
22
17 114
和
.174 .187 .212 .262 .164 1.000
Nml. fr.av.
L1
L2
L3
L4
L5
和
3.2.3. 比 率 の 幾 何 平 均 に よ る 正 規 化 得 点
ここでは、分数平均ではなく、幾何平均を使います。
O n p = {I n p ^2 / [SumR(i n p ) * SumC(I n p )]}^(1/2)
O n p = O np / Sum(O n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.066 .111 .082 .045 .088
.392
d2
11
7
10
0
1
29
d2
.106 .060 .085 .000 .011
.262
d3
0
0
1
12
1
14
d3
.000 .000 .012 .163 .015
.191
d4
0
1
2
3
3
9
d4
.000 .015 .031 .051 .058
.155
和
21
27
27
22
17 114
和
.173 .186 .210 .259 .172 1.000
Nml. ge.av.
L1
L2
L3
L4
L5
和
3.2.4. モ ス テ ラ ー の 正 規 化 得 点
下左表のようなデータ行列のそれぞれのセルに一定の値を掛けて、縦和と
横和が同一になるように変換すると、全体の中で値を相対的に見ることが
できます(下右表)。この例では総和を 1 にしています。
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.068 .091 .043 .007 .041
.250
d2
11
7
10
0
1
29
d2
.132 .059 .053 .000 .006
.250
d3
0
0
1
12
1
14
d3
.000 .000 .041 .162 .047
.250
d4
0
1
2
3
3
9
d4
.000 .050 .063 .031 .106
.250
和
21
27
27
22
17 114
和
.200 .200 .200 .200 .200 1.000
Mosteller
L1
L2
L3
L4
L5
和
このように和を一定に揃えるためには、行和または列和だけならば、その
和 で そ れ ぞ れ の セ ル の 値 を 割 れ ば で き る の で す が 、こ の 場 合 、列 和 (4)と 行
和 (5)の 条 件 を 同 時 に 満 た す 値 を 探 さ な け れ ば な り ま せ ん 。そ こ で 、は じ め
にそれぞれの行和で割った行列成分を、次にその列和で割ります。このと
70
き、行和が変化しますから、再び行和で割り、列和で割る、という演算を
します。それをセルの値の変化がほとんでなくなるまで繰り返します。こ
の 方 法 は 「 モ ス テ ラ ー (Mosteller) の 標 準 化 」 と よ ば れ ま す 。 * 池 田 (1976:
123-124)
次 が デ ー タ 行 列 を 行 和 *個 数 と 列 和 *列 数 で 割 る 行 列 演 算 式 で す 。
Sn = SumR(F n p ), F n p = F n p / (Sn * N)
Tp = SumC(F n p ), F n p = F n p / (Tp * P)
■ 音 素 /s/に 対 応 す る 2 つ の 文 字 と 正 規 化 の 理 由
中 世・近 代 ス ペ イ ン 語 で は 、短 い s と 縦 長 の ſ の ど ち ら も 音 素 /s/を 表 し
て い ま し た 。そ の 分 布 の 特 徴 は 語 末 に 短 い s が 使 わ れ る 傾 向 が あ っ た 、と
いうことが観察されています。しかし、確かに語末では短い s が多く使わ
れ て い る の で す が 、そ れ は 語 頭・語 中 で も や は り 使 わ れ て い ま す( 下 左 表 :
『 ア レ ク サ ン ダ ー 大 王 物 語 』 Libro de Alexandre (1300)の 冒 頭 か ら 2 万 字 ま
で)。下右表は総和による正規化の結果です。
/s/ 語頭 語中 語末
和
Nml. sum 語頭 語中 語末
和
s
62
2
593
657
s
.042
.001
.397
.440
ſ
314
412
109
835
ſ
.210
.276
.073
.560
和
376
414
702 1492
和
.252
.277
.471 1.000
短い s が語末に出現する傾向は、このような小さな規模(2 行 3 列の大
き さ の 表 )で 頻 度 が 低 い デ ー タ( 総 数 1492)な ら ば と く に 正 規 化 し な く て
も大体様子がわかるのですが、それらがさらに大きくなると、分布の傾向
を 見 る こ と が 難 し く な り ま す 。そ こ で 、よ く 行 わ れ る の は 次 の よ う な 横 軸 、
または縦軸の和で割った相対頻度の表示です。
横軸
語頭 語中
語末
和
縦軸
語頭
語中
語末
和
s
.094
.003
.903 1.000
s
.165
.005
.845 1.014
ſ
.376
.493
.131 1.000
ſ
.835
.995
.155 1.986
和
.470
.496 1.033 2.000
和
1.000 1.000 1.000 3.000
ここで気づくことは、横軸を相対化すると、観点は横軸に集中し、たと
え ば 、短 い s が 語 頭・語 中 よ り も 語 末 に 集 中 し て い る こ と が わ か り 、一 方 、
縦軸を相対化すると、たしかに語末では短い s が多く現れているのですが
(.845)、 語 頭 で の 長 い ſ も そ れ に 続 く よ う に 高 い 比 率 (.835)を 占 め て い る こ
とです。そのことならば、横軸相対化得点(上左表)で見れば、語頭の位
置 の 短 い s と 縦 長 の ſ の 割 合 が 同 じ に な る の で は な い か 、と 思 わ れ る か も
し れ ま せ ん が 、 実 は 、 .094 / .470 = .200, .376 / .470 = .800 に な る の で 、 上
71
右 表 の .165, .835 と は 異 な り 、必 ず し も 正 確 に は 両 者 の 比 率 が 正 し く 比 較 で
きません。
次の2つの表は、横比率と縦比率の分数平均(下左 表)と、両者の幾何
平均(下右表)を示しています。
Nml. frac.av. 語頭 語中 語末
和
Nml. geo.av. 語頭 語中 語末
和
s
.052
.002
.377
.430
s
.052
.002
.363
.416
ſ
.224
.285
.061
.570
ſ
.233
.291
.059
.584
和
.276
.286
.438 1.000
和
.285
.293
.422 1.000
上 左 表 で は 、語 頭 の s の 頻 度 を 横 和 で 割 っ た 値 62/657 と 、縦 和 で 割 っ た
値 62/314 の そ れ ぞ れ の 分 子 と 分 母 を 足 し て 割 り 算 を し て い ま す( (62 x 2) /
(657+314) = .052) 。 こ の と き 、 単 に 短 い s の 頻 度 の 語 頭 位 置 の 割 合 だ け で
なく、語頭の位置での s の割合も考慮に入れています。両者の幾何平均を
使う、上右表でも同様です。
た と え ば 、 コ レ ラ 流 行 時 の 同 じ 川 の 流 域 に あ る 2 市 ( A, B) の 感 染 死 亡
者数を比較する資料があると仮定しましょう(下左表)。下右表はその縦
軸 の 割 合 で す 。 そ れ ぞ れ の 市 の 死 亡 者 の 割 合 ( .032, .012) が 算 出 さ れ る の
で 、 こ こ か ら 、 A 市 (.032)は B 市 (.012)と 比 べ て 、 2.6 倍 に も な る 、 と 言 え
る で し ょ う か ? そ れ な ら ば 、 生 存 者 を 比 較 す る と (.968, .988)、 比 を 計 算 す
る と .979 な の で 、 ほ と ん ど 同 じ に な っ て し ま い ま す 。
コレラ
R.S.c.
A市
B市
1550
死亡者
.032
.012
生存者 39000 20000 59000
生存者
.968
.988 1.955
和
和
死亡者
A市
1300
B市
250
和
40300 20250 60550
和
.045
1.000 1.000 2.000
実は、先の文字の出現位置の比較でも見たように、母数の異なる集団の
中の割合(率、%など)で、集団を比較することは本質的にできないはず
なのです。そこでデータを正規化する必要が生まれますが、そうすると次
のような結果になります。
Nml. sum A 市 B 市 和
Nml. frac.av. A 市
B市 和
死亡者
.021
.004
.026
死亡者
.045
.017
.062
生存者
.644
.330
.974
生存者
.571
.367
.938
.666
.334 1.000
.616
.384 1.000
和
和
上左表は、単純な総和による正規化の結果です。それぞれの 4 つの数値
は 同 じ 共 通 の 総 和( 60550)で 割 っ て い る の で 、一 応 は 比 較 で き ま す 。こ れ
で、もとのデータ行列では見にくかった割合の内訳がわかるようになりま
し た 。し か し 、こ の 方 法 で は 、た と え ば 、B 市 の 死 亡 者 の 割 合 (.004)を 計 算
72
するとき、直接関係のない、A 市の多数の生存者も含めています。そのた
め 非 常 に 小 さ な 数 値 に な っ て い ま す 。む し ろ 、死 亡 者 全 体 の 中 の B 市 の 割
合と B 市全体の中の死亡者の割合を共に計算に入れた両軸の割合の分数平
均や(上左表)、幾何平均を使ったほうが、納得できる数値になるでしょ
う。
言語研究に限らず、さまざまな分野の研究で母数の異なる集団の 数量的
比較が行われますが、そのとき、そもそも母数が異なれば絶対頻度(数え
た素数)では比較できません。そこで、割合やパーセント、パーミル、パ
ー ミ リ オ ン な ど の 相 対 頻 度 が 使 わ れ る こ と が 多 い の で す が 、こ れ ら の 率 は 、
厳 密 に 言 え ば 、比 較 が で き な い は ず で す 。極 端 な 例 で は 、250/1000=25%と 、
3/10=30%を 比 較 し て も ほ と ん ど 意 味 が な い で し ょ う 。そ れ な ら ば 、母 数 が
近 い と き 、た と え ば 、25/400, 25/450 な ら ば そ れ ほ ど 問 題 に な ら な い 、と い
うことも考えられます。しかし、どのような母数の隔たりまで比較が許さ
れ る の で し ょ う か ? 1.5 倍 や 2 倍 な ら ば 問 題 が な い の で し ょ う か ? 厳 密 に
数値を相対化して比較するためには、データ行列全体に適切な正規化を適
用してみる価値があると思います。
3.3. 質的データ
量的データを質的データに変換したり、質的データの表示形式を変 えた
りするための操作です。
(1) デ ー タ の 50 以 上 の 数 値 (A)を 1 に 変 換 し ま す 。 50 未 満 を 0 と し ま す 。
項目
a.効果 b.楽しい
項目
a.効果 b.楽しい
1.文法解説
86
29
1.文法解説
1
0
2.ビデオ
53
78
2.ビデオ
1
1
3.活動
48
53
3.活動
0
1
4.映画
43
96
4.映画
0
1
(2) 上 右 表 の 1/0 を v/(空 白 )に 変 換 し ま す ( 下 左 ) 。 ま た 、 v/(空 白 )を 1/0
に戻します(下右)。
項目
a.効果 b.楽しい
1.文法解説
v
2.ビデオ
v
項目
a.効果 b.楽しい
1.文法解説
1
0
v
2.ビデオ
1
1
3.活動
v
3.活動
0
1
4.映画
v
4.映画
0
1
73
3.4. 名義行列
下 左 表 の よ う な 名 義 を 成 分 と す る 行 列 を 「 名 義 行 列 」 (Nominal Matrix)
と よ ぶ こ と に し ま す 。 Lt.Oc.の よ う に 名 義 の 出 現 を 示 す 名 義 行 列 を 「 名 義
出 現 行 列 」 (Nominal occurrence matrix) と よ び 、 Lt.Fq.の よ う に 名 義 ご と の
頻 度 を 示 す 名 義 行 列 を「 名 義 頻 度 行 列 」(Nominal frequency matrix)と よ び 、
Lt.Dt.の よ う に 、カ テ ゴ リ ー (d1, d2, …, dn)ご と の 分 布 を 示 す 名 義 行 列 を「 名
義 分 布 行 列 」(Nominal distribution matrix)と よ ぶ こ と に し ま す 。こ れ ら を 用
いて、後述するさまざまな分析をします。
Lt.Oc.
d1
v1
A
v2
v3
v4
Lt.Oc. > Lt.Dt. v1 v2 v3 v4
A,B
B
C
d1:A
v
d2
B,D B,C,D
C
D
d1:B
d3
A,B
C
B
C
d1:C
d4
C
C,D
C
A
d2:B
v
v
d5
B
C B,C B,C,D
d2:D
v
v
v
v1
v2
v3
v4
v
d3:A
v
1
d3:B
v
A
2
1
B
3
2
3
1
d3:C
C
1
4
3
3
d4:C
D
1
2
2
d4:D
v
v
d2:C
Lt.Oc. > Lt.Fq.
v
v
v
v
v
v
v
v
v
v
d4:A
d5:B
d5:C
d5:D
v
v
v
v
v
v
v
v
3.5. 欠測値の補充
(1) 隣 接 値 に よ る 欠 損 値 補 充
データ行列に欠測値があるとき、隣接の値を参照することが可能であると
判断したときに使用します。これはとくに集中化されたデータ行列で有効
で す ( → 「 3.9 集 中 」 ) 。 隣 接 値 の 平 均 値 を 使 っ て デ ー タ 行 列 ( 下 左 表 )
の欠測値を補充します(下右表)。
74
P2
v-1
v-2
d-1
1
d-2
2
d-3
1
d-4
3
d-5
2
v-3
1
v-4
2
3
3
3
P2
4
2
v-1
v-2
v-3
v-4
d-1
1
1
2
1
d-2
2
2
3
4
d-3
1
3
2
1
2
4
d-4
3
2
2
4
2
4
d-5
2
3
2
4
欠測値のある欠測値を含めてセルの上下左右の値の平均値で補充します。
上下左右のセルに値があれば、4 つの値を足して 5 で割りますが、行列の
端 に 位 置 す る セ ル の 場 合 は 隣 接 す る 値 の 数 +1 で 割 り ま す 。結 果 は 他 の セ ル
を揃えるために四捨五入して整数部だけを出力します。補充は 1 回だけで
なく可能な限り繰り返します。隣接値として列、行、両軸の選択ができま
す。
(2) 期 待 値 に よ る 欠 損 値 補 充
期 待 値( → 1.4.2.)を 使 っ て デ ー タ 行 列 の 欠 測 値 を 補 充 し ま す 。次 の 例 で は
「 3.活 動 」の「 a.効 果 」の 値 48 を x と し ま す 。こ れ を 期 待 値 で 補 充 す る と 、
47.52 と い う 近 似 値 を 得 ま す 。
項目
a.効果 b.楽しい
項目
a.効果 b.楽しい
1.文法解説
86
29
1.文法解説
86.00
29.00
2.ビデオ
53
78
2.ビデオ
53.00
78.00
3.活動
x
53
3.活動
47.52
53.00
4.映画
43
96
4.映画
43.00
96.00
*この例では、次の期待値の方程式から x を直接求めることができます。
E n p [期 待 値 ]= Sn [行 和 ] * Tp [列 和 ]/ T [総 和 ]
x = (86 + 53 + x + 43)(x + 53) / (86 + 53 + x + 43 + 29 + 78 + 53 + 96)
x = (182 + x) (53 + x) / (438 + x)
438x + x 2 = 9646 + 235x + x 2
203x = 9646
x = 47.52
複数の欠測値があるときは、このような簡単な計算ができないので、次の
プログラムで収束するまで繰り返します。
75
4. 関 係
3 以上の変数(多変数)をもつデータ行列の変数間の関係を各種の相関係
数行列や類似度係数行列を使って示します。そして、データ行列の個体間
の関係を各種の距離行列を使って測ります。また、一般に行列の成分は連
続 変 数 や 1-0 と い う 二 値 変 数( ま た は「 v」な ど 1 文 字 の 表 示 )に な り ま す
が、言語データ分析に欠かせない文字行列を分析する方法を試みます。
4.1. 相関
前節までの内容は、1 つのデータを代表する値や個々のデータを置き換え
る数値を扱いました。本節では 2 つの種類のデータを扱い、それらの関係
性を見ます。2 つのデータが関わってきますので、数字の裏にある数式は
すこし複雑になりますが、一度理解してしまえば、数値の本質がわかり、
その使い方や応用の方法がわかるようになります。はじめには簡単な例や
図を使って、統計的な数値を直感的に納得できるようにします。納得でき
た後でその数学的な根拠を探ります。数学的な根拠がわかったら、自分で
手を動かしてそれを実験して確かめましょう。ここまですれば確実にその
統計手法が身につきます。
数値の意味がわかったならば、それをたくさん使ってみましょう。そう
すれば感覚がだんだんと養われていき、理論的な知識が経験的なスキルに
よ っ て 裏 づ け ら れ る よ う に な り ま す 。知 識 は 使 う こ と で 生 か さ れ て き ま す 。
Excel の よ う な ア プ リ ケ ー シ ョ ン は 、 こ う し た 実 験 を す る の に と て も 便 利
です。
4.1.1. 量 的 な デ ー タ の 相 関
4.1.2. デ ー タ
まず頻度やアンケートの結果など、数えたりスケールを測ったりできる量
的な数値について扱います。次のデータを見てください。これは西語(ス
ペ イ ン 語 ) の 文 1 (Madrid)と 文 2(Sevilla)に 関 し て 主 要 な 前 置 詞 の 頻 度 を 集
計したものです。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
a
76
en
105
81
por
54
45
こ こ に は「 文 1」と「 文 2」と い う 2 つ の デ ー タ が あ り ま す 。こ の 2 つ の 文
は前置詞の観点からみると、どの程度類似しているのでしょうか。本節で
はこのような 2 つのデータの関連の強度を計算する方法を見ていきます。
4.1.3. デ ー タ 間 の 関 係
はじめに 2 つのデータの関係性を捉えるために散布図にして視覚化してみ
ま し ょ う 。 ◆ Excel で は 、 英 文 1 英 文 2 の 2 列 を 選 択 し 、 「 挿 入 」 → 「 グ
ラフ」→「散布図」とします。軸ラベルがあるレイアウトに変更し、それ
ぞれ軸ラベルを編集しておきます。
一見したところ、文 1 と文 2 は比例関係があるようです。この事実を確か
めるために行の原点(ゼロの位置)を英文 1 の平均までずらし、列の原点
を英文 2 の平均までずらして散布図を描き直してみましょう。そのために
は、前章で見た標準得点が使われます。これは次のように定義されます。
標 準 得 点 (SM) =
x- X の 平 均 値
Xの標準偏差
こ の よ う に 標 準 得 点( SM i )は そ れ ぞ れ 元 の 値( x i )か ら 全 体 の 平 均 値( m )
を 引 い て 、 さ ら に そ の 値 を 全 体 の 標 準 偏 差 ( σ) で 割 っ て 得 ら れ た 数 値 で
す。
次は、このデータを標準得点に置き換えた結果です。つまり全体の平均が
0、 標 準 偏 差 が 1 に な る よ う に し た も の で す 。
77
v-1(sm)
v-2(sm)
v-1(sm)
0.674
0.922
0.674
-1.184
-0.980
-1.184
1.513
1.438
1.513
-0.082
-0.400
-0.082
-0.921
-0.980
-0.921
この標準得点に変換したデータで、もう一度散布図を作成すると次のよう
になります。
こ の 図 を 見 れ ば 、文 1 と 文 2 の デ ー タ が す べ て A と C の 領 域 に 入 っ て い る
ことがはっきりと分かります。A と C の領域は、x 軸の値と y 軸の値の標
準 得 点 を 掛 け 合 わ せ る と 、そ の 2 つ と も 正( + )、ま た は 2 つ と も 負( - )
で あ る の で 、そ の 積 は 正 に な り ま す 。一 方 、B と D の 領 域 は 2 つ の 正 負 が
異なるため積は負となることがわかります。
4.1.4. 相 関 係 数
Xの標準得点とYの標準得点を掛けた値の総和を求めればXとYの関連
する度合いが数値化できます。共に正(+)、または共に負(-)であれ
ば、それらの積は正になりますから、この積の数が多ければ多いほど相関
が強くなります。そしてすべてのデータが図の斜めの線に近づけば相関の
程度はますます高くなり、全部が斜めの線に完全に一致すれば相関は最大
になります。
逆 に 、 B と D の 領 域 に あ る デ ー タ は 正 の 相 関 を 減 少 さ せ ま す 。そ れ が 多
く な れ ば な る ほ ど 相 関 の 程 度 は 弱 ま り ま す 。そ れ ら の デ ー タ は X と Y の 値
の積が負になるからです。もし、負ばかりのデータであれば、逆の相関が
78
強 く な り ま す 18 。 ま た 、 A, B, C, D に 平 均 し て 分 布 し て い る と X と Y の 間
には相関関係がない、と考えられるでしょう。
このような積の合計(積和)はデータの量に左右されます。つまり、デ
ータ量が多くなればなるほど値はどんどん大きくなり、スケールが一定に
なりません。そこで、積和を全体の個数で割って積和の平均を出したもの
が 「 相 関 係 数 」 (coefficient of correlation) で す 。 相 関 係 数 の 求 め 方 を 一 般 化
した公式に変えましょう。
X と Y の 相 関 係 数 ( r)
= { [(x 1 - m x ) / σ x ] [(y 1 - m y ) / σ y ]
+ [(x 2 - m x ) / σ x ] [(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ] [(y n - m y ) / σ y ] } / n
と い う 計 算 を し ま す 。 σx と σy を 分 母 に 移 す と 、
r = [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / (nσ x σ y )
ここで、
[ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / n
を 「 共 分 散 」 (covariance)と よ び 、 S xy と 書 き ま す 。 す る と 先 の 式 は 、
X と Y の 相 関 係 数 ( r) =
Sxy
σ x *σ y
と な り ま す 。 X と Y の 相 関 係 数 (r) は 最 終 的 に
相 関 係 数 (r) =
Xと Yの 共 分 散
Xの 標 準 偏 差 * Yの 標 準 偏 差
となります。
18
中 心 の 点 (0, 0)に 近 い 位 置 の デ ー タ は 、相 関 に あ ま り 影 響 し ま せ ん 。逆 に
中心から離れた位置のデータは相関に強く影響します。
79
● 相 関 係 数 (r)が -1 ≦ r ≦ 1 に な る 理 由
相 関 係 数 は -1 ≦ r ≦ 1 と い う 範 囲 に 入 る 標 準 的 な 値 で す 。こ の こ と を 高
校数学までに習った判別式を使って確かめてみましょう。
原理的に、相関係数はすべてのデー タが一直線に並ぶときに最大になり
ますから、そのような直線の式を
(y - m y ) = a (x - m x )
で 表 し ま す 。 こ こ で 、 mx と my は そ れ ぞ れ x と y の 平 均 値 を 示 し ま す 。 こ
の 直 線 は X と Y の 平 均 値 の 座 標 (m x , m y )を 通 り 、 傾 き は a と な り ま す 。 直
線ならば、上の式から、
a (x - m x ) - (y - m y ) = 0
と な り ま す が 、実 際 の デ ー タ で は 、(x, y)の そ れ ぞ れ の 値 、つ ま り 、(x 1 , y 1 ),
(x 2 , y 2 ), ... (x n , y n )が 直 線 上 に 並 ぶ こ と は ふ つ う あ り ま せ ん 。そ の 値 を (x i , y i )
と し て 、上 の 式 に 当 て は め る と 、a (x i - m x ) - (y i - m y ) は ゼ ロ (0)で は な く て 、
プラスになったり、マイナスになったり、さまざまな値をとります。その
全体の変動を見るために、その自乗和を計算しましょう。
f(a) = Σ [a (x i - m x ) - (y i - m y )] 2
これは平方和なので負(マイナス)になることはありません。つまり、
f(a) ≧ 0 で す 。 f(a)を 展 開 し ま し ょ う 。
f(a) = Σ [a 2 (x i - m x ) 2 - 2a(x i - m x )(y i - m y ) + (y i - m y ) 2 ]
= Σ a 2 (x i - m x ) 2 - Σ 2a(x i - m x )(y i - m y ) + Σ (y i - m y ) 2
= a 2 Σ (x i - m x ) 2 - 2aΣ (x i - m x )(y i - m y ) + Σ (y i - m y ) 2
こ の よ う に f(a)は a の 2 次 式 に な り ま す が 、先 に 見 た よ う に f(a)≧ 0 な の
で、2 次式の放物線の頂点が行に接するか、またはその上方にあることに
な り ま す 19 。 a を 行 に 、 f(a)を 列 に し た グ ラ フ を 描 い て み ま し ょ う 。
19
ここで「行」と言い x 軸と言わないのは、上の 2 次式は x についての 2
次 式 と い う よ り も 、a に つ い て の 2 次 式 を 考 え て い る か ら で す 。よ っ て「 行 」
は「a 軸」のことです。
80
【 図 6.1e】
【 図 6.1f】
f(a)の 放 物 線 の 頂 点 が ち ょ う ど を 行 上 に あ る と き は ( 【 図 6.1e】 ) 、 次
の判別式がゼロとなって、解が 1 つになります。放物線の頂点が行よりも
上 に あ る と き は ( 【 図 6.1f】 ) 解 が な い の で ( 行 と ぶ つ か ら な い の で ) 判
別 式 は マ イ ナ ス に な り ま す 20 。
判 別 式 (D) ≦ 0
こ れ を f(a)の 式 に 当 て は め ま す 。
[2Σ (x i - m x )(y i - m y )] 2
[Σ (x i - m x )(y i - m y )] 2
- 4Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0
- Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0
上の式のそれぞれの要素は、相関係数で使われた要素と同じであること
に気づきます。そこで第 2 項を右辺に移動します。
[Σ (x i - m x )(y i - m y )] 2 ≦ Σ (x i - m x ) 2 Σ (y i - m y ) 2
さらに両辺を右辺で割ります。
[Σ (x i - m x )(y i - m y )] 2
Σ (x i - m x ) 2 Σ (y i - m y ) 2
≦ 1
こ の 左 辺 は 、相 関 係 数 (r)を 自 乗 し た も の で す か ら 、 r 2 ≦ 1 と な り 、よ っ
て
-1 ≦ r ≦ 1
となります。
20
2 次 方 程 式 ax 2 + bx + c = 0 の 判 別 式 (D)は b 2 – 4ac で す 。
81
4.1.5. 相 関 係 数 の 意 味
出 力 さ れ た 数 値 に つ い て 経 験 的 に 次 の よ う な 解 釈 で き ま す 21 。
|r| = 0.0
XとYの間に相関がない
0.0 < |r| ≦ 0.2
XとYの間にほとんど相関がない
0.2 < |r| ≦ 0.4
XとYの間に弱い相関がある
0.4 < |r| ≦ 0.7
XとYの間にやや強い相関がある
0.7 < |r| ≦ 1.0
XとYの間に強い相関がある
4.1.6. 相 関 係 数 に つ い て の 注 意
相関係数を計算することによってあらゆる数値データの間の相関関係
が一応わかります。しかし、これはデータの本質については何も知らない
コンピュータが、入力された数値だけをもとに出した結果にすぎないので
注意が必要です。いろいろなケースが考えられますが、たとえば次のよう
な場合に単に相関係数だけを求めて、それを現象の解釈の結論にしてしま
うのは危険です。
(0) そ も そ も 2 つ が 同 じ デ ー タ の 場 合 。 た と え ば 、 値 と そ の 百 分 率 ( %)
はまったく同じデータです。
(1) デ ー タ の 数 が 極 端 に 少 な い 場 合 。 た と え ば 次 の よ う に 5 つ の デ ー タ だ
けで相関係数を出してもあまり意味はないでしょう。このような分布は偶
然に生まれたのかも知れません。
(2) 異 質 な デ ー タ が 混 在 し て い る 場 合 。 全 く 異 な る デ ー タ を 寄 せ 集 め て 相
関係数を求めると、現象の正しい解釈ができないことがあります。
21
相 関 係 数 の 範 囲 は -1≦ r≦ 1 に な る の で 、こ こ で は マ イ ナ ス と な る 逆 相 関
も 含 め て 絶 対 値 |r|で 示 し ま す 。
82
上左図は異質のグループを総合して判断したために、個々のグループの中
で は 強 い 相 関 が あ り な が ら 、 全 体 と し て は そ れ が 弱 く な る ケ ー ス で す 22 。
上右図は異質のグループの間には相関がないのに総合させると、相関らし
きものが見えてしまうケースです。
(3) 大 き な 偏 り を 持 つ デ ー タ の 場 合 。 デ ー タ の 分 布 に 大 き な 偏 り が あ る と
きは注意が必要です。一般に下左図のように平均のそばに多く分布してい
て、周辺に少なくなるタイプのデータが適しています。
ところが、たとえば大量のテキスト内の語彙の分布は上右図のようになる
ので一般に高い相関係数を示します。
このようなさまざまなケースについて正しく分析するするためには散布
図をしっかり観察することが大切です。また、相関関係が必ずしも因果関
係を示しているわけではないことに注意しましょう。たとえば勉強時間と
試験の成績の間に相関関係があったとても、それが必ずしも、勉強時間を
増やせば試験の成績向上につながる、という「原因→結果」の関係を示し
ていることにはならないでしょう。そこには、たとえば「教科への関心・
興味」のような隠れた要素があって、それが勉強時間と試験成績のどちら
に も 影 響 し て い る こ と が 考 え ら れ ま す 23 。
相関係数の算出はあくまでも数学的な操作に過ぎ ません。資料の本質を
知らずに計算すると意味のない分析結果を示すことにもなりかねないので
す。分析者が散布図を提示せず結果だけを示すときはとくに注意すべきで
22
先のスペイン語教材のアンケート調査結果がこれと似ています。
勉 強 時 間 と 試 験 成 績 と い う よ う に 、単 位 が 異 な っ て い て も 、ま た 、実 技
テストと筆記試験のように規模(満点)が異なっていても、どちらも、標
準化された値(標準得点)を比べるので、そのまま相関係数を計算するこ
とができます。
23
83
す。私たちは言語データを扱うとき、ただやみくもにデータを分析するの
ではなく、そのデータをしっかりと見つめること、できれば全部読むこと
が必要です。そうすれば、自然とデータについての理解が深まるので、変
な分析結果が出てきたときには直感で気がつくはずです。しっかりとデー
タを読みこんでおくと、そのデータについて自分がよくわかっている、と
いう自信につながります。自分の経験に基づいた直感と、数学的に得られ
たデータ分析の結果を比較しながら、一致しているかどうか、一致してい
ないときは何の要因がありうるか考えてみる必要があるでしょう。
■一人称的な研究
私たちは、言語を単なる言語分析用のデータと見ているのではなく、言
語作品を鑑賞したり、ことばの伝え合いや共有を経験したり、未知の外国
語を学んだりして、言語を生活の中で経験しています。そのとき、感じた
り気づいたりすることがあるはずです。言語の現実に触れたときに私たち
の内面に生じる直感や気づきがとても大切です。
言語データ分析は、そのような直感や気づきの「理由」や「姿」を具体
的 な デ ー タ で 調 べ て み る と き に 役 立 ち ま す 。こ の と き 言 語 の 経 験 が 最 初 で 、
分析はその後になります。自分が経験していることを対象にして分析する
ときは、何か直感的にぴんと来ることが多いと思います。そこで、なるべ
く自分で経験した(読んだ、集めた、調べた、実験した、使った、感動し
た、興味を持った…)言語データから出発して、自分が理解し納得できた
方法を適用して、自分の個人的な直感を検証してみることを勧めます。
実際に自分の研究を自分で計画し、試行錯誤をしながら自分の道具を開
発し、自分で納得し、自分が個人的に感じたことの理由に接近できれば発
展性があるし、何よりもやりがいがあって楽しいことだと思います。この
ようば研究は「一人称的」であるといえるでしょう。私たちは他者の(本
当の)一人称的世界に関心がありますから、そのような他者の関心と研究
にも共感します。
●量的データと質的データ
先に見たように、単語の頻得点は非常に偏った分布を示すので相関係数に
よる分析には適しません。次の散布図には一応「線形近似曲線」が描かれ
ていますが、データは左下に固まっていて、右上になるとほとんどデータ
がありません。頻度の高い単語の数は少なく、一方あまり使われない単語
の数は非常に多いのです。
84
ここではすべてを単語使用の「有無」に変えて分析する方法を採ります。
そうすれば、すべてのデータの分布は「有」と「無」の 2 種類の値になり
ます。次の図の「語」の列に続く 2 列が頻度を示しますが、その後の 2 列
では 1 が「有」を示し、0 が「無」を示します。頻得点などのような連続
的なデータを「量的なデータ」とよび、このように単に有・無を示すよう
なデータを「質的なデータ」とよびます。
言語研究では、たった一度だけ出現するデータを特別に扱うことが一般的
です。偶然に現れたケースかもしれないからです。2 度の偶然は、ほとん
ど あ り 得 な い の で 、 2 以 上 を 「 有 」 (1)の デ ー タ と し て 基 準 化 す る 場 合 が 多
いです。データが巨大になったときは、さらにこの基準を上げることがあ
ります。いずれにしても、結果はこの基準値に左右されますから、それを
しっかりと認識しておくことが必要です。
85
●尺度水準
これまでの説明で、質的データ、量的データという2つのタイプに大別し
ました。2つのデータの大きな特徴は、量的データは質的データに変換可
能であるのに対し、質的データは量的データに戻すことは出来ないという
点 で す 。 こ う し た 質 的 デ ー タ と 量 的 デ ー タ の 特 徴 は 、 ス タ ン レ ー 24 に よ っ
て 考 案 さ れ た 、「 尺 度 水 準 」25 と い う 考 え 方 に お お よ そ 準 拠 し た も の で す 。
尺度水準という考え方に基づけば、すべての数量データは「名義尺度」
「 順 序 尺 度 」「 間 隔 尺 度 」「 比 率 尺 度 」と い う 4 つ の タ イ プ の い ず れ か に 分
類できます。名義尺度に使用される値は、名前をそのまま数字に置き換え
たものであり、そのデータが、別のデータと同じか、違うかを区別するた
めに割り当てられた数値です。例えば、電話番号は名義尺度であるため、
ある番号が、他の番号と同じ番号か、違う番号かを区別するために使用し
ます。
順序尺度の値は、データが大きいか、小さいかを区別するための数値で
す。例えば、アンケート調査の「好き」「まあまあ好き」「どちらとも言
え な い 」「 あ ま り 好 き で は な い 」「 好 き で は な い 」と い う 項 目 に 対 し 、5, 4,
3, 2, 1 と い う 数 値 を 割 り 振 る 場 合 が 順 序 尺 度 で す 。 つ ま り 、 こ の と き 、 数
値の中で、4の方が1よりも好きの度合いが優位だとわかります。
間隔尺度の値は、比較できる数値で、一般的には単位を持った値です。
例 え ば 、摂 氏 の 温 度 に お い て 、20℃ と 18℃ を 比 較 し た と き 、2℃ 高 か っ た 、
2℃低かったという間隔を持った値であるため、間隔尺度です。間隔尺度
の特徴としては、ゼロという値が本来的な全く存在しないものという意味
で は な い と い う 点 で す 。た と え ば 、0℃ と い う 値 で も 、摂 氏 と い う 温 度 自 体
が 消 え て な く な る わ け で は な く 、 0℃ が 5℃ よ り も 5℃ 低 い と い う 便 宜 上 の
値です。
比率尺度の値は、比較可能な数値であり、単位を持つという点は間隔尺
度の値と同じですが、ゼロになってしまうとそのデータ自体が全く意味を
持たなくなるものです。例えば、質量は何グラム増えた、減ったというこ
とを判断できますが、これが、0 グラムになると質量というもの自体がな
くなります。
このような 4 つの尺度に分けるメリットのひとつは、数値分析できる幅
がそれぞれ異なるという点です。名義尺度、順序尺度、間隔尺度、比率尺
度の順に、データとして求められた値の数値分析可能な幅が広がっていき
ます。数値分析が限られたものにしか適応出来ないものを「低水準」、幅
24
Stevens, S. S. 1946. “On the Theory of Scales of Measurement”. Science. Vol.
103, No. 2684, pp. 677–680.
25
尺 度 水 準 と い う 考 え 方 は 、言 語 分 析 に 限 ら ず 、そ の 他 の 分 野 で も 広 く 使
われる考え方です。
86
広く適応できるものを「高水準」とよぶこともあります。そうすると名義
尺度は低水準なのに対して、比率尺度は高水準であるということになりま
す。例えば、得点(頻度)は非常に幅広い尺度に適応でき、名義尺度、順
序 尺 度 、間 隔 尺 度 、比 率 尺 度 の い ず れ に も 適 応 可 能 で す 。中 央 値 、最 大 値 、
最小値は、順序尺度、間隔尺度、比率尺度に適応できます。和、平均、標
準偏差、相関係数は、間隔尺度、比率尺度に対して適応されます。それ以
外の複雑な数値分析であっても、比率尺度であれば適応可能である、とい
うことになります。
また、このような尺度を設けるメリットとしては、それぞれの変換可能
な方向性があるということです。つまり、高水準なものは低水準なものと
して扱うことができますが、低水準なものは高水準なものとして扱うこと
はできません。
ここで、4つの尺度と、言語分析における質的・量的データの関係性を
整理しておきましょう。一般には、名義尺度と順序尺度は「質的データ」
で あ り 、間 隔 尺 度 と 比 率 尺 度 は「 量 的 デ ー タ 」で あ る と さ れ ま す 。そ れ は 、
質的データと量的データの変換方向性によるものからも明らかです。ただ
し、数値分析可能な範囲が、質的データと量的データのどこまでできるか
については、きれいに対応関係は成立していない場合もあるので注意が必
要です。実際に分析するときに、質的データと量的データで数値データを
扱い、その関係性が明らかでないときには、上記の 4 つの尺度水準に立ち
返ることでそれが何の分析まで行っていいかの方針を決めることができる
でしょう。
TIPS 尺 度 水 準 と 代 表 値 の 関 係 を ま と め る と 次 の よ う に な り ま す 。 ×の と
ころは、該当の代表値がその尺度では使えないことを示します。
尺度と代表値
質的データ
量的データ
得点
中央値
平均
標準偏差
名義尺度
○
×
×
×
順序尺度
○
○
×
×
間隔尺度
○
○
○
○
比率尺度
○
○
○
○
4.1.7. 相 関 係 数 行 列
ピ ア ソ ン の 相 関 係 数 (Pearson's coefficient of correlation) は 標 準 得 点 の 積 和
の 平 均 で 求 め ま す (→ 『 基 礎 』 )。 こ こ で は 3 変 数 以 上 ( 多 変 数 ) の ケ ー ス
を 一 度 に 示 す た め に 「 相 関 係 数 行 列 」 (R pp : 下 右 表 )を 出 力 し ま す 。
87
D
E
L
S
S.S.c.
E
L
a 45 48
66
a
-.980
-.323
b 56 59
54
b
.068
c 58 51
78
c
.259
d 77 72
20
d
2.068
1.850 -1.569
e 43 44
32
e
-1.170
-.686 -1.130
f
90
f
g 50 53 100
g
58 34
S
Correl
E
L
S
.115
E
1.000
.643
-.335
.673
-.324
L
.643 1.000
-.545
-.052
.554
S
.259 -1.591
-.504
.129
-.335
-.545 1.000
.994
1.360
そ の た め の 準 備 と し て デ ー タ 行 列 (D n p : 下 左 表 )か ら 標 準 測 度 行 列 (Z n p : 下
中 表 )を 作 成 し ま す 。
Z n p = (D n p – Mp') / Sp'
こ こ で 、Mp'は D np の 縦 列 の 平 均 (横 ベ ク ト ル )を 示 し 、Sp は D np の 縦 列 の 標
準 偏 差 (横 ベ ク ト ル )を 示 し ま す 。 こ の 標 準 測 度 行 列 (Z n p )を 掛 け 合 わ せ て 積
和 の 正 方 対 照 行 列 を 作 り 、 個 数 (n)で 割 っ て 平 均 を 出 し た も の が 相 関 行 列
(R p p )で す 。
Rp p = Zn p ' Zn p / N
この式は重要なので上の例で行列の成分を確かめておきましょう。
Zn p ' Zn p
−0.98 0.07 …
= [−0.32 0.67 …
0.12 −0.32 …
𝑟11
𝑟
= [ 21
𝑟31
𝑟12
𝑟22
𝑟32
−0.98 −0.32
−0.50
0.07
0.67
0.13 ] [
…
…
1.36
−0.50 0.13
0.12
−0.32
]
…
1.36
𝑟13
𝑟23 ]
𝑟33
行列積の演算により、
r 1 1 = -0.98*-0.98 + 0.07*0.07 + ⋯ +
-0.50*0.50 = 7.00
r 1 2 = -0.98*-0.32 + 0.07*0.67 + ⋯ +
-0.50*0.13 = 4.50
r 1 3 = -0.98*0.12 + 0.07*-0.32 + ⋯ +
-0.50*1.36 = -2.34
r 2 1 = -0.32*-0.98 + 0.67*0.07 + ⋯ +
0.13*0.50 = 4.50
r 2 2 = -0.32*-0.32 + 0.67*0.67 + ⋯ +
0.13*0.13 = 7.00
r 2 3 = -0.32*0.12 + 0.67*-0.32 + ⋯ +
0.13*1.36 = -3.82
r 3 1 = 0.12*-0.98 + -0.32*0.07 + ⋯ +
1.36*0.50 = -2.34
r 3 2 = 0.12*-0.32 + -0.32*0.67 + ⋯ +
1.36*0.13 = -3.82
r 3 3 = 0.12*0.12 + -0.32*-0.32 + ⋯ +
1.36*1.36 = 7.00
こ の よ う に Rpp が す べ て の 成 分 が 積 の 和 に な る こ と 、 対 角 成 分 が そ れ ぞ れ
88
の列の 2 乗和になること、非対角成分が該当する 2 つの列の成分の積の和
になること、対照成分の成分がすべて同値になること、全体の行列の形が
正 方 行 列 で あ る こ と 、そ し て 行 列 の 大 き さ が [3 行 7 列 ]x[7 行 3 列 ]の 積 な の
で [3 行 3 列 ]に な る こ と を 確 認 し ま し ょ う 。
●平均ベクトル
は じ め に 、 縦 列 の 平 均 を 示 す 横 ベ ク ト ル Tp を 作 り ま す 。
Tp' = Un' D np
D
Tr(Uv(7)) 1 2 3 4 5 6 7
1
1 1 1 1 1 1 1
E
L
S
a 45 48
66
b 56 59
54
c 58 51
78
d 77 72
20
e 43 44
32
f
90
58 34
g 50 53 100
(Tr(Uv(7)))(D)
1
E
L
387
S
361
440
次 に 、 こ れ を デ ー タ 数 (N=7)で 割 っ た 値 が 縦 列 平 均 横 ベ ク ト ル (AV p)で す 。
AVp = Un' D np / N
((Tr(Uv(7)))(D))/(7)
1
E
L
S
55.286 51.571 62.857
●標準偏差ベクトル
デ ー タ 行 列 D n p か ら 平 均 横 ベ ク ト ル AVp を 引 い て 偏 差 行 列 を 作 り 、そ の 成
分 の 2 乗 和 を N で 割 っ て 、 標 準 偏 差 横 ベ ク ト ル SDp を 作 り ま す 。
SDp = {SumC[(X n p – AVp) 2 ] / N} 1 /2
SDp = E(D(SumC(E(S(X n p , AVp), 2)), N), 0.5)
89
4.2. 類似係数
4.2.1. 類 似 係 数 の 種 類
2 つ の デ ー タ の 間 の 関 係 を 見 る と き に 目 安 に な る の が 共 通 し て「 有 」(=1)
が起きる回数です。たとえば、先の図では「手紙」と「演劇」で共にプラ
ス に な っ て い る 語 は abajo, abandonar, abeja, abogado の 4 語 で す 。 こ れ を
「 共 起 回 数 」と よ び ま す 。共 起 回 数 は デ ー タ の 規 模 に 左 右 さ れ る の で 、こ れ
を標準的な値にするためにいろいろな方法が提案されてきました。ここで
は、2 つのデータ(たとえば、「手紙」と「演劇」) が類似している度合
いを数値化するための 7 つの係数を紹介します。
単 純 に 共 起 回 数 だ け で は 相 対 化 で き な い の で 、次 の よ う な 2 × 2 の 表 を
作 り 、 そ れ ぞ れ a, b, c, d の 4 つ を 考 慮 し ま す 。 a, b, c, d の そ れ ぞ れ は 、 高
校 数 学 ま で に 習 っ た 四 象 限 ( quadrants) で 示 せ ば 、 順 に 第 Ⅰ 象 限 (+/+)、 第
Ⅱ 象 限 (+/-)、第 Ⅲ 象 限 (-/+)、第 Ⅳ 象 限 (-/-)に 相 当 す る 値 で す 。a は x も y も
「 有 」 (=1)の 個 数 で す 。 b は x が 「 有 」 (=1)か つ y が 「 無 」 (=0)の と き 、 c は
x が 「 無 」 (=0)か つ y が 「 有 」 (=1)の と き 、 そ し て d は x も y も 「 無 」 (=0)
の 個 数 で す 。 た と え ば 先 の 図 の デ ー タ で は a=4 {abajo, abandonar, abeja,
abogado}, b=3 {abarcar, abastecimiento, abonar}, c=2 {abatir, aborrecer},
d=6 {abandono, abertura, abismo, abnegación, abono, abordar}と な り ま す 。
x /y
y (x)
y (-)
x (+)
a (x+, y+) 4
b (x+, y-) 3
x (-)
c (x-, y+) 2
d (x-, y-) 6
類 似 係 数 は こ れ ら の 数 値 (a, b, c, d)を 利 用 し ま す 。 d を 使 わ な い 係 数 も あ り
ます。類似度係数全体についてほぼ共通していることは、どちらにも共通
す る 肯 定 的 要 素 (a)と 、ど ち ら に も 共 通 し て い る 否 定 的 要 素 (d)の 数 が 多 け れ
ば多いほど、類似係数は大きくなる、ということです。逆に一方だけにあ
る 要 素 の 数 (b, c)が 大 き く な れ ば な る ほ ど 、類 似 係 数 は 小 さ く な り ま す 。以
下の7つは、その類似度を正規化した数値として求めるために考案された
係数です。
(1) は じ め に 単 純 一 致 係 数 (simple matching coefficie nt : s.m. )を み ま し ょ う 。
単 純 一 致 係 数 (s.m.) = (a + d) / (a + b + c + d)
0.0 ≦ s.m. ≦ 1.0
こ れ は 、 対 象 X と 対 象 Y に 共 通 し て 「 +」 が あ る 回 数 (a)と 、 そ れ が 共 に 存
在 し な い 回 数 (d)の 和 を 全 体 の 数 で 割 り ま す 。a = d = 0 の と き 最 小 値 0 に な
り、b = c = 0 のとき最大値 1 になります。
(2) Jaccard 係 数 は 分 子 に も 分 母 に も d を 使 い ま せ ん 。a = 0 の と き 最 小 値 0
90
に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。
Jaccard 係 数 (j.) = a / (a + b + c)
0.0 ≦ j. ≦ 1.0
Dice-Sorenson (Jaccard -2)は Jaccard の A を 2 倍 し て い ま す 。 A の 対 値 B, C
が 2 つなので、それにつり合わせた数値になります。
Jaccard-2 係 数 (j2.) = 2a / (2a + b + c)
0.0 ≦ j2. ≦ 1.0
(3) Russel and Rao 係 数 は 分 子 の d を 考 慮 し ま せ ん 26 。対 象 X, Y で と も に「 + 」
で あ る 回 数 だ け を カ ウ ン ト し ま す 。 分 母 は (1)と 同 じ で す 。 a = 0 の と き 最
小値 0 になり、b = c = d = 0 のとき最大値 1 になります。
Russel and Rao 係 数 (r.r.) = a / (a + b + c + d)
0.0 ≦ r.r. ≦ 1.0
そ こ で 、 Russel-Rao の A も 対 値 B, C, D に つ り 合 わ せ て Russel-Rao-3 を 作
ることにします。
Russel and Rao-3 係 数 (r-r3) = a / (a + b + c + d)
0.0 ≦ r-r3. ≦ 1.0
(4) Dice 係 数 は Jaccard 係 数 の a を 2 倍 に し た も の で す 。a = 0 の と き 最 小 値
0 に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。 (→ 後 述 )
Dice 係 数 (d.) =
2a / (2a + b + c)
0.0 ≦ d. ≦ 1.0
(5) Yule 係 数 は ad と bc の 差 を 問 題 に し ま す 。 (1)の 単 純 一 致 係 数 で は a と
d を 足 し て い ま す が 、 Yule 係 数 で は 掛 け る こ と に な り ま す 。 そ れ か ら 分 子
は ad と bc の 差 な の で 、 そ れ が マ イ ナ ス に な る こ と も あ り ま す 。 ad = 0 の
と き 最 小 値 -1 に な り 、 bc = 0 の と き 最 大 値 1 に な り ま す 。 ad = bc の と き
は 最 小 値 と 最 大 値 の 中 間 0 に な り ま す 。 a, b, c, d の い ず れ か が 0 の と き 、
結果に大きく影響します。
Yule 係 数 (y.) = (ad – bc) / (ad + bc)
-1.0 ≦ y. ≦ 1.0
(6) Hamann 係 数 は a + d と b + c の 差 を 問 題 に し ま す 。 Yule 係 数 で は a と
d, b と c の 関 係 を 積 で 示 し ま す が 、Hamann 係 数 で は そ れ を 和 で 示 し て い ま
す 。 a = d = 0 の と き 最 小 値 -1 に な り 、 b = c = 0 の と き 最 大 値 1 に な り ま
す。a + d = b + c のときは最小値と最大値の中間 0 になります。
Hamann 係 数 (h.) = [(a+d) – (b+c)] / [(a+d) + (b+c)]
-1.0 ≦ h. ≦ 1.0
(7) Phi 係 数 は 少 し 複 雑 な 式 で す 。 こ れ は 積 率 相 関 係 数 と 関 係 し ま す 。 (→
26
d の数値の扱い方については、この後説明します。
91
後述)
Phi 係 数 (ph.) =
ad - bc
(a + b)(a + c)(b + d)(c + d)
-1.0 ≦ Phi ≦ 1.0
(8) Ochiai 係 数 は 、 a / (a + b)と a / (a + c) の 幾 何 平 均 で す 。 そ れ ぞ れ の a
の比率に注目しています。
Ochiai 係 数 (o.) =
a
(a + b)(a + c)
0.0 ≦ o. ≦ 1.0
● 積 率 相 関 係 数 と Phi 係 数
Phi 係 数 は 「 有 (+ )」 を 1,「 無 (-)」 を ゼ ロ (0)と す れ ば 、 一 般 の 連 続 量 を 扱
う 相 関 係 数 (ピ ア ソ ン の 積 率 相 関 係 数 )か ら 導 出 で き ま す 。
X/Y
y(1)
y(0)
和
x(1)
a (1,1)
b (1,0)
a+b
x(0)
c (0,1)
d (0,0)
c+d
和
a+c
b +d
a+b +c+d
はじめに総データ数を n とします。
n=a+b +c+d
先に見たように相関係数(標準得点の積和の平均)の式は次の通りです。
{ [(x 1 - m x ) / σ x ][(y 1 - m y ) / σ y ]
r=
+ [(x 2 - m x ) / σ x ][(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ][(y n - m y ) / σ y ] } / n
σx と σy を 分 母 に 移 す と
r
= [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y ) ] / (σ x σ y n) … ①
先に①の分子だけを取り上げましょう。
r
分子
= (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y )
92
それぞれ展開して
r
分子
= (x 1 y 1
- x1my
- mxy1
+ mxmy)
+ (x 2 y 2
- x2my
- mxy2
+ mxmy)
+ (x n y n
- xnmy
- mxyn
+ mxmy)
:
:
:
:
(1)
(2)
(3)
(4)
+ (...)
縦の列をまとめて、
r
分子
= (x 1 y 1 + x 2 y 2 + ... + x n y n ) ...(1)
- m y (x 1 + x 2 + ... + x n )
...(2)
- m x (y 1 + y 2 + ... + y n )
...(3)
+ nm x m y
...(4)
こ こ で 、 (1) x 1 y 1 + x 2 y 2 + ... + x n y n の う ち 、 b(1, 0), c(0, 1), d(0, 0)に あ た る 部
分ではXとYの少なくとも1つがゼロなので、その積もゼロになります。
それで結局は
x 1 y 1 + x 2 y 2 + ... + x n y n =
a
となります。また
x 1 + x 2 + ... + x n = a + b ... X の 総 和
y 1 + y 2 + ... + y n = a + c ... Y の 総 和
m x = (a + b) / n
... X の 平 均
m y = (a + c) / n
... Y の 平 均
となるので分子は
r
分子
= a
...(1)
- (a + b)(a + c) / n
...(2)
- (a + b)(a + c) / n
...(3)
+ (a + b)(a + c) / n
...(4)
= a - (a + b)(a + c) / n
= [na - (a + b)(a + c)] / n
n = a + b + c + d なので
r
分子
= [(a + b + c + d)a - (aa + ac + ba + bc)] / n
= (aa + ab + ac + ad - aa - ac - ab - bc) / n
= (ad - bc) / n …②
93
と な り ま す 。こ の 分 子 の 式 は X と Y に 共 に あ る 場 合 の 数 (a)と 、共 に な い 場
合 の 数 (d)の 積 か ら 、片 方 に し か な い 2 つ の 場 合 の 数 (b と c)の 積 を 引 い た も
の で す 。a も d も X と Y の プ ラ ス・マ イ ナ ス が 同 じ 場 合 で す 。逆 に 、b と c
は X と Y の プ ラ ス・マ イ ナ ス が 反 対 に な る 場 合 だ か ら 、ad - bc が X と Y の
相関を示すのに合理的な数値に関わることが直感的に納得できます。
次に①の分母を r
r
r
分母
分母
分母
とします。
= σxσyn
の う ち の X の 標 準 偏 差 σ x を 取 り 上 げ ま し ょ う 。ル ー ト( 根 )が あ る と
や や こ し く な る の で 、と り あ え ず 2 乗 し た も の( つ ま り 、σ x 2 な の で 分 散 値 )
で計算し、後でその根を計算します。
σx2
= [ (x 1 - m x ) 2
+ (x 2 - m x ) 2
+ ...
+ (x n - m x ) 2 ] / n
それぞれの項を展開して、
σx2
= [(x 1 2
- 2x 1 m x
+ mx2)
+ (x 2 2
- 2x 2 m x
+ mx2)
+ (x n 2
- 2x n m x
+ m x 2 )] / n
:
:
:
(1)
(2)
(3)
+ ...
縦の列をまとめて、
σx2
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
+ (m x 2 + m x 2 + ... +m x 2 ] / n
... (3)
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
+ nm x 2 ] / n
... (3)
x 1 , x 2 , ... x n は す べ て 1 ま た は 0 で す 。 そ こ で X の 総 数 は a + b と な る の で
( 【 図 3.3d】 ) 、 次 の よ う に な り ま す 。
x 1 + x 2 + ... + x n = a + b
x 1 2 + x 2 2 + ... + x n 2 = a + b
m x = (a + b) / n
94
これを先の式に代入すると、
σx2
= [(a + b)
...(1)
- 2(a + b) 2 / n
2
...(2)
2
+ n(a + b) / n ] / n
...(3)
= {(a + b) – [2(a + b) 2 +(a + b) 2 ] / n} / n
= [a + b – (a + b) 2 / n] / n
= [(a + b)n - (a + b) 2 ] / n 2
= [(a + b)(a + b + c + d) - (a + b) 2 ] / n 2
= (a + b)(c + d) / n 2
こ こ で 、 σ x 2 か ら σ x に 戻 し ま す 27 。
X の 標 準 偏 差 σx =
同様にして、r
σy2
分母
(a + b)(c + d) / n …③
の σy を 求 め ま す 。
= [ (y 1 - m y ) 2 + (y 2 - m y ) 2 + ... + (y n - m y ) 2 ] / n
= [(y 1 2 - 2y 1 m y + m y 2 ) + (y 2 2 - 2y 2 m y + m y 2 ) + ...+ (y n 2 - 2y n m y + m y 2 )] / n
= [(y 1 2 + y 2 2 + ... + y n 2 ) - 2m y (y 1 + y 2 + ... + y n ) + nm y 2 ] / n
= [(a + c) - 2(a + c) 2 / n + n(a + c) 2 / n 2 ] / n
= (a + c)(b + d) / n 2
σy2 も σy に 戻 し ま す 。
Y の 標 準 偏 差 σy=
(a + c)(b + d) / n …④
上記①に、②と③④を代入すれば、こうして数値が 0 と 1 だけのデータの
相 関 係 数 ( Phi 係 数 : Phi) は 全 体 で 次 の よ う に な り ま す 。
Phi
=
(ad - bc) / n
n (a + b)(c + d) / n * (a + c)(b + d) / n
=
ad - bc
(a + b)(a + c)(c + d)(b + d)
分 母 は (a, d)と (b, c)を そ れ ぞ れ 組 み 合 わ せ て 和 と し た も の を 全 部 掛 け 合 わ
せています。
● Phi 係 数 と Ochiai 係 数
理 論 的 に 導 き 出 さ れ た Phi 係 数 を 実 際 に 適 用 し て み る と 不 都 合 な と き が あ
ります。次のデータを比べてみましょう。
27
つまり、分散値を標準偏差に戻します。
95
デ ー タ (1)
デ ー タ (2)
こ こ で そ れ ぞ れ の phi 係 数 を 求 め て み ま す 。 Phi (1)は デ ー タ (1)、 Phi (2)は
デ ー タ (2)の Phi 係 数 で す 。
Phi (1)
100×2 - 10×20
=
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
0
=
=0
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
Phi (2)
=
=
4×50 - 10×20
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
0
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
=0
ど ち ら も Phi 係 数 の 分 子 の ad- bc が ゼ ロ と な る の で 、 Phi 係 数 も ゼ ロ に な
り ま す 。 し か し 、 デ ー タ (1)と デ ー タ (2)を 比 べ れ ば (1)の ほ う が ず っ と 類 似
度 が 高 い よ う に 思 え ま す 。プ ラ ス (+)を 共 有 す る ケ ー ス が 100 も あ る か ら で
す 。 こ れ は 全 体 132 の 75.8%に あ た り ま す 。 そ れ に 対 し て (2)は ど う で し ょ
う か 。 わ ず か 4 回 の 共 起 回 数 で 計 算 す る と 4.8%に な り ま す 。
こ の 原 因 は d(0-0)の 数 値 の 扱 い 方 に あ り ま す 。 X に も Y に も な い 要 素 は
与えられたデータに限れば有限ですが、X、Y以外のデータに存在して、
XにもYにもなかったものです。そうした d の値は、XとYの内容にかか
わらず、一般にいくらでも増やすことができます。つまり、理論的には d
の 数 は 無 限 (∞)で あ る と 考 え ら れ ま す 。 た と え ば 、 X と Y と い う 二 人 が 読
んだことがある本を数えるとき、どちらも読んだことのない本の数は無限
(本が無限に出版されるとして)だと考えられます。
そ こ で 、 先 の 式 で d が 無 限 に な る と 仮 定 し て み ま し ょ う 。 phi 係 数 で d
が 無 限 大 に な る も の を phi’と し ま す 。
Phi’. = d lim
→ ∞
ad - bc
(a + b)(c + d)(a + c)(b + d)
分母と分子を d で割ります。
Phi’ = d lim
→ ∞
a - bc/d
(a + b)(a + c)(b/d + 1)(c/d + 1)
96
それぞれの分母になる d を無限大にすると、分子に何があってもゼロとな
ります。
Phi’ =
a
(a + b)(a + c)
こ れ が Phi 係 数 の 修 正 版( Ochiai 係 数 : ochi.)で す 。と て も シ ン プ ル に な り
ま し た 。 先 の デ ー タ (1), (2)で 計 算 し て み ま し ょ う 。
Phi’ (1) =
100
= 0.870
(100+10)(100+20)
Phi’. (2) =
4
= 0.218
(4+10)(4+20)
こ の よ う に 、Phi 係 数 で 区 別 で き な か っ た 両 者 も Ochiai 係 数 (Phi')を 利 用 す
れ ば デ ー タ (1)の 方 が デ ー タ (2)よ り も 類 似 性 が 高 い と い う 直 感 を 裏 付 け る
ことができます。
● 相 互 情 報 量 と Dice 係 数
言語研究ではたとえば 2 つの語の結合度を調べるために、相互情報量とい
う 数 値 を 使 い ま す 。こ れ あ h 、共 起 得 点 (a)を デ ー タ 全 体 で 理 論 的 に 期 待 で
き る 共 起 得 点 ( 期 待 値 ) で 割 っ た 値 の 対 数 ( 底 =2) で す 。
相互情報量 =
log 2 (
共起度数・全度数
)
度 数 X・ 度 数 Y
た と え ば 、あ る ス ペ イ ン 語 の 資 料 で muy (='very')と い う 語 の 得 点 が 120, bien
(='well')の 得 点 が 167, 全 語 数 が 26578 で し た 。 そ う す る と 、 muy と bien
が 共 起 得 点 が 理 論 的 に 期 待 で き る 値 は (120/26578) x (167 / 26578)と な り ま
す。これは、それぞれが出現する確率の積です。そして、実際の資料では
muy + bien が 47 出 現 し ま し た 。 こ れ は 47/26578 と い う 確 率 で す 。 そ こ で
相互情報量を計算するために、はじめに共起得点をデータ全体で理論的に
期待できる共起得点(期待値)で割った値を求めましょう。
(47/26578) / [(120/26578) x (167 / 26578)]
= (47 x 26578) / (120 x 167) = 62.334
こ れ の 対 数 ( 底 =2) は 5.962 と な り ま す 。 こ れ が 相 互 情 報 量 で す 。 底 を 2
と す る 対 数 は 一 般 に 情 報 量 を 示 し ま す 。た と え ば 、16 の 可 能 性 が あ る 事 象
の 情 報 量 は 16 = 2 4 な の で 、 4 (=log 2 16)と な り ま す 。
Dice 係 数 は 共 起 得 点 を 得 点 (x)と 得 点 (y)の 平 均 で 割 っ た 値 で す 。 こ こ で
は相互情報量のように全語数を計算に含めることはしません。
97
Dice 係 数 (d.) =
共起度数
0.0 ≦ d. ≦ 1.0
(度数(x)  度数 (y) ) / 2
分 子 の 共 起 得 点 は 上 の 表 の a に あ た り ま す 。得 点 (x)は a + b に あ た り ま す 。
これは x が y と共起するケース数と y と共起しないケース数の合計になり
ま す 。 同 様 に 得 点 (y)は a + c で す 。 よ っ て 、
Dice 係 数 (d.) =
a
2a
=
(2a + b + c) / 2
(2a + b + c)
b = c = 0 の と き 最 大 値 1 に な り 、 a = 0 の と き に 最 小 値 0 に な り ま す 。 Dice
係 数 は Jaccard の a を 2 倍 に し た も の で す 。a と b+c を 対 照 化 す る 、と 考 え
れ ば 、 a が 2 数 (b, c)と 対 照 化 し て い る の で 、 Dice 係 数 の ほ う が つ り 合 い が
とれていると思います。
●両者に存在しない特徴
か つ て 印 欧 言 語 学 の 分 野 で は Phi 係 数 を 使 っ た Kroeber (1937, 1969) と
Ochiai 係 数 を 使 っ た Ellegard (1959)の 間 に 論 争 が あ り ま し た 。 こ れ を 安 本
(1995)が 簡 単 に 解 説 し て い ま す 。 こ の 問 題 は 、 一 般 に 類 似 係 数 の ど ち ら か
が正しいということではなくて、データの種類や性格によって係数の選択
を考えるべきでしょう。たとえば、アンケート調査などで「賛成」と「反
対」という回答があるとすれば、単に両者が一致して「賛成」と答えた場
合 の 数 (a)だ け で な く 、一 致 し て「 反 対 」と 答 え た 場 合 の 数 (d)も 同 時 に 考 慮
されるべきです。
2 つのデータだけでなく、多数のデータ間の類似度を見る場合には、問
題の両者に存在しない特徴であっても他のデータに存在する特徴であるな
らば、どちらもその特徴を持たないという否定的な一致はそれなりの意味
をもつと考えられます。
4.2.2. 優 先 係 数
以上がよく使われている代表的な類似度係数ですが、そのほかにも次のよ
う な 類 似 度 係 数 が 考 え ら れ ま す 。 こ こ で は 、 X/(X+Y) と い う 相 対 値 (r:
relative)、 ま た は (X – Y) / (X + Y)と い う 対 照 値 (c: contrast)に よ っ て 分 類 し 、
さ ら に d 値 の 有 無 、 積 算 (mult.)の 有 無 を 明 記 し ま し た 28 。
28
こ れ ら の 中 に は す で に 取 り 上 げ た も の も あ り ま す が 、全 体 を 整 理 す る た
めに含めました。
98
考えられる類似度係数
X
Y
r:c
d
mult.
1. [a - (b + c)]/[a + (b + c)]
a
b +c
c
-
-
2. 2a / [2a + (b + c)]
2a
b +c
r
-
-
3. [2a - (b + c)] / [2a + (b + c)]
2a
b +c
c
-
-
2
bc
r
-
+
a2
bc
c
-
+
a
√ (bc)
r
-
+
a
√ (bc)
c
-
+
8. (a + d) / [(a + d) + (b + c)]
a+d
b +c
r
+
-
9. [(a + d) - (b + c)]/[(a + d) + (b + c)]
a+d
b +c
c
+
-
ad
bc
r
+
+
ad
bc
c
+
+
√ (ad)
√ (bc)
r
+
+
√ (ad)
√ (bc)
c
+
+
2
2
4. a / (a + bc)
2
a
2
5. (a - bc)/ (a + bc)
6. a / [a + (bc) 1 /2 ]
7. [a - (bc)
1 /2
] / [a + (bc)
1 /2
]
10. ad / (ad + bc)
11. (ad - bc) / (ad + bc)
12. (ad)
1 /2
13. [(ad)
1 /2
/ [(ad)
1 /2
- (bc)
1 /2
+ (bc)
1 /2
] / [(ad)
]
1 /2
+(bc)
1 /2
]
さ ら に 、4 と 10 は 次 数 が 2 に な っ て い る の で 、次 の 式 で 次 数 を 1 に 下 げ
る こ と も 考 え ら れ ま す 29 。
4’. a / (a 2 + bc) 1 /2
10’. [ad / (ad + bc)] 1 /2
こ こ で 上 の 3.を 「 優 先 係 数 」 ( coefficient of preference)と 名 付 け て 活 用 し
たいと思います。「優先係数」は後述するように他の係数と比較して利点
が 多 い か ら で す 。 2a が b + c と 比 べ て ど の 程 度 優 先 さ れ て い る の か を 示 し
ま す 。 優 先 係 数 (p.)は 2.Dice 係 数 の 2a と (b+c)を 対 照 化 さ せ た 係 数 で す 。
Preference 係 数 (p.) =
2a - b - c
2a + b + c
p.: -1.0 (a=0) ≦ 0.0 (2a = b+c) ≦ 1.0 (b=c=0)
4.2.3. 類 似 度 係 数 の 比 較
Phi 係 数 と Ochiai 係 数 の 選 択 に 限 ら ず 、 実 際 の 分 析 で こ れ ら の 類 似 度 係
数のうちどれを使えばよいのか迷うことがあります。そのとき、いくつか
の選択の方法が考えられるでしょう。その選択の基準もさまざまです。た
とえば、これらの係数を利用して誰かの前で発表することを考えてみまし
ょう。発表がそうした係数の数値自体による裏付ける根拠よりも、その先
にある類似性を主張することが大きな目標であり、他の根拠に十分裏付け
ら れ て い る の で あ れ ば 、 単 純 一 致 係 数 や Russel and Rao 係 数 や Jacard 係 数
29
10 と 16 は 分 子 が 負 に な る こ と が あ る の で 、根 を 使 う こ と が で き ま せ ん 。
99
のように係数の説明に多くの時間を割かずに済む、わかりやすい係数を選
択するという決定も考えられます。類似度係数が、強い裏付けの根拠とし
て 重 要 な 意 味 を 持 つ な ら ば 、 Yule 係 数 や Hamann 係 数 を 選 択 し 、 そ の 数 値
の性質について丁寧な説明が必要になります。そして、統計に慣れている
人 に 発 表 す る な ら ば 、 よ く 知 ら れ て い る Phi 係 数 を 使 え ば そ の 説 明 は 必 要
な く な り ま す 。 Phi 係 数 に わ ず か な 説 明 を 加 え る こ と で Ochiai 係 数 を 使 う
こともできるでしょう。1 つだけでなく複数の係数を選択して、それぞれ
を比較し、考察することも考えられます。
しかし、このような決定は本質的ではなく、実際的な条件に従って いま
す。本質を追究するには、それぞれの係数の性質と分析対象のデータの性
質をよく理解して、本質的な条件と実際的な条件のどちらも考慮に入れた
上 で 決 定 し な く て は い け ま せ ん 。そ う す れ ば 、自 分 で も 納 得 が で き ま す し 、
自信をもって説明できます。
それぞれの係数の性質を比べると、共通する性質があることがわかりま
す 。先 に 見 た「 両 者 に 存 在 し な い 特 徴 (d)」の 扱 い の ほ か に 、逆 方 向 を 検 知
するかどうか(マイナスになるか)、完全に等質な分布のときゼロになる
かどうか、などについて、しっかり理解しておく必要があります。次の表
は そ れ ぞ れ の 特 徴 の 分 布 を 比 較 し た も の で す 。 こ こ で d 値 (0:0)を 扱 わ な い
(-)、逆 方 向 を 検 知 す る (v)、積 算 が な い (-)、と い う 条 件 を つ け る な ら ば 優 先
係 数 (Preference: p.)を 選 択 す る と よ い で し ょ う 。
性質
s.m.
r.r.
j.
d.
y.
h.
ph
o.
p
d (0:0)を 扱 う
v
-
-
-
v
v
v
-
-
逆 方 向 (-)を 検 知
-
-
-
-
v
v
v
-
v
積算がある
-
-
-
-
v
-
v
v
-
逆方向を検知する係数は完全に等質な分布のときゼロになります。これ
は、次のような実験をするとわかります。
こ こ で 、-1 か ら 1 の 間 を と る 係 数 な ら ば ゼ ロ に な り ま す が 、他 の 係 数 は 0.5
(s.; o.), 0.25 (r.r.), 0.33 (j.) に な る 、 と い う こ と を 心 得 て お か な け れ ば な り
100
ま せ ん 。 た と え ば 、 相 関 係 数 が 0.5 な ら ば 「 中 度 の 相 関 が あ る 」 と 判 断 し
ま す が 、そ れ が s.や o.の 値 な ら ば ま っ た く 相 関 が な い こ と を 示 し て い ま す 。
次 の 表 と 図 は b=2, c=4, d=8 で 固 定 し 、 共 起 回 数 (a)を 0 か ら 10 に 上 げ て
いったときのそれぞれの係数の変化を示しています。
C o - o c c ur r e nc e ( a + / + )
0
1
2
3
4
5
6
7
8
9
10
b (+/-)
2
2
2
2
2
2
2
2
2
2
2
c (-/+)
4
4
4
4
4
4
4
4
4
4
4
d (-/-)
8
8
8
8
8
8
8
8
8
8
8
.57
.60
.00
.07
.00
.14
.00
.22
-1.00
.00
.14
.20
-.26
.00
.00
.26
- 1.00 - .50
.63
.13
.25
.33
.33
.25
.15
.41
- .20
.65
.18
.33
.40
.50
.29
.25
.51
.00
.67
.22
.40
.44
.60
.33
.32
.58
.14
.68
.26
.45
.48
.67
.37
.37
.63
.25
.70
.30
.50
.50
.71
.40
.41
.67
.33
.71
.33
.54
.52
.75
.43
.44
.70
.40
.73
.36
.57
.53
.78
.45
.47
.73
.45
.74
.39
.60
.55
.80
.48
.49
.75
.50
.75
.42
.63
.56
.82
.50
.51
.77
.54
Simple match
Russel and Rao
Jaccard
Dice
Yule
Hamann
Phi
Ochiai
P r e fe r e nc e
こ れ を 見 る と 、逆 方 向 を 検 知 し な い Simple match, Russel and Rao, Jaccard,
Dice の 振 幅 が 小 さ く 、と く に Simple match の 振 幅 が 小 さ い こ と が 確 認 で き
ま す 。 そ し て 、 Phi や Ochiai の 振 幅 は 小 さ く 、 同 じ 程 度 の 幅 で あ る こ と も
わ か り ま す 。そ れ ら に 対 し て Yule と Preference の 振 幅 が 大 き い こ と が 特 徴
的 で す 。Yule の 上 昇 は 急 で す が 、Preference は 比 較 的 緩 や か に 上 昇 し ま す 。
こ の こ と は a[++]の 値 が 高 い 場 合 の 弁 別 性 を 保 証 し ま す 。
ほかにもいろいろな実験をしてそれぞれの係数の性質を調べておく必
要があるでしょう。データ分析ではさまざまなデータを扱ったことのある
101
人であれば経験が生かして係数を選択できます。私たちはデータ分析を始
めたばかりなのであまり経験はありませんが、何度でも実験で確かめるこ
とはできます。実際のデータには数の限りがありますが、実験はいくらで
も可能です。また、私たちが経験する実際のデータはかなり偏りがあるの
が普通ですが、実験するときは全部自分でコントロールできますから、納
得がいくまで確かめることができます。
数値を積算している係数は、それぞれの項目の増減がそれを構成する要
素の増減に比例しているので、考えてみると納得できますが、問題点とし
て積算の片方がゼロになると他方にどのような数値があっても、ゼロにな
ってしまうことがあげられます。また、分母で積算されているとそれがゼ
ロ に な っ た と き 計 算 で き な く な り ま す 。た と え ば Ochiai で (a+b)が ゼ ロ に な
った場合です。このとき c に値があっても計算されません。一方、数値を
積算していない係数は、結局「割合」に過ぎないので、ほとんど考えなく
てもわかります。これが実際的な選択の条件となることもあるかもしれま
せん。
データの性質として、方向性があるものならば、逆方向を探知する係数
を選択すべきです。たとえば「賛成」と「反対」で回答したアンケート調
査などは、「賛成」の数だけでなく、「反対」の数も考慮に入れるべきで
す。一方、2 つの文献の語彙比較調査などは、ある単語が使われている、
と、使われていない、という数値を同等に扱うよりも、使われているケー
スだけで計算したほうがよいと思われます。どちらにも使われていない、
という語彙は無限に存在するからです。しかし、一定の語彙範疇(たとえ
ば「指示詞」「関係代名詞」など)で複数の文献を調査するときは、否定
的な反応も考慮に入れるべきでしょう。
分析の手順としては、完全に理解して経験を積む前は、とりあえず全部
の係数を比較し、大きく異なる結果を出した係数について、その原因を探
り、次にデータと照合して、データの性質を一番よく示している、と思わ
れる係数を選択するとよいでしょう。そのためには、データの性質をよく
知っていることと、係数の性質をよく理解していることが必要です。何度
でも実験をして確かめてください。
■外国語学習・獲得と「価値」の優先度
語彙学習、さらに外国語学習一般において、学習者が認識する「価値」
の 優 先 度 が 高 い 、と い う 仮 説 を 立 て た い と 思 い ま す 。語 彙 に つ い て い う と 、
単語の意味に学習者が「価値」を見出すと、それが優先的に獲得される、
という仮説です。これは、いわゆる「重要単語」のことではありません。
なぜなら、重要単語で示されている「重要性」は学習者の認める価値とは
異なる場合があるからです。
この仮説を検証するために次のような実験をしてみました。一定の量の
102
単語リストについて、はじめに「自分にとって価値の優先度の高い」単語
にマークし、その後全体の記憶練習をして、その結果をそれぞれの単語数
に つ い て 集 計 し ま す 。 こ の 実 験 に 12 人 が 参 加 し ま し た 。
(a) +/+:
「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 成 功 (+)」
(b) +/-:
「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 失 敗 (-)」
(c) -/+:
「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 成 功 (+)」
(d) -/-:
「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 失 敗 (-)」
参 加 し た 12 人 の 結 果 は Yule も Hamann も プ ラ ス に な っ て い ま す か ら こ
の仮説に沿うものです。
かなり敷衍して考えてみると、はたして私たちは外国語をくりかえし練
習して獲得するのでしょうか?もしかしたら「価値」の優先度が強く働い
た要素は瞬間的に獲得しているのかもしれません。とくにがんばって記憶
練習した覚えもないのに獲得してしまった語があるとすれば、それは「価
値」のある単語だった可能性が高いと思われます。そうだとすると、外国
語(やその他の科目)を、がんばって学習するよりも、価値を見出して獲
得してしまうほうが効果的ではないでしょうか。
価 値 を 見 出 す た め に は 、「 形 式 → 意 味 」と い う 流 れ の 教 育・学 習 よ り も 、
「 意 味 → 形 式 」と い う 流 れ の ほ う が 効 果 が あ る と 考 え ら れ ま す 。私 た ち は( 外
国語の)形式を見て価値を見出すことはあまりありませんが、意味につい
ては、その価値の有無・程度を瞬間的に判断することができるからです。
4.2.4. 類 似 係 数 行 列
各種の四分点相関係数(→『基礎』)の類似係数行列を作るために、1 ま
た は 0 か ら な る デ ー タ 行 列 (Q n p )の 各 変 数 ( 列 ) に つ い て 、 2 つ ず つ の 変 数
(x i , x j )の 組 み 合 わ せ で 、 x i =1, x j =1 の ケ ー ス 数 (A p p )、 x i =1, x j =0 の ケ ー ス 数
(B p p )、x i =0, x j =1 の ケ ー ス 数 (C p p )、x i =0, x j =0 の ケ ー ス 数 (D p p )の 行 列 を 作 り
ます。そのために初めにデータ行列のすべての成分について、0 と 1 を変
換 し た Wn p = 1 - Qn p と い う 行 列 を 用 意 し ま す 。
103
Q np
v1
v2
v3
v4
W np
v1 v2 v3 v4
d1
1
1
0
0
d1
0
0
1
1
d2
0
0
1
0
d2
1
1
0
1
d3
0
1
0
0
d3
1
0
1
1
d4
0
0
1
1
d4
1
1
0
0
d5
1
1
1
0
d5
0
0
0
1
こ の 2 つ の 行 列 を 使 っ て (A p p , B pp , C pp , D p p )を 算 出 し ま す 。
A p p = Q np ' Q n p
B p p = Q np ' W n p
C p p = W np ' Q n p
D p p = W np ' W n p
Ap p は 共 起 回 数 を 示 し ま す 。 「 行 列 」 の 転 置 と 積 の 機 能 を 使 っ て そ の 成 分
を確認しましょう。
Ap p = Q np ' Q n p
Q'
d-1
d-2
d-3
d-4
d-5
v-1
1
0
0
0
v-2
1
0
1
v-3
0
1
v-4
0
0
*
Q
v-1
v-2
v-3
v-4
1
d-1
1
1
0
0
1
d-2
0
0
0
1
1
d-3
0
0
1
0
d-4
d-5
=
Q'Q
v-1
v-2
v-3
v-4
0
v-1
2
2
1
0
1
0
v-2
2
3
1
0
1
0
0
v-3
1
1
3
1
0
0
1
1
v-4
0
0
1
1
1
1
1
0
他の対照行列の成分も確かめましょう。
B p p = Q np ' W n p
Q'
d-1 d-2 d-3 d-4 d-5
W
v-1 v-2 v-3 v-4
Q'W
v-1 v-2 v-3 v-4
v-1
1
0
0
0
1
d-1
0
0
1
1
v-1
0
0
1
2
v-2
1
0
1
0
1
d-2
1
1
0
1
v-2
1
0
2
3
v-3
0
1
0
1
1
d-3
1
0
1
1
v-3
2
2
0
2
v-4
0
0
0
1
0
d-4
1
1
0
0
v-4
1
1
0
0
d-5
0
0
0
1
104
C p p = W np ' Q n p
W'
d-1 d-2 d-3 d-4 d-5
Q
v-1 v-2 v-3 v-4
W'Q v-1 v-2 v-3 v-4
v-1
0
1
1
1
0
d-1
1
1
0
0
v-1
0
1
2
1
v-2
0
1
0
1
0
d-2
0
0
1
0
v-2
0
0
2
1
v-3
1
0
1
0
0
d-3
0
1
0
0
v-3
1
2
0
0
v-4
1
1
1
0
1
d-4
0
0
1
1
v-4
2
3
2
0
d-5
1
1
1
0
D n p = W np ' W n p
W'
d-1 d-2 d-3 d-4 d-5
W
v-1 v-2 v-3 v-4
W’W v-1 v-2 v-3 v-4
v-1
0
1
1
1
0
d-1
0
0
1
1
v-1
3
2
1
2
v-2
0
1
0
1
0
d-2
1
1
0
1
v-2
2
2
0
1
v-3
1
0
1
0
0
d-3
1
0
1
1
v-3
1
0
2
2
v-4
1
1
1
0
1
d-4
1
1
0
0
v-4
2
1
2
4
d-5
0
0
0
1
こ の 4 つ の 行 列 か ら 次 の 式 で 各 種 の 係 数 行 列 を 求 め ま す 。以 下 で は
np
を
省 い て 、 た と え ば An p を A と し ま す 。
単 純 一 致 = (A + D) / (A + B + C + D)
Jaccard = A / (A + B + C)
Dice-Sorenson (Jaccard-2) = 2A / (2A + B + C)
Russel-Rao= A / (A + B + C + D)
Russel-Rao-3 = 3A / (3A + B + C + D)
Hama n n = [(A + D) - (B + C)] / [(A + D) + (B + C)]
Yule = (A*D – B*C) / (A*D + B*C)
Phi = (A*D – B*C) / [(A + B)(C + D)(A + C)(B + D)] 1 /2
Ochiai = A / [(A + B)(A + C)] 1 /2
Preference = (2 A – B – C) / (2A + B + C)
Root = A / [A + √ (BC)]
* 類 似 度 係 数 に つ い て は Anderberg (1973:93-126),
Romesburg (1989:
177-209)を 参 照 し ま し た 。 Preference, Root, Greater は 、 こ こ で 定 義 し ま す 。
類 似 係 数 行 列 の A, B, C, D 行 列 の 算 出 法 は 河 口 (1978: II, 30-31)を 参 照 し ま
した。
105
●占有度
次 の よ う な サ ン プ ル( 下 左 表 )を 使 っ て「 占 有 度 」(Degree of possession)
と名付けるオプションを説明します。積和共起回数を計算すると下右表の
対照行列になります。
Q np
v1
v2
v3
v4
Q np '
v1
v2
v3
v4
d1
1
1
0
0
v1
2
2
1
0
d2
0
0
1
0
v2
2
3
1
0
d3
0
1
0
0
v3
1
1
3
1
d4
0
0
1
1
v4
0
0
1
1
d5
1
1
1
0
v1, v2 の 間 の 共 起 回 数 は 2 と 計 算 さ れ ま す が 、 こ こ で 注 目 し た い の は d1
に お け る v1, v2 の 間 の 共 起 の 様 子 と 、 d5 に お け る そ の 様 子 と の 違 い で す 。
左 表 を 見 る と d1 は 唯 一 v1, v2 だ け を 共 有 し て い ま す が 、d5 で は 他 に v3 で
も 共 有 さ れ て い ま す 。 こ こ で d1 の よ う な ケ ー ス の ほ う が d5 の よ う な ケ ー
ス よ り も 重 い 価 値 が あ る と 解 釈 し 、そ れ を 数 量 的 に 表 現 し た い と 思 い ま す 。
次 は 、 先 の A, B, C, D の そ れ ぞ れ の 対 照 行 列 を 作 成 す る た め に 用 意 し た
Q n p と W np で す (W n p = 1 – Q n p )。
Q np
v1
v2
v3
v4
W np
v1 v2 v3 v4
d1
1
1
0
0
d1
0
0
1
1
d2
0
0
1
0
d2
1
1
0
1
d3
0
1
0
0
d3
1
0
1
1
d4
0
0
1
1
d4
1
1
0
0
d5
1
1
1
0
d5
0
0
0
1
これをそれぞれ次のように変換します。
Q np *
v1
v2
v3
v4
W np *
v1
v2
v3
v4
d1
0.500 0.500 0.000 0.000
d1
0.000 0.000 0.500 0.500
d2
0.000 0.000 1.000 0.000
d2
0.333 0.333 0.000 0.333
d3
0.000 1.000 0.000 0.000
d3
0.333 0.000 0.333 0.333
d4
0.000 0.000 0.500 0.500
d4
0.500 0.500 0.000 0.000
d5
0.333 0.333 0.333 0.000
d5
0.000 0.000 0.000 1.000
た と え ば 、 d1 行 に は 1 が 2 個 出 現 し て い る の で 、 そ れ ぞ れ 0.5 の 価 値 が
あ る 、 と い う 考 え 方 で す 。 d5 で は 1 が 3 個 な の で 、 す べ て 0.333 と い う 数
値 を 与 え ま す 。 W np に つ い て も 同 様 で す 。 こ の よ う に し て 用 意 し た Q np *と
W n p *を 使 っ て 、 そ れ ぞ れ の 占 有 度 指 数 を 加 味 し た 類 似 係 数 を 算 出 し ま す 。
106
最後にこの占有度指数を使わない四分点相関係数(下左)と、使った場合
( 下 右 )を 比 較 し ま す( 単 純 一 致 係 数 )。以 下 に 見 る よ う に 大 小 関 係 の 傾 向
は似ていますが、かなり大きな数値の差が観察されます。
Simple m.
v1
v2
v3
v4
Simple m.*
v1
v2
v3
v4
v1
1.000 0.800 0.400 0.400
v1
1.000 0.684 0.211 0.211
v2
0.800 1.000 0.200 0.200
v2
0.684 1.000 0.087 0.087
v3
0.400 0.200 1.000 0.600
v3
0.211 0.087 1.000 0.478
v4
0.400 0.200 0.600 1.000
v4
0.211 0.087 0.478 1.000
4.3. 距離係数
4.3.1. ユ ー ク リ ッ ド 距 離
個体間の相違を数理的に定めた距離によって表現します。 データ行列の
それぞれの変数の分散が異なることを考慮して、はじめにデータ行列を標
準得点に変換します。
X n p = STD n p (D n p )
デ ー タ 行 列 の 中 の 2 つ の 行 (x1, x2)の 間 の 距 離 は 一 般 に「 ユ ー ク リ ッ ド 距
離 」(Euclid distance: E)と よ ば れ る 次 の 式 を 使 い ま す 。そ れ ぞ れ の 対 の 差 を
2 乗して次々に足していき全部足して根をとり、変数の個数で割ります。
E 1 2 = {[(x 1 1 – x 1 2 ) 2 + (x 2 1 – x 2 2 ) 2 + … + (x n 1 – x n2 ) 2 ] 1 /2 } / p
E ij = {[Σ (k) (X k i – X k j ) 2 ] 1 /2 } / p
Ep = [(Xp – Yp)' (Xp – Yp)] 1 /2 / P
距離は数値が大きくなると両者間の関係が薄くなるので相関係数や類似
度係数と大小の方向が異なります。また、必ず正の数になることや最大値
が定まらないこも相関係数や類似度係数と異なります。
4.3.2. ミ ン コ フ ス キ ー 距 離
ユークリッド距離の式の乗数 2 を 3 以上にしたり、また 1 にしたりする
こ
と も あ り ま す 。1 に す る と き は 単 に Xp と Yp の 差 の 総 和 を 求 め る こ と
になりますが正負の値が相殺されてしまうので各項に絶対値を使います。
3, 5, …な ど の 奇 数 の 乗 数 を 使 う と き も 負 の 値 に な る こ と が あ る の で 、 絶 対
値にしなければなりません。E は乗数です。
M(1) = (|X 1 – Y 1 | + |X 2 – Y 2 | + … + |X p – Y p |) / p
107
M(2) = (|X 1 – Y 1 | 2 + |X 2 – Y 2 | 2 + … + |X p – Y p | 2 ) 1 /2 / p
(...)
M(E) = (|X 1 – Y 1 | E + |X 2 – Y 2 | E + … + |X p – Y p | E ) 1 /E / p
以 上 を 一 般 化 し た 乗 和 平 均 距 離 は 「 ミ ン コ フ ス キ ー 距 離 」 (Minkowski
distance: M)と よ ば れ 、 次 の よ う に 定 義 さ れ ま す 。
Mp = [Σ (|Xp – Yp | E ] 1 /E / P
次 は E=2 乗 の 場 合 で す 。
Result1.
English
Latin
Fisics
Minkowski d.
A
B
C
D
E
F
G
A
45
48
66
A
0.000
0.872
0.775
2.370
0.756
1.142
0.813
B
56
59
54
B
0.872
0.000
0.667
1.521
1.159
1.516
1.074
C
58
51
78
C
0.775
0.667
0.000
1.949
1.327
0.924
0.649
D
77
72
20
D
2.370
1.521
1.949
0.000
2.388
2.688
2.460
E
43
44
32
E
0.756
1.159
1.327
2.388
0.000
1.567
1.561
F
58
34
90
F
1.142
1.516
0.924
2.688
1.567
0.000
1.107
G
50
53
100
G
0.813
1.074
0.649
2.460
1.561
1.107
0.000
4.3.3. マ ハ ラ ノ ビ ス 距 離
データ行列の変数の分散と共分散をそれぞれ 1 と 0 に変換した後で、ユ
ークリッド距離を計算すれば、その距離は分散だけでなく共分散にも影響
されない数値になります。はじめにデータ行列を主成分分析(後述)をし
て変数間の共分散を 0 にします。さらにその得点を標準化して変数の分散
を 1 にします。こうした得点は中心(平均)からの等距離の範囲内に分布
す る こ と に な り ま す 。 一 般 に 「 マ ハ ラ ノ ビ ス 距 離 」 (Mahalanobis distance)
はこの得点にユークリッド距離を使って測定しますが、ここでは一般化さ
せてミンコフスキー距離の乗数を使うことにします。
はじめに主成分分析の得点を出します。共分散が 0 になります。
Score
1
2
A
- .823
- .544
B
.635
C
Covariance
1
2
3
.325
1
2.026
.000
.000
- .149
.369
2
.000
.672
.000
- .176
.588
.007
3
.000
.000
.303
D
3.171
.218
- .239
E
- .510 - 1.668
- .270
F
- 1.383
G
- .916
3
.789 - 1.025
.766
.834
108
次は上左表を標準化した結果です。分散が 1 になります。
Std. S.: Col
1
2
3
Covariance
1
A
- .578
- .663
B
.446
C
2
3
.591
1
1.000
.000
.000
- .182
.671
2
.000
1.000
.000
- .124
.718
.013
3
.000
.000
1.000
D
2.228
.266
- .435
E
- .358 - 2.035
- .491
F
- .972
.963 - 1.864
G
- .643
.934
1.515
上 左 表 の 個 体 の 距 離 を ミ ン コ フ ス キ ー (乗 数 =2)距 離 で 計 算 し た も の が 、
マハラノビス距離です。
Mahalanobis d.
A
B
C
D
E
F
G
A
0.000 0.655 0.903 1.807
1.017 1.715 1.066
B
0.655 0.000 0.723 1.238
1.346 1.803 1.024
C
0.903 0.723 0.000 1.406
1.621 1.197 0.927
D
1.807 1.238 1.406 0.000
1.999 2.063 2.041
E
1.017 1.346 1.621 1.999
0.000 1.936 2.076
F
1.715 1.803 1.197 2.063
1.936 0.000 1.960
G
1.066 1.024 0.927 2.041
2.076 1.960 0.000
マハラノビス距離は固有行列を使うので、個体の数が変数の数より多い
ときでないと計算できません。
* マ ハ ラ ノ ビ ス 距 離 に つ い て は 奥 村 (1986)を 参 照 し ま し た 。
4.4. 順序連関行列
データ行列の数値そのものの相関ではなく、大小関係の順序の連関から
相互の関係を見るために、グッドマンとクラスカルの順序連関係数を使い
ま す ( → 後 述 「 分 析 」 ) 。 た と え ば 、 次 の デ ー タ の L1 と L2 の 順 序 連 関 係
数 (Gk)を 計 算 し ま し ょ う 。
A
L1 L2 L3 L4 L5
G&K
L1
L2
L3
L4
L5
d1
10
19
14
7
12
L1
1.000
-.393
.028
.607
-.168
d2
11
7
10
0
1
L2
-.393 1.000
.371
.703
.113
d3
0
0
1
12
1
L3
.028
.371 1.000
.519
-.175
d4
0
1
2
3
3
L4
.607
.703
.519 1.000
-.472
L5
-.168
.113
109
-.175
-.472 1.000
は じ め に 、 そ の 肯 定 値 (Positive: P)と 否 定 値 (Negative: N)を 次 の よ う に 計 算
します。
P(L1, L2) = 10 x (7+1) + 11 x 1 = 91
N((L1, L2) = 11 x 19 = 209
よって
G & K (L1, L2) = (91 – 209) / (91 + 209) = -.393
4.5. 名義類似行列
行 列 の 成 分 が 数 値 で は な く 名 義 の デ ー タ 行 列 を 扱 い ま す 。 A, B, C…は 任
意 の 名 義 (A, B, …な ど )、 ま た は 名 義 列 (bueno, malo, regular, …な ど )と し ま
す 。 こ の よ う な 名 義 行 列 の 変 数 の 類 似 行 列 を 「 名 義 類 似 行 列 」 (Nominal
Association Matrix)と よ ぶ こ と に し ま す 。 た と え ば 、 v1-4 を 地 方 名 、 d1-5
は そ れ ぞ れ の 地 方 で 発 行 さ れ た 文 書 、 A, B, C, … を 言 語 特 徴 、 と い う よ う
な資料を想定しましょう。
Lt-1 v1 v2 v3 v4
Lt-1
v1
v2
1.000
.600
d1
A
A
B
C
v1
d2
A
A
C
C
v2
d3
A
C
B
C
v3
-.600
d4
C
C
C
A
v4
-1.000
d5
B
B
C
C
.600 1.000
v3
v4
-.600 -1.000
-.600
-.600
-.600 1.000
-.200
-.600
1.000
-.200
た と え ば 、 v1 と v2 の 相 関 (0.600)は 次 の よ う に 計 算 し ま す 。 両 列 に 同 じ
文 字 が 使 わ れ て い る 回 数 (a:++)は 4, あ る 文 字 が v1 に あ っ て v2 に な い 場 合
の 数 (b: +-)は 1, 逆 に そ れ が v1 に な く て v2 に あ る 場 合 の 数 も 1 に な る の で 、
先 の 優 先 係 数 の 式 [2a – (b+c)] / [2a – (b+c)]を 適 用 し て 、 [4x2 – (1+1)] / [4x2
+ (1+1)] = .600 と な り ま す 。
この名義類似行列は次のような、1 つの成分の中に、複数の名義がある
場合にも計算できます。
110
Lt.Oc.
d1
v1
A
v2
v3
A,B
v4
14.Letter corr el.
v1
v2
v3
v4
B
C
v1
1.000
.500
.067
- .200
d2
B,D B,C,D B,C
D
v2
.500
1.000
.333
- .467
d3
A,B
B
B
C
v3
.067
.333
1.000
- .143
d4
C
C
A
A
v4
- .200
- .467
- .143
1.000
d5
B,C
C B,C B,C,D
た と え ば 、 v1 と v2 の 相 関 (0.520)は 次 の よ う に 計 算 し ま す 。 d1 で は 、 v1
の A と v2 の A,B を 比 べ て 、 両 者 に あ る 名 義 数 1 を a(++)と し ま す 。 v1 に
あ っ て v2 に な い 名 義 数 0 を b(+-)と し ま す 。v2 に あ っ て v1 に な い 名 義 数 1
を c(-+)b と し ま す 。 こ の a, b, c を 他 の 行 d2, …, d5 で も 加 算 し て 計 算 し た
優 先 係 数 の 値 が 名 義 相 関 係 数 (v1, v2) = 0.520 に な り ま す 。 す べ て の 組 み 合
わ せ (v1, …, v4)の 名 義 相 関 係 数 を 計 算 す る と 名 義 相 関 行 列 が で き ま す 。
111
5. 分 析
「分析」では、データ行列全体をさまざまな視点から分析します。
5.1. 統計量の分析
5.1.1. 範 囲 の 分 析
デ ー タ の 範 囲 の 状 態 を 示 す「 最 小 値 」「 中 間 値 」「 最 大 値 」「 範 囲 」( 最
大値-最小値)を調べます。
最小値 中間値 最大値
範囲
A
L1 L2 L3 L4 L5
A
d1
10
19
14
7
12
d1
7.00
13.00
19.00 12.00
d2
11
7
10
0
1
d2
.00
5.50
11.00 11.00
d3
0
0
1
12
1
d3
.00
6.00
12.00 12.00
d4
0
1
2
3
3
d4
.00
1.50
3.00
3.00
5.1.2. 中 心 の 分 析
データの中心である平均値、中央値、最頻値と、中央値・中間値との関
係 を 調 べ ま す 。対 照 値 に つ い て は → 前 述 。た と え ば 平 均 値 の「 範 囲 内 位 置 」
は次のようにして求めます。
範囲内位置(平均値)=(平均値-最小値)/範囲
A
平均値 中央値
d1
12.40
d2
対照値 中間値
差(-)
対照 範囲内位置
.40
.02
13.00
-.60
-.02
.45
5.80
7.00 -1.20
-.09
5.50
.30
.03
.53
d3
2.80
1.00
1.80
.47
6.00 -3.20
-.36
.23
d4
1.80
2.00
-.20
-.05
.09
.60
中央値 平均値
差(-)
A
12.00
差(-)
1.50
.30
対照値 中間値
差(-)
d1
12.00
12.40
-.40
-.02
d2
7.00
5.80
1.20
.09
d3
1.00
2.80 -1.80
-.47
d4
2.00
1.80
.20
.05
13.00 -1.00
対照 範囲内位置
-.04
.42
1.50
.12
.64
6.00 -5.00
-.71
.08
.14
.67
5.50
1.50
112
.50
A
大数平均値 平均値
d1
12.22
d2
差(-)
対照 範囲内位置
.22
.01
13.00
-.78
-.03
.44
6.00
7.00 -1.00
-.08
5.50
.50
.04
.55
d3
1.89
1.00
.89
.31
6.00 -4.11
-.52
.16
d4
1.89
2.00
-.11
-.03
.11
.63
A
12.00
差(-) 対照値 中間値
1.50
.39
切除平均値 平均値 差(-) 対照値 中間値
差(-) 対照 範囲内位置
d1
12.13
12.00
.13
.01
13.00
-.87
-.03
.43
d2
6.27
7.00
-.73
-.06
5.50
.77
.07
.57
d3
1.49
1.00
.49
.20
6.00 -4.51
-.60
.12
d4
1.93
2.00
-.07
-.02
.13
.64
A
1.50
.43
最頻値:頻度 平均値 差(-) 対照値 中間値
d1
12.00
12.00
.00
.00
d2
9.33
7.00
2.33
.14
d3
.50
1.00
-.50
-.33
d4
2.67
2.00
.67
.14
差(-)
13.00 -1.00
対照 範囲内位置
-.04
.42
3.83
.26
.85
6.00 -5.50
-.85
.04
.28
.89
5.50
1.50
1.17
5.1.3. 偏 差 の 分 析
平 均 を 中 心 と し た 偏 差 を 示 す 各 種 の 統 計 量( →「 統 計 量 」)を 比 較 し ま す 。
A
L1
L2
L3
L4
L5
A
分散
標準偏差
変動係数
正規変動係数
拡散度
d1
10
19
14
7
12
d1
16.240
4.030
.325
.162
.838
d2
11
7
10
0
1
d2
20.560
4.534
.782
.391
.609
d3
0
0
1
12
1
d3
21.360
4.622
1.651
.825
.175
d4
0
1
2
3
3
d4
1.360
1.166
.648
.324
.676
5.1.4. 平 衡 の 分 析
データ行またはデータ列の中での数値の偏りを示す指標として、以下の
よ う な 「 対 照 数 」 (Contrastive count) を 考 え ま す 。
113
A
L1
L2
L3
L4
L5
A
中間値
中間値正数
中間値負数
中間値対照数
d1
10
19
14
7
12
d1
13.000
2
3
-.200
d2
11
7
10
0
1
d2
5.500
3
2
.200
d3
0
0
1
12
1
d3
6.000
1
4
-.600
d4
0
1
2
3
3
d4
1.500
3
2
.200
た と え ば 、d1 {10, 19, 14, 7, 12)の 中 間 値 [( 最 大 値 +最 小 値 )/2]は 13 で す
が 、こ の 中 間 値 よ り 大 き な 数 値 (Positive: P)は 19, 14 の 2 数 で す 。ま た 、中
間 値 よ り 小 さ な 数 値 (Negative: N)は 10, 7, 12 の 3 数 で す 。 そ こ で 、 「 中 間
値 対 照 数 」 (Contrastive count by mid): Ccm は
Ccm = (P – N) / (P + N) = (2 – 3) / (2 + 3) = -.200
となり、ややデータ数が中間値より下にあることがわかります。
次に、データの数ではなく、次のような数値を計算し、その結果を「中
間 値 対 照 値 」(Contrastive value by mid: Cvm)と し ま す 。た と え ば 、d1 {10, 19,
14, 7, 12)の な か で 中 間 値 13 よ り 大 き な 数 値 19, 14 の 差 は 、6, 1 な の で 、P=6
+ 1 = 7 に な り ま す 。ま た 、中 間 値 13 よ り 小 さ な 数 値 10, 7, 12 の 差 は 、3, 6,
1 な の で 、 P=3 + 6 + 1 = 10 に な り ま す 。 そ こ で 、
Cvm = (P – N) / (P + N) = (7 – 10) / (7 + 10) = -.176
となります。
A
中間値
中間値正値
中間値負値
中間値対照値
d1
13.000
7.000
10.000
-.176
d2
5.500
11.500
10.000
.070
d3
6.000
6.000
22.000
-.571
d4
1.500
3.500
2.000
.273
対 照 数 も 対 照 値 も 、 P と N が 同 じ 数 値 で あ れ ば ゼ ロ に な り 、 P>N の と き
は 正 値 に な り 、P<N の と き は 負 値 に な り ま す 。ど ち ら も は –1 < Ccm / Cvm<
+1 の 両 端 を 含 ま な い 範 囲 を と り ま す 。
このようにそれぞれのデータと比較する参照値は、中間値だけでなく 、
平均値や中央値を使うことができます。平均値を使うと「対照値」がかな
ら ず ゼ ロ (0)に な る の で 対 照 数 を 使 い ま す 。逆 に 、中 央 値 を 使 う と「 対 照 数 」
が か な ら ず ゼ ロ (0)に な る の で 、 対 照 値 を 使 い ま す 。
114
平均値
平均値正数
平均値負数
平均値対照数
d1 12.400
2
3
-.200
d2 5.800
3
2
.200
d3 2.800
1
4
-.600
d4 1.800
3
2
.200
A
A
中央値
中央値正値
中央値負値
中央値対照値
d1
12.000
9.000
7.000
.125
d2
7.000
7.000
13.000
-.300
d3
1.000
11.000
2.000
.692
d4
2.000
2.000
3.000
-.200
5.1.5. 階 級 に よ る 変 動 分 析
下 の 表 (D.var)は 、 デ ー タ 行 列 と 、 そ の 各 列 の 和 、 平 均 値 、 分 散 、 標 準 偏
差を示します。
値
D.var v1 v2 v3
d1
38 18
5
和
d2
35 10
6
平均値
d3
28 44 48
分散
d4
22 30 62
標準偏差
d5
24 29 89
v1
v2
147.000 131.000
29.400
26.200
v3
210.000
42.000
38.240 133.760 1062.000
6.184
11.565
32.588
一 方 、 下 左 表 (D.var.C)に は 先 の デ ー タ 行 列 に 加 え て 、 階 級 値 (Class)の 列
があります。この列の値を各変数に積算して、同じ統計量を取り直したも
の が 下 右 表 で す 。 こ れ を 「 階 級 に よ る 変 動 分 析 」 (Analysis of variance by
class)と よ ぶ こ と に し ま す 。
D.var.C v1 v2 v3 Class
D.var.C
v1
v2
v3
d1
38 18
5
1
和
d2
35 10
6
2
平均値
2.721
3.321
4.067
d3
28 44 48
3
分散
1.997
1.638
.977
d4
22 30 62
4
標準偏差
1.413
1.280
.988
d5
24 29 89
5
400.000 435.000 854.000
M 1 p = SumC(M(F n p , X n 1 )) '和 行
M 1 p = D(M 1 p , SumC(F n p )) '平 均 行
V 1 p = D(SumC(M(E(S(X n 1 , M 1 p ), 2), F n p )), SumC(F n p )) '分 散 行
V 1 p = E(V 1p , 0.5) '標 準 偏 差 行
115
上 の Fn p は デ ー タ 行 列 、 Xn 1 は 階 級 値 の 列 を 示 し ま す 。 こ こ で の 目 的 は 、
階級を外的基準として利用し、それに基づいた変動を比較することです。
D.var の 単 純 な 分 析 で は 中 心 点 ( 平 均 値 ) が 全 体 で 一 様 に 共 通 し て 計 算 さ
れ ま す が 、D.var.C の 階 級 を 外 部 基 準 と し た 変 動 分 析 で は 個 別 の 階 級 値 を 使
っ て 平 均 値 を 出 し ま す 。 た と え ば D.var の v1 の 平 均 値 は デ ー タ の 尺 度 の
29.4 で す が 、 D.var.C の 平 均 値 は 階 級 値 の 尺 度 の 2.72 に な り ま す 。
両 者 の 分 散 ・ 標 準 偏 差 を 比 較 す る と 、D.var で は v1 < v2 < v3 と い う 大 小
関 係 を 示 し ま す が 、 D.var.C で は 、 逆 に v1 > v3 > v3 と い う 順 番 で す 。 デ ー
タ 行 列 を 見 る と 、た し か に v3 の デ ー タ が d3, d4, d5 に 集 中 し て い る こ と が
わ か り ま す 。そ の 中 心 点( 階 級 平 均 値 )は 4.07 で す 。分 散 ・ 標 準 偏 差 は た
し か に デ ー タ の 散 ら ば り 具 合 を 示 し v3 が 全 体 的 に 見 れ ば 拡 散 し て い る よ
うですが、一方、大きな値に焦点を当てて見れば集中しているように思わ
れ ま す 。 た と え ば 、 D.var の v3 の 中 心 ( 平 均 値 ) 42 は d2-d3 間 に あ り ま す
が 、 D.var.C の 中 心 ( 平 均 値 ) 4.067 は d4-d5 間 に な り ま す 。
次のように階級値を逆転させると和と平均値は当然変わりますが、分
散・標準偏差は変化しません。
D.var.C v1 v2 v3 Class
D.var.C
v1
v2
v3
d1
38 18
5
5
和
d2
35 10
6
4
平均値
3.279
2.679
1.933
d3
28 44 48
3
分散
1.997
1.638
.977
d4
22 30 62
2
標準偏差
1.413
1.280
.988
d5
24 29 89
1
482.000 351.000 406.000
このようにデータ行列だけの変動と、階級を考慮した変動の様子は異な
りますが、どちらを採用するかは分析の目的によります。この階級による
変動分析は、外的な基準に従ってデータが集中する度合いを調べるときに
役立ちます。
5.2. 振動分析
デ ー タ の 並 び の 上 下 動 の 様 子 を 、「 振 動 数 」(Oscillation count: Oc)と「 振
動 値 」 (Oscillation value: Ov) に よ っ て 数 量 化 し ま す 。 振 動 数 を 計 算 す る た
め に 、上 昇 数 と 下 降 数 を 次 の よ う に 計 算 し ま す 。d1 {10, 19, 14, 7, 12}で は 、
10 > 19 と 7 > 12 の 間 で 2 回 上 昇 し て い る の で 、 上 昇 数 (Rising count: Rc)は
2 に し ま す 。ま た 、19 > 14, 14 > 7 で 2 回 下 降 し て い る の で 、下 降 数 (Falling
count: Fc)は 2 に な り ま す 。こ の よ う に Rc と Fc が 同 じ 場 合 は 振 動 数 は 0 と
し ま す 。 d3 {0, 0, 1, 12, 1}の 場 合 は Rc=2., Fc=1 で す 。 こ の 2 つ の 数 値 を 使
っ て 、 振 動 数 (Fc)を 次 の よ う に 定 義 し ま す 。
116
Oc = (Rc – Fc) / (Rc + Fc)
次 に 、 上 下 動 の 幅 を 考 慮 し た 「 振 動 値 」 (Oscillation value: Ov)を 計 算 し ま
す 。 d3 {0, 0, 1, 12, 1}の 場 合 は 、 上 昇 値 (Rising value: Rv)は Uv(10 > 19) = 9,
Uv(7>12) = 5 で 、合 わ せ て 14 と な り 、下 降 値 (Falling value: Fv)は Fv(19>14)
= 5, Fv(14>7) = 7 で 合 わ せ て 12 に な り ま す 。 振 動 値 (Ov)を 次 の よ う に 定 義
します。
Ov = (Rv – Fv) / (Rv + Fv)
上昇数 下降数 振動数
上昇値 下降値 振動値
A
L1 L2 L3 L4 L5
A
d1
10
19
14
7
12
d1
2
2
.000
14
12
.077
d2
11
7
10
0
1
d2
2
2
.000
4
14
-.556
d3
0
0
1
12
1
d3
2
1
.333
12
11
.043
d4
0
1
2
3
3
d4
3
0
1.000
3
0
1.000
d2 が 下 降 す る 傾 向 が あ り 、 d4 は 完 全 に 上 昇 し て い る こ と が わ か り ま す 。
5.3. 順序連関係数
下 左 表 は 、 ス ペ イ ン 語 で ¿Adónde vas? 「 ど こ に 行 く の 」 と い う 表 現 を 、
Niño(子 供 ), Joven (若 者 ), Mayuor (大 人 ), Anciano (老 人 )に 対 し て 使 う と き
の 、 そ れ ぞ れ 、 No (使 わ な い ), A veces (と き ど き ), Siempre (い つ も )の 使 用
頻度を調べて集計したものです。
Vas?
Niño Joven Mayor Anciano
G. & K. (2)
Vas?
No
1
5
192
92
Positive v.=
10600
A veces
3
22
58
20
Negative v.= 101941
Siempre
56
153
110
8
G. & K.=
- .812
次 は 、 同 じ こ と を 敬 語 を 使 っ た ¿Adónde va usted?「 ど ち ら に い ら っ し ゃ
るのですか?」という表現の使用頻度の集計です。
Va Ud.? Niño Joven Mayor Anciano
G. & K. (2)
Va Ud.?
No
55
147
142
18
Positive v.=
93267
A veces
5
24
99
33
Negative v.= 15854
Siempre
0
9
119
69
G. & K.=
.709
このように、横の分類も縦の分類も一定の順序を持った変数であるとき、
全体の分布が横と縦の順序にどの程度従っているかを示す係数として、
「グ
ッ ド マ ン と ク ラ ス カ ル の 順 序 連 関 係 数 」(Goodman-Kruskal's rank measure of
association: GK)が 使 わ れ ま す 。GK を 算 出 す る た め に 、ク ロ ス 表 で 、1 つ の
117
マス目にあるデータとそれよりも横と縦が上になるマス目のデータの対の
総 数 で あ る「 肯 定 対 総 数 」(Positive pairs: P)を 、次 の よ う に し て 計 算 し ま す 。
P(Vas?) = 1 x (22+58+20+153+110+8) + 5 x (58+20+110+8) + 192 x (20+8) + 3
x (153+110+8) + 22 x (110+8) + 58 x 8 = 10600
一方、1 つのマス目にあるデータとそれよりも横と縦が「下」になるマス
目 の デ ー タ の 対 の 総 数 で あ る 「 否 定 対 総 数 」 (Negative pairs: N)を 、 次 の よ
うにして計算します。
N(Vas?) = 5 x (3+56) + 192 x (3+22+56+153) + 92 x (3+22+58+56+153+110) +
22 x 56 + 58 x (56+153) + 20 x (56+153+110) = 101941
次 の よ う に 、 順 序 連 関 係 数 GK は 、 P と N の 対 照 値 に な り ま す 。
GK(Vas?) = (P - N) / (P + N) = (10600 – 101941) / (10600 + 101941)
同様にして
P(Va Ud.?) = 93267
N(Va Ud.?) = 15854
GK(Va Ud.?) = (93267 - 15854) / (93267 + 15854) = .709
こ の よ う に 、 GK を 使 う こ と に よ っ て 、 ス ペ イ ン 語 の 普 通 体 は 対 話 者 の 年
代層と逆連関し、丁寧体はそれと正連関していることがわかります。
* 池 田 ・ 芝 (1976: 130-132)を 参 照 し ま し た 。
5.4. 多重関連分析
5.4.1. 多 重 条 件 リ ス ト
M ultiple condition
c1 c2 c3
c4
R
d1
A
C
F
I
X
d2
A
D
F
J
X
d3
A
D
G
K
Y
d4
B
D
H
L
Z
d5
B
E
H
M
Z
「 多 重 関 連 分 析 」 (Multiple Association Analysis)と よ ぶ 方 法 に よ っ て 、 た と
え ば 上 の 表 の 条 件 c1, c2, c3, c4 と 結 果 の E の 間 の 関 連 に つ い て 分 析 し 、 単
一の条件や多重に結合する条件の影響度を計測します。はじめに、条件と
結果の該当するセルにタイトル列のデータに出力します。これにより、ど
118
のようなデータが該当するかが表形式でわかります。
Single Cond. 1
1:A
1:A
1:B
1:B
X Y Z
d1 d3
d2
d4
d5
Single Cond. 2
2:C
2:D
2:E
X Y Z
d1
d2 d3 d4
d5
Single Cond. 3
3:F
3:F
3:G
3:H
3:H
X Y Z
d1
d2
d3
d4
d5
Single Cond. 4
4:I
4:J
4:K
4:L
4:M
X Y Z
d1
d2
d3
d4
d5
5.4.2. 多 重 条 件 頻 度
次に該当するデータの頻度を計算しましょう。
(1) 単 一 条 件
Single Cond. 1
1:A
1:B
Single Cond. 3
3:F
3:G
3:H
X Y Z
2 1
2
Single Cond. 2
2:C
2:D
2:E
X Y Z
1
1 1 1
1
X Y Z
2
1
2
Single Cond. 4
4:I
4:J
4:K
4:L
4:M
X Y Z
1
1
1
1
1
出 力 の X, Y, Z 列 は 結 果 列 (E)の 各 成 分 の 絶 対 頻 度 で す 。
(2) 二 重 条 件
すべての条件の中から 2 つの組合せについて頻度を計算します。
Double Cond. 1+2
1:A + 2:C
1:A + 2:D
1:B + 2:D
1:B + 2:E
X Y Z
1
1 1
1
1
Double Cond. 1+3
1:A + 3:F
1:A + 3:G
1:B + 3:H
119
X Y Z
2
1
2
さ ら に 、Double Cnd. 1-4, Double Cnd. 2-3,
Double Cnd. 2 -4, Double Cnd. 3-4
も同様にして計算します。
(3) 三 重 条 件
すべての条件の中から 3 つの組合せについて頻度を計算します。
Triple Cond. 1+2+3
1:A + 2:C + 3:F
1:A + 2:D + 3:F
1:A + 2:D + 3:G
1:B + 2:D + 3:H
1:B + 2:E + 3:H
X Y Z
1
1
1
1
1
Triple Cond. 1+2+4
1:A + 2:C + 4:I
1:A + 2:D + 4:J
1:A + 2:D + 4:K
1:B + 2:D + 4:L
1:B + 2:E + 4:M
X Y Z
1
1
1
1
1
さ ら に Triple Cnd.1-3-4, Triple Cnd. 2-3-4 も 同 様 に し て 計 算 し ま す 。こ れ ら
はすべて絶対頻度を示すので、各種の得点計算をして相対化した値も考慮
すべきです。
■ 10-13 世 紀 ス ペ イ ン 語 i, j, y の 文 字
次 は 、10-13 世 紀 の ス ペ イ ン 北 部 で 記 さ れ た 文 献 中 の i, j, y の 文 字 に つ い て
多重条件分析をした結果と相対卓立得点を両軸で計算した結果を示します。
Double Cnd. 1-2
1:#_# + 2:i
1:#_C + 2:i
1:#_V + 2:j
1:#_V + 2:y
1:C_# + 2:i
1:C_C + 2:i
1:C_V + 2:i
1:V_# + 2:i
1:V_C + 2:i
1:V_V + 2:i
1:V_V + 2:j
1:V_V + 2:y
I
J
Y
602 142 2
3 71
3
4 10
1
13
6
9
12
1
1
9
i
111
2005
38
12
2453
9257
5084
330
1458
238
92
28
j
y
41
22
5
18
1 180
342 41
41
4
154 18
343 76
116 163
20
131
2
4 182
P.R.S.b.
1:#_# + 2:i
1:#_C + 2:i
1:#_V + 2:j
1:#_V + 2:y
1:C_# + 2:i
1:C_C + 2:i
1:C_V + 2:i
1:V_# + 2:i
1:V_C + 2:i
1:V_V + 2:i
1:V_V + 2:j
1:V_V + 2:y
I
J
Y
i
0.078
0.812 0.456 0.011 0.617
0.058 0.846
0.028
0.053 0.132 0.441 0.009
0.005
0.673
0.020
0.926
0.016
0.834
0.093
0.199
0.075
0.009 0.539
0.154
0.018
0.065
0.143
0.021
j
y
0.451
0.020 0.092
0.185
0.011 0.833
0.622 0.158
0.059 0.006
0.287 0.046
0.815 0.477
0.408 0.548
0.187
0.648 0.033
0.044 0.832
語 頭 で 母 音 が 後 続 す る 環 境 (#_V)の J は 絶 対 頻 度 で は と く に 大 き な 値 を 示
し ま せ ん が 、 相 対 卓 立 得 点 で は 最 大 値 (.846)を 示 し て い ま す 。
5.4.3. 多 重 関 連 係 数
多重の条件と結果との関連度を調べるために次のような「多重関連係数」
を 考 え て み ま し ょ う 。 単 一 の 条 件 の 関 連 係 数 (coefficient of Multiple
Associatin: M.A.) か ら 始 め 、 二 重 条 件 、 三 重 条 件 、 そ し て 多 重 条 件 に ま で
一般化します。
120
(1) 単 一 条 件
条 件 (c)
結 果 (e)
ウ ェ イ ト (p)
頻 度 (f), [例 ]
+1 (有 )
+1 (有 )
(+1)(+1) = +1
f (1), [例 . 8]
+1 (有 )
−1 (無 )
(+1)(−1) = −1
f (2), [例 . 3]
−1 (無 )
+1 (有 )
(−1)(+1) = −1
f (3), [例 . 4]
−1 (無 )
−1 (無 )
(−1)(−1) = +1
f (4), [例 . 6]
M.A. ( 1 ) =
𝑓(1) – 𝑓(2) – 𝑓(3)+ 𝑓(4)
[𝑓(1)+ 𝑓(4)] –[𝑓(2)+ 𝑓(3)]
(* =
) (*=Hama n n )
[𝑓(1)+ 𝑓(4)]+[𝑓(2)+ 𝑓 (3)]
𝑓(1)+ 𝑓(2)+ 𝑓(3)+ 𝑓(4)
=
𝑝(1)𝑓(1)+𝑝(2)𝑓(2)+𝑝(3)𝑓 (3)+ 𝑝(4)𝑓(4)
∑2^2
𝑖=1 𝑓 (𝑖 )
=
∑2^2
∑2^2
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
𝑖=1 [𝑓(𝑖 )𝑒(𝑖 )𝑐(𝑖 )]
=
(* 2^2 = 2 2 = 4)
2^2
∑𝑖=1 𝑓 (𝑖 )
∑2^2
(
)
𝑓
𝑖
𝑖=1
[* p(i ) = ウ ェ イ ト (+1 / −1)]
例 : M.A. ( 1) =
8−3−4+6
8+3+4+6
(8+6)−(3+4)
[= (8+6)+(3+4)𝑙]
= 0.333
(−1≤ A ≤ +1)
(2) 二 重 条 件
c(1)
c(2)
結 果 (e)
ウェイト
頻 度 (f)
+1
+1
+1
(+1+1)(+1) = +2
f (1)
+1
+1
−1
(+1+1)(−1) = −2
f (2)
+1
−1
+1
(+1−1)(+1) = 0
f (3)
+1
−1
−1
(+1−1)(−1) = 0
f (4)
−1
+1
+1
(−1+1)(+1) = 0
f (5)
−1
+1
−1
(−1+1)(−1) = 0
f (6)
−1
−1
+1
(−1−1)(+1) = −2
f (7)
−1
−1
−1
(−1−1)(−1) = +2
f (8)
M.A. ( 2 ) =
=
∑2^3
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
2 ∑2^3
𝑖=1 𝑓(𝑖 )
2
∑2^3
𝑖=1[ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)]
2 ∑2^3
𝑖=1 𝑓 (𝑖 )
[* p(i) = ウ ェ イ ト (+2 … −2)]
[* e(i) = 結 果 (+1 / −1), c(j) = 条 件 (+1/−1)]
こ の よ う に 分 子 に あ る ウ ェ イ ト (p)は c(i, j)の 和 と e(i)を 掛 け た も の で す 。
分 母 は す べ て の f(i)に ウ ェ イ ト 2 を 掛 け ま す 。こ れ は 、分 子 で 条 件 の 数 (=2)
だけ頻度を加算・減算をしていたので、分母はこれらすべての頻度を加算
121
して母数にするためです。
(3) 三 重 条 件
c(1)
c(2)
c(3)
結 果 (e)
+1
+1
+1
+1
(+1+1+1)(+1) = +3
f (1)
+1
+1
+1
−1
(+1+1+1)(−1) = −3
f (2)
+1
+1
−1
+1
(+1+1−1)(+1) = +1
f (3)
+1
+1
−1
−1
(+1+1−1)(−1) = −1
f (4)
+1
−1
+1
+1
(+1−1+1)(+1) = +1
f (5)
+1
−1
+1
−1
(+1−1+1)(−1) = −1
f (6)
+1
−1
−1
+1
(+1−1−1)(+1) = −1
f (7)
+1
−1
−1
−1
(+1−1−1)(−1) = +1
f (8)
−1
+1
+1
+1
(−1+1+1)(+1) = +1
f (9)
−1
+1
+1
−1
(−1+1+1)(−1) = +1
f (10)
−1
+1
−1
+1
(−1+1−1)(+1) = −1
f (11)
−1
+1
−1
−1
(−1+1−1)(−1) = +1
f (12)
−1
−1
+1
+1
(−1−1+1)(+1) = −1
f (13)
−1
−1
+1
−1
(−1−1+1)(−1) = +1
f (14)
−1
−1
−1
+1
(−1−1−1)(+1) = −3
f (15)
−1
−1
−1
−1
(−1−1−1)(−1) = +3
f (16)
M.A. ( 3 ) =
ウ ェ イ ト (p)
頻 度 (f)
3
∑2^4
∑2^4
𝑖=1 [ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)]
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
=
3 ∑2^4
3 ∑2^4
𝑖=1 𝑓(𝑖 )
𝑖=1 𝑓(𝑖 )
三重条件では条件の数が 3 になります。
(4) 多 重 条 件
以 上 を 一 般 化 す る と 多 重 関 連 係 数 M.A. ( m ) は 次 の 式 に な り ま す 。
M.A.
(m)
=
∑2^(𝑚+1)
[ 𝑝(𝑖 )𝑓(𝑖 )]
𝑖=1
2^(𝑚+1)
𝑚 ∑𝑖=1
𝑓 (𝑖 )
=
∑2^(𝑚+1)
[ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑚
𝑗=1 𝑐(𝑖,𝑗)]
𝑖=1
2^(𝑚+1)
𝑚 ∑𝑖=1
𝑓 (𝑖 )
このように算出した多重関連係数を比較することにより、関係する条件の
働きの強さを調べることができます。次は、データ例を使って、多重条件
と結果の関係を見るために、
「類似係数行列」
( 優 先 係 数 : Pref. S.: Preference
= (2A – B – C) / (2A + B + C))と「 多 重 関 連 係 数 行 列 」を 比 較 し た も の で す 。
後者の数値の弁別力が強いことが分かります。
122
P r e f . 1+2+3 X
Y
Z
A + C + F . 333
A + D + F . 333
A + D + G
1. 000
B + D + H
. 333
B + E + H
. 333
T o t . M . A . 1 + 2 + 3X
Y
Z
A + C + F
. 733
A + D + F
. 467
A + D + G
. 467
B + D + H
. 600
B + E + H
. 867
優先係数はデータ行列(上左表)の両軸を使って相対化しますが、多重関
連 係 数 は 条 件 の 構 成 ま で 考 慮 に 入 れ て 計 算 し ま す 。 た と え ば 、 [A+C+H]と
[A+D+F]は 、 優 先 係 数 で は 単 に そ れ ぞ れ を 個 別 の 名 称 と す る だ け で す が 、
多重関連係数では、A と F が共通であることも考慮に入れます。
●否定的証拠
プログラムでは、はじめに条件・結果のクロス集計表を作り(下左表)、
それをもとにして多重関連係数のクロス表を作ります(下右表)。
Freq.1+2
X
A+C
1
A+D
1
Y
Z
1
Tot.M.A.1+2
X
Y
A+C
.600
A+D
.200
Z
.200
B +D
1
B +D
.400
B +E
1
B +E
.800
た と え ば 、 [A+D+F]と い う 条 件 と X と い う 結 果 の 間 の 多 重 関 連 係 数 は .733
ですが、これを計算するために次のような条件と結果のウェイトを求めま
す。
Freq.1+2
X: +1
A + C: 1+1=2
1x(+2)x(+1)=2
A + D: 1–1=0
1x(0)x(+1)=0
Y: –1
Z: –1
1x(0)x(–1)=0
B + D: –1–1=–2
1x(–2)x(–1)=+2
B + E: –1–1=–2
1x(–2)x((–1)=+2
こ れ ら の 総 和 (2+0+0+2+2 = 6)を 、 該 当 デ ー タ の 個 数 (5) x 条 件 の 数 (2) = 10
で 割 り 、 そ の 結 果 .600 に な り ま す 。 こ の 計 算 過 程 を 見 る と 、 条 件 と 結 果 が
と も に プ ラ ス (+)で あ る ケ ー ス の 数 値 (=2)よ り も 、ど ち ら も マ イ ナ ス (−)に な
る ケ ー ス の 数 値 の 和 (=4)の ほ う が 多 い こ と が わ か り ま す 。 ど ち ら も マ イ ナ
ス と い う ケ ー ス は 、条 件( 例:曇 り の 日 )が な け れ ば 結 果( 例:傘 の 携 帯 )
もなかった、というケース(曇りでない日に傘を携帯しない)ですから、
確かにこの場合も両者が互いに関連していること(曇りの日→傘の携帯)
を 示 し ま す 。し か し 、条 件・結 果 と も に「 有 り 」( 肯 定 的 証 拠 )と 比 べ て 、
123
ともに「無し」(否定的証拠)のほうが非常に多いというときには、その
結果、関連係数が高くなりますので注意が必要です。たとえば、A という
本 を 読 む 人 の 数 と B と い う 本 を 読 む 人 の 数 の 関 連 を 調 べ る と 、ど ち ら も 読
んでいない人の数が非常に多いので確かに関連係数は高くなりますが、そ
う で あ っ て も 、A を 読 む と い う 条 件 か ら B を 読 む と い う 結 果 が 高 く 予 想 さ
れる、というわけではありません。
次 の 左 表 は 否 定 的 事 例 の 全 体 に 対 す る 割 合 を 示 し ま す 。 こ こ で は .600 を
示 す [B+E]と Z の 関 連 度 で は 、 否 定 的 証 拠 が 強 く 働 い て い る こ と が わ か り
ます。そこで、すべて負の条件と結果が負であるケースを除外して計算し
た 関 連 係 数 を 下 右 表 に 示 し ま す 。こ れ を「 正 多 重 関 連 係 数 」(Positive Multiple
Association)と よ ぶ こ と に し ま す 。こ れ と 区 別 し て 先 の 関 連 係 数 を「 全 多 重
関 連 係 数 」(Total Multiple Association)と 呼 び ま す 。両 者 を 比 較 す る と 、「 正
多重関連係数」の数値が全体的に低くなっています。
R.Neg.C.1+2
X
Y
A+C
.400
A+D
.200
Z
Pos.M.A.1+2
.200
X
A+C
.333
A+D
.000
Y
Z
.000
B+D
.200
B+D
.250
B+E
.600
B+E
.500
5.5. 多変量解析
5.5.1. 重 回 帰 分 析
「 重 回 帰 分 析 」 (Multiple regression)と よ ば れ る 方 法 は 、 次 の よ う な 複 数
の 説 明 変 数 (x 1 , x 2 , …)と 目 的 変 数 (y: Yn)を も つ デ ー タ か ら 、未 知 の 目 的 変 数
を 予 想 す る 重 回 帰 式 を 求 め る 方 法 で す 。各 説 明 変 数 に 重 み( ウ ェ イ ト )Wp
掛 け て 重 回 帰 式 を 作 り ま す が 、 実 際 の 結 果 Yn と 重 回 帰 式 で 求 め た 予 測 値
ベ ク ト ル En の 差 が 小 さ け れ ば 小 さ い ほ ど そ の 式 が 高 く 評 価 さ れ ま す 。 そ
こ で 、実 測 値 ベ ク ト ル Yn と 予 測 値 ベ ク ト ル En の 平 方 和 が 最 小 に な る よ う
にします。
た と え ば 、次 の よ う な 成 績 表 で 、Read, Write, Vocab(ulary)の 小 テ ス ト と 、
最 終 成 績 (POINT)の 関 係 を 見 ま す 。
English
Read
Write Vocab. POINT
d1
6
8
5
12
d2
7
10
6
11
d3
8
4
8
13
d4
9
7
2
7
d5
10
9
4
14
124
次 の よ う に 予 測 値 En を 、切 片 (W0)と 各 変 数 (X)に 重 み と し て の 係 数 (Wp)
を 掛 け た も の を 加 算 し て 作 っ た 式 で 作 り ま す 。 [i = 1, 2, …, N]
E(i) = W(0) + W(1) X(i, 1) + W(2) X(i, 2) + ... + W(p) X(i, p)
こ の 式 の 第 1 項 W(0)は 回 帰 式 の 切 片 (intercept)を 示 し ま す 。 こ の 切 片 は
すべての個体に共通に加えます。したがって、この列には単位ベクトル
1p
を左積します。
E(i) =
1p
W(0) + X(i, 1) W(1) + X(i, 2) W(2) + ... + X(i, p) W(p)
[i=1…n]
行列で示すと、
En = X n p Wp
[X n p の 第 1 列 は 単 位 ベ ク ト ル ]
こ の 式 で 求 め ら れ た 値 と 実 測 値 Yn の 間 の 残 差 の ベ ク ト ル を Rn と し ま す 。
Rn = Yn – En = Yn – X np Wp
こ の 残 差 Rn の 平 方 和 S を 求 め ま す 。
S
= Rn' Rn = (Yn – X n p Wp)' (Yn – X n p Wp)
= [Yn' – (X n p Wp)'] (Yn – X n p Wp)
= Yn' Yn – Yn' X n p Wp – (X np Wp)' Yn + (X n p Wp)' X n p Wp
= Yn' Yn – Yn' X n p Wp – Yn' (X n p Wp) + Wp' X n p ' X np Wp
= Yn' Yn – 2 Yn' X n p Wp + Wp' X np ' X n p Wp
S を最小化するために(多変数空間中の変数が形成する「曲面」の最小
値 の 位 置 を イ メ ー ジ し て く だ さ い )、S を 変 数 の ベ ク ト ル Wp で 微 分 し( 後
述 ) 、 そ の 値 が ゼ ロ ベ ク ト ル に な る と き の Wp を 求 め ま す 。
Df(S, Wp) = -2 Yn' X n p + 2 X np ' X n p Wp = 0p'
こ こ で 、 S = Yn' Yn – 2 Yn' X n p Wp + Wp' X n p ' X n p Wp の 第 1 項 Yn' Yn に
は 、Wp が な い の で 、Wp で 微 分 す る と ゼ ロ に な り ま す 。第 2 項 の –2 Yn' X np
Wp と 第 3 項 の Wp' X np ' X n p Wp の 微 分 に つ い て は 後 述 し ま す 。 第 3 項 の 中
の X n p ' X np は 対 照 行 列 で す 。 よ っ て 、 上 式 か ら
X n p ' X np Wp = Yn' X n p
Wp を 求 め る た め に は Wp の 係 数 を Um( 単 位 行 列 )に す る 必 要 が あ る の
で 、 両 辺 に (X np ' X n p ) ^ を 左 積 し ま す 。
(X n p ' X n p ) ^ (X np ' X n p ) Wp = (X np ' X n p ) ^ Yn' X n p
Um Wp = (X n p ' X np ) ^ Yn' X n p
Wp = (X np ' X n p ) ^ Yn' X n p
125
Wp = (X np ' X n p ) ^ X np ' Yn
こ の よ う に し て 求 め た ベ ク ト ル Wp が 下 に 示 す 「 係 数 」 (Value)の 列 で す 。
Weight
P: Intercept
Value
Read
-3.819
Write
.740
Vocab.
.462
Std res.
1.157
1.545
「 予 測 値 」 ( 𝑦̂ ) は 前 述 の 式 (1) で 求 め ま す 。 残 差 ベ ク ト ル (Rn) と 標 準 残 差
(standard residual: Std.R.)は 、 そ れ ぞ れ 次 の 式 で 求 め ま す 。
Rn = Yn – En
Std.R. = (Rn' Rn / N) 1 /2
English
POINT
Expected Residual
d1
12.000
10.104
1.896
d2
11.000
12.926
-1.926
d3
13.000
13.207
-.207
d4
7.000
8.392
-1.392
d5
14.000
12.371
1.629
●逆行列
(1) 逆 行 列 の 定 義
正 方 行 列 (X pp )に つ い て 、
X p p Y pp = U pp (単 位 行 列 )
と な る 正 方 行 列 (Y p p )は X pp の「 逆 行 列 」(inverse matrix: X p p -1 )と よ ば れ ま す 。
逆行列が関係する次の演算は統計の計算によく使われます。ここでは、逆
行 列 を X p p -1 で は な く て 、 X p p ^の よ う に 表 記 し ま す 。
(a) X p p X pp ^ = U p p
X pp 1
2
× Xpp^
1
2
4
=
1
7
8
1
-5
2
9 10
2
4.5 -3.5
(b)
Xpp^
I
1 2
1 1 0
2 0 1
X p p ^ X pp = U p p
1
2 × X pp 1
2 = U pp 1 2
1
-5.0
4.0
1
7
8
1
1 0
2
4.5
-3.5
2
9 10
2
0 1
126
(2) 逆 行 列 の 性 質
(a) (X p p ^)^ = X pp
2 → Xpp^
X pp 1
2 → (X p p ^)^ 1
1
2
1
7
8
1
-5.0
4.0
1
7
8
2
9 10
2
4.5
-3.5
2
9 10
(b) (X p p Y p p )^ = Y pp ^ X p p ^
X pp 1 2 × Y pp 1 2 = X pp Ypp
1
→ (X p p Y p p )^
2
1
2
1
1 3
1
7 8
1
34 11
1
0.154
-0.085
2
2 4
2
9 1
2
50 20
2
-0.385
0.262
1
2
× Xpp^
Ypp^
1
2
1
-2.00
1.500
2
1.00
-0.500
1
2
= Y p p ^ X pp ^
1
-0.015
0.123
1
0.154
-0.085
2
0.136
-0.108
2
-0.385
0.262
(c) (X p p ')^ = (X p p ^)'
X pp 1
2
→ X pp ' 1
2
→
(X pp ')^
1
2
1
7
8
1
7
9
1
-5.0
4.5
2
9 10
2
8 10
2
4.0
-3.5
X pp 1
2
→ X pp ^
1
2
→ (X pp ^)'
1
2
1
7
8
1
-5.0
4.0
1
-5.0
4.5
2
9 10
2
4.5
-3.5
2
4.0
-3.5
(3) 逆 行 列 の 求 め 方
与 え ら れ た 行 列 (X p p )と 、 初 期 値 が 単 位 行 列 で あ る 行 列 (Z p p =U pp )を 同 時 に
変 形 し て い き ま す 。 X p p が 単 位 行 列 (U p p )に な る よ う に 、 X p p と Z p p に 左 か ら
Tp p を 繰 り 返 し て 掛 け て い き ま す 。 そ の た め に 、
(i) 1 つ の 行 全 体 に 実 数 倍 し 、 他 の 行 の 実 数 倍 を 加 算 す る
(ii) 2 つ の 行 を 交 換 す る
と い う 2 つ の 変 換 を 使 い ま す 。 こ れ ら の 変 換 を 可 能 に す る 変 形 行 列 T pp を
次 々 に 左 積 す る と 、Z p p が A pp の 逆 行 列 に な る こ と を 次 の 演 算 で 確 認 し ま し
ょ う (「 Gauss の 消 去 法 」 Gauss reduction)。
0.
X ( 0 ) , Z ( 0 ) = U [X, Z の 初 期 状 態 (0) ]
127
1.
X ( 1 ) = T ( 1 ) X (0 ) , Z (1 ) = T ( 1) U
[X (0) と Z ( 0 ) =U に T (1 ) を 左 積 ]
2.
X ( 2 ) = T ( 2 ) T ( 1 ) X ( 0) , Z ( 2) = T ( 2 ) T ( 1 ) U
[さ ら に T ( 2 ) を 左 積 ]
[さ ら に T ( 3 ) , …,T ( k) を 順 次 左 積 ]
(…)
3.
U = T ( k ) … T ( 2 ) T (1 ) X ( 0 ) [X ( 0) に T を 順 次 左 積 し U に 至 る ]
4.
Z ( k) = T ( k ) … T ( 2 ) T ( 1 ) U [Z ( 0 ) =U に T を 順 次 左 積 し Z ( k ) を 得 る ]
5.
U X (0 ) ^ = T ( k ) … T (2 ) T ( 1) X (0 ) X ( 0) ^
6.
X ( 0 ) ^ = T ( k) … T ( 2 ) T ( 1 ) U
7.
Z
( k)
=X
(0)
^
[3 の 両 辺 に X (0 ) ^を 右 積 ]
[← 5. U A = A; A A^ =U]
[4.右 辺 = 6.右 辺 、 よ っ て Z ( k) は X (0 ) の 逆 行 列 に な る ]
た と え ば 次 の 行 列 X (0 ) の 逆 行 列 を 求 め る こ と を 考 え ま し ょ う 。 以 下 の 演
算 の た め に 、作 業 用 の 行 列 T ( 1) と 出 力 用 の 単 位 行 列 Z ( 1 ) = U を 用 意 し ま す 。
目 的 は T ( 1) , T ( 2 ) , …, T ( k) の 左 積 を 繰 り 返 し て 、 X (k ) を 単 位 行 列 に す る こ と で
す。。
X(0)
1
2
3
Z(0)
1
2
3
1
0
2
1
1
1
0
0
2
2
1
2
2
0
1
0
3
2
1
1
3
0
0
1
は じ め に 、 X(1, 1)を 0 に す る た め に 次 の 演 算 を し ま す 。
R1 = R1 / X(1, 1)
こ れ は 、R1 を X(1, 1)で 割 っ て 新 た な R1 に す る 、と い う こ と で す 。こ こ
で は 、 X(1, 1)=0 な の で 割 り 算 が で き ま せ ん 。 そ の と き は 、 C1 が 0 で な い
行 と 交 換 し ま す 。 そ の 結 果 X (1 ) と な り ま す 。
R1 = R2, R2 = R1
X(1)
1
2
3
Z(1 )
1
2
3
1
2
1
2
2
0
1
0
2
0
2
1
1
1
0
0
3
2
1
1
3
0
0
1
こ う し て 、 新 た な X(1, 1)=2 で 先 の 除 算 を し ま す 。
R1 = R1 / X(1, 1) = R1 / 2
X(2)
1
2
3
Z(2 )
1
2
3
1
2/2=1
1/2
2/2=1
1
0/2=0
1/2
0/2=0
2
0
2
1
2
1
0
0
3
2
1
1
3
0
0
1
128
次 に 、R2 と R3 を R1 を 使 っ て 、そ れ ぞ れ の C1 の 値 を 0 に し ま す 。こ こ
で は R2 の X(2, 1)=0 な の で 、 R3 だ け を 次 の よ う に し て 変 え ま す 。
R3 = R3 – X(3, 1) R1 = R3 – 2 R1
X(3)
1
2
3
Z(3 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0
2
1
2
1
0
0
3
2-2x1=0
1-2x(1/2)=0
1-2x1=-1
3
0-2x0=0
0-2x1/2=-1
1-2x0=1
こ れ で C1 は 完 成 で す 。 次 に 同 様 な こ と を C2 で 行 い ま す 。
X(4)
1
2
3
Z(4 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0
2
1
2
1
0
0
3
0
0
-1
3
0
-1
1
今 度 は 、 X(2,2)=2 は 0 で な い の で 、 そ の ま ま R2 を 2 で 割 り ま す 。
R2 = R2 / X(2,2) = R2 / 2
X(5)
1
2
3
Z(5 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0/2=0
2/2=1
1/2
2
1/2
0/2
0/2
3
0
0
-1
3
0
-1
1
そ し て 、 R1 と R2 の C2 を 次 の 演 算 で 、 0 に し ま す 。
R1 = R1 – X(1, 2) R2 = R1 – 1/2 R2
R3 = R3 – X(3, 2) R2 = R3 – 0 R2
X(6)
1
2
3
Z(6 )
1
2
3
1
1 -(1/2)x0
1 /2-(1/2)x1
1 -(1/2)x(1/2
1
0-(1/2)x(1/2)
1/2-(1/2)x0
0 -(1/2)x0
=1
=0
)=3/4
=1/4
=1/2
=0
2
0
1
1 /2
2
1/2
0
0
3
0 -0x0=0
0 -0x1=0
-1 -0x(1/2)= -1
3
0 -0x(1/2)=0
-1 -0x0= -1
1-0x0=1
こ れ で C1 は 完 成 で す 。 次 に 同 様 な こ と を C3 で 行 い ま す 。
X(7)
1
2
3
Z(7 )
1
2
3
1
1
0
3/4
1
1/4
1/2
0
2
0
1
1/2
2
1/2
0
0
3
0
0
-1
3
0
-1
1
129
R3 = R3 / X(3, 3) = R3 / -1
X(8)
1
2
3
Z(8 )
1
2
3
1
1
0
3/4
1
1/4
1/2
0
2
0
1
1/2
2
1/2
0
0
3
0/-1=0
0/-1=0
-1/-1=1
3
0/-1=0
-1/-1=1
1/-1=-1
R1 = R1 – X(1, 3) R3 = R1 – 3/4 R3
R2 = R1 – X(2, 3) R3 = R1 – 1/2 R3
X(9)
1
2
3
Z(9 )
1
2
3
1
1 -(3/4)x0
0-(3/4)x0
3 /4-(3/4)x1
1
1/4-(3/4)x0
1/2 -(3/4)x1
0 -(3/4)- 1
=1
=0
=0
=-1/4
=-1/4
=3/4
0 -(1/2)x0
1-(1/2)x0
1 /2-(1/2)x1
1 /2-(1/2)x9
0 -(1/2)x1
0 -(1/2)x -1
=0
=1
=0
=1/2
=-1/2
=1/2
0
0
1
0
1
-1
2
3
2
3
こ れ ら の 演 算 の 結 果 、次 の よ う に X は 単 位 行 列 に な り 、Z に X の 逆 行 列
が得られました。
X(k)
1
2
3
Z(k )
1
2
3
1
1
0
0
1
-1/4
-1/4
3/4
2
0
1
0
2
1/2
-1/2
1/2
3
0
0
1
3
0
1
-1
プ ロ グ ラ ム で 実 行 す る と 、 確 か に X の 逆 行 列 X^が 得 ら れ 、 X と X^の 行
列積を計算すると確かに単位行列が得られます。
X 1 2 3
X^
1
2
3
X X^ 1 2 3
1
0 2 1
1
-.250
-.250
.750
1
1 0 0
2
2 1 2
2
.500
-.500
.500
2
0 1 0
3
2 1 1
3
.000 1.000 -1.000
3
0 0 1
* 長 谷 川 (2000:129-136)を 参 照 し ま し た 。プ ロ グ ラ ム は 縄 田 (1999:58-80)を 参
照しました。
(4) 逆 行 列 演 算 の 証 明
次の演算はしばしば使われます。しっかりと理解しておくために証明を
しておきましょう。
[1]
U p p ^ = U pp
130
U p p U pp ^ = U p p [逆 行 列 の 定 義 : X X^ = U, こ こ で X = U p p ]
U p p ^ = U pp
[2]
[U X = X, X=U]
(A p p ^)^ = A p p
A p p ^ (A p p ^)^ = U p p
[逆 行 列 の 定 義 : A A^ = U]
[両 辺 に A p p を 左 積 ]
A p p A p p ^ (A p p ^)^ = A p p U pp
U p p (A p p ^)^ = A p p U p p
(A p p ^)^ = A p p
[3]
[逆 行 列 の 定 義 : A A^ = U]
[X U = X; U X = X]
(A p p B p p )^ = B pp ^ A p p ^
(A p p B p p ) (A p p B pp )^ = U p p
[X X^ = U, X = A pp B pp ]
(A p p B p p ) (A p p B pp )^ = A p p A p p ^ [A A^ = U]
(A p p B p p ) (A p p B pp )^ = A p p U p p A p p ^
[A = A U]
(A p p B p p ) (A p p B pp )^ = A p p B p p B pp ^ A p p ^ [U = B B^]
(A p p B p p )^ = B pp ^ A p p ^ [両 辺 か ら A pp B pp を 削 除 ]
[4]
Ap p Ap p ^ = Ap p^ Ap p
A p p A p p ^ = U p p [逆 行 列 の 定 義 : A A^ = U]
(A p p ^ A p p ) (A p p A p p ^) = (A p p ^ A p p ) U p p
A p p ^ A p p A p p A pp ^ = A p p ^ A p p
[両 辺 に A^ A を 左 積 ]
[X U = X, X=A p p ^ A p p ]
U p p A pp A p p ^ = A p p ^ A p p [X U = X, X=A p p ^ A p p ]
Ap p Ap p ^ = Ap p^ Ap p
[U A = A]
* [2, 3]は 足 立 (2005:110-111)を 参 照 し ま し た 。
●変形行列
単位行列の一部を変更した行変形用行列を作成し、これをある行列に左
積すると、一定の行変形ができます。ここではそのような行列を「変形行
列 」 Ttransformation matrix と よ ぶ こ と に し ま す 。 こ れ ら を 後 述 す る 逆 行 列
の計算に使います。
(a) R1 = 0
Tpp x y z × App x y z = R pp x y z
1
0 0 0
1
1 2 3
1
0 0 0
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(b) R1 = R2
131
Tpp x y z × App x y z = R pp x y z
1
0 1 0
1
1 2 3
1
4 5 6
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(c) R1 ~ R2 (交 換 )
Tpp x y z × App x y z = R pp x y z
1
0 1 0
1
1 2 3
1
4 5 6
2
1 0 0
2
4 5 6
2
1 2 3
3
0 0 1
3
7 8 9
3
7 8 9
(d) R1 = 3 R1 (倍 数 )
Tpp x y z × App x y z = R pp x y z
1
3 0 0
1
1 2 3
1
3 6 9
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(e) R2 = R2 + R1
Tpp x y z ×
App
x y z = R pp x y z
1
1 0 0
1
1 2 3
1
1 2 3
2
1 1 0
2
4 5 6
2
5 7 9
3
0 0 1
3
7 8 9
3
7 8 9
(f) R2 = R2 + 2 R1
Tpp x y z × App x y z = R pp x y
z
1
1 0 0
1
1 2 3
1
1 2
3
2
2 1 0
2
4 5 6
2
6 9 12
3
0 0 1
3
7 8 9
3
7 8
Tpp x y z × App x y z
R pp
x
y
z
1
2
3
9
(g) R2 = 3 R2 + 2 R1
1
1 0 0
1
1 2 3
1
2
2 3 0
2
4 5 6
2
3
0 0 1
3
7 8 9
3
14 19 24
7
8
9
最後の演算を見ると、変形行列の対角成分で自分の行を積算し、非対角
成分でその列番にあたる行を積算していることがわかります。行のゼロ化
[1]や 行 の 移 動 [2, 3]も 同 様 で す 。
132
●行列の微分
行列をベクトルで微分する、という演算をします。行列の積の成分を展
開すればベクトルで微分した結果が行列とベクトルの積になることがわか
ります。
[1] は じ め に 、 次 の よ う な 行 列 の 微 分 に つ い て 見 ま し ょ う 。
T p p = Yp’ X np
𝑥11
𝑥21
Wp = [y 1 , y 2 , ..., y p ] [ …
𝑥𝑛1
𝑤1
𝑤2
を , ベ ク ト ル Wp = [ … ]
𝑤𝑝
𝑥12
𝑥22
…
𝑥𝑛2
…
…
…
…
𝑥1𝑝
𝑤1
𝑥2𝑝
𝑤2
… ] […]
𝑥𝑛𝑝
𝑤𝑝
で 微 分 す る 、 と い う 意 味 を 理 解 す る た め に Tp p
を展開します。
T p p = [y 1 x 11 + y 1 x 12 + ... + y 1 x 1 p ,
y 1 x 2 1 + y 2 x 2 2 + ... + y 2 x 2 p ,
...,
y 1 x n 1 + y 2 x n 2 w 2 + ... + y p x n p
𝑤1
𝑤2
] […]
𝑤𝑝
= y 1 x 11 w 1 + y 1 x 12 w 2 + ... + y 1 x 1p w 1
+ y 1 x 21 w 1 + y 2 x 22 w 2 + ... + y 2 x 2p w 2
+ ...
+ y 1 x n1 w 1 + y p x n2 w 2 + ... + y p x np w p
偏微分の記号
𝜕𝑆
𝜕𝑎
を Df(S, w)で 示 す と( S を w で 微 分 す る 、と い う 意 味 )、
Df(T p p , w 1 ) = y 1 x 1 1 + y 2 x 21
+
Df(T p p , w 2 ) = y 1 x 1 2 + y 2 x 22
+
... + y 1 x n 1
... + y 2 x n 2
…
(上 式 の 縦 1 列 目 )
…
(上 式 の 縦 2 列 目 )
…
(上 式 の 縦 p 列 目 )
...
Df(T p p , w p )= y 1 x 1 p + y 2 x 2 p + ... + y p x n p
これらをまとめて示すと次のようになります。
Df(T p p , Yp)= Df(Yp’ X p p Wp, Wp) = Yp' X p p
[← 縦 ベ ク ト ル ]
高等学校で既習の次の微分を思い出して、比べてみてください。
133
Df(yxw, w) = yx
[2] 次 は 、 微 分 す る 項 (Wp)が 2 乗 さ れ て い る 場 合 で す 。 た と え ば 、
T p p = Wp’ X p p
𝑥11
𝑥12
Wp = [w 1 , w 2 , ..., w p ] [ …
𝑥1𝑝
𝑥12
𝑥22
…
𝑥2𝑝
…
…
…
…
𝑥1𝑝
𝑤1
𝑥2𝑝 𝑤2
… ] […]
𝑥𝑝𝑝 𝑤𝑝
𝑤1
𝑤2
を ベ ク ト ル Wp = [ … ]で 微 分 し ま す 。 こ こ で は X p p を 対 照 行 列 と し ま す 。
𝑤𝑝
T p p = [w 1 x 11 + w 1 x 12 + ... + w 1 x 1 p ,
w 1 x 21 + w 2 x 22 + ... + w 2 x 2 p ,
...,
w 1 x n1 + w 2 x n2 w 2 + ... + w p x n p
𝑤1
𝑤2
] […]
𝑤𝑝
= w 1 x 11 w 1 + w 1 x 1 2 w 2 + ... + w 1 x 1 p w p
+ w 2 x 12 w 1 + w 2 x 2 2 w 2 + ... + w 2 x 2 p w p
+ ...
+ w p x 1p w 1 + w p x 2 p w 2 + ... + w p x pp w p
= x 11 w 1 2 + w 1 x 12 w 2 + ... + w 1 x 1p w p
+ w 2 x 12 w 1 + x 2 2 w 2 2 + ... + w 2 x 2p w p
+ ...
+ w p x 1p w 1 + w p x 2 p w 2 + ... + x p p w p 2
は じ め に 、 w1 を 含 む 成 分 は 1 行 と 1 列 の 成 分 で す 。 よ っ て 、
Df(T p p , w 1 ) = 2w 1 x 11 + 2(w 2 x 12 + ... + w p x 1p ) = 2(w 1 x 1 1 + w 2 x 12 + ... + w p x 1 p )
同 様 に 、 w2 を 含 む 成 分 は 2 行 と 2 列 の 成 分 で す 。 よ っ て 、
Df(T p p , w 2 ) = 2w 2 x 12 + 2(w 2 x 22 + ... + 2w p x 2 p ) = 2(w 2 x 12 + w 2 x 22 + ... + w p x 2p )
...
同様にして、
Df(T p p , w p ) = 2w p x 1p + 2(w 2 x 2p + ... + w p x pp ) = 2(w p x 1 p +
以上をまとめて示すと次のようになります。
134
2
x 2p + ... + w p x p p )
Df(T p p , Wp) = Diff. (Wp’ X pp Wp, Wp) = 2 X p p Wp
次の微分と比べてみてください。
Df(wxw, w) = 2xw
■文字頻度の変遷と年代
下 左 表 は 、 13~19 世 紀 の 文 字 母 数 を 揃 え た ス ペ イ ン 語 文 献 (LEMI Corpus)の
特 定 の 文 字 の 頻 度 と 文 献 の 成 立 年 代 (Y)を 示 し ま す 。下 右 表 は 重 回 帰 分 析 の
結果です。
Obra
>
ñ
è
á
τ
Y
Obra
Y
Expected
Residual
Cid
836
144
1207
Cid
1207
1396
-189
Fazienda
902
157
1220
Fazienda
1220
1382
-162
Alcalá
921
444
1230
Alcalá
1230
1249
-19
1,349
301
1270
GE
1270
1266
4
877
78
1300
Alexandre
1300
1421
-121
Lucanor
1,877
227
1330
Lucanor
1330
1241
89
Troyana
1,105
399
1350
Troyana
1350
1249
101
LBA
1,366
146
1389
LBA
1389
1335
54
Alba
464
156
543
1433
Alba
1433
1485
-52
1,024
52
215
1450
Especulo
1450
1419
31
Gramática
577
51
192
1492
Gramática
1492
1482
10
Celestina
573
41
131
1499
Celestina
1499
1491
8
Sumario
329
70
322
1514
Sumario
1514
1474
40
Diálogo
561
1535
Diálogo
1535
1492
43
Lazarillo
297
33
1554
Lazarillo
1554
1505
49
Casada
139
40
1583
Casada
1583
1598
-15
Quijote
165
57
3
2
1605
Quijote
1605
1621
-16
Buscón
93
47
7
1
1626
Buscón
1626
1617
9
Criticón
147
45
20
1651
Criticón
1651
1616
35
Instante
4
21
94
1677
Instante
1677
1641
36
Austria
7
60
39
1704
Austria
1704
1665
39
27
3
1726
Autoridades
1726
1780
-54
123
108
1747
Picarillo
1747
1798
-51
GE
Alexandre
Especulo
Autoridades
Picarillo
4
4
142
2
196
Delincuente
42
229
1787
Delincuente
1787
1831
-44
Ortografía
35
93
1815
Ortografía
1815
1694
121
Diablo
55
223
1841
Diablo
1841
1845
-4
Sombrero
89
222
1874
Sombrero
1874
1894
-20
135
Perfecta
63
184
1899
Perfecta
1899
1820
79
次は、切片と変数の係数を示します。
Intercept
>
1554.853
ñ
- .112
è
1.475
τ
á
.572
.936
Std res.
- .457
70.948
●数量化1類
次 の よ う に 、説 明 変 数 が 数 量 で は な く 、質 的 な デ ー タ (v)を 扱 う と き 、こ れ
を 0-1 に 変 換 し て 、 同 様 に 重 回 帰 分 析 を す る こ と が で き ま す 。 こ の 方 法 は
「 数 量 化 1 類 」 Quantification method of first type と よ ば れ ま す 。
English Read Write Vocab. POINT
d1
v
v
English POINT Expected Residual
12
d1
12.000
12.000
.000
v
11
d2
11.000
11.000
.000
v
13
d3
13.000
13.000
.000
d2
v
d3
v
d4
v
v
7
d4
7.000
10.500
-3.500
d5
v
v
14
d5
14.000
10.500
3.500
Weight P: Intercept
Value
Read
Write
Vocab. Std res.
14.000 -1.500 -2.000
.500
2.214
この方法を使用するにあたって、注意しなければならないのは、次のよ
うなケースです。
English Read Write Vocab. POINT
d1
v
v
d2
v
v
d3
v
d4
v
d5
v
English Read White Vocab. POINT
12
d1
v
12
v
11
d2
v
v
11
v
13
d3
v
v
7
d4
v
v
7
v
14
d5
v
v
14
v
13
上 左 表 で は 、 Read が す べ て 選 択 さ れ て い ま す の で 、 こ の Read に は 弁 別
す る 情 報 が あ り ま せ ん 。 ま た 、 右 表 で は Write と Vocab. が 相 補 分 布
complementary distribution を し て い ま す 。 こ の 場 合 は 、 ど ち ら か を 選 択 す
れば、他方が決まっているので、どちらか 1 つにしか弁別する情報がない
ことになります。このような行列ではすべて逆行列が存在せず分析ができ
ないので、データから該当する行を取捨選択しなければなりません。
136
5.5.2. 主 成 分 分 析
Pearson の 「 主 成 分 分 析 」 (Principal component analysis)を 使 っ て 、デ ー タ
の各変数に適当な重み(ウェイト)を共通に掛け、データの変数の分散を
最大にし、かつ変数間の相関係数がゼロになるようにすると、そのような
重みは新たに総合的な意味をもつ変数となります。そのような重みを掛け
られた個体の数値にもその新しい意味が与えられます。たとえば生徒の外
国語文解釈テストと外国語語彙解釈テストの結果を総合して、新しく外国
語解釈能力を示すような数値が得られます。
は じ め に デ ー タ 行 列 (X n p )を 標 準 化( → 3.5.2)し ま す 。こ れ に 適 当 な 重 み ベ
ク ト ル (Wp)を 掛 け る と Zn と い う 合 成 さ れ た 変 数 ベ ク ト ル が で き ま す 。
[1]
Zn = X n p Wp
こ の 標 準 化 合 成 変 数 ベ ク ト ル Zn の 分 散 (V)を 求 め ま す 。
[2]
(● 後 述 「 標 準 化 合 成 変 数 ベ ク ト ル の
V = (Zn' Zn) / N
平均と分散」)
= (X n p Wp)' (X n p Wp) / N
[1]
= Wp' X n p ' X np Wp / N
[(A B)' = B' A]
= Wp' (X n p ' X n p / N) Wp [N は ス カ ラ ー な の で 移 動 可 ]
= Wp' R p p Wp
[R p p = X n p ' X n p / N]
こ の よ う な 重 み ベ ク ト ル Wp の 条 件 と し て そ の 長 さ ( 成 分 の 2 乗 和 ) を 1
とします。(このような条件をつけないと重みベクトルは無数に存在する
ことになります。)
[3]
Wp' Wp = 1
こ の 条 件 [3]の も と で [2]分 散 V の 最 大 値 を 求 め る に は 、
F = Wp' R p p Wp – L (Wp' Wp – 1)
と い う 式 F を Wp で 偏 微 分 し た 値 を 0 と し ま す 。 L は ラ グ ラ ン ジ ュ 乗 数 で
す(●後述「ラグランジュの未定乗数法」)。
[4a]
Df(F, Wp) = 2 R pp Wp – 2 L Wp = 0
[4b]
R p p Wp = L Wp
[4a の 中 項 の 左 辺 の L Wp を 右 辺 に 移 項 ]
こ の 式( 固 有 方 程 式 )か ら 固 有 値 (L)と 固 有 ベ ク ト ル (Wp)を 求 め ま す 。( →
後述)
137
固有値も固有ベクトルも変数の数だけ存在します。それらを新しい合成変
数(「 成 分 」component)と し て 、固 有 値 の 大 き さ に よ っ て 順 に 成 分 番 号 を
つけます。固有値が大きい順にデータの分散を強く反映しています。次が
その分析例です。
3 subject s
English
Lat in
Physics
#2
#3
A
56
59
54
A
- .104
1.197
- .078
B
28
88
20
B
- 2.696
- .657
.195
C
43
64
32
C
- 1.220
.253
- .368
D
50
16
100
D
2.056
- .228
- .090
E
58
51
78
E
.783
1.113
.293
F
45
48
66
F
.141
- .006
.027
G
32
22
90
G
1.041
- 1.672
.020
PCA.Vr.
English
Latin
1
.349
- .651
Physics
2
3
.930 - .113
.327
.685
.674 - .166
.719
PCA.Id.
#1
P.C.A.
1
2
3
E.value
2.102
.859
.039
●固有方程式
下左表はデータ行列、下右表はその相関係数行列です。
Result
English
Latin
Science
R pp
A
45
48
66
E
B
56
59
54
L
C
58
51
78
S
D
77
72
20
E
43
44
32
F
58
34
90
G
50
53
100
English
Latin
Science
1.000
.643
-.335
.643 1.000
-.545
-.335
-.545
1.000
こ の よ う な 正 方 行 列 Rp p に お い て 、
R p p Ap = L Ap
の 等 式( 「 固 有 方 程 式 」 eigen equation と よ ば れ ま す )が 成 り 立 つ と き 、こ
の 式 の 中 の 数 値 L は 「 固 有 値 」 eigen value と よ ば れ 、 ベ ク ト ル Ap は 「 固
有 ベ ク ト ル 」 eigen vector と よ ば れ ま す 。 固 有 値 (L)と 固 有 ベ ク ト ル (Ap)は
R p p の 列 ( =行 ) の 数 だ け あ る の で 、 こ こ で は そ れ ら の 集 合 を 「 固 有 値 ベ ク
138
ト ル 」 eigen value vector: Lp と 「 固 有 行 列 」 eigen matrix: E p p と よ ぶ こ と に
します。よって、先の式は次のようになります。
R p p E pp = Lp E pp
下 左 表 が 相 関 行 列 (R p p )、 下 中 表 が そ の 固 有 行 列 (E pp )、 下 右 表 が 両 者 の 行
列 積 (R p p E p p )で す 。
R pp
E
L
S
Em[M1]
1
2
3
M1 M2
1
2
3
E
1.000
.643
-.335
E
.569
.616
-.545
E
1.152
.414
-.165
L
.643
1.000
-.545
L
.635
.093
.767
L
1.286
.062
.232
S
-.335
-.545
1.000
S
-.523
.782
.338
S
-1.060
.526
.102
次 の 左 表 が 上 の 相 関 行 列 の 固 有 値 ベ ク ト ル (Lp) 、 中 表 が そ の 固 有 行 列
(E p p )、右 表 が 両 者 の 積 (Lp E p p )で す 。こ こ で 上 と 下 の そ れ ぞ れ の 右 表 が 同 じ
に な る こ と を 確 認 し て く だ さ い (R p p E p p = Lp E p p )。
Ev[M1]
1
2
3
Em[M1]
1
2
3
M1^M2
1
2
3
E. value
2.026
.672
.303
E
.569
.616
-.545
E
1.152
.414
-.165
L
.635
.093
.767
L
1.286
.062
.232
S
-.523
.782
.338
S
-1.059
.526
.102
次のように固有行列の中のそれぞれの固有ベクトルは長さが 1 になり,
内 積 が ゼ ロ に な る こ と を 確 認 し ま す 。 (E pp ' E pp = U p p [単 位 行 列 ])。
E pp'
E
L
S
1
.569
.635
2
.616
3
-.545
X
E pp
1
2
3
-.523
E
.569
.616
.093
.782
L
.635
.767
.338
S
-.523
=
X
1
2
3
-.545
1
1.000
.000
.000
.093
.767
2
.000
1.000
.000
.782
.338
3
.000
.000
1.000
●冪乗法
R p p の 固 有 値 ベ ク ト ル と 固 有 行 列 を 求 め る た め に「 冪 乗 法 」( べ き じ ょ う
ほ う : Power method)を 使 い ま す 。こ の 方 法 は 最 大 固 有 値 を 求 め 、そ の 残 差
行列を使って次のステップで残差行列の最大固有値を求める、というステ
ップを次々に列の数だけ行います。
R p p E pp = Lp E pp
こ の 式 の Ep p は 、 そ れ を 倍 数 に し て も 成 立 す る の で 無 数 に 存 在 し ま す 。
そ こ で E pp 内 の そ れ ぞ れ の ベ ク ト ル (Ap)の 長 さ( 2 乗 和 )を 1 と す る 条 件 を
つ け ま す 。 E p p の そ れ ぞ れ の 列 ベ ク ト ル を Ap(1), Ap(2), …, Ap(p)と す る と
139
Ap(i)' Ap(i) = 1
[i = 1, 2, …, p]
そ し て Ap(i)と Ap(j) [i<>j]が 直 交 す る 、 と い う 条 件 を 加 え ま す 。
Ap(i)' Ap(j) = 0
[i, j = 1, 2, …, p; i <> j]
よって、
E p p ' E pp = U pp (単 位 行 列 )
は じ め に E pp の そ れ ぞ れ の 列 ベ ク ト ル を Ap(1), Ap(2), …, Ap(p)と す る と 、
そ れ ら の 和 (Sp)の 初 期 状 態 Sp (0 ) を 次 に よ う に し ま す 。
Sp ( 0 ) = Ap(1) + Ap(2) + … + Ap(p)
こ の 両 辺 に Rp p を 次 々 に 左 積 し て い き ま す 。
Sp (1 ) = R p p Sp ( 0) = R p p Ap(1) + R pp Ap(2) + … + R pp Ap(p)
[両 辺 に R pp を 左 積 ]
= L(1) Ap(1) + L(2) Ap(2) + … + L(p) Ap(p)
[← R p p Ap = L Ap]
Sp (2 ) = R p p 2 Sp (0 ) = L(1) 2 Ap(1) + L(2) 2 Ap(2) + … + L(p) 2 Ap(p)
[さ ら に 両 辺 に R pp を 左 積 ]
(…) [順 次 両 辺 に R pp を 左 積 ]
Sp (k ) = R p p k Sp (0 ) = L(1) k Ap(1) + L(2) k Ap(2) + … + L(p) k Ap(p)
こ こ で 右 辺 の L(1), L(2), …, L(p)の 中 の 最 大 の も の を L(m)と し ま す 。
Lm > L(1), L(2), …, L(p)
先の式は、
Sp (k ) = L(1) k Ap(1) + … + L(m) k Ap(m) + … + L(p) k Ap(p) [L(m)が 最 大 L]
= Lm k [L(1) k /L(m) k A(p)1 + … + Ap(m) + … + L(p) k /L(m) k Ap(p)]
[Lm k を 外 に 出 す ]
k を 十 分 に 大 き く す る と […]の 中 の Ap(m)以 外 は 、 そ の 係 数 の 分 数 が ゼ
ロに近づくので無視できるほど小さくなります。よって、
Sp (k ) ≒ L(m) k Ap(m)
[k → ∞ ,
L(p) k /L(m) k → 0]
最 初 の( 最 大 の )固 有 値 L(1)と 固 有 ベ ク ト ル Ap(1)を 次 の 式 で 求 め ま す 。
L(1) = [Sp ( k ) ' Sp ( k ) ] 1 /2
[L の 長 さ は 1]
140
Ap(1) = Sp ( k ) / L(1)
[Sp ( k) ≒ L(m) k Ap(m)]
次 に 大 き な 固 有 値 L(2)と 固 有 ベ ク ト ル Ap(2)を 求 め る た め の R pp (2)は 、最
初 の R p p (1)か ら 一 定 の 行 列 を 引 い た 残 差 行 列 に な り ま す 。 そ の た め に R p p
を 次 の よ う に ス ペ ク ト ル 分 解 (Spectral decomposition: 後 述 ) し ま す 。
R p p = Lp * E pp E p p '
こ の 式 を 展 開 す る と 次 の よ う な ス ペ ク ト ル 分 解 の 式 に な り ま す( 後 述 )。
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp E pp E p p '
そ こ で 、 上 式 か ら L1 A p 1 A p 1 'を 除 い た 残 差 行 列 を 次 の ス テ ッ プ の R pp (2)と
します。
R p p (2) = R pp (1) – L(1) Ap(1) Ap(1)'
こ の 新 た な R pp (2)を 使 っ て 、 先 の プ ロ セ ス を 繰 り 返 し ま す 。 同 じ プ ロ セ
ス を 、R p p (3), R pp (4), …, R pp (p)ま で の う ち 、望 む 固 有 値 の 数 だ け 繰 り 返 し て
終了します。
●固有行列の直交性
固 有 行 列 内 の 2 つ の 固 有 ベ ク ト ル Ap(i), Ap(j)を 次 の よ う に 掛 け 合 わ せ る
と、その行列積は 0 になります。これは行列が直交していることを示しま
す。
Ap(i)' Ap(j) = 0
[i<>j]
このことを次のようにして導きます。
[固 有 方 程 式 の 定 義 ]
1.
R p p Ap = L Ap
2.
Ap(i)' R p p Ap(j) = Ap(i)' L(j) Ap(j)
3.
= L(j) Ap(i)' Ap(j)
4.
[1.の 両 辺 に Ap(i)'を 左 積 ]
[L(j)は ス カ ラ ー な の で 移 動 可 ]
Ap(i)' R p p Ap(j) = Ap(i)' R p p ' Ap(j) [R は 対 照 行 列 な の で R = R']
5.
= [R p p Ap(i)]' Ap(j)
[A' B' = (BA)']
6.
= [Ap(j)' R p p ' Ap(i)]'
[id.]
7.
= [Ap(j)' L(i) Ap(i)]'
[R p p Ap(i) = L(i) Ap(i)]
8.
= L(i) [Ap(j)' Ap(i)]'
[L(i)は ス カ ラ ー ]
9.
= L(i) Ap(i)' Ap(j)
[A' B' = (BA)']
[2.左 辺 = 9.左 辺 ]
10.
L(j) Ap(i)' Ap(j) = L(i) Ap(i)' Ap(j)
11.
[L(i) – L(j)] Ap(i)' Ap(j) = 0
[左 辺 を 右 辺 に 移 項 ]
12.
Ap(i)' Ap(j) = 0
[L(i) <> L(j)]
141
ベクトル成分の 2 乗和が 0 であることは、それらのベクトルが直交して
い る こ と を 示 し ま す 。ま た 、前 提 と し て 固 有 ベ ク ト ル の 長 さ は 1 と し ま す 。
13.
Ap(i)' Ap(i) = 1
12.と 13.を す べ て の 固 有 ベ ク ト ル に つ い て み る と 、 次 の 式 に な り ま す 。
14.
[A p p は 単 位 行 列 ]
Ap p ' Ap p = U p p
●スペクトル分解
次 の 式 は Rp p の ス ペ ク ト ル 分 解 を 示 し た も の で す 。
a.
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p '
この式を導くために次を準備します。
[先 述 の 固 有 行 列 の 直 交 性 を 示 す 14.]
b1.
Ap p ' Ap p = U p p
b2.
A p p ^ A p p = U p p [逆 行 列 の 定 義 : A^ A = U]
b3.
Ap p ' = Ap p ^
b4.
(A p p ')^ A p p ' = U p p
[逆 行 列 の 定 義 : A^ A = U]
b5
(A p p ^)' A p p ' = U p p
[逆 行 列 の 規 則 : (A')^ = (A^)']
b6
(A p p ')' A p p ' = U p p
[b3]
b7
Ap p Ap p ' = U p p
b8
Ap p ' Ap p = Ap p Ap p ' = U p p
[b1, b2]
[(A')' = A]
[b1, b7]
これで準備ができたので固有方程式から始めます。
[固 有 方 程 式 ]
c1.
R p p A pp = Lp A p p
c2.
R p p A pp A p p ' = Lp A p p A p p '
[両 辺 に A p p 'を 右 積 ]
c3.
R p p A pp ' A p p = Lp A p p A p p '
[b8: A p p ' A p p = A p p A p p ']
c4.
R p p A pp ^ A p p = Lp A p p A p p '
[b3: A p p ' = A p p ^]
c5.
R p p U pp = Lp A p p A p p '
[c4, b2: A p p ^ A p p = U p p ]
c6.
R p p = Lp A p p A p p '
[R U = R]
こ の c6 を 展 開 す る と a.の 式 に な り ま す 。a の 右 辺 の そ れ ぞ れ の 項 Lp(i) Ap(i)
Ap(i)' を 展 開 す る と 次 の よ う に な り ま す 。
d
𝐴𝑝(1, 𝑖)
Lp(i) Ap(i) Ap(i)' = Lp [𝐴𝑝(…2, 𝑖 )] [Ap(i,1), Ap(i,2), … Ap(i,p)]
𝐴(𝑝, 𝑖)
* 冪 乗 法 に つ い て は 白 井 (2009)を 参 照 し ま し た 。 固 有 ベ ク ト ル の 直 交 性 に
142
つ い て は 足 立 (2005)を 参 照 し 、 ス ペ ク ト ル 分 解 に つ い て は 足 立 (2005)と 岩
崎 ・ 吉 田 (2006)を 参 照 し ま し た 。
固 有 値 ベ ク ト ル と 固 有 行 列 を 導 出 す る プ ロ グ ラ ム の 手 順 は 、 R pp Ap = L
Ap か ら 、 Ap ← (R p p Ap) / L を 導 き 、 こ れ を Ap に 変 化 が な く な る ま で 繰
り 返 し ま す 。 は じ め に Ap を 単 位 ベ ク ト ル (U p1 )と し ま す 。
Ap ← U p1
次 の 3 つ の プ ロ セ ス を Ap に 変 化 が な く な る ま で 繰 り 返 し ま す 。
Ap ← R pp Ap
L ← (Ap' Ap) 1 /2
Ap ← Ap / L
こ れ で 、最 初 の( 最 大 の )固 有 値 と 固 有 ベ ク ト ル が 求 め ら れ ま し た 。次 に 、
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p '
から、
R p p (2) = R pp ( 1) – L1 A p 1 A p 1 '
を 計 算 し 、R pp (2)の 最 大 の 固 有 値 と 固 有 ベ ク ト ル を 求 め ま す 。以 下 同 様 に 、
R p p (p)ま で を 求 め て 、最 終 的 な 固 有 値 の 集 合 で あ る 固 有 値 ベ ク ト ル (Lp)と 固
有 ベ ク ト ル の 集 合 で あ る 固 有 行 列 (A p p )を 完 成 し ま す 。
●ラグランジュの未定乗数法
「 ラ グ ラ ン ジ ュ の 未 定 乗 数 法 」 (Lagrange multiplier method)を 使 っ た 微 分 を
します。次の関数
Y = f (x 1 , x 2 , …, x n )
(1)
の 極 値 を 求 め る た め に 、 Y の (x1, x2, …, xn)に よ る 偏 微 分
Df(Y, x1)=0, Df(Y, x2)=0, …, Df(Y, xn)=0
か ら x 1 , x 2 , …, x n を 求 め ま す 。 こ の と き 、
G = g(x 1 , x 2 , …, x n ) = 0
(2)
というような別の条件がついていることがあります。このように条件付き
の 関 数 を 微 分 す る と き に は Lagrange の 未 定 乗 数 L を つ け て 、
143
W
=Y −LG
= f (x 1 , x 2 , …, x n ) – L g(x 1 , x 2 , …, x n )
(3)
こ の W を 次 の よ う に x 1 , x 2 , …, x n , L で 微 分 し W の 極 値 を 求 め ま す 。
Df(W, x 1 ) = 0, Df(W, x 2 ) = 0, …, Df(W, x p ) = 0, Df(W, L) = 0
(3)の W= Y – L G を 代 入 す る と 、 そ れ ぞ れ 次 の よ う に な り ま す 。
Df(W, x 1 ) = Df(Y, x 1 ) – L Df(G, x 1 ) = 0
Df(W, x 2 ) = Df(Y, x 2 ) – L Df(G, x 2 ) = 0
(…)
Df(W, x n ) = Df(Y, x n ) – L Df(G, x n ) = 0
そして、最後の式(下線)は次のようになります。
Df(W, L) = Df(Y – L G, L) = – G = 0
[Y は ゼ ロ ]
よって
G =0
こ の よ う に W を そ れ ぞ れ の 未 知 数 で 微 分 す る と 、 た し か に (2)の 条 件 が 満
たされることがわかります。この理由から条件付き関数を微分するときは
そ の 条 件 に L と い う 乗 数 を つ け た 式 (3)を 使 っ て x 1 , x 2 , …, x n , L を 求 め る 、
と い う 方 法 を と り ま す 。 ( * 小 林 (1967:89-90)を 参 照 し ま し た 。 )
●重みと得点のグラフ
「 項 目 散 布 図 」の「 行 」(Row)( → 2.1.5.)を 使 っ て 、ウ ェ イ ト と ス コ ア の 散
布図を描きます。ここでは第 1 成分と第 2 成分をそれぞれ x 軸と y 軸とし
ます。
2.000
1.500
1.000
A
E
.500
C
.000
#2
- 3.000
- 2.000
B
- 1.000
- .500
F
.000
1.000
2.000D
- 1.000
- 1.500
- 2.000
G
#1
144
3.000
1.000
English
.800
.600
.400
#2
Latin
.200
- .700
- .500
- .300
.000
- .100
- .200
.100
.300
.500
.700
Physics
#1
■集中分析
変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう
な集中化した得点になります。
PCA.Cct
B
C
A
F
E
G
D
Latin
English Physics
88
28
20
64
43
32
59
56
54
48
45
66
51
58
78
22
32
90
16
50
100
■地域変異語彙の主成分分析
次 の 図 は 現 代 ス ペ イ ン 語 の 地 域 変 異 語 彙 841 語 を 20 か 国 で 調 査 し た 結 果 を
主成分分析し、第 1 主成分を行に、第 2 主成分を列にして各国をプロット
し た も の で す 。 第 1 主 成 分 ( 行 ) は ス ペ イ ン (ES)と ラ テ ン ア メ リ カ 諸 国 を
分 け て い ま す 。 右 上 の ○ で 囲 ん だ 国 々 は メ キ シ コ (MX)・ 中 米 諸 国 (HO, EL,
GU, PN)・ カ リ ブ 海 諸 国 (PR, CU, RD)・ コ ロ ン ビ ア (CO)・ ベ ネ ズ エ ラ (VE)
で す 。そ の 下 に ア ン デ ス 諸 国 (EC, BO, PE)、チ リ (CH)、ラ プ ラ タ 諸 国 (PA, UR,
AR)が 続 き ま す 。 こ の よ う に ラ テ ン ア メ リ カ 諸 国 は 第 2 主 成 分 ( 列 ) に よ
っておよそ南北に配置されます。このように地域変異語彙はバラバラに分
布 す る の で は な く 、 一 定 の 地 理 的 な 連 続 性 continuum を 示 し て い ま す 。
145
■中世・近代スペイン語文字使用頻度の主成分分析
13 世 紀 か ら 19 世 紀 ま で の ス ペ イ ン 語 史 の 中 に 位 置 づ け ら れ る 28 作 品 を サ ン
プ ル に し 、使 用 さ れ て い る す べ て の 文 字 の 頻 度 か ら な る 行 列 を 作 成 し ま し た 。
それを主成分分析にかけると、第一成分はとくにデータを特徴づけることが
あ り ま せ ん が 、 第 二 成 分 ( 中 世 と 近 代 ) と 第 三 成 分 ( 17-18 世 紀 と 19 世 紀 )
の 特 徴 が 明 ら か に 示 さ れ て い ま す 。 文 字 の 変 異 に 関 し て は 、 と く に s, d, r の
バリアントが重要です。
146
.300
1815
1841
1874
1207
1787
1350
1899
.200
1492
1433
.100
1499
1535
1270
#3
- .300
1514
.000
- .200
- .100
1300
1450
.000
.100
1220
.200
1330
.300
- .100
1230
1554
1726
1626
1704
- .200
1389
1651
1747 1677
1583
1605
- .300
#2
5.5.3. 判 別 分 析
次のようなデータの説明変数行列に、適当な重みベクトルを与え、最終
列 の 質 的 目 的 変 数 を 予 想 す る 方 法 は 、 「 判 別 分 析 」 Discriminant Anal ysis
とよばれます。そのとき求められた重みベクトルは、それぞれの変数の重
みの意味を探るのに役立ちます。また、その重みベクトルを使えば未知の
データの目的変数を一定の精度で予想することもできます。
147
English
Read
Write
Vocab.
d1
6
8
5
d2
7
10
6
d3
8
4
8
d4
9
7
2
d5
10
9
4
POINT
v
v
こ の 例 で は d1, d2, ..., d5 と い う 生 徒 の 小 テ ス ト (x1:Read, x2:Write,
x3:Vocab[ulary])の 得 点 と 、最 終 試 験 の 評 価 (v:優 )が 示 さ れ て い る と し ま す 。
はじめに説明変数行列を次のように標準化します。
X n p = Std(X n p ) …標 準 化 : (Xij – 列 平 均 ) / 列 標 準 偏 差
Std.s.
Read
Write
Vocab.
d1
-1.414
.194
.000
d2
-.707
1.166
.500
d3
.000 -1.748
1.500
d4
.707
-.291
-1.500
d5
1.414
.680
-.500
… (1)
こ の X np に 適 当 な 重 み ベ ク ト ル Wp を 右 積 し た 合 成 ベ ク ト ル を Zn と し ま
す。
… (2)
Zn = X n p Wp
重 み ベ ク ト ル Wp が 求 め ら れ れ ば 、 上 の 式 で Zn が 求 め ら れ ま す 。 Zn の
平 均 MT は 、 次 の よ う に ゼ ロ (0)に な り ま す 。
MT
= (Σ ( i: N ) Zn) / N
← 平均の定義
= Σ ( i: N ) (X n p Wp) / N
← (2)
= Σ ( i: N ) (X i1 W 1 + X i2 W 2 + … + X ip Wp) / N
← 行列積の成分
= (Σ ( i: N ) X i1 W 1 + Σ ( i:N ) X i2 W 2 + … + Σ ( i:N ) X ip Wp) / N ← Σ を 分 配
= (W 1 Σ ( i:N ) X i1 + W 2 Σ ( i:N ) X i2 + … + WpΣ ( i:N ) X ip ) / N
←定数を前に
こ こ で Xn p は 標 準 化 さ れ て い る の で 、 そ れ ぞ れ の 列 和 は 0 で す
Σ ( i:N ) X i1 = Σ ( i:N ) X i2 = …
= Σ ( i:N ) X i p = 0
よ っ て 、 Zn の 分 子 の 項 が す べ て 0 に な る の で 、 Zn の 平 均 MT は 、
MT = 0
… (3)
←
Zn の 全 変 動 St は 、
St
= Σ ( i:N ) (Zi – MT) 2
← 変動の定義
148
= Σ ( i:N ) Zi 2
← (3) MT = 0
合 成 ベ ク ト ル Zn 全 体 を 、 優 を と っ た 学 生 群 Zv と 、 そ う で な い 学 生 群
Zc に 分 け て 考 え 、 そ れ ぞ れ の 群 の 個 数 ( 人 数 ) を NV, NC、 群 内 の 平 均 を
MV, MC と し ま す 。
Zv 内 の 変 動 と Zc 内 の 変 動 の 和 は「 群 内 変 動 」(Within-groups sum of
squares: SW)と よ ば れ ま す 。
SW
= Σ ( i:N V ) (Zv i - MV) 2 + Σ ( i:N C ) (Zc i - MC) 2
MT は 0 で す が 、MV と MC は 0 に な る と は 限 り ま せ ん 。列 全 体 を 標 準 化
し て い る の で MT=0 に な る の で す が 、 Zv, Zc は そ れ ぞ れ の 群 内 で 標 準 化 し
ているわけではないからです。
そ れ ぞ れ の 群 の 成 分 が す べ て 同 じ だ と 仮 定 し て 、 そ れ と 全 体 の 平 均 MT
(= 0)と の 編 差 の 2 乗 和 は 「 群 間 変 動 」 (Between-groups sum of squares: SB)
と よ ば れ ま す 。 群 間 変 動 は そ れ ぞ れ の 群 が 全 体 ( 平 均 は MT=0) の 中 で ど
のように変動するかを示します。群間変動は次のような式になります。
SB
= Σ ( i:N V ) (MV - MT) 2 + Σ ( i:N C ) (MC - MT) 2
= Σ ( i:N V ) MV 2 + Σ ( i:N C ) MC 2
← (3) MT = 0
= NV MV 2 + NC MC 2
← 定数の倍数
… (4)
こ の と き 、 全 変 動 が 群 内 変 動 と 群 間 変 動 の 和 ST = SW + SB で あ る こ と
が、次のようにして確かめられます。
SW
= Σ ( i:N V ) (Zv i - MV) 2 + Σ ( i:N C ) (Zc i - MC) 2
= Σ ( i:N V ) (Zv i 2 - 2 Zv i MV + MV 2 )
← 展開
+ Σ ( i:N C ) ) (Zc i 2 - 2 Zc i MC + MC 2 )
← 展開
= Σ ( i:N V ) Zv i 2 - Σ ( i:N V ) 2Zv i MV + Σ ( i: N V ) MV 2
2
+ Σ ( i:N C ) ) Zc i - Σ ( i:N V ) 2Zc i MC + Σ ( i:N V ) MC
2
← Σを分配
← Σを分配
= Σ ( i:N V ) Zv i 2 - 2 MVΣ ( i:N V ) Zv i + NV MV 2
←定数を前に
+ Σ ( i:N V ) Zc i 2 - 2 MCΣ ( i:N V ) Zc i + NC MC 2
←定数を前に
= Σ ( i:N V ) Zv i 2 - 2 MV NV MV + NV MV 2
2
+ Σ ( i:N V ) Zc i - 2 MC NC MC + NC MC
2
← Σ ( i:N V ) Zv i = NV MV
← Σ ( i:N V ) Zv i = NV MC
← *和=個数 c 平均
= Σ ( i:N V ) Zv i 2 - 2 NV MV 2 + NV MV 2 ← MV を 合 体
+ Σ ( i:N V ) Zc i 2 - 2 NC MC 2 + NC MC 2 ← MC を 合 体
149
= Σ ( i:N V ) Zv i 2 - NV MV 2 + Σ ( i:N V ) Zc i 2 - NC MC 2 ← -2* + * = -*
よって、
SW + SB = Σ ( i:N V ) Zv i 2 - NV MV 2 + Σ ( i:N C ) Zc i 2 - NC MC 2 ← SW
+
NV MV 2 + NC MC 2
← SB
= Σ ( i:N V ) Zv i 2 + Σ ( i:N C ) Zc i 2 = ST
次 に 、 群 間 変 動 (SB)が 全 変 動 (ST)の 中 で 占 め る 割 合 を 問 題 に し ま す 。 こ
の 割 合 は 「 相 関 比 」 (Correlation ratio: Cr)と よ ば れ ま す 。
Cr
= 群 間 変 動 (SB) / 全 変 動 (ST)
= 群 間 変 動 (SB) / (群 内 変 動 (SW) + 群 間 変 動 (SB))
… (5)
た と え ば 、す べ て の 成 分 が 群 内 の 平 均 と 等 し い と き は( Zv = MV, Zc = MC
の と き )、群 内 変 動 (SW)は ゼ ロ に な り 、す べ て の 成 分 が 1 点 に 集 中 し 群 を
完 全 に 判 別 で き 、上 の 式 (5)か ら 相 関 比 は 最 大 の 1 に な り ま す 。ま た 、そ れ
ぞ れ の 群 内 の 平 均( Zv の 平 均 と Zc の 平 均 )が 全 体 の 平 均 と 同 じ と き は (MV
= MT, MC = MT), 群 間 変 動 SW は ゼ ロ に な る の で( 群 を 判 別 で き な い の で )、
相 関 比 は 最 小 の ゼ ロ (0)に な り ま す 。
次 に 、 相 関 比 Cr の 式 を 構 成 す る Zn の 全 変 動 (ST)と 、 群 間 変 動 (SB)を 、
求 め て い る Wp を 含 む 行 列 で 表 し ま す 。
相 関 比 Cr の 分 母 の Zn の 全 変 動 ST を Wp を 含 む 式 に し ま す 。
ST
= Zn’ Zn
= (X n p Wp)’ (X n p Wp)
← (2) Zn = X n p Wp
= Wp’ X np ’ X np Wp
← 行列演算
S pp = X n p ’ X n p
= Wp’ S p p Wp,
相 関 比 Cr の 分 子 の Zn の 群 間 変 動 SB を Wp を 含 む 式 に し ま す 。
SB
= NV MV 2 + NC MC 2
← (4)
2
← SVp: X np の v 群 列 和 ベ ク ト ル
+ NC (SCp’/NC Wp) 2
← SCp: X np の c 群 列 和 ベ ク ト ル
= NV (SVp’/NV Wp)
= NV (SVp’ Wp) 2 / NV 2
2
+ NC (SCp’ Wp) / NC
2
← NV は ス カ ラ ー
← NC は ス カ ラ ー
= (SVp’ Wp) 2 / NV
← NV は ス カ ラ ー
+ (SCp’ Wp) 2 / NC
← NC は ス カ ラ ー
= (SVp’ Wp)’ (SVp’ Wp) / NV ← 行 列 演 算
150
+ (SCp’ Wp)’ (SCp’ Wp) / NC
← 行列演算
= Wp’ SVp SVp’ Wp / NV
← 行列演算
+ Wp’ SCp SCp’ Wp / NC
← 行列演算
= Wp’ (SVp SVp’ / NV + SCp SCp ’ / NC) Wp
← B pp は 以 下 の 式
= Wp’ B pp Wp
B p p = SVp SVp’ / NV + SCp SCp’ / NC
よ っ て 、 先 の (5)の 相 関 比 Cr = SB / ST は 次 の よ う に な り ま す 。
Cr = SB / ST = Wp’ B p p Wp / Wp’ S pp Wp
S p p = X np ’ X n p
B p p = SVp SVp’ / NV + SCp SCp’ / NC
こ の 相 関 比 が 最 大 に な る と き の ベ ク ト ル Wp を 求 め る の が 判 別 分 析 の 目
的 で す 。 つ ま り 、 も っ と も 良 く 2 群 を 判 別 す る と き の Wp を 探 す こ と に な
り ま す 。 そ こ で 、 相 関 比 の 式 を 未 知 数 の Wp で 微 分 し ま す が 、 こ の よ う な
分 数 の 微 分 に つ い て は 、分 母 (ST: Wp’ S p p Wp)を 1 と す る 条 件 を つ け て 、相
関比が最大化する値を求めます。そこで、ラグランジュの未定乗数 L と、
全 変 動 ST = 1 → ST- 1 = 0 と い う 条 件 を つ け た 関 数 F (Wp)を 考 え ま す 。
F (Wp) = SB – L (ST – 1)
←ラグランジュの未定乗数法
= Wp’ B pp Wp - L (Wp’ S p p Wp - 1)
こ の F を Wp で 微 分 し 、 こ れ が ゼ ロ (0)で あ る と き の Wp を 求 め ま す 。
Diff.(F, Wp) = 2 B p p Wp - 2L S p p Wp = 0
←行列の微分
よって、
(B p p - L S p p ) Wp = 0
… (6)
S p p ^ (B pp - L S p p ) Wp = S pp ^ 0
← S pp の 逆 行 列 S p p ^を 左 積
(S p p ^ B pp - S p p ^ L S p p ) Wp = 0
← S pp ^ を そ れ ぞ れ の 項 に
(S p p ^ B pp - L S p p ^ S p p ) Wp = 0
← スカラーL を移動
(S p p ^ B pp - L Um) Wp = 0
← S pp ^ S p p = Um (単 位 行 列 )
S p p ^ B pp Wp - L Um Wp = 0
← Wp を そ れ ぞ れ の 項 に
S p p ^ B pp Wp - L Wp = 0
← Um Wp = Wp
と な り 、こ れ が 固 有 方 程 式 の 形 (R pp Ap- L Ap = 0)に な り ま す 。こ こ で 、S p p ^
151
B p p か ら 固 有 値 L と 固 有 ベ ク ト ル Wp を 求 め る こ と が で き ま す 。
ま た 、先 の 式 (6)か ら 、次 の よ う に し て 固 有 値 が 相 関 比 で あ る こ と が わ か
ります。
(B p p - L S p p ) Wp = 0
← (6)
Wp’ (B p p - L S p p ) Wp = Wp’ 0
← 両 辺 に Wp’を 左 積
Wp’ B pp Wp - Wp’ L S p p Wp = 0
←展開
Wp’ B pp Wp - L Wp’ S pp Wp = 0
← スカラーL を移動
SB - L ST = 0
← Wp’ B p p Wp = SB, Wp’ S p p Wp = ST
SB = L ST
← L ST を 右 辺 に 移 動
L = SB / ST
← SB / ST = 相 関 比
相関比は分母も分子も変動を使い 2 次関数になるので、その根をとった
ほ う が わ か り や す く 、そ れ が 使 わ れ る こ と も あ り ま す 。そ れ を「 根 相 関 比 」
(Root Correlation Ratio: R.C.R.)と よ ぶ こ と に し ま す 。
根 相 関 比 (R. C. R..) = (Sb / St) 1 /2
Std.s.
Read
Write
Vocab.
d1
-1.414
.194
d2
-.707
POINT
Expect.
Score
Eval.
.000
-1.090
Ok
1.166
.500
-.297
Ok
d3
.000 -1.748
1.500
1.088
Ok
d4
.707
-.291
-1.500
-.408
Ok
d5
1.414
.680
-.500
.707
Ok
v
v
v
v
上 表 ( 標 準 得 点 Standard score: Std. s.) の 得 点 列 (Score)は 、 (2)の 合 成 ベ
ク ト ル Zn で す 。
Zn = X n p Wp
← (2)
期 待 値 (Expect[ed value])の 列 で は Zn の 成 分 が 正 で あ れ ば v を 出 力 し ま す 。
実 測 値 ( こ こ で は POINT) と 期 待 値 が 一 致 し た と き に 評 価 列 (Eval[uation])
に Ok を 出 力 し ま す 。
次 の 変 数 表 (Var[iable]) の 重 み (Weight)は 、 求 め ら れ た 固 有 ベ ク ト ル Wp
で あ り 、 そ の 下 に そ れ ぞ れ の 変 数 の 和 (Sum) 、 平 均 (Ave.) 、 標 準 偏 差
(St[andard] dev[iation])を 出 力 し ま す 。
152
Var.
Read
Weight
Write
Vocab.
.761
-.070
.644
Sum
40.000
38.000
25.000
Ave.
8.000
7.600
5.000
St.dev.
1.414
2.059
2.000
最 後 の 表 、総 合 評 価 (T[otal] eval[uation])に は 、正 答 率 (Ac[curacy] R[atio])
と 根 相 関 比 (Root Correlation Ratio: R.C.R.)を 出 力 し ま す 。正 答 率 は 上 の 評 価
の Ok の 数 を 行 数 で 割 っ た 値 で す 。
T. eval. Ac. R. R.C.R.
Value
1.000
.927
* 三 野 (157-161)、 石 井 (2014: 140-149)を 参 照 し ま し た 。
■未知の判別値
既 知 の デ ー タ (X np )で 得 ら れ た 重 み ベ ク ト ル を 、 判 別 値 が 未 知 の デ ー タ
(D n p )に 適 用 す る と き は 、 先 に 得 ら れ た 平 均 Av(X n p )と 標 準 偏 差 Sd(X np )を 使
って、判別値が未知のデータ行列を標準化し、これに重みベクトルを左積
します。
Y n p = [D n p - Ave(X n p )] / Sd(X n p )
En = Y n p Wp
■数量化2類分析
次 の よ う な 説 明 変 数 が 質 的 デ ー タ の 場 合 は 、チ ェ ッ ク (v)を 1 に 変 換 し て
数量化し、同じ判別分析をします。この方法は「数量化2類分析」とよば
れます。
English-5
Read
d1
Write
Vocab.
POINT
v
d2
v
v
d3
v
d4
v
v
d5
v
v
v
v
v
v
153
5.5.4. 対 応 分 析
「 対 応 分 析 」 Correspondence Analysis は フ ラ ン ス の Jean-Paul Benzécri が
開 発 し た 多 変 数 解 析 法 で す 30 。 次 の よ う な 分 割 表 か ら 個 体 ( X n 1 : Ana, Juan,
Meryl, Ken)と 変 数 (Y 1 p : Japanese, English, Math)に 適 当 な 負 荷 値 を 与 え て 変
数と個体の間の相関数係数を最大化させ、そのときの個体と 変数の数値に
よってそれぞれの意味を探る、という方法です。
Test: D np
Y 1 : English Y 2 : Latin Y 3 : Science
Sn1
X 1 : Ana
9
14
18
41
X 2 : Juan
17
7
11
35
X 3 : Mary
15
13
14
42
X 4 : Ken
5
18
8
31
T1p
46
52
51 149
対 応 分 析 の 目 的 は 、上 の 個 体 (X 1 , X 2 , X 3 , X 4 ) = X n1 と 変 数 (Y 1 , Y 2 , Y 3 ) = Y p 1
という未知の 2 つのベクトルを求めることです。
個 体 ベ ク ト ル X n 1 と 変 数 ベ ク ト ル Y p 1 の 平 均 (MX, MY)を そ れ ぞ れ 0 と し
ます。
S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p )
[1a]
MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n 1 ' X n 1 / N = 0
[1b]
MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0
個 体 (X n1 )と 変 数 (Y p 1 )の 分 散 (VX, VY)を そ れ ぞ れ 1 と し ま す 。
S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対 角 行 列 ]
[2]
[2a] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149
= (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149
← 1a. MX = 0
= X n 1 ' Sn n Xn 1 / N = 1
[2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149
= (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149
← 1b. MY = 0
= Y p 1 ' Tp p Yp 1 / N = 1
D n p を 散 布 図 と 見 な し 、 そ の X 軸 : X n 1 と Y 軸 : Y p 1 の 間 の 相 関 係 数 (R)
は,
30
[D n p :デ ー タ 行 列 ]
日本の林知己夫が独自に開発した数量化Ⅲ類と同じアルゴリズムです。
154
[3]
R = [9(X 1 –MX)(Y 1 –MY)
+ 14(X 1 –MX)(Y 2 –MY)
+ 18(X 1 –MX)(Y 3 –MY)
+ 17(X 2 –MX)(Y 1 –MY)
+...
+ 8(X 4 –MX)(Y 3 −MY)] / 149
← MX = MY = 0
= (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149
= X n 1 ' D np Y p 1 / N
こ の R を 最 大 化 す る た め に は 、 そ れ ぞ れ の 分 散 VX = VY = 1 と い う 条 件
を 加 え た 次 の 式 の S を X n1 と Y p1 で 微 分 し (Df(S, X n 1 ), Df(S,Y p1 ))、そ の 結 果
を ゼ ロ ベ ク ト ル (O n 1 , O p 1 )と し ま す 。 L 1 , L 2 は ラ グ ラ ン ジ ュ 乗 数 で す 。
S
= (X n 1 ' D np Y p1 ) / N
– L 1 [(X n 1 ' S n n X n 1 ) / N - 1]
– L 2 [(Y p 1 ' T p p Y p 1 ) / N - 1]
[4a]
Df(S, X n1 ) = D np Y p 1 / N – 2 L 1 S nn X n 1 / N = O n1 (ゼ ロ )
Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 )
[4b]
Df(S, Y p1 ) = D np ' X n 1 / N – 2 L 2 T pp Y p 1 / N = O p 1 (ゼ ロ )
Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 )
[5a]
← 4a.の 第 2 項 を 移 項
D n p Y p1 / N = 2 L 1 S nn X n1 / N
X n 1 ' D np Y p 1 / N = 2 L 1 X n1 ' S n n X n1 / N ← 両 辺 に X n 1 'を 左 積
R = 2 L1
[5b]
← 2a. X n1 ' S n n X n1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
D n p ' X n1 / N = 2 L 2 T pp Y p 1 / N
← 4b.の 第 2 項 を 移 項
X n 1 ' D np / N = 2 L 2 Y p 1 ' T p p / N ← 行 列 移 動 ; T p p 対 角 行 列
X n 1 ' D np Y p 1 / N = 2 L 2 Y p1 ' T p p Y p1 / N ← 両 辺 に Y p 1 を 右 積
R = 2 L2
← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
5a, 5b か ら
[6]
R = 2 L1 = 2 L2
[7a]
D n p Y p1 = R S n n X n 1
← 5a. D np Y p 1 / N = 2 L 1 S n n X n 1 / N; 6. R = 2 L 1
R S n n X n 1 = D np Y p 1
←両辺交換
S n n X n1 = D n p Y p1 / R
←スカラーR 移動
S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両 辺 に S n n ^を 左 積
155
[7b]
X n 1 = S n n ^ D np Y p1 / R
← S n n ^ S n n = U nn
D n p ' X n1 = R T p p Y p 1
← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2
7a を 7b の X n 1 に 代 入 し て
[8]
D n p ' 1/R S n n ^ D n p Y p1 = R T pp Y p 1
D n p ' S n n ^ D n p Y p1 = R 2 T p p Y p1
←スカラーR 移動
D n p ' Sn^ D n p (T p p 1 /2 )^ T p p 1 /2 Y p 1 = R 2 (T p p ) 1 /2 (T p p ) 1 /2 Y p 1
← (T p p 1 /2 )^ T p p1 /2 = U p p ; (T p p ) 1 /2 (T p p ) 1 /2 = T p p
ここで
[9]
(T p p ) 1 /2 Y p 1 = A p 1
とすると
D n p ' S n n ^ D n p (T p p 1 /2 )^ A p 1 = T p p 1 /2 R 2 A p 1
(T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = (T p p 1 /2 )^ T p p 1 /2 R 2 A p 1
← 両 辺 に (T p p 1 /2 )^を 左 積
(T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = R 2 A p 1
← (T p p 1 /2 )^ T p p 1 /2 = Um
こ こ で 、 (T p p 1 /2 )^ D n p ' S n n ^ D n p (T p p 1 /2 )^ = A p p と す れ ば
Ap p Ap 1 = R2 Ap 1
と い う 固 有 方 程 式 に な り ま す 。プ ロ グ ラ ム は こ の 固 有 方 程 式 の R 2 と A p 1 を
同 時 に 求 め ま す 。 Y p1 は [9]よ り 、
Y p 1 = [T p p 1 /2 ]^ A p 1
こ こ で 、 ベ ク ト ル Y p1 は 行 和 ベ ク ト ル と の 積 和 の 平 均 が 0、 分 散 が 1 と
な る よ う な 小 さ な 値 で す ( ← [1a])。 そ こ で デ ー タ 規 模 に 合 わ せ る た め に 、
全 体 に デ ー タ の 総 和 Sum(D n p )を 掛 け ま す 。ま た 、成 分 に 相 関 係 数 を 掛 け る
と 相 関 係 数 の 大 き さ を 反 映 し た 座 標 に な り ま す 31 。
X n 1 は [7a]か ら 求 め ま す 。
X n 1 = S n n ^ D np Y p1 / R
* 数 理 と プ ロ グ ラ ム は 奥 村 (1986), 高 橋 (2005), 三 野 (2005)を 参 照 し ま し た 。
31
高 橋 (2005: 127-129).
156
● 行 列 の 1/2 乗 と -1/2 乗
正 方 行 列 A p p に つ い て 、X pp X p p = X p p 2 = A p p と な る X p p は A p p の 1/2 乗 A p p1 /2
と定義されます。
X p p 2 = X p p X pp = A p p , X pp = A pp 1 /2
ま た 、 正 方 行 列 A p p に 逆 行 列 A p p ^が 存 在 す る と き 、 Y pp Y p p = A p p ^と な る
Y p p は A pp の -1/2 乗 A p p - 1 /2 と 定 義 さ れ ま す 。
Y p p 2 = Y p p Y pp = A p p ^, Y p p = A p p -1 /2
T p p 1 /2 T p p 1 /2 = T pp と な る T p p 1 /2 は 、 T p p が 対 角 行 列 の と き 、 T p p 1 /2 の 対 角 成
分 は 次 の よ う に Tp p の 対 角 成 分 の 根 に な り ま す 。
Tpp
1
2
Tpp1 /2
3
1
2
3
1 √A
1 A
2
B
3
2
C
√B
√C
3
●対角行列の逆行列
対 角 行 列 T pp の 逆 行 列 T pp ^は 、T pp の 成 分 の 逆 数 を 成 分 と し た 対 角 行 列 に
な り ま す 。 上 右 表 の (Tpp 1 /2 )^は Tpp 1 /2 の 逆 行 列 で す 。
(Tpp1 /2 )^
1
2
3
1 1/√A
2
1/√B
3
1/√C
●個体と変数の対応
下 左 表 は デ ー タ 行 列 、 下 右 表 は 個 体 の 負 荷 値 Xn で す 。
Test
y1: English
y2: Physics
y3: Latin
CA.Id.
#1
#2
x1: Ana
9
14
18
x1: Ana
x2: Juan
17
7
11
x2: Juan
.400
.086
x3: Mary
15
13
14
x3: Mary
.108
.026
x4: Ken
5
18
8
x4: Ken
-.473
.146
-.094 -.211
下 左 表 は 相 関 係 数 (Correl)を 示 し 、下 右 表 は 変 数 の 負 荷 値 (Yp)を 示 し ま す 。
Corresp.
1
2
CA.Vr.
#1
157
#2
Correl.
.300
.136
y1: English
.377
.110
y2: Physics
-.361
.087
y3: Latin
.028 -.189
Xn と Yp を 連 続 さ せ た 項 目 名 付 散 布 図 (Item scatter)で す 。
.200
.150
x4: Ken
y2: Physics
y1: English
x2: Juan
.100
.050
-.500
#2
-.300
x3: Mary
.000
- . 1 -0.00 5 0
.100
.300
-.100
-.150
- .x210:0A n a y 3 : L a t i n
-.250
-.300
#1
こ の 図 を 見 る と 、 Ken と Physics, Juan と English、 Ana と Latin が そ れ ぞ
れ 近 い 関 係 に な る こ と が わ か り ま す 。1 軸 が 言 語 (English, Latin)と Fisics を
分 け 、2 軸 が English と Latin を 分 け て い ま す (Physics が 中 立 )。Mary が 全 体
の 中 で 中 立 で す が 、 や や English に 近 づ い て い ま す 。
■集中分析
変数と個体の係数得点を昇順でソートし得点を並び替えると次のような
集 中 化 し た 得 点 に な り ま す 。対 応 分 析 は 得 点 の 集 中 化 に 最 も 適 し て い ま す 。
C r p. c c t
x4: K e n
x1: Ana
x3: Mary
x2: Juan
y 2 : L a t iny 3 : P h y s ic ys 1 : E n g lis h
18
8
5
14
18
9
13
14
15
7
11
17
5.5.5. 因 子 分 析
「 因 子 分 析 」(Factor analysis)は 主 成 分 分 析 と 対 照 的 な 考 え 方 を す る 分 析 法 で
す 。主 成 分 分 析 で は デ ー タ 行 列 の 全 変 数 を 説 明 す る よ う な 軸 を 探 し ま す が 、
因子分析では、逆に、一定の変数と他の変数ができるだけ異なるような新
158
た な 変 数 ( 因 子 factor) を 探 し ま す 。 成 績 デ ー タ を 例 に す る と 、 た と え ば
英語と国語を説明するような変数(文系因子)が、数学と理科を説明する
ような変数(理系因子)と明確に異なるようにします。因子分析には多く
の 手 法 が あ り ま す が 、 こ こ で は Kaiser の 「 直 接 バ リ マ ッ ク ス 法 」 (Direct
varimax method)を 説 明 し ま す 。
因 子 (A1, A2, …, Ap) が で き る だ け 互 い に 異 な る よ う に す る た め に 、因 子 ベ
ク ト ル (Ap)の 分 散 (V)を 最 大 化 す る こ と が 目 的 で す 。以 下 は 簡 略 化 し て 分 散
の 分 母 (N)を 外 し ま す (V*)。 M は Ap の 平 均 を 示 し 、 P は Ap の 成 分 の 個 数
です。
V*
= Σ (A i – M) 2
= Σ (A i 2 – 2MA i + M 2 )
= Σ A i 2 – 2MΣ A i + P M 2
= Σ A i 2 – 2 (Σ A i ) 2 / P + P (Σ A i ) 2 / P 2 [∵ M = (Σ A i ) / p]
= Σ A i 2 – (Σ A i ) 2 / P
これを行列で示すと次のようになります(後述:→●単位行列・単位ベク
トルの利用)。
V* = Ap' (U p p – U p 1 U p1 ' / P) Ap
こ こ で Σ A i の 計 算 で 負 値 が 相 殺 さ れ る の を 防 ぐ た め 、A で は な く A 2 と し た
「 分 散 」 (V**)を 求 め ま す 。 Ap ( 2 ) は ベ ク ト ル Ap の す べ て の 成 分 を 2 乗 し た
ベクトルを示します。
V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2)
… (1)
ここで次の対角行列、
𝐴1
Ap p =
𝐴2
[
…
𝐴𝑝 ]
を 導 入 す る と 、 先 の 式 (1)は 、
V** = Ap' A p p (U p p – U p 1 U p 1 ' / P) A p p Ap
… (1b)
となります(後述:→●単位行列・単位ベクトルの利用)。
こ れ か ら 求 め る ベ ク ト ル Ap は 相 関 行 列 R p p に 未 知 の ベ ク ト ル Tp を 右 積 し
た も の と し ま す 。 Tp の 長 さ を 1 と 規 定 し ま す 。
Ap = R p p Tp
… (2)
159
… (2b)
Tp' Tp = 1
Tp' Tp = 1 (2b)と い う 条 件 付 き で V**の 最 大 値 を 求 め る た め に Lagrange 乗
数 L を つ け た 次 の 式 を 設 定 し ま す 。 (→ 3.7.3.)
W
= V** – L (Tp ' Tp -1)
= Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap – L (Tp ' Tp – 1)
[← (1b)]
= Tp' R p p ' A p p (U p p – IpIp ' / P) A p p R p p Tp – L (Tp' Tp – 1)
[← (2)]
こ の W を Tp で 微 分 し た 式 Df(W, Tp)を 0 と し ま す 。
Df(W, Tp) = 2 [R pp ' A p p (U p p – U p 1 U p1 ' / P) A p p R p p Tp – L Tp] = 0
R p p ' A p p (U pp – U p1 U p 1 ' / P) A p p R p p Tp = L Tp
左辺
= R p p ' A p p (U p p – U p 1 U p1 ' / P) A p p Ap
… (3)
[← (2)]
= R p p ' (A p p U p p A p p Ap – A p p U p1 U p 1 ' A p p Ap / P)
= R p p (A p p Ap
(2)
[R p p 'を 外 に ]
– Ap Ap' Ap / P)
[R p p は 対 照 行 列 ; A p p U p p = A p p ; A p p Ap = Ap ( 2 ) ; U p1 ' A p p = Ap']
= R p p (Ap ( 3 ) – Ap Ap' Ap / P)
[A p p Ap ( 2 ) = Ap (3 ) ]
よ っ て (3)は 次 に な り ま す 。こ の (3b)式 が 成 り 立 つ と き に V は 最 大 化 し ま す 。
R p p (Ap (3 ) – Ap Ap' Ap / P) = L Tp
… (3b)
ここで、
Bp = Ap (3 ) – Ap Ap' Ap / P
… (4)
と お く と 先 の 式 (3b)は 次 に な り ま す 。
R p p Bp = L Tp, L Tp = R pp Bp, Tp = R pp Bp / L
上 中 式 は 相 関 行 列 R p p に ベ ク ト ル Bp を 負 荷 さ せ て 合 成 さ れ た 変 数 ベ ク ト ル
は Tp の L 倍 に な る こ と を 示 し て い ま す 。 そ の と き 、 L と し て Z n p Bp の 標
準 偏 差 を 使 え ば 、標 準 化 さ れ た 合 成 変 数 ベ ク ト ル Tp (= R p p Bp / L:上 右 式 )
と 相 関 係 数 行 列 の 積 が 求 め る 因 子 ベ ク ト ル Ap で す [← (2)]。 は じ め に 、 標
準 得 点 デ ー タ 行 列 (Z np ) に ベ ク ト ル (Bp) を 右 積 し た ベ ク ト ル の 標 準 偏 差
SD(zb)を 求 め ま す 。
V(zb)
= (Z n p Bp)' (Z n p Bp) / N
[Z n p Bp の 分 散 ]
= Bp' Z n p ' Z n p Bp / N
[(A B)' = B' A']
= Bp' R p p Bp
[R p p = Z np ' Z n p / N→ 3.6.1]
SD(zb) = (Bp' R p p Bp) 1 /2
[SD = V 1 /2 → 3.3.4]
160
… (5)
R p p Bp を SD(zb)で 割 っ た ベ ク ト ル を 新 た な Ap と し ま す 。
… (6)
Ap = R p p Bp / SD(zb)
こ の Ap を 使 っ て 再 度 (4)で Bp を 計 算 し ま す 。
Bp = Ap (3 ) – Ap Ap' Ap / P
… (4)
SD(Zb) = (Bp' R p p Bp) 1 /2
… (5)
Ap = R p p Bp / SD(Zb)
… (6)
こ の プ ロ セ ス (4, 5, 6)を Ap に 変 化 が な く な る ま で 繰 り 返 し ま す( Ap が 因 子
ベクトルになる理由は後述:→●構造ベクトルの導出)。
1 つ の 因 子 が 見 つ か っ た 後 は 残 差 の 相 関 行 列 (R pp )か ら 、 順 次 同 じ プ ロ セ ス
で 因 子 を 探 し ま す 。 最 後 の 因 子 を 得 た 後 、 標 準 化 デ ー タ 行 列 (Z n p )に 負 荷 ベ
ク ト ル (Bp)を 掛 け る と 因 子 得 点 行 列 (S n p )が で き ま す 。
S n p = D np Bp
* Horst (1965), 芝 (1975), 浅 野 (1971), 竹 内 ・ 柳 井 (1972)を 参 照 し ま し た 。
●単位行列・単位ベクトルの利用
行列の演算は、その成分を展開すると理解できます。
[1]
V* = Σ A i 2 – (Σ A i ) 2 / P = Ap' (U p p – U p 1 U p1 ' / P) Ap
この右辺の成分を確かめます。
Ap' (U p p – U p 1 U p 1 ' / P) Ap
1
= Ap' ( [
1
…
1
= Ap' ( [
1
…
1
1
] – [ ]
…
1
1
[1, 1, …, 1] / P) Ap
1
1
] – [
…
1
1
1
1
…
1
…
…
..
1
1
1
]
1
1
/ P) Ap
M = 1 / P とおくと、
1
V* = Ap' ( [
1
…
𝑀
𝑀
] – [
…
𝑀
1
𝑀
𝑀
…
𝑀
…
…
..
𝑀
161
𝑀
𝑀
])
𝑀
𝑀
Ap
= [A 1 , A 2 , …, A p ]
1−𝑀
−𝑀
[
…
−𝑀
−𝑀
1−𝑀
…
−𝑀
…
…
…
…
−𝑀
−𝑀
]
…
1−𝑀
Ap
= [A 1 (1 - M) + A 2 (-M) + … + Ap(-M),
A 1 (-M) + A 2 (1 - M) + … + Ap(-M),
…
A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)]
𝐴1
𝐴
[ …2 ]
𝐴𝑝
= [A 1 (1 - M) + A 2 (-M) + … + Ap(-M)] A 1
+ [A 1 (-M) + A 2 (1 - M) + … + Ap(-M)] A 2
+…
+ [A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)] A p
= A 1 2 + A 2 2 + … + Ap 2 – M (A 1 + A 2 + … + Ap) 2
= A 1 2 + A 2 2 + … + Ap 2 – (A 1 + A 2 + … + Ap) 2 / P
= Σ A i 2 – (Σ A i ) 2 / P
[2]
= V*
V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2)
= Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap
… (1b)
上 の 等 式 が 成 立 す る こ と を Ap' A p p と A p p Ap の 成 分 で 確 認 し ま す 。
𝐴1
Ap' A p p = [A 1 , A 2 , …, A p ]
𝐴2
…
[
𝐴1
A p p Ap =
= [A 1 2 , A 2 2 , …, A p 2 ] = Ap (2 ) '
𝐴𝑝 ]
2
𝐴2
[
…
𝐴1
𝐴1
𝐴2
𝐴22
[…] =
=
…
𝐴𝑝 ] 𝐴 𝑝
[𝐴2𝑝 ]
Ap (2 )
●構造ベクトルの導出
標 準 化 さ れ た デ ー タ 行 列 の Z np の 相 関 行 列 は (N:デ ー タ の 個 数 )、
Rp p = Zn p ' Zn p / N
…(1)
Z n p に 重 み ベ ク ト ル Wp を 右 積 し て 合 成 変 数 ベ ク ト ル Fn と し ま す 。
Fn = Z n p Wp
162
合 成 変 数 ベ ク ト ル Fn の 分 散 V(Fn)は 、
V(Fn) = Fn' Fn / N = Wp' R p p Wp
合 成 変 数 ベ ク ト ル Fn を 標 準 化 し た ベ ク ト ル Gn は 、
… (2)
Gn = Fn / V(Fn) = Z n p Wp / (Wp' R pp Wp) 1 /2
こ の 合 成 変 数 ベ ク ト ル Fn と 変 数 ベ ク ト ル と の 相 関 係 数 ベ ク ト ル を An と す
る と 、 そ の 成 分 Aj は
Aj = (Σ [i=1, N] Zij Gi) / N
[j=1, P]
行列で表すと次の式になります。
Ap
= Z n p ' Gn / N
= Z n p ' Z n p Wp / (Wp' R pp Wp) 1 /2 / N
= R p p Wp / (Wp' R p p Wp) 1 /2
[(2)]
[(1)]
* 芝 (1975)を 参 照 し ま し た 。同 書 は Ap を「 構 造 ベ ク ト ル 」と よ び 、そ の 重
要 性 を 強 調 し て い ま す 。 先 述 の 因 子 ベ ク ト ル の 導 出 で は Bp が Wp に 対 応
します。
■音の感覚
下 左 図 は 1 音 節 の 音 の 個 人 的 な 感 覚 を 5 つ の -3 ~ 3 の 尺 度 で 記 入 し た も の
で す 。 た と え ば pa と 聞 い て と て も clear と い う 感 じ が す れ ば 3, 逆 に と て
も dark と い う 感 じ が あ れ ば -3 と し ま す 。ど ち ら で も な け れ ば 0 で そ の 間 に
2, 1, 0, -1, -2 と い う 段 階 を つ け て み ま し た( 自 分 で 実 験 し た デ ー タ 例 で す )。
Sound symb. a. Big
1.pa
2.ba
3.ta
4.da
5.ka
6.ga
7.sa
8.za
9.ma
10.na
11.ra
b. Sharp
-1
2
-1
2
0
3
-2
2
0
0
1
c. Clear
2
-3
2
-1
3
-2
2
-1
-1
-1
-2
d. Hard
2
-3
1
-3
1
-3
2
-2
-1
0
2
e. Heavy
2
1
2
1
3
2
1
0
-2
-2
-3
-3
2
-2
2
-1
3
-2
3
0
0
0
Fct.Id.
1.pa
2.ba
3.ta
4.da
5.ka
6.ga
7.sa
8.za
9.ma
10.na
11.ra
上右図が因子得点行列、下図が因子行列です。
163
1
- 1.329
.989
- .946
1.134
- .400
1.535
- 1.355
1.203
- .127
- .286
- .419
2
.823
.246
.823
.274
1.390
.813
.305
- .221
- 1.328
- 1.311
- 1.815
3
- .733
- 2.171
- .057
.664
1.430
- .684
- .138
1.416
.601
.257
- .585
4
.196
- .667
- .463
- .761
.912
.708
- .397
.522
- 1.663
- .589
2.202
Fct.Vr.
a. Big
b. Sharp
c. Clear
d. Hard
e. Heavy
1
.960
- .728
- .940
.008
.979
2
- .063
.557
- .063
1.000
- .150
3
- .106
.399
.072
- .013
.016
4
.217
.004
.327
- .015
.048
第 1 因 子 は Big と Heavy に 強 く 反 応 し て い る の で 「 重 厚 さ 」 を 示 し て い る
よ う で す 。第 2 因 子 は Hard と Sharp に 反 応 し て い る の で「 切 れ 味 」の よ う
なものを示していると思います。それぞれの因子は次の相関係数行列が示
すように無相関になります。このことは軸が直交していることを意味しま
す。
Correlation
1
2
3
4
1
1.000
.000
.000
.000
2
3
4
.000
1.000
.000
.000
.000
.000
1.000
.000
.000
.000
.000
1.000
そ れ ぞ れ の 音 節 の 得 点 と そ の グ ラ フ ( x 軸 =第 1 因 子 ; y 軸 =第 2 因 子 ; )
を示すと、第 1 因子では有声音と無声音が対立し、第 2 因子では、破裂音
(閉鎖音)と摩擦音・鼻音・流音の対立していることがわかります。
164
■集中分析
変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう
な集中化した得点になります。
Fct.cct
7.sa
1.pa
3.ta
11.ra
5.ka
10.na
9.ma
2.ba
4.da
8.za
6.ga
c. Clear
2
2
1
2
1
0
-1
-3
-3
-2
-3
b. Sharp
2
2
2
-2
3
-1
-1
-3
-1
-1
-2
d. Hard
1
2
2
-3
3
-2
-2
1
1
0
2
a. Big
-2
-1
-1
1
0
0
0
2
2
2
3
e. Heavy
-2
-3
-2
0
-1
0
0
2
2
3
3
* 芝 (1975)を 参 照 し ま し た
5.6. 分散分析
次のようなデータから変数(国語、英語、数学)間の分散の差の有意性
を 調 べ る と き に 分 散 分 析 (Analysis of Variance: Anova)が 使 わ れ ま す 。
Teaching m. Method-1 Method-2 Method-3
A
44
34
33
B
39
29
32
C
42
33
35
D
45
36
32
E
48
30
31
こ の 分 析 の た め に 変 数 間 の 変 動 ( VB: 群 間 の 偏 差 平 方 和 ) と 、 各 変 数 の
中 で の 変 動 ( V I : 郡 内 の 偏 差 平 方 和 ) 、 そ し て 全 体 の 変 動 (V T : 全 体 の 偏 差
平 方 和 )を 求 め ま す 。目 的 は 群 間 の 偏 差 平 方 和 と 郡 内 の 偏 差 平 方 和 の 比(「 分
散比」)を計算し、それが有意であるかどうかを判定することです。
は じ め に 列( 群 )の 平 均 横 ベ ク ト ル (Mp)と 全 体 の 平 均( T)を 求 め ま す 。
個 数 を N, 変 数 を P と し ま す 。 Tm(X n p )は 行 列 X np の 成 分 の 合 計 を 計 算 す る
ために作成した関数です。.
Mp = U p 1 ' X np / N
T = Tm(X n p ) / (N * P)
165
次 に そ れ ぞ れ の 偏 差 を 求 め ま す 。 は じ め は 群 間 (Among groups)の 偏 差 平
方 和 ベ ク ト ル VB を 計 算 し ま す 。
V B = N (Cp – T)' (Cp – T)
VB は 各 列 の 平 均 を 成 分 と す る ベ ク ト ル か ら 全 体 の 平 均 を 引 い て 群 の 偏
差を求め、それを 2 乗和して個数 N を掛けたものです。
次 は 郡 内 (Within groups)の 偏 差 平 方 和 (Variation)を 示 す 式 で す 。 E 関 数 を 乗
数 2 で 使 用 し ま す 。次 の 式 に よ っ て 、そ れ ぞ れ の 群 内 の 偏 差 を 総 計 し ま す 。
V I = Tm(E((X n p – Mp), 2))
全 体 の 偏 差 平 方 和 VT を 求 め る た め に は 次 の 式 を 使 い ま す 。
VT =
Tm(E(X – T, 2))
プログラムはこの 3 つの値を使って次の分散分析表を出力します。
ANOVA
Among groups
Within groups
All
Variation
410.800
87.600
498.400
D.frd.
2
12
14
Variance
205.400
7.300
35.600
F.ratio
5%:1%:Prob.
28.137
3.885
6.927
.000
全 体 の 自 由 度 (Degree of freedom: D.frd.)は す べ て の 成 分 数 -1 で 計 算 さ れ
ま す (N * P - 1)。 1 を 引 く の は 、 総 和 と 1 つ の 成 分 を 除 く 全 成 分 が 決 定 さ れ
ていれば、その成分は自動的に決まるので自由がないからです。同様に群
間 の 自 由 度 は P - 1 に な り ま す 。郡 内 の 自 由 度 は 同 様 に し て 求 め た 各 群 の 自
由 度 (N - 1)に 群 の 数 (P)を 掛 け た 値 で す 。そ れ ぞ れ の 分 散 (Variance)は 変 動 を
自 由 度 で 割 っ て 求 め ま す 。 フ ィ ッ シ ャ ー 比 率 (Fisher ratio: F. ratio)は 群 間 の
分散を郡内の分散で割った値です。このフィッシャー比率があらかじめ決
め た 基 準 (5%, 1%)を 超 え て い れ ば 、 群 間 の 分 散 に 差 が な い 、 と い う 帰 無 仮
説 を 棄 却 で き ま す 。 上 図 の 最 後 の 列 は 、 F の 基 準 値 (5%, 1%)と 、 確 率 を 示
します。
5.7. 予測の分析
この節では、データ行列の右に 1 列にそれぞれのデータ行と関連する 1
つ の 実 測 値 が 示 さ れ て い る 行 列( デ ー タ 行 列 + 実 測 値 )を 入 力 行 列 と し て 、
はじめにデータ行列と実測値の関係を分析します。続いて、実測値を持た
ないデータ行列について、先の実測値に対応する予測値を求めます。デー
タ 行 列 と 実 測 値 に は 二 値 の 名 義 尺 度 (binominal) 、 多 値 の 名 義 尺 度
166
(multinominal)、 数 値 (numerical)の 3 種 が 考 え ら れ ま す 。
5.7.1. 共 起 回 数 に よ る 名 義 行 列 の 名 義 判 別
下 左 表 の 行 列 に は v1-3 の デ ー タ 列 と 右 端 の 判 別 列 (Discr[iminant])が あ り
ま す 。こ の 行 列 と 、下 右 表 の 各 行 に つ い て 、そ の 群 (a, b, c)す る 方 法 を 考 え
ます。
D.data
v1
v2
v3
Discr.
D.data
v1
v2
v3
d1
A
A
B
a
x1
B
A
A
d2
A
A
C
b
x2
A
C
C
d3
A
C
B
b
d4
A
B
B
c
d5
C
C
A
c
d6
C
C
C
c
簡 単 な 方 法 は 、デ ー タ が 一 致 す る 回 数 を 数 え 、そ の 平 均 を と る こ と で す 。
こ の 方 法 を 「 名 義 平 均 共 起 回 数 に よ る 多 名 義 判 別 」 (Multinominal
discrimination by nominal mean cooccurrence と よ ぶ こ と に し ま す 。た と え ば 、
x1 は d1 と v2:A を 共 起 さ せ て い る の で 、 係 数 1/3 と な り 、 こ れ が d1-d6 の
そ れ ぞ れ の 係 数 と 比 較 し て 最 大 と な る の で 、 判 別 は d1 の a と し ま す 。
Cooc.
Value
Discr.
x1
.333
d1: a
x2
.667
d2: b
v2:A は d2 と も 共 起 し ま す が 、 d2 は 成 員 が 2 の 群 に な る の で 、 平 均 は
1/(2x3)に な り ま す 。
比較を個体ではなく、群で行うほうが群全体の情報を生かすことになり
ま す 。 そ こ で た と え ば b 群 の d2 の v1:A は d3 に も あ る の で 、 1/2 の 価 値 を
も つ と 考 え ま す 。x1 と a 群 全 体 の 共 起 回 数 は v2:A の 1 回 な の で 、1/3≒ .333
と な り ま す 。x2 と b 群 全 体 の 共 起 回 数 は 、v1: A, A, v2:C, v3:C の 4 回 で す 。
全 体 が 6 回 あ り ま す か ら 、 係 数 は 4/6≒ .667 に な り ま す 。 こ れ ら が 他 の 群
と比べたときの最大値です。
Cooc.
Value
Discr.
x1
.333
a
x2
.667
b
167
5.7.2. 距 離 に よ る 数 値 行 列 の 多 名 義 判 別
次 の (1)の よ う な 多 項 の 判 別 値 (Discr[iminated value]: a, b, c, …)が 既 知 の
デ ー タ か ら 、 ベ ク ト ル 間 の 「 距 離 」( → 『 関 係 』 ) に よ っ て 、 (2)の よ う な
判 別 値 が 未 知 の デ ー タ を 分 析 し 、 (1)の 中 の 個 体 (d-1, d-2, …)、 ま た は 個 体
群 (a, b, c)に 近 い 行 ベ ク ト ル を 探 し 、 そ の 判 別 値 を (2)に 与 え ま す 。
D1
v1
v2
d1
5
2
d2
3
3
d3
2
d4
4
d5
d6
v3
Disc.
D1x
v1
v2
v3
7
a
x1
4
2
5
2
b
x2
3
7
6
2
b
2
2
c
2
4
3
c
1
8
7
c
た と え ば 、d1 と x1 の 距 離 (Distance: D)を 次 の よ う に 定 義 し ま す 。こ の よ
うに算出される距離は「ユークリッド距離」とよばれます。
D(d1, x1) = {Σ ( i: N ) [D n p (1, i) - X n p (1, i)] 2 } 1 /2
d1 の 成 分 は (5, 2, 7), x1 の 成 分 は (4, 2, 5)な の で 、 両 者 間 の 距 離 は 次 の よ
うに計算されます。
D(d1, x1) = [(5 - 4) 2 + (2 – 2) 2 + (7 - 5) 2 ] 1 /2
= (1 2 + 0 2 + 2 2 ) 1 /2 = 5 1 /2 ≒ .236
こ の よ う な 計 算 を d2, d3, …, d6 で 行 い 、 こ れ ら 6 つ の 距 離 の 最 小 値 が 得
ら れ た と き の (1)の 行 の 判 別 値 (a, b, c)を x1 の 判 別 値 と し ま す 。x2 に つ い て
も 同 様 で す 。そ の 結 果 、以 下 の よ う に x1 は d1 と 一 番 近 く 、ま た 、x2 は d6
に一番近い、ということがわかります。
D1x
Distance Discr.
x1
2.236
d1: a
x2
2.449
d6: c
●群平均値などによる多名義判別
次 に 、(1)の デ ー タ の 個 々 の 行 で は な く 、そ れ ぞ れ の 判 別 群 全 体 と 比 較 し
ます。そのとき群の代表値としてここでは次のように平均値を使います。
168
D1
v1
v2
v3
a
4.000 3.667 6.000
b
3.000 3.000 3.750
c
2.800 4.600 4.600
上 の 3 行 と 先 の D1x の 2 行 の 間 の そ れ ぞ れ の 距 離 を 比 較 す る と 、結 果 は
次のようになります。
D1x
Distance
Discr.
x1
1.887
b
x2
2.786
c
群の代表値として、平均値のほかに、データの分散の状態によって、中
央値、中間値、大数平均値を使うことも考えられます。次は大数平均値を
使ったときの結果です。
D1x
Distance
Discr.
x1
1.601
a
x2
2.885
c
●標準化距離による判別
次 の v3 の よ う に 平 均・標 準 偏 差 が 大 き く 異 な る デ ー タ を 使 う と き に は 注
意が必要です。
(1) 判 別 が 既 知 の デ ー タ .
D2
v1
v2
d1
5
2
d2
3
3
d3
2
d4
4
d5
d6
(2) 判 別 が 未 知 の デ ー タ
v3
Disc.
D2x
v1
v2
v3
56
a
x1
4
2
50
33
b
x2
3
7
60
21
b
2
22
c
2
4
45
c
1
8
72
c
上 の v3 の よ う な 変 数 が 判 別 に 過 大 に 影 響 す る こ と を 防 ぐ た め に 、デ ー タ
(1)と (2)を 合 体 し た デ ー タ X np を 標 準 得 点 に 変 換 し ま す 。
X n p = [I n p – AveC(I n p )] / SdC(I n p )
169
D2
v1
v2
v3
D2x
v1
v2
v3
d1: a
1.633
-.588
.649
x1
.816
-.588
.299
d2: b
.000
-.196
-.693
x2
.000
1.373
.883
d3: b
-.816 -1.373 -1.393
d4: c
.816
-.588 -1.335
d5: c
-.816
.196
.007
d6: c
-1.633
1.765
1.583
次 が 判 別 の 結 果 (群 平 均 )で す 。
D2x
v1
v2
v3
D2x
Distance
Discr.
x1
.816
-.588
.299
x1
.724
a
x2
.000 1.373
.883
x2
1.126
c
●マハラノビスの距離による判別
主成分得点(→『関係』)を使って、各変数の標準偏差だけでなく、変
数間の相関もゼロになるように変換し、個体間の距離(「マハラノビスの
距離」→『関係』)を計算します。以下がその結果です。
D2
v1
v2
d1: a
-.493
d2: b
-.389
d3: b
-1.009
d4: c
-1.095
-.031
1.681
d5: c
.341
-.732
-.277
d6: c
2.010
-.485
-.454
D2x
Distance
v3
D2x
v1
v2
v3
1.811
-.907
x1
-.399
.866
-.397
.750
x2
1.036
.603 1.218
-.981
-1.636 -1.030
Discr.
x1
.908
a
x2
1.305
c
5.7.3. 確 率 に よ る 数 値 行 列 の 多 名 義 判 別
判別値が既知のデータ行列の群内の列相対頻度を、それが該当する事象
が起きる「確率」と見なして、行全体の確率を計算し、これを判別値が未
知のデータ(横ベクトル)にあてはめて、一番大きな確率を示すデータの
判別値を示す群の判別値を得ます。
170
(1) 判 別 が 既 知 の デ ー タ .
(2) 判 別 が 未 知 の デ ー タ
D.data
v-1
v-2
v-3
Disc.
D.pred
v-1
v-2
v-3
d-1
5
2
7
a
x-1
4
2
5
d-2
3
3
4
b
x-2
3
7
6
d-3
2
2
b
d-4
4
2
2
c
d-5
2
4
3
c
d-6
1
8
7
c
2 つ の 事 象 X と Y が 同 時 に 起 こ る 確 率 P(X, Y)を 次 の よ う に 計 算 し ま す 。
P(X, Y) = P(X) P(Y|X)
P(X, Y) = P(Y) P(X|Y)
上 の 最 初 の 式 は 、 同 時 確 率 P(X, Y)が 、 X が 起 こ る 確 率 P(X)と 、 X が 起
き た と き Y が 起 こ る 確 率 P(Y|X)の 積 に な る 、 と い う こ と を 示 し て い ま す 。
たとえば、X がトランプのスペード、Y がエースであるとすると、スペー
ド の エ ー ス が 出 る 確 率 は (1/4) x (1/13) = 1/52 に な り ま す 。 2 番 目 の 式 も 同
様です。そこで、どちらも左辺が同じなので、1 つの式にまとめます。
P(X) P(Y|X) = P(Y) P(X|Y)
よ っ て 、 次 の 式 ( 「 ベ イ ズ の 定 理 」 Bayes’ theorem) が 導 か れ ま す 。
P(X|Y) = P(X) P(Y|X) / P(Y)
この定理は重要なので、簡単な例を使って説明します。次の表は、 多数
の 文 書 か ら な る 資 料 を A 地 方 と B 地 方 の 割 合 P(X)と 、 そ れ ぞ れ の 地 方 の
資料の中で観察される、ある言語現象(たとえば語末母音の脱落)がそれ
ぞ れ の 文 書 に 起 こ る 割 合 P(Y/X)を 示 し て い ま す 。た と え ば 、A 地 方 の 文 書
は 全 体 の 15 文 書 の 中 で 4 文 書 あ り (P(X))、そ の A 地 方 4 文 書 の 中 で 、3 文
書 で 語 末 母 音 の 脱 落 が あ っ た (P(Y|X))、 と い う こ と を 示 し ま す 。
資 料 (X)
P(X)
P(Y|X)
P(X) P(Y|X)
P(X) P(Y|X) / P(Y) = P(X|Y)
X=A
4/17
3/4
4/17 x 3/4 = 3/17
(3/17) / (8/17) = 3/8
X=B
13/17
5/13
13/17 x 5/13 = 5/17
(5/17) / (8/17) = 5/8
和
1
8/17 = P(Y)
1
上 表 の P(X)は 、 P(Y)を 考 慮 し な い の で 「 事 前 確 率 」 (prior probability)と
よ ば れ 、 P(Y|X)は 、 そ れ ぞ れ の 群 内 で の 確 率 を 示 す の で 「 尤 度 (ゆ う ど )」
(likelihood)と よ ば れ ま す 。事 前 確 率 と 尤 度 の 積 P(X) P(Y|X)は 、先 に 見 た よ
171
う に 、X と Y の 同 時 確 率 (joint probability)で す 。た と え ば A の 同 時 確 率 3/17
は 資 料 全 体 の 中 で の A 地 方 の 該 当 文 書( 現 象 の あ る 文 書 )の 割 合 を 示 し ま
す 。 B の P(X) P(Y|X) = 5/17 も 同 様 で す 。 こ の 同 時 確 率 の 計 算 で 、 積 の 第 1
名義の分子が第 2 名義の分母と同じであることに注意してください。これ
は、群内で占める該当文書の割合(事前確率)を計算する分子が、尤度を
計算するときのベース(分母)になる、と考えるとわかりやすいと思いま
す。ここでそれぞれの確率を分数で示し、小数やパーセント表示にしなか
ったのは、それぞれの分母と分子がどのような意味を持っているのかを確
認したかったためです。
さ て 、 A と B の 尤 度 の 和 (3/17 + 5/17=8/17)に な り ま す が 、 こ れ が 実 は ベ
イ ズ の 定 理 の 分 母 P(Y)に あ た り ま す 。 つ ま り 、 文 書 の 全 数 17 の 中 で 現 象
(Y)が 起 き て い る 文 書 数 (8)の 確 率 (8/17)を 示 し ま す 。
最 後 に 、上 表 の 右 端 の 列 で ベ イ ズ の 定 理 に し た が っ て P(X|Y)を 求 め ま す 。
こ れ は 、先 に 求 め た 地 方 (X)と 現 象 (Y)の そ れ ぞ れ の 同 時 確 率 P(X) P(Y|X)を 、
その和である、文書全体で現象が起こる確率で割った割合を示します。
Y の 事 象 が 複 数 の と き は 条 件 付 き 確 率( 尤 度 )を 次 の よ う に 拡 張 し ま す 。
P(Y|X) = P(Y 1 |X) P(Y 2 | X) ... P(Y p |X)
(1) 量 的 確 率 に よ る 多 名 義 判 別
た と え ば 、 上 表 の d-1, d-2, ..., d-6 が 文 書 -1, 2, ..., 6 で あ り 、 判 別 -a, b, c
が A 地方、B 地方、C 地方で収集された古文書群である、とします。ここ
で の 課 題 は 、 x-1, x-2 の よ う に 判 別 値 が な い 文 書 を そ の 文 書 の デ ー タ か ら
推 測 す る こ と で す 。 そ の と き 、 使 わ れ る 変 数 と し て v-1, 2, 3 が そ れ ぞ れ の
言語形式である、とします。よって、この課題をベイズの定理にあてはめ
る と 、 あ る 文 書 (Y)が そ れ ぞ れ の 地 方 (X)に 属 す る 確 率 P(X|Y)を 求 め る こ と
になります。
は じ め に 、P(X)を 求 め ま す 。こ れ は「 事 前 確 率 」(prior probability)と よ ば
れ る も の で 、A 群 , B 群 , C 群 の 文 書 の 割 合 は 1/6, 2/6, 3/6 な の で 、こ れ が そ
れぞれの事前確率になります。
P(X=a) = 1/6, P(X=b) = 2/6, P(X=c) = 3/6
次 に そ れ ぞ れ の 群 (X)の 中 で 、 変 数 (v1, 2, 3)が 起 こ る 確 率 を 計 算 し ま す 。
た と え ば 、 a 群 内 で v1 が 起 こ る 確 率 は 5 / (5+2+7) = .357 で あ り 、 b 群 内 で
v-1 が 起 こ る 確 率 は (3+2)/(3+3+4+2+2)=.357 で す 。す べ て の ケ ー ス を 計 算 す
る と 、 次 の よ う に な り ま す 。 こ れ は 「 尤 度 」 (likelihood)と よ ば れ 、 ベ イ ズ
の 定 理 の 条 件 付 き 確 率 P(Y/X)に あ た り ま す 。
QT.likel.
a
v1
.357
v2
v3
.143 .500
172
b
.357
.214 .429
c
.212
.424 .364
このそれぞれの確率横ベクトルは、先のベイズの定理の分子にある
P(Y 1 |X) P(Y 2 | X) ... P(Y p |X)
に あ た り ま す 。分 子 内 の 最 初 の 名 義 P(X)は 、そ れ ぞ れ の 群 の 確 率 で す 。た
と え ば 、 X が a で あ る 確 率 P(X=a)は 6 デ タ 中 の 1 個 に な る の で 、 1/6 に な
り ま す 。 同 様 に P(X=b) = 2/6, P(X=c) = 3/6 で す 。
そ こ で 、 た と え ば 、 x1 (4, 2, 5)の 確 率 は 次 の よ う に 計 算 さ れ ま す 。
P(X=a|Y=x1) = (1/6) x (. 357) 4 x (.143) 2 x (.500) 5
P(X=b|Y=x1) = (2/6) x (. 357) 4 x (.214) 2 x (.429) 5
P(X=c|Y=x1) = (3/6) x (. 212) 4 x (.424) 2 x (.364) 5
この計算は現象の頻度が指数になるので、頻度が大きいとゼロに近くな
って判別が困難になります。そこで次のように対数に 変換した値を判別に
使います。
Log[P(X=a|Y=x1)] = (1/6) + 4 x (.357) + 2 x (.143) + 5 x (.500)
Log[P(X=b|Y=x1)] = (2/6) + 4 x (.357) + 2 x (.214) + 5 x (.429)
Log[P(X=c|Y=x1)] = (3/6) + 4 x (.212) + 2 x (.424) + 5 x (.364)
こ の 3 者 を 比 較 し て 最 も 大 き な 数 値 を 示 す b 値 が x1 の 判 別 値
(Discr[iminant])で す 。 次 の 判 別 表 の Ct(mx, mn)は 算 出 さ れ た 確 率 の 最 大 値
と最小値の対照値です。
D.pred Ct(mx, mn) Discr.
x1
.492
b
x2
.953
c
なお、頻度がゼロのときは該当する確率もゼロになるので、先の式の積
算の結果がすべてゼロになってしまいます。そこで、横和で割るとき、分
母と分子に 1 を加える、という操作が行われています。
(2) 質 的 確 率 に よ る 多 名 義 判 別
次の左表のような質的デタの既知の判別値から、右のような未知の判別
値を確率を使って予測します。
173
D.data
v1
v2
d1
v
v
d2
v
d3
v
v3
v
D.pred
v1
v2
a
x1
v
v
a
x2
v3
v
a
d4
v
d5
Disc.
a
v
d6
v
v
b
v
b
次が各群の確率表です。ここでは、それぞれの v が群内の列の中で使用
された率を示します。
QL.likel.
v1
v2
v3
.250
a
.750
.500
b
.500
.500 1.000
こ こ で 、 た と え ば 、 x1 (v, v, x)の 確 率 は
P(X=a|Y=x1) = (4/6) x (.750) x (500) x (1 - .250)
P(X=b|Y=x1) = (2/6) x (. 500) x (.500) x (11)
そ れ ぞ れ の 最 後 の 名 義 で (1 - .250)の よ う に 確 率 が 逆 転 す る の は 、v3 が
選択されていないため、それが起きない場合の確率を示すためです。
D.pred Ct(mx, mn) Discr.
x1
.711
a
x2
.339
b
こ こ で も 確 率 が ゼ ロ や 1 の 場 合 、先 と 同 様 に 積 が す べ て ゼ ロ に な る た め 、
横 和 で 割 る と き 、分 母 と 分 子 に 1 を 加 え る 、と い う 操 作 が 行 わ れ て い ま す 。
* 高 村 (2000: 99-117), 加 藤 ・ 羽 室 ・ 矢 田 (2008: 111-115)を 参 照 し ま し た 。
174
6. 集中分析
行 と 列 に 適 当 な 値 を 与 え て 、デ ー タ 行 列 の 反 応 点 (v)や 数 値 を 一 定 の 箇 所
に集中させることにより、行と列に新しい解釈をすることができるように
な り ま す 。こ の 方 法 を「 集 中 分 析 」(Concentration Analysis)と よ ぶ こ と に し
ます。集中分析の典型的な方法として、前述の判別分析・数量化3類があ
げられますが(これを「両側分析」とよぶことにします)、どちらも行と
列に同時に重みを与え、データ行列の分布の相関係数を最大化させていま
す。ここでは、行と列のどちらかを固定し、これを外的基準として、残り
の列または行に数値を与えて集中化する方法を探ります。これを「片側分
析」とよぶことにします。
6.1. 対応集中分析
前述の対応分析では、個体と変量に与える未知のベクトルを求めました
が、ここでは、どちらかを既知のベクトルとし、残る法を未知のベクトル
とします。既知のベクトルとして、この成分の順番を固定するために、連
続 数 1, 2, …, N( ま た は P)の 標 準 得 点 を 与 え ま す 。 こ れ を 外 的 基 準 と し て
固定し、未知の行、または列のベクトルを求めます。そのとき、ベクトル
の平均を 0 とし、分散を 1 として標準化します。目的は、対応分析と同様
に、データ行列の分布の相関係数を最大化することです。
はじめに、変数のベクトルを連続数の標準得点で固定し、個体のベクト
ルを未知として、これを求めます。
対応分析の説明で使ったデータを下に再掲します。
Test: D np
Y 1 : English Y 2 : Latin Y 3 : Science
Sn1
X 1 : Ana
9
14
18
41
X 2 : Juan
17
7
11
35
X 3 : Mary
15
13
14
42
X 4 : Ken
5
18
8
31
T1p
46
52
51 149
こ の 「 対 応 個 体 分 析 」 の 目 的 は 、 変 数 (Y 1 , Y 2 , Y 3 ) = Y p 1 を 既 知 と し て 、
未 知 の 個 体 (X 1 , X 2 , X 3 , X 4 ) = X n1 の ベ ク ト ル を 求 め る こ と で す 。
個 体 ベ ク ト ル X n 1 と 変 数 ベ ク ト ル Y p 1 の 平 均 (MX, MY)を そ れ ぞ れ 0 と し
ます。
S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p )
175
S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対 角 行 列 ]
[1a]
MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n1 ' X n 1 / N = 0
[1b]
MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0
個 体 (X n1 )と 変 数 (Y p 1 )の 分 散 (VX, VY)を そ れ ぞ れ 1 と し ま す 。
[2] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149
= (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149
← 1a. MX = 0
= X n 1 ' Sn n Xn 1 / N = 1
D n p を 散 布 図 と 見 な し 、 そ の X 軸 : X n 1 と Y 軸 : Y p 1 の 間 の 相 関 係 数 (R)
は,
[3]
[D n p :デ ー タ 行 列 ]
R = [9(X 1 –MX)(Y 1 –MY)
+ 14(X 1 –MX)(Y 2 –MY)
+ 18(X 1 –MX)(Y 3 –MY)
+ 17(X 2 –MX)(Y 1 –MY)
+...
+ 8(X 4 –MX)(Y 3 −MY)] / 149
← MX = MY = 0
= (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149
= X n 1 ' D np Y p 1 / N
こ の R を 最 大 化 す る た め に は 、 分 散 VX = 1 と い う 条 件 を 加 え た 次 の 式
の S を X n 1 で 微 分 し (Df(S, X n 1 ))、そ の 結 果 を ゼ ロ ベ ク ト ル (O n 1 )と し ま す 。L
はラグランジュ乗数です。
S
= (X n 1 ' D np Y p1 ) / N – L [VX- 1]
= (X n 1 ' D np Y p1 ) / N – L [(X n 1 ' S n n X n 1 ) / N - 1]
[4]
Df(S, X n1 ) = D np Y p 1 / N – 2 L S n n X n1 / N = O n 1 (ゼ ロ )
Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 )
[5]
D n p Y p1 / N = 2 L S n n X n 1 / N
← 4.の 第 2 項 を 移 項
X n 1 ' D np Y p 1 / N = 2 L X n 1 ' S n n X n 1 / N
← 両 辺 に X n 1 'を 左 積
R =2 L
[6]
← 2. X n 1 ' S n n X n 1 / N = 1; 3. R = X n 1 ' D n p Y p 1 / N
D n p Y p1 = R S n n X n 1
← 5. D n p Y p 1 / N = 2 L 1 S n n X n1 / N; 6. R = 2 L 1
R S n n X n 1 = D np Y p 1
←両辺交換
S n n X n1 = D n p Y p1 / R
←スカラーR 移動
S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両 辺 に S n n ^を 左 積
176
X n 1 = S n n ^ D np Y p1 / R
← S n n ^ S n n = U nn
こ の よ う に し て 、 X n1 が 求 め ら れ ま し た が 、 右 辺 の R( 相 関 係 数 ) は 既
知 で は な り ま せ ん 。 し か し 、 こ こ で は X n1 の ベ ク ト ル を 最 終 的 に 標 準 化 し
ますので、R がどんな値であってもかまいません。そこで、 R を除いた次
の式を使います。
X n 1 ” = StdS(S n n ^ D np Y p 1 )
一 方 、個 体 の ベ ク ト ル を 固 定 し て 、変 数 の ベ ク ト ル を 求 め る と き は 、 [2]
以下を次のようにします。
[2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149
= (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149
← 1b. MY = 0
= Y p 1 ' Tp p Yp 1 / N = 1
[3]
R = X n 1 ' D np Y p 1 / N
こ の R を 最 大 化 す る た め に は 、 VY = 1 と い う 条 件 を 加 え た 次 の 式 の S
を Y p 1 で 微 分 し Df(S,Y p 1 ))、そ の 結 果 を ゼ ロ ベ ク ト ル (O p 1 )と し ま す 。L は ラ
グランジュ乗数です。
S
= (X n 1 ' D np Y p1 ) / N – L [VY - 1]
= (X n 1 ' D np Y p1 ) / N – L [(Y p 1 ' T p p Y p 1 ) / N - 1]
[4b]
Df(S, Y p1 ) = D np ' X n 1 / N – 2 L T p p Y p1 / N = O p1 (ゼ ロ )
Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼ ロ :は じ め の 条 件 )
[5b]
D n p ' X n1 / N = 2 L T p p Y p1 / N
← 4b.の 第 2 項 を 移 項
X n 1 ' D np / N = 2 L Y p1 ' T p p / N
← 行 列 移 動 ; Tp p 対 角 行 列
X n 1 ' D np Y p 1 / N = 2 L Y p 1 ' T p p Y p 1 / N
← 両 辺 に Yp 1 を 右 積
R = 2 L ← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
[6b]
D n p ' X n1 = R T p p Y p 1
← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2
R T p p Y p 1 = D np ' X n 1
←両辺交換
T p p Y p1 = D n p ' X n1 / R
←スカラーR 移動
← 両 辺 に T p p ^を 左 積
T p p ^ T p p Y p 1 = T p p ^ D np ' X n 1 / R
Y p 1 = T p p ^ D np ' X n 1 / R
← T p p ^ T p p = Um
ここでも先と同じ理由で R を無視し、標準化します。
Y p 1 ” = StdS(T p p ^ D np ' X n 1 )
最後に、個体と変数に与えるベクトルが共に未知であるときは、前述の
対応分析を行い、固有値・固有ベクトルを使って、同時に 2 つのベクトル
177
を求めます。
6.2. 距離集中分析
データ行列の列と行の数値情報を使って、拡散した行列の分布パタンを
再編成し、行列の対角部分に高い数値を集中化することによって、データ
全 体 の 分 布 構 造 を 探 る 技 法 を 「 集 中 分 析 」 Concentration analysis と 名 づ け
ます。原点からの距離の平均を測る方法と多変数解析を利用する方法を探
ります。集中化には列または行を外的基準として定める方法と、分類の外
的基準を定めないでデータ行列そのものを内的基準として分類する方法が
あ り ま す 。集 中 化 し た 状 態 を 評 価 す る た め に 相 関 係 数( →『 基 礎 』p.**: 3.6.2)、
距 離 係 数 ( → 3.6.4 ) 、 そ し て 新 た に 定 め る 「 隣 接 係 数 」 な ど を 使 い ま す 。
6.2.1. 外 的 基 準 に よ る 集 中 化
は じ め に 「 外 的 基 準 に よ る 集 中 化 」 Concentration with exterior criterion
を説明します。これは、たとえば下左表のようなデータ行列があり、これ
の 行 (d-1, 2, …, 5)を 並 べ 替 え て v 印 で 示 し た 反 応 の 分 布 を 近 接 さ せ る ( こ
の場合は対角線に近い位置に並べる)というのがねらいです。
Lv
d-1
v-1 v-2 v-3 v-4
v
v
d-2
d-5
d-5
v
v
v
v
v
 d-3
v
d-4
v-1 v-2 v-3 v-4
d-1
v
d-3
Lv
v
v
v
v
v
v
d-2
v
d-4
v
v
こ の よ う に 集 中 化 す る と 行 に 関 し て は [d-1, 3, 5]と [d-2, 4]が そ れ ぞ れ 集
中 し 、列 に 関 し て は [v-1, 2]と [v-3, 4]が そ れ ぞ れ 集 中 化 さ れ て い る こ と が わ
か り ま す 。こ こ で「 集 中 化 」(concentration)と は 反 応 の 分 布 が 互 い に 近 接 し 、
全 体 で 一 定 の 傾 向 を 示 す こ と を 意 味 し ま す 。(1)で 説 明 し た 各 行 の 数 値 を 基
準にして昇順で並べ替えると上右表のようになります。
d-1: [(1 2 + 2 2 ) / 2]
d-2: [(3 2 ) / 1]
2
d-3: [(2 ) / 1]
= 1.581
(...1)
1 /2
= 3.000
(...4)
1 /2
= 2.000
(...2)
= 3.535
(...5)
= 2.160
(...3)
d-4: [(3 2 + 4 2 ) / 2]
2
2
1 /2
2
1 /2
d-5: [(1 + 2 + 3 ) / 3]
1 /2
178
列については縦方向で同様に距離の平均を計算します。
v-1: [(1 2 + 5 2 ) / 2]
= 3.606
v-2: [(1 2 + 3 2 + 5 2 ) / 3] = 3.416
v-3: [(2 2 + 4 2 + 5 2 ) / 3] = 3.873
v-4: [(4 2 ) / 1]
= 4.000
行 和 縦 ベ ク ト ル DSTv を 行 列 で 示 す と 、
DSTv = [SumR(X n p * SQp E X P ) / SumR(X n p )] 1 /E X P
こ こ で SumR は 行 列 の 行 和 縦 ベ ク ト ル を 返 す 関 数 で す 。
SumR = X n p U p 1
SQp は 連 番 [1, 2, …, p]を 成 分 に す る 縦 ベ ク ト ル で す 。 EXP は Minkowki
距離の指数部です。
●同距離異分布問題
原点からの距離の平均は等しいけれど分布のパタンが異なる 2 つのデー
タ の あ り ま す 。 た と え ば 次 の よ う な 例 (P2)で す 。
P2
v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11
d-1
d-2
v
v
v
v
v
v
P2
係数
d-1 7.594
d-2 7.594
これを先のように計算すると次のように結果が同じになります。
d-1 ... [(4 2 + 6 2 + 11 2 ) / 3] 1 /2
= 7.594
d-2 ... [(3 2 + 8 2 + 10 2 ) / 3] 1 /2
= 7.594
こ の と き Minkowsky の 距 離 で 3 乗 を 選 択 す る と 、こ の 同 距 離 異 分 布 問 題
を 解 決 で き ま す 。 → 3.6.4. (2)
P2
d-2
v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11
v
d-1
v
v
v
3
3
d-2 ... [(3 + 8 + 10 ) / 3]
1 /3
係数
d-2 8.005
v
d-1 ... [(4 3 + 6 3 + 11 3 ) / 3] 1 /3
3
v
P2
d-1 8.128
= 8.128
= 8.005
■地理的配列基準
次 の デ ー タ (p6)は ラ テ ン ア メ リ カ ス ペ イ ン 語 の 「 農 夫 」 を 示 す 言 語 形 式
179
と そ の 地 理 的 分 布 で す (Cahuzac: 1980)。 語 形 は ア ル フ ァ ベ ッ ト 順 に 並 べ 、
国 名 は 北 か ら 南 に 配 置 さ れ て い ま す 。(México, Cuba, República Dominicana,
Puerto Rico, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica, Panamá,
Venezuela, Colombia, Ecuador, Perú, Bolivia, Chile, Paraguay, Uruguay,
Argentina).
Use
1 cacahuero
2 cafetalista
3 camilucho
4 campero
5 camperuso
6 campirano
7 campiruso
8 campista
9 campusano
10 campuso
11 colono
12 comparsa
13 conuquero
14 coquero
15 chagrero
16 changador
17 chilero
18 chuncano
19 enmaniguado
20 estanciero
21 gaucho
22 guajiro
23 guanaco
24 guaso
25 huasicama
26 huertero
27 hulero
28 invernador
29 jíbaro
30 lampero
31 lanudo
32 llanero
33 macanero
34 manuto
35 montero
36 montubio
37 paisano
38 pajuerano
39 partidario
40 payazo
41 piona
42 ranchero
43 rondín
44 sabanero
45 veguero
46 viñatero
47 yanacón
CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA
v v
v
v v
v
v
v v
v v v v v v v v
v v v v v v
v v v v v v v v v
v
v v v v v
v v
v
v v v
v v
v v v
v v
v
v v v v v v v
v
v v v
v
v
v
v v
v v v v v v
v
v v v v
v v
v
v
v
v v v v v v v
v
v v
v v
v v
v v v
v v
v
v
v
v
v v
v v
v v v
v
v v
v
v v
v
v v
v
v v
v
v
v
v v
v
v
v
v v
v v v
UR AR
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
こ の デ ー タ 行 列 の 行 を 基 準 に し て 、原 点 平 均 距 離 (N=2)に よ っ て 行 を 並 べ
替えると全体の分布は次のように集中化されます。
180
Dst.cct.
CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA UR AR
22 guajiro
v
v
35 montero
v
v
19 enmaniguado
v
v
v
29 jíbaro
v
v
11 colono
v
v
2 cafetalista
v
v
v
42 ranchero
v
v
v
v
33 macanero
v
v
10 campuso
v
v
v
v
v
34 manuto
v
v
45 veguero
v
v
17 chilero
v
v
v
v
v
v
v
27 hulero
v
v
v
v
v
v
v
8 campista
v
v
v
v
v
v
v
v
v
13 conuquero
v
v
v
v
v
23 guanaco
v
v
v
v
v
v
7 campiruso
v
v
v
v
v
v
6 campirano
v
v
v
v
v
v
v
v
36 montubio
v
v
v
v
v
38 pajuerano
v
v
v
37 paisano
v
v
v
32 llanero
v
v
40 payazo
v
v
1 cacahuero
v
v
44 sabanero
v
v
5 camperuso
v
v
31 lanudo
v
v
v
15 chagrero
v
v
25 huasicama
v
v
14 coquero
v
v
v
24 guaso
v
v
v
v
v
v
26 huertero
v
v
v
v
43 rondín
v
47 yanacón
v
v
v
v
30 lampero
v
v
v
9 campusano
v
v
v
46 viñatero
v
v
v
v
v
28 invernador
v
v
v
v
v
21 gaucho
v
v
v
v
39 partidario
v
v
v
41 piona
v
v
v
4 campero
v
v
v
18 chuncano
v
v
v
3 camilucho
v
v
v
20 estanciero
v
v
v
12 comparsa
v
v
v
16 changador
v
v
v
このようにデータ行列全体の反応パタンが対角化されると、一定の地域
に集中する一定の語形の集まりを観察することができます。
6.2.2. 内 的 基 準 に よ る 集 中 化
先 の 外 的 基 準 に よ る 集 中 化 で は 行 を 固 定 し て( 外 的 基 準 と し て 選 択 し て )、
181
列 を 原 点 平 均 距 離 と い う 基 準 で 並 べ 替 え ま し た 。こ こ で は 行 も 固 定 せ ず に 、
つまり外的基準を設定しないで集中化する方法を考えます。
先 の サ ン プ ル デ ー タ は 、 た と え ば 5 つ の 地 域 (d-1, 2, …, 5)に つ い て 4 つ
の 言 語 特 徴 (v-1, 2, 3, 4)が ど の よ う に 反 応 し て い る か を 示 し て い る こ と を
想定しましょう。ここでは言語地理区分をする上で外部的な基準がなく、
あるのは地域を共有する特徴の集合と特徴を共有する地域の集合だけです。
そこで、特徴がどの地域にあるかを調べ、該当するときに v 印をつけたの
が下左表です。このままでは地域についても特徴についてもどのような 分
布パタンがあるのかわからないので、地域については特徴の選択が近いも
のを並べ、特徴については地域の選択の仕方が近いものを並べるという操
作をすると下右表が得られます。
Lv
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
v
v
v-2 v-1 v-3 v-4
d-3
v
 d-1
v
v
d-5
v
v
v
d-4
d-5
Lv
v
v
v
d-2
v
d-4
v
v
「 内 的 基 準 に よ る 集 中 化 」 Concenration with interior criterion と は 上 左 表
のようなデータから上右表のようなパタンを得る方法です。「最良のパタ
ン 」と は 反 応 す る デ ー タ (v 印 )が な る べ く 対 角 線 の 近 く に 集 ま る よ う な パ タ
ンであると決めて、このようなパタンを得る方法を考えましょう。
先と同様の計算を何度か繰り返しますが方法はとても簡単です。はじめ
に「外的基準のある集中化」と同様に横行の中で反応した v 印の原点から
の 距 離 (原 点 か ら の 標 準 偏 差 )を 計 算 し ま す 。
d-1: [(1 2 + 2 2 ) / 2] 1 /2
= 1.581 (...1)
d-2: [(3 2 ) / 1] 1 /2
= 3.000 (...4)
2
= 2.000 (...2)
d-3: [(2 ) / 1]
1 /2
d-4: [(3 2 + 4 2 ) / 2] 1 /2
2
2
2
d-5: [(1 + 2 + 3 ) / 3]
= 3.535 (...5)
1 /2
= 2.160 (...3)
こ の 数 値 を 基 準 に し て 昇 順 (上 の 計 算 式 で ...で 示 し ま し た )で 並 べ 替 え る
と 次 の よ う に な り ま す 。こ こ ま で は 前 節 の 外 的 基 準 に よ る 分 類 と 同 じ で す 。
182
Lv
d-1
v-1 v-2 v-3 v-4
v
d-3
d-5
v
係数
Lv
v
d-1 1.581
v
d-3 2.000
v
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
v
d-4 3.536
次にこの各縦列の原点からの距離を計算します。
v-1: [(1 2 + 3 2 ) / 2] 1 /2
2
2
2
v-2: [(1 + 2 + 3 ) / 3]
1 /2
v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2
2
v-4: [(5 ) / 1]
1 /2
= 2.236
(...2)
= 2.160
(...1)
= 4.082
(...3)
= 5.000
(...4)
こ の 数 値 に よ れ ば v-1 と v-2 が 位 置 を 交 代 し な け れ ば な り ま せ ん 。 そ の
結果が次の表です。
Lv
v-2
v-1
d-1
v
v
d-3
v
d-5
v
v-3
v-4
Lv
係数
d-1 1.581
d-3 1.000
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
v
v-3
v-4
Lv
v-2
v
v-1
d-4 3.536
係数 2.160 2.236 4.082 5.000
これで第 1 回目の縦と横の並べ替えが終わりました。この段階で再び各横
行の原点からの平均距離を計算すると次のようになります。
d-1: [(1 2 + 2 2 ) / 2] 1 /2
d-3: [(1 2 ) / 1] 1 /2
2
2
2
d-5: [(1 + 2 + 3 ) / 3]
d-2: [(3 2 ) / 1] 1 /2
2
2
d-4: [(3 + 4 ) / 2]
1 /2
1 /2
= 1.581
(...2)
= 1.000
(...1)
= 2.160
(...3)
= 3.000
(...4)
= 3.535
(...5)
こ れ を 見 る と 、d-1 と d-3 を 交 替 し な け れ ば な ら な い こ と が わ か り ま す 。そ
のように並べ替えたのが次の表です。
183
Lv
v-2
v-1
v-3
d-3
v
d-1
v
v
d-5
v
v
v-4
Lv
係数
d-3 1.000
d-1 1.581
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
Lv
v-2
v-1
v-3
v
d-4 3.536
v-4
係数 2.160 2.550 4.082 5.000
さらに各縦列の原点からの標準偏差を計算すると次のようになります。
v-2: [(1 2 + 2 2 + 3 2 ) / 3] 1 /2
2
2
v-1: [(2 + 3 ) / 2]
1 /2
v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2
2
v-4: [(5 ) / 1]
1 /2
= 2.160
(...1)
= 2.550
(...2)
= 4.082
(...3)
=5
(...4)
これで横行も縦列も正しく昇順に並んだので分布パタンは集中したことに
なります。さらに大きなデータ行列では繰り返しの数が増えます。
■行列内的基準
先に行(南北の配置)を外的基準にした分析をしましたが、今回は外的
基 準 を 設 定 し な い で デ ー タ 行 列 (Cahuzac: 1980)の 内 的 基 準 に し た が っ て 同
じデータ行列を分析してみましょう。次の表を見ると先の分析と比べて、
さらにつよく集中化されていることがわかります。
184
D s t . c c t . EL HO NI GU CR PR PN MX RD VE CU CO EC PE CH BO AR UR PA
10 campuso
v v v v v
23 guanaco
v v v v v
v
7 campiruso
v v v v v
v
17 chilero
v v v v v
v v
27 hulero
v v v v v
v v
8 campista
v v v v v v v v
v
6 campirano
v v v v v
v
v
v
33 macanero
v
v
29 jíbaro
v
v
11 colono
v
v
34 manuto
v
v
45 veguero
v
v
2 cafetalista
v
v
v
42 ranchero
v v v
v
19 enmaniguado
v
v
v
13 conuquero
v
v v v v
22 guajiro
v
v
35 montero
v
v
32 llanero
v
v
40 payazo
v
v
1 cacahuero
v
v
44 sabanero
v
v
5 camperuso
v
v
31 lanudo
v
v v
36 montubio
v
v v v v
37 paisano
v
v v
15 chagrero
v v
25 huasicama
v v
38 pajuerano
v
v v
26 huertero
v
v v
v
14 coquero
v v
v
24 guaso
v
v v v v v
9 campusano
v
v v
47 yanacón
v v v v
30 lampero
v
v v
43 rondín
v
46 viñatero
v v
v v v
28 invernador
v v
v v v
39 partidario
v v v
21 gaucho
v v v v
41 piona
v v v
4 campero
v v v
18 chuncano
v v v
3 camilucho
v v v
20 estanciero
v v v
12 comparsa
v v v
16 changador
v v v
一般にデータを扱うときは分析者が先に一定の基準を設けて、それにし
たがって分析をすることが多いのですが、それではデータの構造が本来有
185
している内的基準が考慮されていません。このような方法を「前範疇化」
(precategorization)と よ ぶ こ と に し ま す 。 本 当 は さ ら に 良 い 結 果 が 得 ら れ る
のに、分析者が先に基準に縛りをかけて、その結果に自らが縛られている
ことがあります。いつも先に決めた基準で同じような分析をするよりも、
より柔軟な方法をとるべきでしょう。そうすれば新しい発見に出会う可能
性 が 高 ま り ま す 。こ の よ う な 方 法 を「 後 範 疇 化 」(postcategorization)と よ ぶ
ことにしたいと思います。どちらの方法も可能ですが、文系の研究で後者
はあまり行われていないようです。
6.2.3. 軸 の 解 釈
横行と縦列の並べ替えの基準とした原点平均距離はパタン化が集中した
とき各個体と各属性それぞれの近さを示しています。そこで、平均距離ま
たはその標準測度を出力させ、それをグラフに示すことによって個体のグ
ル ー ピ ン グ と 属 性 の グ ル ー ピ ン グ が で き ま す 。サ ン プ ル デ ー タ ( p 1 )が 内 的 基
準によって集中したとき、それぞれの軸の原点からの平均距離は次のよう
になります。
次は先のサンプルデータの列と行の係数を標準化した結果です。
Lv
v-2
v-1
v-3
d-3
v
d-1
v
v
d-5
v
v
v-4
Lv
係数
d-3 -1.418
d-1 -0.709
v
d-5 -0.014
d-2
v
d-2
0.760
d-4
v
d-4
1.381
Lv
v-2
v-1
v-3
v
v-4
係数 -1.097 -0.821 0.582 1.336
それぞれの軸を折れ線グラフにしてみましょう。
列 係 数 の 直 線 は 一 様 で す が 、 行 係 数 は v-2, v-1 の 傾 斜 が 緩 く な っ て い ま
す 。 こ れ は v-2, v-1 の デ ー タ の 分 布 が 近 い こ と を 示 し ま す 。
186
■軸の傾き
次 の 図 は 「 農 夫 」 (Cahuzac: 1980)の 分 析 の 行 係 数 を 標 準 化 し 、 折 線 グ ラ
フ に し た も の で す( →『 基 礎 』p.**.)。こ れ を 見 る と 、大 き く 中 米 諸 国 (CR,
EL, HO, NI, GU)か ら メ キ シ コ (MX)、 カ リ ブ 海 (RD, VE, CU), ア ン デ ス 諸 国
(CO, EC, PE, CH, BO)、 ラ プ ラ タ 諸 国 (AR, UR, PA)と い う 連 続 が あ る こ と が
わかります。そして、この図は中米諸国は横に一直線に並んでいるので、
分布パタンが変わらないことを示しています。このことは集中化されたデ
ー タ 行 列 の 分 布 パ タ ン (2)で 確 認 す る こ と が で き ま す 。
このようにグラフや係数は確かに全体の傾向をつかむのに役立ちますが、
一定の変形や抽象化を得ています。そこで、グラフや係数が示すことを、
データ行列で再確認すると分析結果がより納得できるものになります。数
字や図はそれを支援するものですが、最終的な判断をするときはデータ行
列に立ち返って確認すべきです。
■相関行列の集中化
次 は 優 先 係 数 の 出 力 (上 図 )と 、 そ れ を 集 中 化 し た 結 果 ( 下 図 ) で す 。
Preference
CU
RD
PR
MX
GU
EL
HO
NI
CR
PN
VE
CO
EC
PE
BO
CH
PA
UR
AR
CU
1.000
0.200
-0.200
-0.500
-1.000
-1.000
-1.000
-1.000
-1.000
-0.789
-0.778
-0.600
-0.294
-0.368
-0.750
-0.714
-1.000
-1.000
-0.840
RD
0.200
1.000
-0.059
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-0.429
-0.800
-0.636
-0.579
-0.619
-1.000
-1.000
-1.000
-1.000
-1.000
PR
-0.200
-0.059
1.000
-0.385
-0.692
-0.692
-0.692
-0.692
-0.714
-0.750
-0.467
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
MX
-0.500
-0.778
-0.385
1.000
-0.143
-0.143
-0.143
-0.143
0.067
-0.059
-0.750
-1.000
-1.000
-0.765
-1.000
-0.667
-1.000
-1.000
-0.826
GU
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
EL
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
HO
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
NI
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CR
-1.000
-1.000
-0.714
0.067
0.867
0.867
0.867
0.867
1.000
0.333
-0.529
-0.789
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
187
PN
-0.789
-0.429
-0.750
-0.059
0.412
0.412
0.412
0.412
0.333
1.000
-0.579
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-0.846
VE
-0.778
-0.800
-0.467
-0.750
-0.500
-0.500
-0.500
-0.500
-0.529
-0.579
1.000
0.600
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CO
-0.600
-0.636
-0.765
-1.000
-0.778
-0.778
-0.778
-0.778
-0.789
-0.810
0.600
1.000
-0.158
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
EC
-0.294
-0.579
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-0.158
1.000
0.111
-0.467
-0.692
-1.000
-1.000
-0.833
PE
-0.368
-0.619
-1.000
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.810
0.111
1.000
-0.059
0.333
-0.600
-0.636
-0.077
BO
-0.750
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.467
-0.059
1.000
-0.333
-0.765
-0.579
-0.130
CH
-0.714
-1.000
-1.000
-0.667
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.692
0.333
-0.333
1.000
-0.467
-0.529
-0.048
PA
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.600
-0.765
-0.467
1.000
0.818
0.538
UR
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-1.000
-1.000
-1.000
-0.636
-0.579
-0.529
0.818
1.000
0.714
AR
-0.840
-1.000
-1.000
-0.826
-1.000
-1.000
-1.000
-1.000
-1.000
-0.846
-1.000
-1.000
-0.833
-0.077
-0.130
-0.048
0.538
0.714
1.000
Dst.cct.
EL
HO
NI
GU
CR
PN
MX
VE
PR
CO
RD
CU
EC
PE
CH
BO
AR
UR
PA
EL
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
HO
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
NI
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
GU
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CR
0.867
0.867
0.867
0.867
1.000
0.333
0.067
-0.529
-0.714
-0.789
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
PN
0.412
0.412
0.412
0.412
0.333
1.000
-0.059
-0.579
-0.750
-0.810
-0.429
-0.789
-1.000
-1.000
-1.000
-1.000
-0.846
-0.818
-1.000
MX
-0.143
-0.143
-0.143
-0.143
0.067
-0.059
1.000
-0.750
-0.385
-1.000
-0.778
-0.500
-1.000
-0.765
-0.667
-1.000
-0.826
-1.000
-1.000
VE
-0.500
-0.500
-0.500
-0.500
-0.529
-0.579
-0.750
1.000
-0.467
0.600
-0.800
-0.778
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
PR
-0.692
-0.692
-0.692
-0.692
-0.714
-0.750
-0.385
-0.467
1.000
-0.765
-0.059
-0.200
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CO
-0.778
-0.778
-0.778
-0.778
-0.789
-0.810
-1.000
0.600
-0.765
1.000
-0.636
-0.600
-0.158
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
RD
-1.000
-1.000
-1.000
-1.000
-1.000
-0.429
-0.778
-0.800
-0.059
-0.636
1.000
0.200
-0.579
-0.619
-1.000
-1.000
-1.000
-1.000
-1.000
CU
-1.000
-1.000
-1.000
-1.000
-1.000
-0.789
-0.500
-0.778
-0.200
-0.600
0.200
1.000
-0.294
-0.368
-0.714
-0.750
-0.840
-1.000
-1.000
EC
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-1.000
-0.158
-0.579
-0.294
1.000
0.111
-0.692
-0.467
-0.833
-1.000
-1.000
PE
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-1.000
-1.000
-0.810
-0.619
-0.368
0.111
1.000
0.333
-0.059
-0.077
-0.636
-0.600
CH
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.667
-1.000
-1.000
-1.000
-1.000
-0.714
-0.692
0.333
1.000
-0.333
-0.048
-0.529
-0.467
BO
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.750
-0.467
-0.059
-0.333
1.000
-0.130
-0.579
-0.765
AR
-1.000
-1.000
-1.000
-1.000
-1.000
-0.846
-0.826
-1.000
-1.000
-1.000
-1.000
-0.840
-0.833
-0.077
-0.048
-0.130
1.000
0.714
0.538
UR
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.636
-0.529
-0.579
0.714
1.000
0.818
PA
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.600
-0.467
-0.765
0.538
0.818
1.000
【関係】で出力した様々な相関行列を集中化し、その集中化した 変数を
用いて得点全体を集中化する方法が考えられます。
次は本節で取り上げた原点距離法による集中化の主要部です。距離ベク
ト ル を Vn と Hp に 確 保 し 、 配 列 の 変 化 が な く な る ま で 繰 り 返 し ま す 。 集
中係数
6.2.4. 集 中 係 数
データ行列が集中されると反応データが行列の対角線の近くに集まった
り、行列の特定の部分に集まったりします。対角線の近くに集まると行列
内の分布から計算される相関係数が高くなります。また行列の特定の部分
に集まると反応点の間の距離が近くなりします。また、集中化は一般に隣
接する反応の数を増やします。ここでは、そのような相関係数、距離、隣
接 状 態 を 測 る 係 数「 集 中 係 数 」(Coefficient of concentration) を 設 定 し 、集 中
化の効果を示す指標とします。
(1) 連 番 平 均 距 離
集中化されたデータ行列は、かりに集中相関値があまり高くなくても反
応点が特定の位置に集中していれば、その集中領域は注目に値します。た
とえば後で扱う「クラスター集中分析」では反応点の相関値よりもその集
中度を重視します。集中領域に列と行の強い関連を見ることができるから
です。
「 連 番 平 均 距 離 」 Sequent Mean Distance: SMD は す べ て の 反 応 点 に つ い
て 比 較 対 を つ く り 、そ の X 座 標 と Y 座 標 の 差 を 2 乗 し 、そ の 和 の 根 を と り 、
その対の数で割って平均をとり、さらにその根を求めます。数式で示すと
次のようになります。
SMD = Σ i Σ j Σ a Σ b {[(i – a) 2 + (j – b) 2 ] 1 /2 |x i j x a b | 1 /2 / n
188
こ こ で i, j は 比 較 対 の 一 方 の X 座 標 と Y 座 標 を 示 し 、 a, b は 他 方 の X 座
標と Y 座標を示します。 n は比較対の総数です。このように差を 2 乗して
その和の根をとることはユークリッド距離を求めていることになります。
さらにそれぞれの値の積の絶対値の根をウェイトとして掛けます。この場
合 x ij , x a b は ど れ も 1 ま た は 0 で す か ら 、 掛 け 合 わ せ て 1 と な る と き だ け が
距離としてカウントされます。
一方、次のような量的データでは距離だけでなく対のそれぞれの値をウ
ェイトとして考慮に入れることにします。同じ距離であってもウェイトが
異 な れ ば 、 そ の 評 価 が 異 な る か ら で す 。 た と え ば 、 (d1, v1)と (d2, v1)の 距
離 は (1, 1) 1 : (2, 1) 2 = (1 2 + 0 2 ) 1 /2 (1 x 2) 1 /2 = 1.41 で す が 、 (d1, v1)と (d1, v2)
の 距 離 は (1, 1) 1 : (1, 2) 1 = (1 2 + 0 2 ) 1 /2 (1 x 1) 1 /2 = 1 に な り ま す 。
P2
v1
v2
v3
v4
d1
1
1
2
3
d2
2
4
3
4
d3
1
3
2
3
d4
3
3
2
4
d5
2
3
2
4
(2) 参 照 平 均 距 離
ここで単なる連番ではなく原点平均距離を使うとさらに精密な距離を測
る こ と が で き ま す 。 「 集 中 参 照 平 均 距 離 」 Referential Mean Distance: RMD
の式は次のとおりです。
RMD = Σ i Σ j Σ a Σ b [(v i – h a ) 2 + (v j – h b ) 2 ] 1 /2 |x i j x a b | 1 /2 / n
ここで v と h はそれぞれ列と行の係数ベクトルを示します。
P1
d1
v1 v2 v3 v4
v
v
d2
v
d3
v
d4
d5
v
v
v
v
v
P1
v2 v1 v3 v4
d3
v
 d1
v
v
d5
v
v
v
d2
v
d4
v
v
原点距離集中行列 集中前 集中後 差
連番相関係数
0.226
0.820 0.594
参照相関係数
0.563
0.835 0.273
連番平均距離
0.503
0.601 0.098
参照平均距離
0.174
0.471 0.297
189
この結果を見ると、集中化によって相関係数が上昇しても必ずしも平均
距離が小さくなるわけではないことがわかります。
(3) 連 番 相 関 係 数
以下に先の表を再掲します。
Lv v1 v2 v3 v4
Lv v2 v1 v3 v4
d1
d3
v
 d1
v
v
d5
v
v
v
v
d2
v
d3
v
d4
d5
v
v
v
v
v
v
d2
v
d4
v
v
上左表と比べて上右表では反応点(v 印)の分布が列と行に沿ってより
強 く 相 関 し て い ま す 。 そ こ で 、 列 の d3, d1, …, d4 に そ れ ぞ れ 1, 2, …, 5 と
い う 数 値 を 与 え 、 行 の v2, v1, v3, v4 に 1, 2, 3, 4 と い う 数 値 を 与 え て 、 v 点
の X 座 標 と Y 座 標 の 相 関 を Pearson の 積 率 相 関 係 数 を 使 っ て 計 算 し ま す 。
X と Y の 軸 の デ ー タ 行 列 か ら な る 表 を 散 布 図 と 見 て 、こ れ か ら 次 の よ う な
X と Y の 軸 の デ ー タ 行 列 を 作 り 、そ こ か ら「 連 番 相 関 値 」Sequent Correlation
Coefficient: SCC を 計 算 し ま す 。
デ ー タ:(X, Y) = (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 3) (5, 3) (5, 4)
SCC = 0.82
(4) 参 照 相 関 係 数
実 は 、そ れ ぞ れ の 反 応 点 は 連 番 の よ う に 等 間 隔 で 並 ん で い る の で は な く 、
次のように列と行の係数が対応しているので、次にそれぞれの係数を参照
した数直線を軸にすべきでしょう。
Lv
v2
v1
v3
d3
v
d1
v
v
d5
v
v
Lv 係数
v4
d3
1.42
d1
0.71
v
d5
0.01
d2
v
d2
0.76
d4
v
d4
1.38
Lv
v2
v1
v3
v
v4
係数 1.10 0.82 0.58 1.34
次 の「 集 中 バ ブ ル 図 」( → 3.9 OptionButton: optIntChart)は そ れ ぞ れ の 反
190
応点を X 軸と Y 軸の標準化された係数の位置によってプロットしています。
X 軸は 4 座標あり、Y 軸は 5 座標です。
「 集 中 係 数 相 関 値 」 Referential Correlation Coefficient: RCC は こ の 座 標 に も
とづいて計算した相関係数です。
デ ー タ : (X, Y) = (-1.10, -1.42) (-1.10, -0.71) … (1.34, 1.38)
RCC = 0.84
原点距離集中行列 集中前 集中後 差
集中連番相関係数
0.226
0.820 0.594
集中参照相関係数
0.563
0.835 0.273
そ れ ぞ れ の セ ル に あ る 値 を 反 応 の 頻 度 と 見 な し ま す 。 (5) 平 均 隣 接 係 数
下 左 表 の d-1/v-1 と d-1/v2 は 横 方 向 で 隣 接 し て い ま す 。 ま た 、 d-4/v-3 と
d-5/v3 は 縦 方 向 で 隣 接 し て い ま す 。 こ の よ う な 隣 接 点 の 数 は 全 部 で 5 つ で
すが、集中化された下右表では 9 つになります。
P1
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
d-4
d-5
v
v
v
v
v
P1
v-2 v-1 v-3 v-4
d-3
v
 d-1
v
v
d-5
v
v
v
d-2
v
d-4
v
v
隣 接 度 数 は 質 的 デ ー タ ( 1-0 デ ー タ ) だ け で な く 、 次 の よ う な 量 的 デ ー タ
についても適用します。このとき、縦または横で隣接する対の積の絶対値
の根をそれぞれの値のウェイトをつけた距離と見なします。これはウェイ
トのあるデータの集中度を見るためです。
191
P2
v-1 v-2 v-3 v-4
d-1
1
1
2
3
d-2
2
4
3
4
d-3
1
3
2
3
d-4
3
3
2
4
d-5
2
3
2
4
このとき、それぞれの反応点を差異化するために、値がその全体の平均以
上のものを取り出して、そのすべての対についての隣接数の平均、つまり
全 隣 接 数 を 反 応 数 で 割 っ た 値 を 「 平 均 隣 接 指 数 」 (mean linkage index: MLI)
とよび、集中化の度合いを示す指標とします。
(6) 標 準 隣 接 係 数
平均隣接係数は最大値が 1 になるとは限らないので標準化されていません。
そこで、隣接度数の理論的な最大値を求め、隣接度数の実測値をこの最大
値 で 割 れ ば 0 ~ 1 の 間 を 動 く 標 準 化 さ れ た 係 数 が 求 め ら れ ま す 。こ れ を「 標
準 結 合 係 数 」 (standard union coefficient: SUC) と し ま す 。 SUC で は 結 合 線 の
数だけを求め、それぞれのセルの値は考慮しません。
結 合 線 数 の 最 大 値 (U m a x )は 反 応 点 の 数 (N)に よ っ て 決 ま り す 。た と え ば 、N=2
で は U ma x は 1 で す 。こ れ を U m a x (2) = 1 と 表 現 し ま す 。N=3 で は 、次 の 図 の
よ う に 、 ど ち ら の ケ ー ス で も U m a x (3) = 2 と な り ま す 。
«N=3; U m a x = 2»
«N=3; U ma x =2»
N=4 の と き 下 左 図 で は Ü3 で す が 、 下 右 図 の よ う に な る と Ü4 に な り ま す 。
よ っ て 正 方 形 の 分 布 で U m a x (4)=4 に な り ま す 。
«N=4; Ü3»
«N=4; U m a x =4»
N=5, 6, 7, 8 に つ い て は 、そ れ ぞ れ 次 の よ う に 正 方 形 を 含 む 分 布 で 最 大 値 を
示します。
192
«N=5; U m a x =5»
«N=6; U m a x =7»
«N=7; U m a x =8»
«N=8; U ma x =10»
N=8 の と き 下 左 図 で も 下 右 図 で も 同 じ 最 大 値 (10)に な り ま す 。 ど ち ら も 長
方形に 2 つの反応点が結合したものなので同じ値になるからです。
«N=8; U m a x =10»
«N=8; U m a x =10»
N=9 の と き は 結 合 の 仕 方 で 結 合 線 の 数 が 異 な り ま す 。
«N=9; Ü11»
«N=9; U m a x =12»
こ の よ う に 正 方 形 の 配 列 が 最 大 結 合 線 を 作 り ま す (U m a x = 3 2 = 9)。
N=14 の ケ ー ス を 見 ま し ょ う 。 次 が 最 大 結 合 線 (=20)を 作 る 結 合 で す 。
«N=14; U m a x =20»
最初に可能な正方形の 1 辺の長さを探します。
R = Int(Sqr(N))
こ こ で 関 数 Sqr(14)は 根 3.742 を 返 し 、関 数 Int(3.742...)は 整 数 部 3 を 返 し ま
す。そして、3 x 3 の正方形には次のように横方向の結合が 2 x 3 個、縦方
向の結合が 2 x 3 個になります。
193
«N=9; Ü12»
これを一般化すると、
U m a x (R) = 2 * R * (R - 1)
残りは次のように正方形に結合する部分と残余の部分に分けます。
N=5, Ü8
長 方 形 に な る 部 分 に つ い て は 、 そ の 列 数 ( こ こ で は 1) を 次 の 式 で 求 め ま
す。
Int((N - R ^ 2) / R)
ここで N は反応数で、R は正方形の 1 辺の長さです。
Int((N - R ^ 2) / R) = Int((14 - 3 2 ) / 3) = 1
それぞれの列は次の結合線をもちます。
R + R - 1 = 2 * R -1
たとえば、R = 3 であれば、次のように結合線が 5 になります。
«N=3, Ü5»
最後に残余の反応数の結節点を計算します。ここで、割った余りを示す演
算 子 Mod を 使 用 し ま す 。 た と え ば 、 14 Mod 3 = 2 と な り ま す 。 よ っ て 残 余
部の接合点は次の式で求められます。
(N Mod R) + (N Mod R) - 1 = 2 * (N Mod R) - 1
194
残余の反応数が 2 であれば結合線は 3 になります。
«N=2, Ü3»
次がサンプルデータを原点平均距離法によって集中した結果です。
P1
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
d-4
d-5
v
v
v
v
v
P1
v-2 v-1 v-3 v-4
原点距離
値
連番相関係数
.820
参照相関係数
.835
v
連番平均距離
.601
d-2
v
参照平均距離
.471
d-4
v
d-3
v
d-1
v
v
d-5
v
v
v
平均隣接指数 1.000
標準結合係数
.750
(8) グ ッ ド マ ン と ク ラ ス カ ル の 順 序 連 関 係 数
反 応 点 を 示 す 記 号 (v)を 数 値 1 に 代 え て 計 算 し た 、「 グ ッ ド マ ン と ク ラ ス カ
ル の 順 序 連 関 係 数 」を 集 中 係 数 と し て 利 用 し ま す( → 分 析「 順 序 連 関 係 数 」)。
(7) ク ラ メ ア の 連 関 係 数
ク ロ ス 集 計 表 の 列 と 行 の 関 連 度 の 指 数 と し て ク ラ メ ア (Cramer)の 連 関 係 数
が 使 わ れ ま す 。 Cramer の 連 関 係 数 は 期 待 値 ( → 『 基 礎 』 p.**; → 3.5.6) か
ら計算されるχ2 乗値を計算し、その理論的な最大値で割ることによって
求められます。
次 は デ ー タ 例 ( 下 左 表 ) と そ の 期 待 値 ( 下 右 表 ) で す 。 A:国 語 の 計 算 は 、
=$E2*B$6/$E$6 に よ っ て 計 算 し ま す 。
成績 1 1.国語 2.英語 3.数学 和
期待値 1.国語 2.英語 3.数学
A
45
48
66
159
A
54.860 53.465 50.675
B
56
59
54
169
B
58.310 56.827 53.863
C
58
51
78
187
C
64.520 62.880 59.599
D
77
72
20
169
D
58.310 56.827 53.863
和
236
230
218 684
次 は 、 そ の χ 2 乗 値 (χ 2 )と Cramer の 連 関 係 数 (Cr)を 示 し ま す 。
χ 2 1.国語 2.英語
3.数学
A
4.634
1.772
0.559
Cr 0.185
195
B
0.092
0.083
0.000
C
0.659
2.245
5.681
D
5.991
4.051
21.289
A:国 語 の χ 2 乗 値 は =(B2-H2)^2/H2 で 計 算 し ま す 。Cramer の 連 関 係 数 (Cr)の
式は、
Cr = [χ 2 / (m - 1)n] 1 /2
ここで、m は行数と列数のうち小さな数を示し、n はデータの総和を示し
ま す 。 こ れ は 以 下 で 示 す よ う に χ 2 の 最 大 値 が (m - 1)n に な る た め で す 。
はじめに、χ2 の式はその定義から次のようになります。
χ 2 = Σ i Σ j [(n i j – e i j ) 2 / e i j ]
こ こ で 、 n ij は デ ー タ の 実 測 値 を 示 し 、 e ij は そ の 期 待 値 を 示 し ま す 。期 待 値
を 求 め る た め に 、横 和 (n i .)と 縦 和 (n. j )と 総 和 (n)を 使 い ま す 。→『 基 礎 』p.**.
eij
= n i .n. j / n
χ2
= Σ i Σ j [(n i j – n i .n. j / n) 2 / (n i .n. j / n)]
= Σ i Σ j [( n n ij – n i .n. j ) / n) 2 / (n i .n. j / n)]
= Σ i Σ j {[(n 2 n i j 2 – 2 nn ij n i .n. j + n i . 2 n. j 2 ) / n 2 ] (n / n i .n. j )}
= Σ i Σ j [(n 2 n i j 2 / n i .n. j – 2 n n ij + n i .n. j ) / n]
= Σ i Σ j ( n n ij 2 / n i .n. j ) – 2Σ i Σ j n i j + Σ i Σ j (n i .n. j / n)
こ こ で 、 第 2 項 の Σ i Σ j n ij は す べ て の n ij の 総 和 (n)を 示 し ま す 。 ま た 、 第 3
項 の Σ i Σ j n i .n. j は 総 和 (n)の 2 乗 (n 2 )を 示 し ま す 。 そ れ ぞ れ For ... Next の プ
ログラムをイメージしてください。
よって、
χ2
= nΣ i Σ j (n i j 2 / n i .n. j ) – 2n + n
= n [Σ i Σ j (n i j 2 / n i .n. j ) – 1]
この式には期待値が表れていません。
さて、χ2 が最大となるのは、次のようにセルの縦和と横和がセルの値と
同じ、というケースです。このような状態は実測値と期待値の差の総和を
最大にするからです。
196
成績 1 1.国語 2.英語 3.数学 和
期待値 1.国語 2.英語 3.数学
A
45
0
0
45
A
11.126 14.588 19.286
B
0
59
0
59
B
14.588 19.126 25.286
C
0
0
78
78
C
19.286 25.286 33.429
D
0
0
0
0
D
0.000
和
45
59
0.000
0.000
78 182
x^2
1.国語
A
103.126 14.588 19.286
B
14.588
83.126 25.286
C
19.286
25.286 59.429
D
0.000
0.000
2.英語 3.数学
Cr
1.000
0.000
一般に、次のような最大の関連度を示すデータ行列の χ2 を求めてみまし
ょう。
1
2 … p
1 x1
2
和
x1
x2
x2
…
:
…
m
x min(m, p) x min(m, p)
和 x1 x2
x min(m, p) n
こ こ で min(m, p)は m と p を 比 べ て 小 さ な ほ う の 値 を 示 し ま す 。 先 の サ ン
プルでは、D のデータがすべてゼロを示しています。このように長方形の
デ ー タ 行 列 の 場 合 、そ の 中 の 最 大 の 正 方 形 の 中 で 縦 も 横 も 他 と 共 有 し な い 、
というケースを考えているからです。この場合、 先のχ2 式を使うと、次
のように計算されます。
χ2
= n [Σ i Σ j (n i j 2 / n i .n. j ) – 1]
= n (x 1 2 / x 1 x 1 + x 2 2 / x 2 x 2 + ... + x min(m, p) - 1)
= n [min(m, p) – ]
よ っ て 、 ク ラ メ ア (Cramer)連 関 係 数 (Cr)は 次 の 式 に な り ま す 。
Cr = [χ 2 / (m – 1)n] 1 /2
この式で根をとるのは、以上の計算で次数が 2 になっているためです。
なお、クラメア連関係数は、軸の順序を変えても全体の期待値は変化しな
いので、次のように集中化は影響しません。
197
v-1 v-2 v-3 v-4
P1
d-1
v
連番平均距離 .689
v
d-4
d-5
参照相関係数 .563
v
d-3
v
v
v
値
連番相関係数 .226
v
d-2
原点距離
v
参照平均距離 .286
平均隣接係数 .556
v
標準隣接係数 .417
クラメア係数 .616
v-2 v-1 v-3 v-4
P1
d-3
v
d-1
v
v
d-5
v
v
原点距離
値
連番相関係数
.820
参照相関係数
.835
v
連番平均距離 1.052
d-2
v
参照平均距離
d-4
v
v
.842
平均隣接係数 1.000
標準隣接係数
.750
クラメア係数
.616
Cramer の 連 関 係 数 は 集 中 化 の 有 無 に か か わ ら ず 、デ ー タ 行 列 が も つ 列 と 行
の関連度を示すものとして使用します。
■乗数と集中係数
次 は ラ テ ン ア メ リ カ ス ペ イ ン 語 「 農 夫 」 (Cahuzac: 1980)の デ ー タ 行 列 の
言語形式と国名をどちらもアルファベット順に並べた行列です。この状態
(集中化前の初期状態)の集中係数は次のように計算されます。
連 番 相 関 係 数 -0.064
参 照 相 関 係 数 0.037
連 番 平 均 距 離 0.575
参 照 平 均 距 離 0.233
平 均 隣 接 指 数 0.449
標 準 結 合 係 数 0.244
198
こ の デ ー タ 行 列 か ら 乗 数 (N)を 1 ~ 4 ま で 変 化 さ せ て 実 験 し 集 中 化 さ れ た
データ分布パタンの変化を観察しましょう。
(N=1)
(N=2)
199
(N=3)
(N=4)
このように乗数の変化によって集中パタンの形状が異なります。また、同
じ 乗 数 (N=2)で も 入 力 行 列 の 軸 の 配 列 に し た が っ て 集 中 し た 集 中 パ タ ン の
形状が異なります。
次 は 乗 数 (N)を 1 か ら 10 ま で 変 化 さ せ て 実 験 し た 集 中 効 果 係 数 の 結 果 で す 。
200
こ の 図 を 見 る と 、相 関 係 数 は N=1, 3, 4 で 比 較 的 高 い 値 を 示 し て い ま す が 、
平 均 距 離 に つ い て も か な り 高 い 値 を 示 し て い る こ と が わ か り ま す 。 N=2 の
ときは相関係数の値を落としますが、平均距離かなり低くしています。隣
接 指 数 と 結 合 係 数 は 逆 に N=2 の と き に 高 く な り ま す 。集 中 化 さ れ た 分 布 パ
タンでは相関係数が高いときは全体的に対角線付近に集まり、平均距離が
小さいときは反応が全体的に集結していることを示します。隣接指数と結
合係数は個々の反応点の結合状態を示します。それぞれに特徴があります
から、はじめから方法を 1 に固定しないで、データ行列の性質を見ながら
比較検討するとよいでしょう。
■多変数集中分析の比較
同 じ デ ー タ (Cahuzac 1980)を 使 っ て こ れ ま で に 見 た 集 中 化 の 4 つ の 方 法
の分析結果を比較します。次が集中化された分布パタンです。
201
(1) デ ー タ 行 列
202
(2) 原 点 距 離 集 中 分 析 (N=3)
(3) 主 成 分 集 中 分 析
(5) 対 応 集 中 分 析
(4) 因 子 集 中 分 析
(6) ク ラ ス タ ー 集 中 分 析
こ れ ら の 図 を 見 る と 、 (2) 原 点 距 離 、 (4)主 成 分 、 (6) 対 応 分 析 は 分 布 の 対
角 化 を 示 し 、 (6)因 子 分 析 と (7)ク ラ ス タ ー 分 析 で は 分 布 の 局 在 化 を 示 し て
いることがわかります。
主成分分析、因子分析、対応分析は両軸で分析しますが、原点距離とク
ラスター分析では列または行だけでも分析可能です。しかし、クラスター
分析では 1 軸(列または行)だけでは次のようにあまり良い局在化の結果
203
が得られません。
(8) ク ラ ス タ ー 分 析 : 列
(9) ク ラ ス タ ー 分 析 : 行
一方、原点距離による集中化は、たとえば行を外的基準として固定し、列
を集中化することができます。そのとき、行の状態によって結果が変わる
ので、対応分析など他の方法で適した配列を見つけ、それを外的基準にす
る、という方法が考えられます。次は、先の主成分分析と対応分析の結果
として得られた行(各国の地理的な配置)を固定し、列を集中化した結果
です。
(10) 主 成 分 分 析 → 原 点 距 離 : 列
(11) 対 応 分 析 → 原 点 距 離 : 列
204
このように、主成分分析の結果を利用した原点距離法では相関係数と隣接
係数を上げています。一方、対応分析の結果と比べると少し成績が下がり
ます。数量化Ⅲ類は理論的に相関係数を最大化する目的で考案された方法
だからです。
一方、原点距離法は相関係数だけでなく探索的な分析に適した分布パタ
ンの集中化を目指します。たしかにこの方法は対応分析よりも少し成績を
下げているのですが、研究の目的によっては外的基準を変えられない場合
があるので、そのようなときは原点距離法が有効です。
次 の 研 究( Kawasaki 2012)は 発 行 日 が 記 さ れ て い な い 中 世 ス ペ イ ン 語 公 証
文書の年代を、発行日が記されている他の文書の言語特徴の集中化された
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
asta
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
この図では列に年代を入れ固定し、行(言語特徴)を集中化しています。
次に左上の部分を拡大しました。
この黄色の部分の横行が年代不詳の文献です。これを含めて全体を集中化
すると、この行が一定の年代に位置づけられるので、その年代を推定する
ことができます。そのためには適切な言語特徴(年代差を示す、頻度が高
い、地域差が少ない、など)を選択し、実験を繰り返さなければなりませ
ん。
205
ziudad
-azgo
xamas
hazer
hijo
ciudad2
algun2
hasta
segun
reyno
juzgar
ciudad
verdad
castilla
alcalde2
valladolid
asi
sellar
para
mente
conocida2
viere
tenido
fasta
algund
segund
cibdad2
merced
ningun
v
v
v
v
v
v
v
v
v
v
v
despues
assi
v
fijo2
fazer2
ciudad1
fasta
v
v
v
v
v
-adgo
judgar
regno
v
v
v
v
v
v
v
v
v
v
v
ciudat
alcalle
verdat
segunt
ssu
v
v
v
v
v
v
v
tenudo
miente
ffazer
valladolit
ffijo2
algun1
castiella
seellar
mercet
cibdad1
alcalde1
Conoçuda
fijo1
v
v
v
pora
fata
v
fazer1
mientre
uiere
v
depues
nengun
castella
conocida1
ffijo1
azer
1221-1240
1097-1200
1201-1220
1241-1260
1261-1280
1281-1300
1301-1320
1321-1340
X341(1326)
1341-1360
1361-1380
1381-1400
1401-1420
1441-1460
1421-1440
1461-1480
1481-1500
1501-1520
1521-1540
1541-1560
1581-1600
1561-1580
1601-1620
1621-1640
1641-1660
1661-1680
1681-1700
algunt
分布から推定しています。
v
v
v
6.3. クラスター分析
関係行列(相関行列、類似行列、距離行列、文字行列)や、多変数分析
の結果を見ると互いに関係の深い成分とそうでない成分があることがわか
ります。こうした関係にもとづいて全体がどのようなグループ (群)に分
類 さ れ る の か を 見 る 手 法 の 1 つ が「 ク ラ ス タ ー 分 析 」(Cluster analysis)で す 。
「 樹 形 図 」 (Dendrogram)と い う グ ラ フ を 出 力 し ま す 。
6.3.1. 最 近 隣 法
クラスター分析には多くの方法があります。はじめに一番簡単な「最近
隣 法 」 (Nearest neighour method)を 取 り 上 げ ま し ょ う 。 ス ペ イ ン 語 圏 の 語 彙
バリエーション研究から得られた相関係数行列を用いて説明します。デー
タの規模を小さくして 6 カ国だけにしたサンプルデータを使います。それ
ぞ れ ES:ス ペ イ ン , GE:赤 道 ギ ニ ア , CU:キ ュ ー バ , RD:ド ミ ニ カ 共 和 国 , PR:
プ エ ル ト リ コ , MX:メ キ シ コ を 示 し ま す 。
6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX
1. ES
1.00
2. GE
0.61
1.00
3. CU
0.51
0.45
1.00
4. RD
0.54
0.45
0.54
1.00
5. PR
0.58
0.49
0.56
0.68
1.00
6. MX
0.45
0.34
0.39
0.45
0.50
1.00
こ れ を 距 離 行 列 に 変 換 し ま す 。 → 3.6.4.
6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX
1. ES
0.00
0.20
0.25
0.23
0.21
0.28
2. GE
0.20
0.00
0.28
0.27
0.25
0.33
3. CU
0.25
0.28
0.00
0.23
0.22
0.30
4. RD
0.23
0.27
0.23
0.00
0.16
0.28
5. PR
0.21
0.25
0.22
0.16
0.00
0.25
6. MX
0.28
0.33
0.30
0.28
0.25
0.00
最 初 の ク ラ ス タ リ ン グ で 距 離 の 最 小 値 (0.16)を も つ 組 み 合 わ せ で あ る 4:RD
と 5:PR が 合 体 し ま す 。
6 か国
1. ES 2. GE 3. CU 4. RD:5. PR 6. MX
1. ES
0.00
0.20
0.25
0.21
0.28
2. GE
0.20
0.00
0.28
0.25
0.33
206
3. CU
0.25
0.28
0.00
0.22
0.30
4. RD: PR
0.21
0.25
0.22
0.00
0.25
6. MX
0.28
0.33
0.30
0.25
0.00
2 番 目 の ク ラ ス タ リ ン グ で 次 に 距 離 が 近 い 値 (.20)を も つ 成 分 1 と 成 分 2 が
合体します。
6 か国
1. ES: 2. GE 3. CU 4. RD: .16;5. PR 6. MX
1. ES: 2. GE
0.00
0.25
0.21
0.28
3. CU
0.25
0.00
0.22
0.30
4. RD: 5. PR
0.21
0.22
0.00
0.25
6. MX
0.28
0.30
0.25
0.00
3 番 目 の ク ラ ス タ リ ン グ で は す で に 存 在 す る (1+2)の グ ル ー プ と (4+5)の グ
ル ー プ が 合 体 し ま す 。こ の と き 、(1+2) と 3 の 距 離 は 、1-3, 2-3 の 間 の そ れ
ぞ れ の 距 離 の う ち 小 さ な ほ う の 値 と し ま す 。 同 様 に (1+2)と (4+5)の 距 離 は
1-4, 1-5, 2-4, 2-5 の 中 で 一 番 小 さ な 値 を と り ま す 。 以 下 同 様 に し て 最 後 の 5
番目のクラスタリングで成分 6 が全体に組み込まれます。
6 か国
1. ES: 2. GE:4. RD:5. PR 3. CU 6. MX
1. ES: 2. GE:4. RD:5. PR
0.00
0.22
0.25
3. CU
0.22
0.00
0.30
6. MX
0.25
0.30
0.00
6 か国
1. ES: 2. GE: 4. RD:5. PR: ;3. CU 6. MX
1. ES: 2. GE: 4. RD:5. PR: ;3. CU
0.00
0.25
6. MX
0.25
0.00
各国を空間に配置しそのグルーピングを行うと次のようになります。
207
Nearest R.
1. ES
-1.00
2. GE
0.61
4. RD
0.58
5. PR
0.68
3. CU
0.56
6. MX
0.50
Max. 1.00
+
Min. 0.00
*この例では相関係数行列を一度距離に置き換えてからクラスター分析に
かけていますが、上の図(樹形図)にはクラスターの合流点として入力の
数値(相関係数)が出力されています。
6.3.2. 最 遠 隣 法
最近隣法ではグループと1つの成分またはグループ間の距離をグループを
構成する成分のあらゆる組み合わせのペアで一番距離の近い数値を示すも
のとして定義しました。たとえば次の図で、
[A+B+C] と い う グ ル ー プ と [D+E]と い う グ ル ー プ の 間 の 距 離 を A-D, A-E,
B-D, B-E, C-D, C-E と い う ペ ア の 中 か ら 一 番 近 い も の を 選 ん で 、こ の 場 合 、
C-E に よ っ て 、 2 つ の グ ル ー プ 間 の 距 離 と 見 な し て い ま す 。 F も 含 め た 3
つ の グ ル ー プ の 距 離 は 、 C-E, C-F, E-F に よ っ て 計 測 さ れ ま す 。
次 に 取 り 上 げ る 「 最 遠 隣 法 」 (Furthest neighbour method)は グ ル ー プ 間 の 最
も 遠 い 成 分 の 間 の 距 離 を 採 用 し ま す 。 つ ま り 、 上 図 の A-D, A-F, D-F の 距
離で 3 つのグループの距離と見なすのです。最近隣法では近くにデータが
あれば、それを結びつけるという手法をとりますが、最遠隣法では一番遠
くにあるデータを見つけ、これの距離を 2 つのグループの距離とする点が
違 い ま す 。グ ル ー プ 間 の 距 離 が 決 定 さ れ た な ら ば 、あ と の 操 作 は 同 じ で す 。
208
Farthest R.
1. ES
-1.00
2. GE
0.61
3. CU
0.45
4. RD
0.54
5. PR
0.68
6. MX
0.34
Max. 1.00
+
Min. 0.00
6.3.3. 平 均 結 合 法
最近隣法と最遠隣法はグループ間の距離を決定するのに正反対の考え方を
しています。しかし、グループ間の距離を 1 つの代表値で計算しているこ
と で は ど ち ら も 同 じ で す 。こ こ で 取 り 上 げ る「 平 均 結 合 法 」(Average linkage
method)は グ ル ー プ 間 の 距 離 を 前 二 者 の よ う に 単 純 に そ れ ぞ れ の グ ル ー プ
の 1 成分に代表させず、すべての組み合わせのペアの距離の平均値をもっ
て 2 つのグループの距離と見なす手法です。たとえば、次の図で、
[A+B+C]と い う グ ル ー プ と [D+E]と い う グ ル ー プ 間 の 距 離 を A-D, A-E, B-D,
B-E, C-D, C-E と い う ペ ア の す べ て の 距 離 を 足 し て 、ペ ア の 数 (6)で 割 っ た 値
を 2 つのグループ間の距離と見なします。
先 の 距 離 行 列 の 中 で 、す べ て の 距 離 の 中 で 最 小 値 は 4:RD と 5:PR の 間 の .16
です。最初にこの 2 国を 1 つのグループをなすと見なすのは最近隣法や最
遠 隣 法 と 同 じ で す 。新 し い グ ル ー プ 名 を (4+5)と 名 付 け て 、新 た に 相 関 行 列
を 作 成 し ま す 。 こ の と き グ ル ー プ (4+5)と 1, 2, 3, 6 と の 相 関 係 数 は 、 そ れ
ぞれの組み合わせの平均値とします。これが群間平均法の要点です。たと
え ば 、1 と (4+5)で は 、1-4 の .23 と 1-5 の .21 を 足 し て 2 で 割 り ま す 。以 下 、
2, 3, 6 に つ い て も 同 様 に 比 較 し ま す 。 最 後 に 次 の 図 が 得 ら れ ま す 。
209
Average R.
1. ES
-1.00
2. GE
0.61
3. CU
0.50
4. RD
0.55
5. PR
0.68
6. MX
0.41
Max. 1.00
+
Min. 0.00
6.3.4. 過 程 平 均 結 合 法
クラスター分析法にはほかにも多くの手法があります。これまで扱ってき
た 3 つの手法は代表的なものですが、どれも原初の対照行列の成分をもと
に距離を測っています。ここで提案する「過程平均法」は平均結合法に類
似しますが、クラスタリングの各ステップで、原初の対照行列の成分に戻
るのではなく、ステップを踏むときの対照行列の状態をもとに、新しく距
離を平均して求めます。
次 は 「 成 績 1」 の デ ー タ 行 列 ( 下 左 ) か ら マ ハ ラ ノ ビ ス 距 離 ( 下 右 ) を 計
算 し た 結 果 で す ( 平 均 化 、 最 大 値 比 : → 3.6.4 (3)) 。
項目
a.役立つ
b.楽しい
S
A
B
C
D
E
F
G
H
A.文法解説
86
29
A
0.00
0.48
0.40
0.66
0.50
0.19
0.56
0.17
B.ビデオ
53
78
B
0.48
0.00
0.40
0.18
0.60
0.66
0.58
0.62
C.活動
48
53
C
0.40
0.40
0.00
0.54
0.81
0.48
0.19
0.44
D.映画
43
96
D
0.66
0.18
0.54
0.00
0.70
0.84
0.70
0.80
E.音読
110
42
E
0.50
0.60
0.81
0.70
0.00
0.63
1.00
0.63
F.筆写
93
11
F
0.19
0.66
0.48
0.84
0.63
0.00
0.59
0.04
G.観察
37
50
G
0.56
0.58
0.19
0.70
1.00
0.59
0.00
0.55
H.小テスト
89
15
H
0.17
0.62
0.44
0.80
0.63
0.04
0.55
0.00
は じ め に F+H が 全 体 の 最 短 距 離 (.04)に よ っ て 結 合 し ま す 。
S
A
B
C
D
E
A
0.00 0.48 0.40 0.66 0.50
0.18 0.56
B
0.48 0.00 0.40 0.18 0.60
0.64 0.58
C
0.40 0.40 0.00 0.54 0.81
0.46 0.19
D
0.66 0.18 0.54 0.00 0.70
0.82 0.70
E
0.50 0.60 0.81 0.70 0.00
0.63 1.00
[F+H] 0.18 0.64 0.46 0.82 0.63
0.02 0.57
G
0.57 0.00
0.56 0.58 0.19 0.70 1.00
[F+H] G
結 合 し た [F+H]と 他 の 成 分 、 た と え ば A と の 距 離 D ( [ F + H ] :A) は 次 の よ う に 計
210
算されています。
D ( [ F + H ] :A) = [D ( F : A) + D ( H : A) ] / 2 = (.19 + .17) / 2 = .18
他も同様です。これは平均結合法と同じです。次に上の表の中での最短距
離 (.18)を も つ [B+D]が 結 合 し ま す 。
D
A
[B+D] C
E
[F+H] G
A
0.00
0.57 0.40 0.50
0.18 0.56
[B+D] 0.57
0.09 0.47 0.65
0.73 0.64
C
0.40
0.47 0.00 0.81
0.46 0.19
E
0.50
0.65 0.81 0.00
0.63 1.00
[F+H]
0.18
0.73 0.46 0.63
0.02 0.57
G
0.56
0.64 0.19 1.00
0.57 0.00
上 と 同 様 に [B+D] に 関 わ る 距 離 が 再 計 算 さ れ て い ま す 。 次 の ス テ ッ プ で
[A+[F+H]]と い う 群 が 形 成 さ れ ま す ( 最 短 距 離 : .18) 。
D
[A+[F+H]]
[B+D]
C
E
G
[A+[F+H]]
0.09
0.65 0.43 0.57 0.57
[B+D]
0.65
0.09 0.47 0.65 0.64
C
0.43
0.47 0.00 0.81 0.19
E
0.57
0.65 0.81 0.00 1.00
G
0.57
0.64 0.19 1.00 0.00
こ の と き 過 程 平 均 法 で は 、た と え ば [A+[F+H]]と [B+D]の 距 離 を 次 の 式 で 計
算 し ま す 。上 の 表 で は な く 直 前 の ス テ ッ プ の 表 か ら D ( A:[ B + D ] ) と D ( [ F + H ] :[ B + D ] )
に該当する値を求めます。
D ( [ A+ [ F + H ] ] :[ B + D ] ) = [D ( A:[ B + D ] ) + D ( [ F + H ] :[ B + D ] ) ] / 2 = (.57 + .73) / 2 = .65
*一方、群平均法では、この計算を原初の対照行列に戻って次の式を適用
しました。
D ( [ A+ F + H ] :[ B + D ] ) = [D ( A :B ) + D ( A : D ) + D ( F :B ) + D ( F :D ) + D ( H :B ) + D ( H :D ) ] / 6 = 67.7
過程平均法における距離の再計算法として幾何平均を使用する次を提案し
ます。先の最初のステップの例で示すと次のようになります。
D ( [ F + H ] :A) = [D ( F : A) D ( H : A) ] 1 /2 = (.19 x .17) 1 /2 = .18
この結果は先とほとんど変わりませんが、多くの計算では結果にかなりの
影 響 が 出 ま す 。先 の 算 術 平 均 を と る 方 法 を「 過 程 算 術 平 均 結 合 法 」と よ び 、
211
今 回 の 幾 何 平 均 を と る 方 法 を「 過 程 幾 何 結 合 平 均 法 」と よ ぶ こ と に し ま す 。
次は、これまで扱った 5 つの方法を同じデータに適用して比較した結果で
す。
(1) 最 近 隣 法
Nearest
D.
A.文法解説 1.000
F.筆写
0.165
H.小テスト 0.044
B.ビデオ
0.402
D.映画
0.179
C.活動
0.400
G.観察
0.193
E.音読
0.496
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
(2) 最 遠 隣 法
Furthest
D.
A.文法解説 1.000
F.筆写
0.190
H.小テスト 0.044
C.活動
0.587
G.観察
0.193
B.ビデオ
1.000
D.映画
0.179
E.音読
0.703
(3) 平 均 結 合 法
Average
D.
A.文法解説 1.000
F.筆写
0.178
H.小テスト 0.044
C.活動
0.503
G.観察
0.193
B.ビデオ
0.628
D.映画
0.179
E.音読
0.696
212
(4) 過 程 算 術 平 均 結 合 法
P . A . A v . D.
A.文法解説 1.000
F.筆写
0.178
H.小テスト 0.044
C.活動
0.497
G.観察
0.193
B.ビデオ
0.602
D.映画
0.179
E.音読
0.694
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
(5) 過 程 幾 何 平 均 結 合 法
P . G. A v . D.
A.文法解説 1.000
F.筆写
0.177
H.小テスト 0.044
C.活動
0.492
G.観察
0.193
B.ビデオ
0.590
D.映画
0.179
E.音読
0.680
5 つの方法を比較すると結果は類似していますが、最近隣法が他の方法に
比べて分類する力が弱いことがわかります。他の 4 つの方法ではそれぞれ
の結合点が異なっています。一般に結合点が最小値に近いほどクラスター
が原点に近い位置で形成されているので分類能力があると解釈できます。
上の例では過程幾何平均法が全体的に結合点が小さな値になっています。
■地域語彙変異によるクラスター分析
クラスター分析はさまざまな分野で使われています。その理由のひとつ
として他の多変数解析法と比べて理解しやすく、また結果も明示的でわか
りやすいことが挙げられるでしょう。
類似度係数として何を使うか、また、クラスタリングアルゴリズムをど
れにするかで、さまざまな組み合わせが可能です。それぞれの性質をよく
理解しデータの特徴や先行研究を踏まえたうえで納得できる結論を導くよ
うにしたいと思います。
コンピュータは一定の条件さえ与えれば、それなりの答えを出してく れ
ますが、これは可能な分析法の一つにすぎません。他の方法による結果と
比較しながら総合的に判断すべきです。
次は、スペイン語の語彙変異によるスペイン語圏地域をクラスター分類
したものです。全体はスペイン・アフリカ、カリブ海地域、メキシコ・中
213
米 、南 米 北 部 、ア ン デ ス・ラ プ ラ タ に 分 類 さ れ ま し た 。こ の よ う な 分 類 は 、
異なる言語特徴を選択しても、しばしば同じ結果になります。
クラスター分析:スペイン語圏の語彙バリエーション
■大規模データのクラスター集中分析
次は、カタルニア語の動詞形態の地理分布を列(動詞形態)と行(地点)
でクラスター分析し、それぞれを集中化した結果です。大きな分布の塊の
他に、一定の語形と地点で収集した部分(赤い線で囲みました)が観察さ
れます。その部分についての語形の特徴を探ると、地理的な基準ではなく
言語的な基準から地域を確定することができます。また、逆に、そのよう
に確定された地域の言語特徴を抽出することができます。
214
* プ ロ グ ラ ム は 奥 村 (1986:170-180)を 参 照 し ま し た 。
6.4. 線状拡散度
データの性質を見るとき、その頻度と分散を調べることが重要です。デー
タ が 複 数 あ る と き の 計 算 法 は 先 に 扱 い ま し た( → 2.5)。こ こ で は 次 の よ う
に、連続して続く 1 つの文字データの頻度と拡散度を計算します。
N
1
2
3
4
5
6
7
8
9
10
11
L e mma
L_ C
¡_B
SU_ T
COMIDA_ S
,_ B
SIN_ P
ADITIVO_ S
!_B
EL_ T
ADITIVO_S
DESACONSEJABLE_A
(…)
文 字 デ ー タ の 頻 度 は Excel の ピ ボ ッ ト テ ー ブ ル を 使 っ て 計 算 で き ま す 。 一
215
方、同じデータが全体の中でどのように集中・拡散しているかを示す係数
を「 線 状 拡 散 度 」(linear dispersion: L.Disp .)と よ び 、次 の よ う に 定 義 し ま す 。
L.Disp. = 1 – (Σ (d(i) – md) 2 / n) 1 /2 / ((n – 1) 1 /2 * Σ (d(i) / n)
こ こ で 、d(i)は 同 じ デ ー タ が 繰 り 返 さ れ る と き の 、そ れ ぞ れ の 間 隔 (distance)
で す 。md は そ の 平 均 、n は 個 数 を 示 し ま す 。た と え ば 上 の デ ー タ の ADITIVO
の 1 回 目 の 位 置 と 2 回 目 の 位 置 は 、そ れ ぞ れ 7 と 10 な の で 、そ の 間 隔 は 3
に な り ま す 。 md は 平 均 距 離 (mean distance)を 示 し 、 次 の よ う に し て 計 算 し
ま す 。 た と え ば 5 つ の 単 語 が 次 の よ う に d(1), d(2), …, d(5)の 間 隔 で 出 現 し
たとします。
d(0)
x
d(1)
V
d(2)
d(3)
V
V
y
一 方 、 こ の 単 語 が テ キ ス ト 内 で 、 完 全 に 等 間 隔 で 並 ん だ と き の 間 隔 が md
です。
md(0)
x
md(1)
V
md(2)
V
md(3)
V
y
d(1)と md の 差 を 計 算 し ま す 。同 様 に d(2)と md の 差 を 計 算 し ま す 。最 初 の
d(0)と 最 後 の d(3)を 加 算 し 、そ れ と md(1)の 差 を 計 算 し ま す( V の 全 体 が 左
右 に 移 動 し て も 逸 脱 度 に 影 響 し な い た め で す md: md(1) = md(2) … = md(0)
+ md(n))。そ の 正 規 標 準 偏 差( → 1.1.6)は 平 均 分 布 か ら の 全 体 の 逸 脱 度 (0 .0~
1.0)を 示 し ま す 。 「 線 状 拡 散 度 」 (L.Disp)は そ の 逆 数 に な る の で 、 1 か ら こ
の値を引きます。結果は次のように出力されます。
Lemma
L_C
¡_B
SU_T
COMIDA_S
,_B
SIN_P
ADITIVO_S
!_B
EL_T
DESACONSEJABLE_A
O_C
SUSCEPTIBLE_A
DE_P
PROVOCAR_V
Freq.
F.Rank F.Permil L.Disp. L.D.Rank
1.000
1.000
.074
1.000
10.000
7.000
3.000
.516
.579
6.000
90.000
7.000
6.634
.866
9.000
38.000
6.000
2.801
.559
6.000
925.000 10.000
68.185
.965
10.000
17.000
5.000
1.253
.753
8.000
12.000
4.000
.885
.455
5.000
7.000
3.000
.516
.579
6.000
1148.000 10.000
84.623
.963
10.000
2.000
1.000
.147
.057
1.000
86.000
7.000
6.339
.888
9.000
1.000
1.000
.074
1.000
10.000
623.000 10.000
45.924
.958
10.000
5.000
3.000
.369
.682
7.000
216
Usage U.Rank
1.000
1.000
4.050
2.000
77.902
7.000
21.242
5.000
892.302 10.000
12.808
4.000
5.458
3.000
4.052
2.000
1105.631 10.000
.115
1.000
76.354
7.000
1.000
1.000
596.628 10.000
3.408
2.000
そ れ ぞ れ の 単 語 の 頻 度 数 (Freq.)、頻 度 数 ラ ン ク (F.Rank)、線 状 拡 散 度 (L.Disp)、
線 状 拡 散 度 ラ ン ク (L.D.Rank)、 使 用 度 (Usage)、 使 用 度 ラ ン ク (U.Rank)が 示
されています。使用度は頻度と線状拡散度を掛け合わせた値です。それぞ
れ の 値 (n)の ラ ン ク (Rank: 1, 2, …, 10)は 最 大 値 (m)が 10 と な る よ う に 最 大 値
で 割 っ て 10 を 掛 け た 結 果 で す 。 RndUp は 小 数 点 以 下 の 繰 り 上 げ を す る 関
数 で す 。 こ れ に よ っ て ラ ン ク は 1 ~ 10 の 範 囲 の 整 数 に な り ま す 。 な お 、 頻
度の低い語の拡散度はあまり信頼できません。頻度が 1 の語の拡散度は必
ず 1 になります。
Rank
= RndUp (n / m * 10)
U.Rank = 5 の 単 語 に つ い て 、 F.Rank と L.D.Rank を 使 っ て 多 重 条 件 リ ス ト
を出力すると、頻度と拡散の分布リストが作成できます。
Single Cond. 1
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
L.Disp.3
822_ENSEÑAR_V
1118_LUEGO_C
1525_LONGITUD_S
2126_ALMOHADA_S
2457_INFLAR_V
2786_POTENCIAL_S
7629_IRA_S
7736_MOLUSCO_S
L.Disp.4
985_EN BUSCA DE_P
1107_MASTICAR_V
1273_EVENTUAL_A
1492_NIEVE_S
1772_REMOTO_A
1846_MACERACIÓN_S
1890_GENITAL_S
1981_LATA_S
2344_DE GOLPE_D
177_ANÓMALO_A
434_AUTOCONTROL_S
504_PESTICIDA_S
607_TENTEMPIÉ_S
755_HORNO_S
756_ATÚN_S
796_A LA PLANCHA_A
865_LIGHT_A
1162_PIMIENTA_S
1183_CORRELACIÓN_S
L.Disp.5
L.Disp.6
L.Disp.7
98_ITU_S
520_TAPIOCA_S
626_MERENDAR_V
632_CENAR_V
1440_BERRO_S
1444_SILVESTRE_A
1731_AVALAR_V
1774_CONSIGO_N
1796_SISTEMA NACIONAL DE SALUD_X
156_REINFECCIÓN_S
1153_MOSTAZA_S
2163_SONAR_V
407_RASGO_S
1190_PROPENSO_A
2316_COMPETER_V
426_SOBRELLEVAR_V 1195_KIWI_S
2834_NOTORIO_A
580_AGUANTAR_V
1227_POPULAR_A
2904_ÉL_P
616_600_T
1339_SUPLEMENTARIO_A3163_SUBIDA_S
979_DESEADO_A
1424_TRIMESTRE_S
3854_IDÓNEO_A
1122_DESCUIDO_S
1474_NEGATIVAMENTE_D
4143_CUANTO_T
1145_AROMA_S
2016_POLEN_S
4257_CUARTO_T
1212_MADURACIÓN_S 2036_A MÁS DE_P
4278_71_T
1225_CURADO_A
2484_HINCAPIÉ_S
4388_VAPOR_S
736_PERDURAR_V
1290_CITADO_A
3404_XX_T
1102_FRASE_S
2014_RINITIS_S
3418_INQUIETAR_V
1164_CONVULSIÓN_S
2210_BUCODENTAL_A 4001_NORMALIZAR_V
1470_VACUNO_A
2827_PROTAGONISTA_S 4442_ADECUACIÓN_S
1824_PRESTIGIO_S
3241_DESCUIDAR_V
4522_SUBSANAR_V
1973_COCINADO_A
3419_COMPULSIVO_A 4688_ALMENDRA_S
1986_TOXIINFECCIÓN_S 3441_AJUSTADO_A
5642_EN MEDIO DE_P
2020_GRACIAS_I
3452_CONO_S
2044_ALIADO_S
3479_MUSLO_S
2931_INTRAMUSCULAR_A
3550_PERTURBAR_V
2956_LÁCTICO_A
3834_TRÁQUEA_S
2990_QUIRÚRGICAMENTE_D
3926_COMENTARIO_S
L.Disp.8
L.Disp.9
3065_PROFUNDIZAR_V 4560_REPERCUTIR_V
4182_250_T
4511_CONTEMPLAR_V
4644_INEFICAZ_A
4418_BONITO_A
6.5. 検定
こ こ で は 、 ク ロ ス 集 計 の 表 か ら 関 連 度 を 数 値 化 す る 方 法 を 扱 い ま す 32 。 次
の表を見て下さい。
and
全体
but
58
so
43
合計
28
129
単純集計表
32
* 参 考 : 池 田 央 . 1976.『 統 計 的 方 法 I 基 礎 』 新 曜 社 . pp.121-132.
217
and
but
so
合計
文頭
12
7
11
30
文中
46
36
17
99
全体
58
43
28
129
クロス集計表
上の表は 1 つの指標(英語の等位接続詞)について数値(頻度)を表した
も の で す 。一 方 、下 の 表 は (1)「 英 語 の 等 位 接 続 詞 」と (2)「 出 現 位 置 」と い
う 2 つの指標を基に集計したものです。このようなものをクロス集計表と
よびます。ここで問題となるのは、この 2 つの指標はお互いに関連してい
るかどうかということです。具体的に言うと、2 つが関係している場合、
「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は 単 語 に よ っ て 異 な る 」 と い う 結 論 に
な り ま す し 、関 係 し て い な い 場 合 、「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は
単語に左右されない」(それぞれの現象は「独立」である)ということに
なります。この判定をする手法が、カイ二乗検定です。ここではカイ二乗
検 定 を 理 解 す る た め に 、 単 純 な 例 と し て 2-2 の 表 を 用 い て 説 明 し ま す 。
6.5.1. 検 定 の 方 法
なぜカイ二乗検定が必要なのでしょうか。次のようなケースで考えてみま
しょう。ある現象を数えるにあたって、次のように、それが出現した場合
だけを数えるやり方があります。
「 方 法 A」 … 効 果 が あ っ た ケ ー ス : 59
「 方 法 B」 … 効 果 が あ っ た ケ ー ス : 49
「 方 法 A」 に 効 果 が あ っ た 場 合 の 数 を 59、 「 方 法 B」 に 効 果 が あ っ た 場 合
の 数 を 49 と し て 単 純 に 比 較 す る と 、確 か に「 方 法 A」の ほ う が 優 れ て い る 、
と い う 結 論 に な る か も し れ ま せ ん 。し か し 、こ こ で「 方 法 A」( そ し て「 方
法 B」 ) に 効 果 が あ っ た こ と を 確 か め る に は 、 「 方 法 A」 ( そ し て 「 方 法
B」 ) に 効 果 が な か っ た ケ ー ス も 調 べ る こ と が 必 要 で す 。 そ の 結 果 が 次 の
表です。
実 測 値 1 の 結 果 を 見 る と 、 や は り 「 方 法 A」 の ほ う が 「 方 法 B」 よ り 優 れ
ているように見えますが、仮に次の実測値2ようなケースになったときは
判断が逆転してしまいます。
218
「 方 法 A」と「 方 法 B」は ど ち ら も 効 果 が あ る 場 合 よ り も 効 果 が な い 場 合 の
方 が 上 回 り 、そ れ ぞ れ の 方 法 の 差 は 6 で す が 、「 方 法 A」の「 効 果 が な い 」
の数が大きくなっています。
さ ら に 、 次 の 実 測 値 3 の よ う な ケ ー ス が あ り ま す 。 「 方 法 A」 も 「 方 法
B」 も ど ち ら も 「 効 果 が あ る 」 の 数 が 「 効 果 が な い 」 の 数 よ り も 上 回 っ て
い ま す 。両 者 は「 効 果 が あ る 」と「 効 果 が な い 」の 差 は 10 と な っ て い ま す 。
は た し て 「 方 法 A」 が 「 方 法 B」 に 比 べ て 効 果 が あ る と 言 え る の で し ょ う
か。
これらは単に「効果がある」という肯定的な反応だけを数えていては見つ
か ら な か っ た 問 題 を 示 し て い ま す 。つ ま り 、方 法 A と 方 法 B の 差 を 考 え る
には、効果があった場合と効果がなかった場合の両方を考える必要がある
ということです(「方法」と「効果の有無」という 2 つの指標でクロス集
計する必要があるということです)。
そ れ で は 実 測 値 1~ 3 の 場 合 、 方 法 A と 方 法 B に 差 が あ る と い え る の は
どれでしょうか。この数値を統計的に算出するのがカイ二乗検定です。こ
の方法を用いることで、差があるかどうかをはっきりと数値で示すことが
できます。
6.5.2. 期 待 値 を 計 算 す る
カ イ 二 乗 検 定 の 基 に な る デ ー タ は 、(1)実 測 値 と (2)期 待 値 で す 。以 下 、例 と
し て 実 測 値 1 を 見 て い き ま し ょ う 33 。
このデータをグラフにして視覚化しておきます。
33
比率は「効果がある」の値を「効果がない」の値で割った値です。1 よ
り大きいと「効果がある」ほうが多いことを示します。
219
期待値の計算方法に関しては 5 章(→)で見ましたが、ここでは少し違っ
た角度から算出方法を再度考えてみます。説明のために、観測値を次のよ
うによぶことにします。
次 の 表 で は 各 セ ル に 「 期 待 さ れ る 」 得 点 (期 待 得 点 : expected score)が 示 さ
れています。期待得点は次のような式で計算されます。
期待値
効果がある
効果がない
方法 A
(a + b)×(a + c)
a+b +c+d
(a + b)×(b + d)
a+b +c+d
方法 B
(c + d)×(a + c)
a+b +c+d
(c + d)×(b + d)
a+b +c+d
た と え ば 、 方 法 A の 効 果 が あ る 期 待 値 は 、 方 法 A の 総 数 (a + b) 94 に 「 効
果 が あ る 」と 期 待 で き る 率 (a + c) 108、掛 け た 数 値 を 総 数 で 割 っ た 値 で す 。
総 数 94 が 108:88 に 分 割 さ れ る と き に 108 の 側 に 当 然 期 待 で き る 数 値 、94 x
(108 / 196)を 示 し ま す 34 。
34
こ こ で 、こ れ ら の 期 待 値 の す べ て が 5 以 上 で あ る か ど う か を 確 か め て お
きます。いずれかが 5 以下だと誤差が大きくてカイ二乗検定には向いてい
220
「 方 法 A」 ・ 「 効 果 が あ る 」 の 期 待 得 点 94 x 108 / 196 = 51.796
「 方 法 A」 ・ 「 効 果 が な い 」 の 期 待 得 点 94 x 88 / 196=42.204
「 方 法 B」 ・ 「 効 果 が あ る 」 の 期 待 得 点 102 x 108 / 196=56.204
「 方 法 B」 ・ 「 効 果 が な い 」 の 期 待 得 点 102 x 88 / 196=45.796
も し 実 際 に 観 察 さ れ る 値 が 当 然 予 測 さ れ る 値( 期 待 値 )と 近 い な ら ば 、「 偶
然でも起こるかもしれない分布」ということになります。逆に、もしそれ
が期待値から大きく外れるならば、観察されたデータは有意味な分布を示
していると考えられます。「偶然ではほとんどあり得ない」と考えるので
す 。つ ま り 、カ イ 二 乗 検 定 の ポ イ ン ト は 、「 実 測 値 と 期 待 値 の ズ レ を 見 る 」
というところにあります。
6.5.3. カ イ 二 乗 値 を 求 め る
期 待 値 と 実 測 値 の ず れ を 総 合 的 に 判 断 す る た め 、す べ て の 升 目 (a, b, c, d)
における実際の観測値と期待値の「相対的な差」の総和で求めます。相対
化するには、実測値から期待値を引いたものを期待値で割ります。また、
「 相 対 的 な 差 」の 合 計 は 、そ の ま ま で は 0 に な っ て し ま い ま す の で 、単 純 に
期待値からの距離を求めるために二乗しておきます(これがカイ「二乗」
という名前の由来です)。
標準化した値 =
(実 測 値 ―期 待 値 ) 2
期待値
このような操作を「標準化」とよびます。データには一定の単位がありま
すが、標準化すると単位がなくなります。単位がなくなると、どのような
デ ー タ で も 統 計 的 に 同 じ 処 理 が で き る よ う に な る の で す 35 。 次 が そ れ ぞ れ
の相対的な差です。
ないデータと判断されます。
35
た と え ば 、デ ー タ の 絶 対 的 な 値 を 3 メ ー ト ル だ と し て 、そ れ が 全 体 の 10
メ ー ト ル の 中 で の 割 合 を 見 る と 、 0.3 と い う 単 位 ( メ ー ト ル ) が な く な っ
た数値になり、この数値は他のケースの割合と同じ尺度で(標準化された
尺度で)比較できます。期待値を使った標準化もそれとよく似ています。
221
こ れ ら の 値 を 合 計 し た 値 が 「 カ イ 二 乗 の 統 計 量 」 ( χ2) と よ ば れ る も の で
す。
χ 2 =1.002 + 1.230 + 0.923 + 1.133 = 4.288
式 を 一 般 化 し ま し ょ う 。 実 測 値 a, b, c, d の 期 待 値 を そ れ ぞ れ 、 a', b', c', d'
とし、標準化した値の総和は次のようになります。
χ2 =
(a - a') 2
(b - b') 2
(c - c') 2
(d - d') 2
+
+
+
a'
b'
c'
d'
カイ二乗の統計量は、期待値からのズレ(距離)の総和ということになり
ます。この値が大きいほど、期待値とのズレが大きいということが言えま
す。
6.5.4. 検 定 の 考 え 方
値や差を推定する統計は確率に基づいています。確率は全くありえない
0% か ら 、絶 対 そ う で あ る 100% ま で あ り ま す が 、た と え ば 方 法 A と 方 法 B
の 間 に 「 差 が 100% あ る 」 と 言 い 切 る こ と は 難 し い で す 。 で は 、 ど う す る
かというと「差がないとは言えない」という消極的な言い方をします。こ
の 証 明 に は 、100% と は 反 対 の 0% か ら 出 発 し ま す 。つ ま り 、「 方 法 A と 方
法 B に は( 全 く )差 が な い 」と い う 仮 説 か ら ス タ ー ト す る の で す 。こ の 仮
説 を 帰 無 仮 説 (H 0 )と よ び ま す 。 無 に 帰 し た い ( 棄 却 し た い ) 仮 説 な の で こ
の よ う に よ ば れ ま す 。 こ の 逆 の 「 差 が あ る 」 と い う 仮 説 を 対 立 仮 説 (H 1 )と
よびます。
H0: 方 法 A と 方 法 B に は 差 が な い
H1: 方 法 A と 方 法 B に は 差 が あ る
推 測 統 計 が 求 め る 確 率 は H 0 が 成 立 す る 確 率 で す 。た と え ば 検 定 の 結 果 、3%
と 出 れ ば 、 こ れ は 「 方 法 A と 方 法 B に は 差 が な い 可 能 性 が 3%」 と い う こ
と で す 。 逆 に 言 え ば 、 97%の 確 率 で H 1 ( 差 が あ る ) が 成 立 し ま す 。 こ の 場
合 、H 1 が 成 立 す る 可 能 性 が か な り 高 い で す の で 、H 0 は 棄 却 で き る こ と に な
ります。
こ の よ う に 棄 却 す る 基 準 の こ と を 「 有 意 水 準 」 と よ び ま す 。 一 般 に 5%
と 1% が 用 い ら れ ま す 。 た と え ば 「 5% の 有 意 水 準 で H 0 が 棄 却 で き る 」 と
い う 結 論 は 、H 0 の 成 り 立 つ 確 率 が 5% 以 下( H 1 が 成 り 立 つ 確 率 が 95% 以 上 )
ということになります。
222
6.5.5. 検 定 の 評 価
カイ二乗統計量は、期待値とのズレであるということを見ました。それで
は こ の 値 が ど の 程 度 大 き け れ ば 差 が あ る と い え る の で し ょ う か 。 2-2 の 分
割表では次のように決まっています。
有意水準 閾値
5%
3.841
1%
6.634
閾値とは、カイ二乗統計量の値がそれ以下であれば成り立たないというこ
と で す 。あ ら た め て 先 ほ ど の 値 は 4.288 な の で 、5% の 閾 値 よ り も 大 き い こ
と に な り ま す 。従 っ て 、こ の 結 果 は「 5% 水 準 で 有 意 な 差 が あ る 」と 解 釈 で
き ま す 。 一 方 、 1% 水 準 の 閾 値 は 6.634 で す の で 、 こ の 水 準 で は H 0 を 棄 却
することはできません。
さ き ほ ど 「 2-2 の 分 割 表 で は 」 と い う 但 し 書 き を つ け ま し た が 、 こ の 点
は重要ですので触れておきます。カイ二乗統計量は期待値からのズレの合
計であるということを見ましたが、マス目が増えれば増えるほど合計の値
が 大 き く な り ま す 。 た と え ば 、 2-2 の マ ス と 4-4 の マ ス で は マ ス の 数 は 4
マ ス と 16 マ ス で す の で 、平 等 に 扱 う の は お か し い で し ょ う 。つ ま り 、有 意
水準の閾値の値も、マス目の数によって大きくなっていくということにな
ります。
こ の 基 準 は 「 自 由 度 」 (degree of freedom, df)と よ ば れ ま す 。 自 由 度 と い
う の は 自 由 に 値 を 決 め る こ と が で き る マ ス の 数 の こ と で す 。た と え ば 、2-2
のマスでは、1 つのマスを決めると、縦と横の合計が同じならば他のすべ
てのマスの値は自動的に決まってしまうので自由度は 1 ということになり
ま す 。 次 の 表 で 方 法 A の 「 効 果 が あ る 」 を 10 と す る と 、 方 法 A の 「 効 果
が な い 」 は 84、 方 法 A の 「 効 果 が あ る 」 は 98、 方 法 B の 「 効 果 が な い 」
は 4 に決まります。
実測値 1 効果がある
効果がない
方法 A
10
94-10
94
方法 B
108-10
102-(108-10)
102
108
88
196
な お 、n-p の ク ロ ス 集 計 表 の 自 由 度 は 、(n-1)-(p-1)で 求 め る こ と が で き ま す 。
以 上 の こ と を ま と め て 次 の よ う に 表 し ま す 36 。
χ 2 = 4.288 > χ 2 (df: 1, p: 0.05) = 3.841
36
df は 自 由 度 (degree of freedom)、 p は 確 率 (probability)を 示 し ま す 。
223
こ れ は 「 カ イ 二 乗 統 計 量 は 4.288 で 、 自 由 で 1 の 場 合 の 5% 有 意 水 準
の 3.841 よ り も 大 き く 統 計 的 に 有 意 で あ る 」 と い う 意 味 で す 。
6.5.6. イ ェ イ ツ の 補 正 ( Yates’ correction)
2-2 の 数 値 表 で は カ イ 二 乗 の 統 計 量 が 一 般 に 大 き く な る 傾 向 が あ り ま す 。
そ の た め 、 先 の χ2 の 代 わ り に 次 の 式 を 使 っ て 少 し 補 正 し ま す 。
n
n(|ad - bc| - ) 2
2
χ 2 (Yate's cor.) =
(a+b)(a+c)(c+d)(b+d)
そ う す る と 、 イ ェ イ ツ の 補 正 を し た 結 果 χ 2 (Yate’s cor.)は 3.714 と な っ て 、
先 ほ ど の 値 よ り も 少 し 小 さ く な り ま し た 。 こ の 場 合 も 有 意 水 準 1%で 帰 無
仮説を棄却できないことになります。このようにイェイツの補正を利用す
ることでより慎重な評価ができます。
● カ イ 二 乗 ・ イ ェ イ ツ の 補 正 ・ Phi 係 数
イ ェ イ ツ の 補 正 は χ 二 乗 値 の 分 子 か ら n / 2 を 引 い た 数 値 に な り ま す 。こ の
ことを確かめておきましょう。
はじめに次が実測値です。
O
X(+)
X(-)
和
Y(+)
a
b
a+b =s
Y(-)
c
d
c+d =t
和
a+c=u
b +d=v
a + b + c + d =n
次 に a, b, c, d そ れ ぞ れ の χ 二 乗 値 を 計 算 し ま す 。
χ 2 (a) = (a – su / n) 2 / (su / n) = [(an – su) 2 / n 2 ][n / su] = (an – su) 2 / nsu
χ 2 (b) = (b – sv / n) 2 / (sv / n) = [(bn – sv) 2 / n 2 ][n / sv] = (bn – sv) 2 / nsv
χ 2 (c) = (c – tu / n) 2 / (tu / n) = [(cn – tu) 2 / n 2 ][n / tu] = (cn – tu) 2 / ntu
χ 2 (d) = (d – tv / n) 2 / (tv / n) = [(dn – tv) 2 / n 2 ][n / tv] = (dn – tv) 2 / ntv
こ の 和 が χ 二 乗 (χ 2 )で す 。
χ2
= [ tv(an – su) 2 + tu(bn – sv) 2 + sv(cn – tu) 2 + su(dn – tv) 2 ] / nstuv
= [ tv (a 2 n 2 – 2ansu + s 2 u 2 )
+ tu (b 2 n 2 – 2bnsv + s 2 v 2 )
+ sv (c 2 n 2 -2cntu + t 2 u 2 )
224
+ su (d 2 n 2 – 2dnvt + t 2 v 2 ) ] / nstuv
= (a 2 n 2 tv – 2ansutv + s 2 u 2 tv
+ b 2 n 2 tu – 2bnsvtu + s 2 vtu 2
+ c 2 n 2 sv -2cntusv + t 2 u 2 sv
+ d 2 n 2 su – 2dnvtsu + t 2 v 2 su) / nstuv
縦列で足します。
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn (a + b + c + d)
+ stuv (su + sv + tu + tv) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn 2
+ stuv (s + t)(u + v) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2n 2 stuv + n 2 stuv] / nstuv
= n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / nstuv
= n (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / stuv
s = a + b, t = c + d, u = a + c, v = b + d な の で
= n [ a 2 (c + d)(b + d)
+ b 2 (c + d)(a + c)
+ c 2 (a + b)(b + d)
+ d 2 (a + b)(a + c)
- (a + b)(c + d)(a + c)(b + d) ] / stuv
= n [a 2 (bc + cd + bd + d 2 )
+ b 2 (ac + c 2 + ad + cd)
+ c 2 (ab + ad + b 2 + bd)
+ d 2 (a 2 + ac + ab + bc)
– (ac + ad + bc + bd)(ab + ad + bc + cd) ] / stuv
= n [ a 2 bc + a 2 cd + a 2 bd + a 2 d 2
+ ab 2 c + b 2 c 2 + ab 2 d + b 2 cd
+ abc 2 + ac 2 d + b 2 c 2 + bc 2 d
+ a 2 d 2 + acd 2 + abd 2 + bcd 2
- a 2 bc - a 2 cd – abc 2 – ac 2 d
- a 2 bd – a 2 d 2 – abcd – acd 2
225
- ab 2 c – abcd – b 2 c 2 – bc 2 d
- ab 2 d – abd 2 – b 2 cd – bcd 2 ] /stuv
= n (a 2 d 2 – 2abcd + b 2 c 2 ) / stuv
= n (ad – bc) 2 / [(a + b)(a + c)(c + d)(b + d)]
こ の 式 は 先 に 見 た χ 2 (Yate's cor.)と わ ず か に 分 子 の 一 部 が 異 な る だ け で す 。
ま た 、こ の 式 は 先 に 見 た Phi 係 数 を 二 乗 し て n(= a + b + c + d)を 掛 け た 数 値
になります。
χ 2 = n Phi 2
● Excel に よ る カ イ 二 乗 検 定
そ れ で は Excel で カ イ 二 乗 検 定 を 行 っ て み ま し ょ う 。 カ イ 二 乗 検 定 で は
実測値と期待値、そして標準化した値を基にして計算しますので、次のよ
うなカイ二乗検定をするためのシートを作成します。
実測値は横和と縦和の両方を求めておきます。
期待値
「 実 測 値 」 の 和 を 参 照 し て 「 期 待 値 」 を 計 算 し ま す 。 B7 に 次 の 式 を 書 き 込
み、全体にコピーします。なお、表示はセルの書式設定から小数点以下 3
位までの設定にしました。
B7=$D2*B$4/$D$4
226
標準化
(1)「 実 測 値 」と「 期 待 値 」を 参 照 し て 期 待 値 と の 差 を 標 準 化 し た 各 値 を 計
算 し ま す 。二 乗 に は ^( キ ャ レ ッ ト )を 使 い ま す 。次 の 式 を 入 力 し 、残 り の
セルにコピーします。
B11 =(B2-B7)^2/B7
227
カイ二乗統計量
カイ二乗統計量は標準化した値の合計です。次の式を入力します。
B14= sum(B11:C12)=4.288
有意水準・自由度・限界値
Excel に は CHIINV と い う 関 数 が 用 意 さ れ て お り 、
「 有 意 水 準 」と「 自 由 度 」
を 基 に 閾 値 を 算 出 で き ま す 。引 数 は 、CHIINV(確 率 ,自 由 度 )で す 。こ こ で は
自 由 度 1 の 場 合 の 5%と 1%の 閾 値 を 求 め て み ま し ょ う 。
B15=CHIINV(0.05,1)
B16=CHIINV(0.01,1)
以 上 の 結 果 か ら 、 カ イ 二 乗 統 計 量 は 5%水 準 の 閾 値 よ り も 大 き く 、 1%水 準
の 閾 値 よ り も 小 さ い の で 、 5% 水 準 で 有 意 、 1% 水 準 で は そ う で は な い と い
うことがいえます。
Yates の 補 正
イェイツの補正を求める関数は残念ながら用意されていませんので、数式
を 自 分 で 入 力 し ま す 。絶 対 値 に 変 換 す る に は ABS 関 数 を 利 用 し ま す 。次 の
式を入力してみましょう。
228
B17 =(ABS(B2*C3-B3*C2)-D4/2)^2*D4/(B4*C4*D2*D3)=3.714
CHITEST 関 数 を 使 う
Excel に は CHITEST 関 数 が 用 意 さ れ て お り 、こ れ を 利 用 す る と 実 測 値 と 期
待 値 か ら H 0 が 成 り 立 つ 確 率 を 直 接 計 算 す る こ と が で き ま す 。 CHITEST(実
測 値 ,期 待 値 )と い う 形 で 使 い ま す 。
B18 =CHITEST(B2:C3,B7:C8)
こ の 計 算 の 結 果 、 0.038 と 出 ま す 。 こ れ は H 0 が 成 り 立 つ 可 能 性 が 3.8% で
229
あ る こ と を 示 し て い ま す 。つ ま り 、5% 水 準 で は 十 分 に 棄 却 で き る 値 で あ る
ということを示します。
この手法を使うと、標準化の手順が省略できるというメリットと、直接
確率を求めることができるというメリットがあります。先ほどまでの結果
で は 5% 水 準 で は 有 意 だ が 1% 水 準 で は 違 う と い う こ と で し た が 、 3.8% は
ちょうどこの間に入ります。
実 測 値 2、 実 測 値 3 に つ い て
実測値 2 と 3 について同じように計算するにはシートをコピーして実測値
の値を入れ替えればよいでしょう。次のような結果になりました。
230
カイ二乗統計量もイェイツもかなり小さい値になっています。このことか
ら 、 実 測 値 2 と 3 で は 方 法 A と 方 法 B に 差 が あ る と は 言 え ま せ ん ( H0 を
棄却できません)。
■カイ二乗分布
カ イ 二 乗 の「 限 界 値 」は「 有 意 水 準 」と「 自 由 度 」に よ っ て 決 ま り ま す 。
た と え ば 、 自 由 度 =1、 有 意 水 準 =0.05 な ら ば 、 限 界 値 は 3.841 に な り ま す 。
この限界値は非常に複雑な数式によって導かれるもので、これを理解す
ることは私たちの「文系のデータ分析」の範囲を超えていると思います。
次 に 示 す シ ー ト は 、カ イ 二 乗 分 布 を 示 す 関 数 を 自 由 度 1, 2, 3 に つ い て 求 め
た も の で す が 、 セ ル [B2]の 数 式 は 、 次 の よ う な 関 数 を 使 い ま す 。 こ の よ う
に非常に複雑な式なのです。
B2==$A2^(B$1/2-1)*EXP(-1*$A2/2)/(2^(B$1/2)*EXP(GAMMALN(B$1/2)))
こ こ で 、 自 由 度 (F)=1 の 線 の 3.841 の 値 の 右 側 の 面 積 が 全 体 の 5%に な る こ
とを示しています。
私たちは実験をすることによってこれを実際に納得することができます。
次 は 、 ラ ン ダ ム に 1000 ほ ど の 偏 り の な い ケ ー ス を 発 生 さ せ 、 自 由 度 =1 の
カイ二乗値の頻度を計算した結果です。
231
それぞれ、先に示した理論的に導かれる連続線の形状に近似していること
がわかります。この実験は何度やっても、具体的な数値は変わりますが、
グラフの形はそれぞれ類似しています。
■ブラックボックス・リープ・ディスコネックション
書 店 に は 統 計 学 の 参 考 書 が 多 く 並 ん で い ま す 。 「 Excel を 使 っ て こ の よ
うにすればよい」と説明する手法の本もたくさんあります。実際に手にと
って見ると、簡単に統計処理ができるように書かれていて参考になる本も
ありますが、中には、手法だけを扱って、応用法についての注意などがな
く、数学的な背景については大まかに理解していればよい、という姿勢で
書かれているものも多いようです。
たしかに、書かれてあるとおりのテクニックを使えばそ れなりの結果が
出るのですが、どうしてそのような結果が出るのか具体的にわからないこ
とがあります。これでは計算過程がブラックボックスになってしまい、自
分が出した結果を説明できません。
参考書の中には説明が「飛躍している」(リープ)と思われるケースも
あります。これは説明の段落がどのようにつながるのかわからないような
状態です。もしかしたら自分の数学的な知識が不足しているため、リープ
だと勝手に判断しているのかもしれません。
また、説明の中には「~ということが知られている」「~という公式を
使 う 」と い う よ う な 背 景 知 識 に 対 す る リ ン ク に な っ て い る こ と が あ り ま す 。
しかし、私たちが「知られている」という事実や「公式」に疎いとき、背
景知識とのリンクは切れてしまっています(ディスコネクション)。
このような理論的な理解がない状態で手法だけを応用してしまうと、結
局自分が何をやっているのかわからないのに、自分の名前をつけたレポー
ト・論文・発表を生産してしまうことになりかねません。本人がわかって
いないのに、レポート・論文を読む人や発表を聞く人がいるというのは望
ましくありません。
232
そこで、自分にとって、ブラックボックス、リープ、ディスコネクショ
ンがあると思われる参考書の説明については、ぜひ自分で実際にいろいろ
な 実 験 を し て 納 得 が い く ま で 確 か め て く だ さ い 。 Excel は そ の 実 験 道 具 と
して役立ちます。そして、実験をしながら感覚的に様子がわかったら、今
度は統計学や数学の本を読んで数式を理解してください。誰でも難しそう
な記号が並んだ数式を目にすると尻込みすることはよくあることですが、
そこでじっくり腰を据えて理解してみると案外身近なものであることはよ
くあることです。理論の理解と実験の順番は逆でも、同時でもよいでしょ
う 。 机 上 の 書 籍 と Excel の 往 復 作 業 で す 。 い ず れ に し て も 自 分 で 納 得 で き
た手法を使うことを勧めます。ちょっと面倒かもしれませんが、努力の結
果自分が納得できる成果を得たとき、その達成感が次のステップにつなが
ります。
233
7. 図 表
変 数 の 関 係 を 示 す 図 を 描 く た め の プ ロ グ ラ ム で す 。 Excel の 標 準 的 な グ ラ
フにないものをマクロで作成しました。
7.1. 比率棒グラフ
入力データ「評価」は、スペイン語の授業についてのアンケートの結果で
す。たとえば、第 1 行の「文法解説」について、それがスペイン語の学習
上「 効 果 が あ る 」と 思 う 人 の 総 数 は 86 名 で し た( 総 数 124 名 )。ま た 、同
じ 項 目 が 「 楽 し い 」 と 思 う 人 の 総 数 は 29 名 で あ る こ と を 示 し て い ま す 。
はじめに複数の棒グラフの間のパーセントの比較をします。
データと結果
項目
a.役立つ b.楽しい
項目
a.役 立 つ
b.楽 し い
A.文法解説
86
29
A.文 法 解 説
0.75
0.25
B.ビデオ
53
78
B.ビ デ オ
0.40
0.60
C.活動
48
53
C.活 動
0.48
0.52
D.映画
43
96
D.映 画
0.31
0.69
E.音読
110
42
E.音 読
0.72
0.28
F.筆写
93
11
F.筆 写
0.89
0.11
G.観察
37
50
G.観 察
0.43
0.57
H.小テスト
89
15
H.小 テ ス ト
0.86
0.14
*プログラムははじめに上右の表を作成し、これを参照して次のグラフを
表の上に出力します。グラフをドラッグして他の場所に移動すると、表の
内 容 を 確 認 す る こ と が で き ま す 。書 式 を「 0%」に す る と 次 の よ う に パ ー セ
ント表示になります。
234
7.2. バブルチャート
データの値をバブルの大きさで表示した散布図を作成します。
は じ め に 行 と 列 に 連 番 を つ け 、こ れ を 標 準 化 し た 値 を X と Y の 座 標 と し て
使います。それぞれの座標に位置するデータの値を第 3 列に用意します。
項目
行
列
値
1
-1.00 -1.53 86.00
2
1.00
3
-1.00 -1.09 53.00
4
1.00
5
-1.00 -0.65 48.00
6
1.00
7
-1.00 -0.22 43.00
8
1.00
9
-1.00 0.22
110.00
10
1.00
0.22
42.00
11
-1.00 0.65
93.00
12
1.00
0.65
11.00
13
-1.00 1.09
37.00
14
1.00
1.09
50.00
15
-1.00 1.53
89.00
16
1.00
15.00
-1.53 29.00
-1.09 78.00
-0.65 53.00
-0.22 96.00
1.53
次にこれを参照してバブルチャートを出力します。
235
* こ の 図 は Excel の 「 条 件 付 き 書 式 」 の 「 デ ー タ バ ー 」 ( 下 図 ) と ほ と ん
ど同じ情報を示しますが、列と行の参照値を座標としていることが異なり
ま す 。 → 『 基 礎 』 p.**.
7.3. ボックスチャート
「 QT ボ ッ ク ス チ ャ ー ト 」 は 最 大 値 、 最 小 値 、 第 1 四 分 点 、 第 3 四 分 点 、 中
央値を使ってデータの分布の様子を示します。四分点と中央値については
→『 基 礎 』(p.**)。ボ ッ ク ス チ ャ ー ト は デ ー タ の 分 布 の 様 子( 拡 が り と 中 央
値の位置)を観察するときに役立ちます。プログラムはデータ行列から次
の表を作成します。
236
結果
要約値
a.役 立 つ
b.楽 し い
90.00
59.25
最大値
110.00
96.00
最小値
37.00
11.00
第 1 四分位数
46.75
25.50
中央値
69.50
46.00
第 3 四分位数
次にこれを参照してボックスチャートを出力します。
「 SD ボ ッ ク ス チ ャ ー ト 」 を 選 択 す る と 要 約 値 と し て 平 均 と 標 準 偏 差 (SD)を
使います。
要約値
a.役 立 つ
b.楽 し い
95.70
74.31
最大値
110.00
96.00
最小値
37.00
11.00
平 均 - SD
44.05
19.19
平均
69.88
46.75
平 均 + SD
237
7.4. 二変数対比図
棒グラフの一種である対比図は棒が左右に伸びていくので、それぞれの量
を比べながら観察するときに便利です。「最大値」は、セル内の最大値を
超 え る 値 で 切 り の よ い 数 を 設 定 を し ま す 。 こ こ で は セ ル の 最 大 値 が 110 な
の で 、 グ ラ フ の 最 大 値 を 120 と し ま す 。
プログラムははじめに次のような行を反転した表を作成します。
項目
a.役立つ
b.楽しい
H.小テスト
89
15
G.観察
37
50
F.筆写
93
11
E.音読
110
42
D.映画
43
96
C.活動
48
53
B.ビデオ
53
78
A.文法解説
86
29
次にこれを参照して次のような二変数対比図を出力します。
238
結果
7.5.
項目散布図
散布図は 2 つの変数をもつデータが 2 次元の平面上にどのような配置され
る の か を 見 る た め に 使 い ま す ( → 『 基 礎 』 p.**) 。 こ こ で は 散 布 図 の 中 に
データの項目名を表示する「項目散布図」を作ります。
プログラムははじめにデータ行列から次の表を作成します。
A.文 法 解 説
86
53
48
43
B.ビ デ オ
C.活 動
D.映 画
E.音 読
F.筆 写
G .観 察
H.小 テ ス ト
29
78
53
96
110
42
93
11
37
50
89
15
プログラムはこの表を参照して次のチャートを出力します。
239
結果
*この図を見ると、それぞれの項目が「+楽しい・-役立つ」のグループ
と、「-楽しい・+役立つ」のグループに分類できることがわかるでしょ
う。
■グラフによる視覚化
データ行列には多くの情報が含まれていますが、縦と横に並んだ数値の連
続のままでは、その情報を読み取ることが困難です。そこで、さまざまな
グラフを使って数値の情報を視覚化します。
先 に 扱 っ た 項 目 散 布 図 を 下 に 再 掲 し ま し ょ う 。こ こ で は「 描 画 キ ャ ン パ ス 」
を 使 っ て そ れ ぞ れ の グ ル ー プ を ○ で 囲 っ て み ま し た 。 → 『 基 礎 』 p.**.
240
8. Excel の操作
* 以 下 で は 、 Excel シ ー ト に 直 接 関 数 を 書 き 込 む こ と は し な い で 、 デ ー タ
行列全体を選択し、それを対象にして、プログラムを使って、様々な変換
や 分 析 を 行 い ま す 。プ ロ グ ラ ム は Excel の VBA (Visual Basic for A p p lication)
を使います。
私 た ち が 開 発 し て き た NUMEROS の す べ て の プ ロ グ ラ ム コ ー ド を 解 説 す
ることはスペースの関係でできません。また、プログラムは随時改訂して
いるので、バージョンがすぐ古くなってしまいます。一定のコーディング
を習得した後では、全体のプログラムの解説は不要になると思います。そ
こ で 、★ プ ロ グ ラ ム で は NUMEROS の 主 要 部 だ け を 取 り 上 げ て 簡 単 に 説 明
します。ここでは、行列を受け取って一定の演算をした行列を返す一連の
関 数 を 「 行 列 関 数 」 と よ ぶ こ と に し ま す 。 行 列 関 数 の 引 数 は Variant 型 の
変数です。
このテキストでは、おもに言語の変化・変異を数量的に分析する方法を
説明しますので、プログラムで用いる様々な関数やコードの規則について
は、自分に適した難易度の本を選択して、各自自習しておいてください。
Excel の Help や ウ ェ ブ で 提 供 さ れ て い る 多 く の 情 報 も 役 立 ち ま す 。
8.1. 相関係数
(1) 次 の デ ー タ を 使 用 し ま す ( 前 節 と 同 じ も の で す ) 。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
en
105
81
por
54
45
a
(2) 次 の 計 算 を し ま す 。

B7 =SUM(B2:B6)

B8 =AVERAGE(B2:B6)

B9 =STDEVP(B2:B6)
241
(3) B7:B9 を コ ピ ー し 、 C7 に 貼 付 け ま す 。
(4) D2 に 標 準 得 点 の 式 を 入 れ ま す 。
D2 =(B2-B$8)/B$9
(5) D2 を D2:E6 に コ ピ ー 。桁 数 が 不 統 一 だ と 比 較 し に く い の で D, E 列 の 書
式を小数点以下 3 とします。
(6) B7:C9 を コ ピ ー し て D7 に 貼 付 け ま す 。
これで正しく標準化されたことがわかります。次に、これらの数値をもと
に相関係数を求めてみましょう。まず、それぞれの項目の標準得点の積と
全体の積平均を求めます。
242
F2 = D2*E2
F2 を (F3:F6)に コ ピ ー
(B7:B8)を (F7:F8)に コ ピ ー
これで標準得点をもとに相関係数を求めることができました。
結 果 を 確 認 す る た め に 、 Excel 関 数 を 使 っ て 相 関 係 数 を 算 出 し 比 較 し て み
ま し ょ う 。 Excel に は COREEL と い う 関 数 が 用 意 さ れ て お り 、 対 象 と な る
2 つのデータをコンマ区切りで選択します。
B10 =CORREL(B2:B6,C2:C6)
F8 と B10 の 値 が 同 じ に な る こ と を 確 認 し ま し ょ う 。
<Tips> そ れ ぞ れ の 特 徴 を 見 る た め に 値 を 操 作 す る の に「 ス ピ ン ボ タ ン 」を
使うと便利です。
(1) は じ め に リ ボ ン に 「 開 発 」 タ ブ を 設 定 し ま す 。 ◆ 「 フ ァ イ ル 」 → 「 オ
プ シ ョ ン 」→「 リ ボ ン の ユ ー ザ ー 設 定 」→ ]を 選 択 し 、「 リ ボ ン の ユ ー ザ ー
243
設定」で「メインタブ」の「開発」のチェックボックスをオンにします。
Excel 2007: 「 Office ボ タ ン 」 → 「 Excel の オ プ シ ョ ン 」 → 「 基 本 設 定 」 →
「 [開 発 ]タ ブ を リ ボ ン に 表 示 す る 」 を チ ェ ッ ク
(2)「 開 発 」 → 「 コ ン ト ロ ー ル 」 → 「 挿 入 」 → 「 フ ォ ー ム コ ン ト ロ ー ル 」 の
中のスピンボタンをクリック→シート内の適当な位置にドラッグして配置
します。
(3) シ ー ト に 配 置 し た ス ピ ボ タ ン を 右 ク リ ッ ク → 「 コ ン ト ロ ー ル の 書 式 設
定」
244
(4) 「 コ ン ト ロ ー ル 」 タ ブ → 「 最 小 値 」 「 最 大 値 」 「 変 化 の 増 分 」 「 リ ン
クするセル」を設定します。「リンクするセル」にスピンボタンによる入
力の結果が表示されます。
(5) ス ピ ン ボ タ ン な ど の コ ン ト ロ ー ル は 右 ク リ ッ ク す る こ と に よ り 、 大 き
さの変更、ドラッグ、コピー、などが可能になります。
ス ピ ン ボ タ ン は 便 利 な の で す が 、 た と え ば 1 か ら 100 ま で 移 動 す る と き は
大変です。スピンボタンをつけたらそれでしか値が操作できなくなるとい
う わ け で は な く 、 直 接 セ ル に 100 と 記 入 す る こ と も で き ま す 。
8.2. 類似係数
類似係数を使ってデータを比較するにはまず量的なデータを質的なデータ
に 変 換 す る 必 要 が あ り ま す 。こ れ に は IF 関 数 を 使 え ば 便 利 で す 。例 と し て
次のデータを使用します。
245
(1) は じ め に 、 量 的 デ ー タ の 質 化 の 基 準 を 設 定 し ま す 。
A17 を 質 的 デ ー タ に 変 換 す る た め の 基 準 値 と し ま す 。 こ の 値 よ り も 大 き い
場 合 、「 1」に 変 換 す る と い う ル ー ル に し ま す 。 0 よ り も 大 き い と き に 変 換
す る 場 合 は F17=0 と 記 入 し て お き ま す 。
(2) IF 関 数 を 使 っ て 量 的 デ ー タ (B2)を 質 的 デ ー タ (E2)に 変 換 し ま す 。
E2=IF(B2>$F$17, 1, 0) 37
こ の 式 の 意 味 は 、E2 が 基 準 値 の 値 (0)よ り も 大 き い 場 合 は 、1 を そ れ 以
外は 0 を返す、ということです。
(3) E2 を E2:F16 に コ ピ ー し ま す 。こ れ で 0 よ り 大 き い 値 を 1 と 表 示 す る こ
とができました。
次に、さきほどの変換の結果を基に、共通して使われているもの、一方だ
け使われているもの、どちらも使われていないものを集計しましょう。
37
こ こ で は 基 準 値 を 動 か す こ と が で き る よ う に $F$17 と し ま し た が 、 下 記
の よ う に $F$17 を 使 用 し な く て も 同 じ 結 果 を 得 る こ と が で き ま す 。
E2=IF(B2>0, 1, 0)
246
(5) は じ め に E2 と F2 を 対 象 と し て デ ー タ を 入 力 し ま す 。
H2 =IF(AND($E2=1, $F2=1), 1, 0)
こ の 式 の 意 味 は 、 E2( 手 紙 ) と F2( 演 劇 ) が 共 に 1 の 場 合 、 1 を 返 し 、 そ
れ 以 外 は 0 に す る 、と い う こ と で す 。AND を 使 っ て 複 数 の 条 件 を 指 定 し て
いることに注意してください。
H2 を I2:K2 に コ ピ ー し て 、 一 部 を 次 の よ う に 修 正 し ま す 。
I2=IF(AND($E2=1, $F2=0), 1, 0)
J2=IF(AND($E2=0, $F2=1), 1, 0)
K2 IF(AND($E2=0, $F2=0), 1, 0)
(6) H2:K2 を H2:K16 に コ ピ ー し ま す 。
(7) G17 を 書 き 込 み 、 SUM で H17:K17 を 計 算 し ま す 。
H17 =SUM(H2:H16)
H17 を I17:K17 に コ ピ ー し ま す 。 I17 =SUM(I2:I16)
J17 =SUM(J2:J16)
K17 =SUM(K2:K16)
最終的には次のような値になります。
これで四象限での集計が完了です。
247
各種の類似係数
それでは各種の類似係数を計算してみましょう。
M19:M27 で そ れ ぞ れ の 係 数 を 求 め ま す 。
(1) 共 起 回 数 : M19=H17
(2) Simple match 係 数 : M20=(H17+K17)/(H17+I17+J17+K17)
(3) Russel and Rao 係 数 : M21=H17/(H17+I17+J17+K17)
(4) Jaccard 係 数 : M22=H17/(H17+I17+J17)
(5) Yule 係 数 : M23=((H17*K17)-(I17*J17))/((H17*K17)+(I17*J17))
(6) Hamann 係 数 : M24=((H17+K17)-(I17+J17))/((H17+K17)+(I17+J17))
(7) Phi 係 数 :
M25=((H17*K17)-(I17*J17))
/SQRT((H17+I17)*(H17+J17)*(I17+K17)*(J17+K17))
(8) Ochiai 係 数 : M26=H17/SQRT((H17+I17)*(H17+J17))
(9) Prominence 係 数 : M27=(H17/(H17+I17)+H17/(H17+J17))/2
(10) Preference 係 数 : M30=(2*H17-I17-J17)/(2*H17+I17+J17)
8.3. マクロプログラム
Excel VBA に よ る マ ク ロ プ ロ グ ラ ム (NUMEROS.xlsm)を 使 っ て 言 語 資 料
の分析をします。そのときに用いる簡単な統計の概念についても説明しま
す。ここで扱う統計的手法の多くは一般の参考書(→参考書)で説明され
ているものですが、一部は私たちが提案する手法や計算法も含めます。
248
Excel フ ァ イ ル NUMEROS.xlsm は Excel2010 で 動 作 し ま す 。 起 動 時 に マ
クロを有効にしてください。
すべての演算の対象は次のような行列です。シート内の一定の範囲に展
開されているデータは条件として次のような構成にしなければなりません。
A
L1
L2
L3
L4
L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
こ の 行 列 は 「 タ イ ト ル セ ル 」 (A), 「 タ イ ト ル 行 」 (L1, L2, …, L5),「 タ イ
ト ル 列 」(w1, w2, w3, w4),「 デ ー タ 」(10, 19, …, 3, 3)と い う 構 成 に な り ま す 。
こ の 行 列 を 「 デ ー タ 行 列 」 D np と よ び ま す 。 D n p (1,1)=10, D n p (1,2)=19, と い
う 行 列 で す 。タ イ ト ル セ ル は D n p (0,0)に 、タ イ ト ル 行 は D np (0,1), D np (0, 2), …
に 、 タ イ ト ル 列 は D n p (1, 0), D n p (2,0), …に 格 納 さ れ ま す 。
シ ー ト 内 の 上 の よ う な デ ー タ の 一 部 の セ ル を 選 択 し 、 NUMEROS の 「 入
力 1」 ボ タ ン を 押 す と 、 そ の 行 列 全 体 が 選 択 さ れ ま す 。 そ の 後 、 こ の 行 列
から離れたセルをクリックし、「出力」ボタンを押すと、選択されたセル
が出力の開始セルになります。ここが出力領域の上・左端になります。こ
のテキストで説明したさまざまな数値データ処理のメニューはタブを開い
て、選択してください。「始」以外のタブを開くと、「実行」ボタンがク
リックできる状態になります。
249
次が「行列入力」のコードの主要部です。これを適当なコマンドボタン
と連結させます。
Sub MATRIX_INPUT() '● 行 列 入 力 ()
Inp = Selection: N = Ur(Inp ) - 1: P = Uc(I n p ) - 1
ReDim G n p (N, P)
For i = 0 To N: For j = 0 To P
D n p (i, j) = I n p (i + 1, j + 1) '入 力 行 列
Next: Next
I n p =D n p
End Sub
Function Ur(Fnp): Ur = UBound(Fnp, 1): End Function ' 行 数
Function Uc(Fnp): Uc = UBound(Fnp, 2): End Function ' 列 数
バ リ ア ン ト 型 変 数 Inp に 選 択 範 囲 (Selection)の 内 容 を 代 入 し 、 N を 行 数 、
P を 列 数 と し ま す 。 Ur と Uc は そ れ ぞ れ 行 列 の 行 数 と 列 数 を 返 す ユ ー ザ ー
定 義 関 数 で す (Function … End Function)。 Ubound(*, *)は Excel 関 数 で す 。
概 説 書 や ウ ェ ブ で 確 認 し て く だ さ い 。Inp に は シ ー ト に 選 択 さ れ た 内 容 が 、
そ の ま ま 格 納 さ れ て る の で 、Inp(1,1)="O.S"に な り ま す 。行 に つ い て も 列 に
つ い て も 、 番 地 を 1 つ ず つ 減 ら し て 移 動 し た も の が Dnp で す 。 For … Next
を 0 か ら N, 0 か ら P ま で 繰 り 返 し て 移 動 し ま す 。そ の 結 果 Dnp(0,0)="O.S.",
Dnp(1,1)=10, …, Dnp(4,5)=3 に な り ま す 。こ の Dnp を 改 め て Inp に 代 入 し ま
す 。 こ の Inp が 新 た な 入 力 行 列 に な り ま す 。 こ れ に 、 以 下 で 説 明 す る 一 定
の処理をして、できあがった行列を次の「行列出力」に渡します。ユーザ
ー は 、適 当 な コ マ ン ド ボ タ ン と 連 結 し た 次 の「 出 力 位 置 」を 実 行 し て お き 、
出力位置の情報を確保しておきます。
Sub OUTPUT_POSITION() '● 出 力 位 置
OpSheet% = ActiveSheet.Index '出 力 シ ー ト 番 号
OpPosition$ = ActiveCell.Address(bF, bF) ' 出 力 位 置 の ア ド レ ス
OpRowNum& = ActiveCell.Row '出 力 位 置 の 行 番 号
OpColNum& = ActiveCe ll.Column '出 力 位 置 の 列 番 号
End Sub
これらを、「入力」「出力」ボタンに連動させます。
次が行列出力の主要部です。
250
Sub MATRIX_OUTPUT(Fnp, F1&, F2&) '● 行 列 出 力
Sheets(OpSheet%).Select '出 力 シ ー ト を 選 択
Cells(OpRowNum&, OpColNum&).Offset(F1, F2).Select ' 出 力 セ ル を 選 択
Selection.Resize(Ur(Fnp) + 1, Uc(Fnp) + 1).Selec t '拡 大 リ サ イ ズ
Selection = Fnp '行 列 を 代 入
End Sub
「出力位置」で得た出力シート番号で出力シートを選択し、出力位置の
セ ル を 選 択 し 、F1, F2 で 位 置 を 移 動 し( 複 数 の 出 力 が あ る 処 理 の た め で す )、
さらに、行列の行数と列数にそれぞれ 1 を加えた数だけ拡大リサイズした
選 択 位 置 に 行 列 Fnp を 代 入 し ま す 。こ れ で 指 定 さ れ た シ ー ト 位 置 に 行 列 が
出力されます。
これを、たとえば、次のように出力部から呼び出します。
Sub MATRIX()
Dim Xnp, Ynp: Xnp = Inp : Ynp = Dnp
Select Case fN.lstMat.ListIndex + 1 'ListBox
Case 1: Onp = Uv(fN.cboScalar1)
'0. 単 位 ベ ク ト ル _Uv
Case 2: Onp = Um(fN.cboScalar1)
'1. 単 位 行 列 _Um
‘…
End Select
Call MATRIX_OUTPUT(Onp, 0, 0)
End Sub
ExcelVBA の プ ロ グ ラ ミ ン グ に つ い て は 多 く の 書 籍 が 出 版 さ れ て い ま す 。
また、ウェブサイトでも情報がたくさん得られます。以下では、
NUMEROS.xlsm の 主 要 部 の コ ー ド に つ い て 解 説 し ま す 。コ ー ド 全 体 に つ い
て は VBA Editor を 開 い て く だ さ い 。
251
9. 参考書
基礎
池 田 央 (1976)『 統 計 的 方 法 I 基 礎 』 新 曜 社 ( 記 述 統 計 に つ い て 数 理 と 具 体
例で納得できる説明がなされています。)
石 村 貞 夫 (1995)『 グ ラ フ 統 計 の は な し 』 東 京 図 書 ( や さ し く 説 明 し て あ る
のでクラスター分析がどのようなものかがわかります。)
芝 祐 順 ・ 渡 部 洋 ・ 石 塚 智 一 (1984)『 統 計 用 語 辞 典 』 新 曜 社 (一 般 的 な 統 計 学
の用語と英語を知るのに便利です。参考書目も充実しています。)
東 京 大 学 教 養 学 部 統 計 学 教 室 (1991)『 統 計 学 入 門 』 ( 東 京 大 学 出 版 会 ) (理
論をしっかりと理解するために役立つ入門書です。)
渡 辺 美 智 子 ・ 神 田 智 弘 (2008)『 統 計 デ ー タ 分 析 』秀 和 シ ス テ ム( Excel を 使
った記述統計学の分析法を具体的に説明しています。)
応用・開発
足 立 堅 一 (2005)『 多 変 数 解 析 入 門 : 線 形 代 数 か ら 多 変 数 解 析 へ 』 篠 原 出 版
新 社 .( 多 変 数 解 析 に 向 け て 線 形 代 数 の 基 本 を 語 り か け る よ う な 文 体
で丁寧に説明されています。)
Anderberg, Michael R. (1973) Cluster analysis for a p p lications. New York,
Academic Press. 西 田 英 朗・佐 藤 嗣 二 他 訳『 ク ラ ス タ ー 分 析 と そ の 応 用 』
内 田 老 鶴 圃 (1988).
( ク ラ ス タ ー 分 析 を 知 る た め の 古 典 的 な 図 書 で す 。)
Ávila, R. Samper, J. A. y Ueda, H. (2003) Pautas y pistas en el análisis del
léxico hispano(americano). Iberoamericana Vervuert, 278 p p .( Ueda は 言 語
統計分析の方法をスペイン語の語彙バリエーションの研究に応用しま
した。)
Bertin, Jacques. (1977) La graphique et le traitement graphique de l'information.
Paris: Flammarion. 森 田 喬 訳 『 図 の 記 号 学 』 平 凡 社 , 1982. ( こ こ で 取
り上げた集中分析に類似したことを手作業で実行しています。)
Cahuzac, Phili p p e. (1980) "La D/isión del español de América en zonas
dialectales: Solución etnolingüística o semántico-dialectal." Lingüística
Española Actual, 10.( 集 中 分 析 で 資 料 を 引 用 し ま し た 。 )
Hartigan, J. A. (1975) Clustering Algorithms. New York. John Wiley & Sons.
Horst, Paul. (1965) Factor Analysis of Data Matrices. Holt, Rinehart and
Winston. 柏 木 繁 男 ・ 芝 祐 順 ・ 池 田 央・ 柳 井 晴 夫 訳『 コ ン ピ ュ ー タ に よ
る 因 子 分 析 法 』 科 学 技 術 出 版 社 , 1978.( か な り 難 解 で す 。 )
井 上 勝 雄 (1998)『 パ ソ コ ン で 学 ぶ 多 変 数 解 析 の 考 え 方 』 筑 波 出 版 会 ( 説 明
が や さ し く わ か り や す い で す 。数 量化 Ⅲ 類・対 応 分 析 の プ ロ グ ラ ム を
252
参考にしました。)
井 上 勝 雄 ・ 広 川 美 津 雄 (2000)『 エ ク セ ル で 学 ぶ 多 変 数 解 析 の 作 り 方 』 筑 波
出 版 会( Excel VBA の プ ロ グ ラ ミ ン グ 法 の 具 体 的 な 説 明 が あ り ま す 。)
石 井 俊 全 (2014)『 意 味 が わ か る 多 変 数 解 析 』 ベ レ 出 版 ( 数 理 の 証 明 が わ か
りやすく納得できます。)
岩 崎 学・吉 田 清 隆 (2006)『 統 計 的 デ ー タ 解 析 入 門
線 形 代 数 』東 京 図 書( 線
形代数のエッセンスを簡潔に説明しています。)
加 藤 直 樹 ・ 羽 室 行 信 (2008)『 デ ー タ マ イ ニ ン グ と そ の 応 用 』 朝 倉 書 店 ( さ
らに高度な発展学習のための出発点です。)
河 口 至 商 (1978)『 多 変 数 解 析 入 門 I, II』森 北 出 版 (類 似 係 数 行 列 の 説 明 が 参
考になります。)
小 林 竜 一 (1967)『 社 会 科 学 の た め の 数 学 概 説 』 共 立 出 版 (私 が 1 年 生 の と き
の数学の教科書でした。今でも参照しています。)
三 野 大 來 (2001)『 統 計 解 析 の た め の 線 形 代 数 』 共 立 出 版 ( 多 変 数 解 析 に と
って重要な行列演算が簡潔にわかりやすく説明されています。)
奥 村 晴 彦 (1986)『 パ ソ コ ン に よ る デ ー タ 解 析 入 門 . 数 理 と プ ロ グ ラ ミ ン グ
実 習 』技 術 評 論 社 .( BASIC 言 語 に よ る プ ロ グ ラ ム が あ り ま す 。ク ラ ス
タリングとデンドログラムのマクロはこのプログラムを参考にしまし
た。)
Rosemburg, Ch. H.
(1989) Cluster analysis for researchers. Robert E. Krieger
Publishing Company, Inc. Malabar, Florida. 西 田 英 朗 ・ 佐 藤 嗣 二 訳 『 実
例 ク ラ ス タ ー 分 析 』 内 田 老 鶴 圃 (1992).
芝 祐 順 (1975)『 行 動 科 学 に お け る 相 関 分 析 法 』 東 京 大 学 出 版 会 . ( さ ま ざ
ま な 相 関 分 析 法 が 簡 潔 に 説 明 さ れ て い ま す 。巻 末 の FORTRAN プ ロ グ
ラムが参考になります。)
白 井 豊 (2009)『 Excel と VBA に よ る 実 用 数 値 解 析 入 門 』ゆ た か 創 造 舎 .( 固
有値と重回帰分析のプログラムを参考にしました。)
高 村 大 也 (2010)『 言 語 処 理 の た め の 機 械 学 習 入 門 』 コ ロ ナ 社 . ( 数 式 の 意
味が例題の具体例でわかるように工夫されています。)
高 橋 信 (2005)『 Excel で 学 ぶ コ レ ス ポ ン デ ン ス 分 析 』オ ー ム 社 .( 対 応 分 析
の 手 順 が 具 体 的 に わ か り や す く 説 明 さ れ て い ま す 。こ の テ キ ス ト の プ
ロ グ ラ ム を 作 成 す る と き に N>P の 条 件 を 統 一 し な が ら 参 考 に し ま し
た。)
竹 内 啓 ・ 柳 井 晴 夫 (1972)『 多 変 数 解 析 の 基 礎 』東 洋 経 済 新 報 社( Horst で は
わ か り に く い Varimax 法 の 理 論 を 詳 し く 論 じ て い ま す 。 )
縄 田 和 満 (1999)『 Excel に よ る 線 形 代 数 入 門 』 朝 倉 書 店 ( Excel の 操 作 を 通
して数理と具体的な方法が学べます。)
253
長 谷 川 勝 也 (2001)『 は じ め て の 行 列 と ベ ク ト ル 』技 術 評 論 社 (高 校 で 数 学 III
を履修していない人ははじめてに読んでおくとよいでしょう。)
安 田 三 郎 ・ 海 野 道 朗 (1977)『 社 会 統 計 学 』 ( 改 訂 2 版 ) 丸 善 ( ク ラ ス タ ー
分析がわかりやすく具体的に解説されています。)
* は じ め て 行 列 と ベ ク ト ル に つ い て 勉 強 す る 人 は 、 長 谷 川 (2001) → 縄 田
(1999)→ 三 野 (2001)→ 芝 (1975)→ 白 井 (2009)の 順 で 読 み 進 め る と よ い で し ょ
う。
254