a λ

数学と統計学の応用に関する3つの話題
—数学を知らないと解けない問題のお話
吉田 知行 (北大・理)
[email protected]
2008 共通科目
数学と統計学の応用に関する3つの話題
II. 一致率検定による東アジアの諸言語の系統探求
言語学—比較言語学,音韻対応の法則,基礎語彙,言語年代学
謎—日本語と関係のある言語:朝鮮語・アイヌ語・中国語・カンボジア語等々?
統計—分割表の検定,二項検定,並べ替え検定,ブートストラップ法
数学—市街化距離,順列組合せと母関数,確率,対称群,ランダムウォーク
比較言語学 (歴史言語学)
● William Jones “The Sanscrit Language”(1786)
英語
サンスクリット語
ギリシア語
ラテン語
two
dvi
duo
duo
three
tri
treis
tres
ten
dasa
deka
decem
father
pitar
pater
pater
mother
matar
meter
mater
brother
bhratar
phrater
frater
「3つの言語は,共通の源 (インドヨーロッパ祖語) から発した」
●比較文法学,印欧語族の発見—Schlegel 1808, Bopp 1816 等
●系統樹モデル—分裂をくり返してさまざまな言語になった (Schleicher 1861).
●波動モデル—波動のように伝播拡散した (Schmidt 1872).言語地理学.
1
音韻対応の法則に例外なし
●ゲルマン語の音韻推移 (グリムの法則)
ギリシア
ラテン
サンスクリット
ゲルマン
p
p
p
f
t
t
t
θ/∂
k
c(=k)
š
h(x)
d
d
d
t
g
g
j
k
ph
f
bh
b
th
f/d
dh
d
問題 英語とドイツ語・フランス語などで,音が対応している単語の例をあげよ.
印欧語では,古い資料がたくさん残っているため言語同士の姉妹関係や文法音韻単
語の歴史的変遷をさかのぼって調べることができた.例えば英語の単語が印欧祖語
でどのような形をしていたか再構成ができる.
言語の同系の判定は,音韻対応の法則.文法法則と音韻体系の比較による.
2
日本語の起源問題の難しさ
・中国語 (漢語) を除けば,東アジアには古い言語の資料がない.
日本語は 712 年古事記,朝鮮語は 1446 年ハングルによる仏典など,モンゴル語
は 9 世紀ウイグル文字と 13 世紀パスパ文字.西夏語は 11 世紀.
・分岐年代が古すぎて従来の比較言語学の方法が使えない可能性が高い.そもそも
日本語成立の過程は印欧語族ほど単純でない.
・まともな言語学者は参入しづらい.こじつけとトンデモの世界.例:タミル語説,
古代朝鮮語説,例:名前–name,坊や–boy.
日本語と同系な言語は,琉球語 (琉球方言とも) だけ.
北琉球方言 (沖縄など),南琉球方言 (八重山など).かなりの違い.別の言語?
母音の数が3つ (aiu).規則正しい対応 (a↔a,ei↔i, ou↔u)
3
日本語の起源問題に関したいくつかの疑問
●縄文語と弥生語.
・どちらが日本語の基盤になったか (両者はまったく別系統だろう).
・縄文語はどこから来たか.弥生語はどこから来たか.
●日本語は変な言語か?
・文法音韻とも日本語は,きわめて平凡な言語.平凡でないのは,膨大な数の単語.
●英語は普通の言語か?
・英語 (かなり孤立語化) は,退化した印欧語 (屈折語).
異常に多い母音 (12 個),子音 (清音だけで 12 個以上).形式主語.
・世界的に見て SOV 型が最多.印欧語族でも,ギリシャ語・ラテン語など多数.
古英語・ドイツ語もどちらかというと SOV.
4
日本語の単語の不思議なところ
●数詞の倍数構成—世界的に見てきわめてまれ.
・1(hi)-2(hu), 3(mi)-6(mu),4(yo)-8(ya), 5(itu)-10(to).
●高句麗語の数詞—『三国史記』にでてくる高句麗の地名 (新村出 1913).
三紛縣(密波兮),五谷郡(于次呑忽),七重縣(難隠別),十谷縣(徳頓忽)
つまり「三」
「五」
「七」
「十」の一云 (読み) が「ミツ」
「ウチャ」
「ナン」
「トク」.
●身体語と植物関係語.
・鼻 ↔ 花,目 ↔ 芽,頬 ↔ 穂,耳 ↔ 実 — 場所形が似ている?
・耳 (ミミ),乳 (チチ),頬 (ホホ)—同じ音の繰り返し.
5
比較言語学における数理的方法
●問題点—文法・音韻・語彙は変わる.比較する範囲.古い資料がない.
・現代語で比べるしかない.基礎語彙 (数詞,基礎 100 語,200 語) による比較.
・Polya の二項検定法.安本による改良.
・Oswalt のシフト検定法.対称群を使ったシフト法とモメント公式.
・3言語のまとまり度合い,言語群の比較.
・Swadesh の言語年代学—分岐年代.
・多変量解析法の応用—クラスタ分析,主成分分析,多次元尺度構成法.
6
●比較法 (1) Polya の二項検定法
『発見的推論 そのパターン—数学における発見はいかになされるか2』
当たる確率 p のくじ.10 回引いて (復元抽出) x 回以上当たる確率は
P (x) =
10
∑
(
10 Cr
pr (1 − p)10−r ,
n Cr
=
r=x
n
r
)
=
n!
r! (n − r)!
ヨーロッパの言語の数詞 (文字表記,アクセント記号は省略)
英語
1
2
3
4
5
6
7
8
9
10
one
two
three
four
five
six
seven
eight
nine
ten
スウェー
デン語
en
tra
tre
frya
fem
sex
sju
atta
nio
tio
デンマ
ーク語
en
to
tre
fire
fem
seks
syv
otte
ni
ti
オラン
ダ語
een
twee
drie
vier
vijf
zes
zeven
acht
negen
tien
ドイツ
語
ein
zwei
drei
vier
funf
sechs
sieben
acht
neun
zehn
フラン
ス語
un
deux
trois
quatre
cinq
six
sept
huit
neuf
dix
スペイ
ン語
uno
dos
tres
cuatro
cinco
seis
siete
ocho
nueve
diez
イタリ
ア語
uno
due
tre
quattro
cinque
sei
sette
otto
ove
dieci
ポーラ
ンド語
jeden
dwa
trzy
cztery
piec
szesc
siedem
osiem
dziewiec
dziesisc
7
ハンガ
リー語
egy
ketto
harom
negy
ot
hat
het
nyolc
kilenc
tiz
語頭文字の一致数 (太数字は,上側二項確率 P (x) < 0.05 を意味する)
英
英
ス
デ
オ
ド
フ
スペ
イ
ポ
ハ
計
8
8
3
4
4
4
4
3
1
39
ス
8
9
5
6
4
4
4
3
2
45
デ
8
9
4
5
4
5
5
4
2
46
オ
3
5
4
5
1
1
1
0
2
22
ド
4
6
5
5
3
3
3
2
1
32
フ
4
4
4
1
3
8
9
5
0
38
語頭文字が偶然一致する確率 p =
ス
4
4
5
1
3
8
9
7
0
41
イ
4
4
5
1
3
9
9
6
0
41
ポ
3
3
4
0
2
5
7
6
ハ
1
2
2
2
1
0
0
0
0
0
30
8
x
0
1
2
3
4
5
6
7
8
9
10
P (x)
1.000000
.630644
.243823
.061524
.010612
.02 12814
.03 10871
.05 63707
.06 24619
.08 56565
.010 58625
32 + 02 + 52 + 112 + · · · + 42
1002
= 0.0948
ここで 3, 0, 5, · · ·, 4 は,語頭文字に a, b, c, · · · , z が現れる回数.
8
●比較法 (2) R.Oswalt の (巡回) シフト検定法 (1970)
用意するもの:基礎語彙表 {WAi}, {WBi} (i = 1, · · ·, n).
語頭音写像 f (i), g(i): WAi, WBi の語頭音.
一致数 x0:f (i) = g(i) となる i の個数.
偶然による一致数 x0, x1, · · ·, xn−1 を求める (後述).x0 は除くことが多い.
平均 m = (x0 + x1 + · · · + xn−1)/n
分散 s2 = ((x0 − m)2 + (x1 − m)2 + · · · + (xn−1 − m)2)/n
∫ ∞
1
2 /2
−t
偏差値 z = (x0 − m)/s と上側確率 Qn(z) = √
e
dt
2π z
Qn(z) < 0.05 (z > 2.33) なら 5 パーセント水準で,両言語は関係がある.
9
偶然による一致数を求める.片方の言語の単語をひとつずつずらしながら比較する.
項目
意味
日本語
1
all
mina
2
ash
ËaËi
3
bark
kaËa
4
belly
Ëara
...
...
99
100
1
...
woman
me
yellow
kı̈
all
mina
朝鮮語
¾
H
YH
HH
j
¾
H
YH
HH
j
¾
H
YH
HH
j
¾
H
YH
HH
j
...
H
YH
HH
j
¾
H
YH
HH
j
¾
H
YH
HH
j
mot5n
tS5i
k@ptSir
p5i
...
ky@tSip
nurW
(mot5n)
f (i), g(i):i 番目の単語の語頭音.
x0 := ]{i | f (i) = g(i)}.
xk := ]{i | f (i) = g(i + k)}
i + k は modn で計算.
LB の 単 語 の 順 番 を ず ら す と LA
の単語の意味とあわないので,
x1, · · ·, xn−1 は偶然による一致数.
x0 も背景点に入れる (理論が簡単).
似た音はまとめる.
語頭子音の一致を見る方がよい.
10
「上古日本語」と「中期朝鮮語」のシフト検定 (基礎 200 語)
6
粗点 x0 = 53
背景点平均 m = 36.155
標準偏差 s = 5.248
偏 差 値 z = 3.210
上側確率 p = 0.000663
20
15
10
5
¢¢
¢¢
x0
53
m
36.155
¾
16.85
-
×
×
×
× ×
×× × ×
×××× ×
× ×××× ××
×××××××××
×××××××××
××××××××× ×
××××××××× ××
×
××××××××× ×××
×
××××××××× ×××
× × ××××××××× ×××
× × ××××××××× ×××
××××××××××××××××××
×××××××××××××××××××
×××××××××××××××××××
×
× ×××××× × × × × × × × × × × × × × × × × × × × ×
×° x
20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52
11
■ (オズワルトの) 巡回シフト法の問題点
(A) 計算量の問題.
・比較回数は O(m2n2).(2 ≤ m - 100 は言語数,n ≈ 200 は単語数).
・言語数増加,単語数増加,単語間の距離計算のコスト増加に難点.
(B) 背景点の分布は正規近似できるか.
・やや右裾の長い分布.∴ P 値が過小.
・印欧系言語ではさらに右裾が長い—語彙リストが英語の単語の順のため.
・語彙表における単語の並べ方によって,分布の形が変わる.
解決法
(A) 背景点の平均値 m,標準偏差 s を求める公式.
(B) 単語の並べ方によらない方法.背景点分布の正確な形.正確な P 値.
12
問題の解決—置換群によるシフト法
N := {1, 2, · · ·, n} (単語番号),Sn : n 次対称群 (n 文字の順列全体).
G ⊆ Sn が 置換群 とは,1 ∈ G(単位置換) かつ σ, τ ∈ G ⇒ στ ∈ G.
置換群 G が 可移 とは,i, j ∈ N なら,ある σ ∈ G が存在して σ(i) = j
写像 f, g : N −→ Λ の一致数 x[f, g] := ]{i ∈ N |f (i) = g(i)}.
背景点 (偶然による一致数) x(π) := x[f, gπ] (π ∈ G).その平均と分散:
m :=
1 ∑
|G|
π∈G
x(π), s2
:=
1 ∑
|G|
(x(π) − m)2
π∈G
平均や分散を aλ := |f −1(λ)|, bλ := |g −1(λ)| で表したい.
aλ, bλ は音 λ で始まる LA, LB の単語の個数.
巡回群 Cn := hπ0 = (1, 2, · · ·, n)i の場合は Oswalt の 巡回 シフト法.
13
●平均値公式.G が可移なら, m =
1 ∑
n
aλbλ
λ∈Λ
定理の証明.可移性から,]{π ∈ G | π(i) = j} = |G|/n (∀i, j ∈ N ).
∑
x[f, gπ] = ]{(π, i) | f (i) = g(π(i))}
π∈G
= ]{(π, i, j) | f (i) = g(j), π(i) = j}
= ]{(i, j) | f (i) = g(j)} × |G|/n
|G| ∑ −1
|f (λ)| · |g −1(λ)|
=
n
λ∈Λ
14
●完全シフト法の分散公式.
s2
=
1
n−1
m(m + n) −
1
∑
n(n − 1)
λ
aλbλ(aλ + bλ)
証明.{(i, j) | i 6= j} 上の置換群 Sn に平均値公式を適用する.
言語 LA, LB で,単語の語頭音が λ である確率:pλ = aλ/n, qλ = bλ/n
∑
LA, LB の単語の対で語頭音が偶然一致する確率 p = m/n =
pλqλ
偶然による一致数の分散
2 {
}
∑
n
s2 =
p(1 + p) −
pλqλ(pλ + qλ) ≈ Cn
n−1
15
●完全シフト法の高次モメント公式.
(
)
(
)(
∑
∏
(n
−
t)!
1 ∑
x(π)
aλ
=
t
tλ
n!
n!
π∈Sn
Σtλ=t λ
bλ
tλ
)
tλ !
結論:完全シフト法の場合,背景点 {x(π) | π ∈ Sn} の分布は,語頭音分布表
{aλ}, {bλ} で決まる.
16
●例:上古日本語と中期朝鮮語の音韻対応表
J\K
k
m
n
p
r
t
w
y
-
k
9
7
3
6
0
4
1
1
0
31
m
6
4
4
3
0
5
0
1
0
23
n
6
1
3
7
0
8
3
2
0
30
p
9
4
3
10
0
11
2
2
0
41
r
3
2
1
0
0
1
1
0
0
8
t
11
5
2
6
2
27
3
1
0
57
w
0
0
0
0
0
0
0
0
0
0
y
0
1
0
0
0
1
0
0
0
2
4
1
1
1
0
0
0
1
0
8
48
25
17
33
2
57
10
8
0
200
完全シフト法:x0 = 53, m = 36.155, s = 5.1647, z = 3.2615,
P = 0.03554.x0 = 53 が偶然得られる確率は 2000 回に 1 回程度.
17
●完全シフト法の問題点
(A) 計算量 (2 ≤ m - 100 は言語数,n ≈ 200 は単語数).
・(オズワルトの) 巡回シフト法:比較回数は O(m2n2).
・完全シフト法のモメント公式+正規検定 (カッパ検定):O(m2n).
音の分布 {aλ}, {bλ} と粗点 x0 を求めればよい.
問題点 (B) P 値は正確か?—正確でない!過小評価.
・背景点 x(π) = x[f, gπ], π ∈ Sn の正確な分布—超幾何分布の和
・正規分布で近似できるか?—近似できる (カッパ検定).
・正確な P 値 P (x0) = ]{π ∈ Sn | x(π) ≥ x0}/n! ?
18
シフト法の変形—かき混ぜるのに何を使うか
N = {1, · · ·, n} 上の置換の集合 G.f, g : N −→ Λ.
背景点 x(σ) = ]{i ∈ N | f (i) = g(σi)}, σ ∈ G.一致数 x0 = x(1).
(1) 置換群—可移なら背景点平均 m は音韻分布表 {aλ}, {bλ} から求まる.
巡回群—Oswalt のシフト法,計算機による度数分布表.
多重可移群—背景点平均分散 m, s2 音韻分布表から求まる.
対称群—完全シフト法.背景点分布は,音韻分布表 {aλ}, {bλ} から決まる.
(2) 対称半群 En (N から N への写像全体,重複順列の集合).
背景点 x(σ, τ ) = ]{i ∈ N | f (σi) = g(τ i)}, σ, τ ∈ En.f, g に関して対称.
∑
2
これは安本方式の二項検定法 B(n, p) (p = (1/n)
aλbλ) と同じ.
∑
Polya 方式— p = (1/2n)2 (aλ + bλ)2
対称群より対称半群の方が簡単なのは不思議.積和公式のおかげ.
19
対称半群を使った完全シフト法は,二項検定と同じ.
積和公式 ∏∑
∑ ∏
uij =
i∈I j∈J
I = N, J = N × N
ui,λ(i)
λ:I→J i∈I
∑ ]{(σ, τ ) | x(σ, τ ) = x}
∑
1
x
x(σ,τ )
F (θ) :=
θ
=
θ
n2n
n2n
σ,τ ∈En
x≥0


∏
1 ∑ δ(f (j), g(k))
1 ∑ ∏ δ(f σ(i), gτ (i))


θ
=
θ
= 2n
2
n σ,τ
n
i∈N
∑
j,k
∴
=
∑
aλbµ
θ δ(λ,µ)
i∈N
=
n2
− n2p(1 − θ), p
j,k∈N
:=
λ,µ
1 ∑
n2
aλ b λ
λ
F (θ) = (1 − p + pθ)n (二項分布の確率母関数)
20
(3) (重複) 順列の集合—背景点平均が音韻分布表で決まらないことがある.
乱順列全体—m∗ = m + (m − x0)/(n − 1).
正規部分集合(e.g. 共役類)—単語の並べ方によらない.
注:G ⊂ Sn が正規とは,σ ∈ G, π ∈ Sn ⇒ πσπ −1 ∈ G.
x[f πσ, gπ] = x[f πσπ −1, g].対称群 Sn(n ≥ 5) の正規部分群は Sn, An.
(4) N が 有限準群 (x · y = z のふたつが定まれば残りも一意的に定まる).
ラテン方陣は単位元を持つ有限準群.数独の解は準群.
背景点 xs := ]{i ∈ N | f (i) = g(s · i)}(s ∈ N ).
∑
背景点の平均 m = (1/n)
aλ b λ
ラテン方陣 i · j := i + j − 1 (mod n) の場合は巡回シフト法と同等.
21
●モンテカルロ法:かき混ぜるための Sn や En の元をランダムに発生させる.
x(π) := ]{i ∈ N | f (i) = g(πi)}, π ∈ Sn, |Sn| = n!.
x(σ, τ ) := ]{i ∈ N | f (σi) = g(τ i)}, σ, τ ∈ En, |En| = nn.
背景点 x(π) の分布.π は対称群 Sn の元をランダムに取る.
−→ Fisher の置換法.π1, · · ·, πn は 1, · · ·, n の順列.
背景点 x(σ, τ ) の分布.σ, τ は対称半群 En の元をランダムに取る.
−→ ブートストラップ法.σ1, σ2, · · · と τ 1, τ 2, · · · は 1, · · ·, n の重複順列.
作用
対称群
対称半群
1)
∑
λ xλ,λ
分布型
HGD の和 1)
二項分布
すべて取る
(1a) 完全シフト法 (2a) 安本の二項検定
ランダムに取る
(1b) Fisher の置換法 (2b) ブートストラップ法
(分割表の対角和).各 xλ,µ の分布は超幾何分布 (互いに独立でない)
22
●どの方法を採るか.
(1a) 完全シフト法+正規検定—高速,P -値が過小.
(1b) 完全シフト法+置換法—遅そう.順列のランダムな発生法.
(1c) 完全シフト法+正確確率法—正確な P -値.計算量膨大.
(2a)
(2b)
(3a)
(3b)
安本方式の二項検定法—高速,P -値が過大.信頼性がある.
ブートストラップ法—使う意味がない.
巡回シフト法+正規検定—現在では使う意味がない.
準群+二項検定など—理論的には何かあるかもしれない.
基礎語彙は母集団か標本か.標本と見るなら,二項検定法がよい.
実験結果も安本方式の二項検定法を支持する
23
安本流の二項検定法の手順のまとめ
・比較したいふたつの言語 A,B の語彙リストを用意する.基礎 200 語など.
・ふたつの単語の一致の基準を決める.ふつうは語頭 (子) 音の類似.
・語頭音写像 f, g : N −→ Λ が定まる.Λ は音の同値類の集合.
・言語 A, B における語頭音分布表 {aλ}, {bλ} を作る.
・言語 A, B の語頭音の一致数 x0 を数える.必要なら音韻対応表を作る.
・x0 に対する二項検定 B(n, p) を行う.n は単語数.
)
n (
∑
n
P (x0) =
px(1 − p)n−x,
x
x=x
0
p :=
1 ∑
n2
aλbλ
λ
・多言語,語族同士の比較も同様.偶然による一致の確率 p が必要.
24
さらなる拡張—語族の比較,重み付き一致数
言語 A,B 間の一致数,完全シフト法の背景点の平均と分散 xAB , mAB , s2
AB
f, g, h : N −→ Λ :言語 A,B,C の語頭音を与える写像
aλ := |f −1(λ)|, bλ := |g −1(λ)|, cλ := |h−1(λ)|:λ で始まる単語の個数
3言語のまとまり—語頭音一致数 (multi-metric)
方式 1:x00 = xAB + xBC + xCA.3言語で一致した単語は3倍して数える.
方式 2:x00
0 = xABC := x[f, g, h] = ]{i ∈ N | f (i) = g(i) = h(i)}.
25
方式1による偶然による背景点の平均と分散:
m0
s02
1∑
=
=
n
λ
2
sAB
(aλbλ + bλcλ + cλaλ)
+ s2BC + s2CA
方式2による背景点の平均と分散:
m00
s002
=
=
1 ∑
n2
aλbλcλ
λ
2n − 1
(n −
1)2
m02 +
n2 − 2n
(n −
1)2
m0 −
∑
1
n2(n
−
1)2
aλbλcλ(aλ +bλ +cλ)
λ
26
●日本語 (J),アイヌ語 (A),朝鮮語 (K) の比較結果
x0
m
s
γ1
γ2
z
P (正規)
P (正確)
P (二項)
J × A
41
36.535
5.1070
0.0981
-0.03 862
0.8743
0.1910
0.2163
0.2312
J × K
53
36.035
5.1635
0.1035
0.03 104
3.2615
0.03 509
0.02 156
0.02 188
A × K
56
37.53
5.2094
0.1001
0.03 481
3.5455
0.03 196
0.03 479
0.03 943
JAK(1)
151
109.88
8.9160
—
—
4.6119
0.05 252
—
0.04 227
JAK(2)
23
8.2465
2.9833
—
—
4.9454
0.06 380
—
0.04 104
・正規分布に比べると,背景点の分布はやや右に長い尾を引いている.
・たいていの場合は,(正規) < (正確) < (二項).
安本流の二項検定で間に合う.正規は P -値が過小に出る.正確確率は計算が大変.
27
日本語・アイヌ語・朝鮮語の比較結果の解釈
●共通の核 (JAK(2)) がある,核を除けば相関がない.
極東地域に3言語の元になる言語 (安本の古極東アジア語?) があった (約 1 万年
前).まず日本語が分かれ,その後アイヌ語朝鮮語が分かれた.3言語は各地域で
独立に発展した.
●私見:これら 3 言語は北方系.日本語には南方系の影響がある.北からアイヌ語
祖語・朝鮮語祖語・日本語祖語の順に,中国東北部から沿海州シベリア方面に分布
していた.その後南下して,玉突きのように,サハリン・朝鮮半島・日本列島を占
めた.アイヌ語は,サハリン経由か,日本海横断して日本列島北部に入った.アイ
ヌ語への縄文語の影響は思ったより少ない.縄文人の遺伝子は長い間に少しずつア
イヌ人に入り込んだ.
28
正確な p 値の求め方 — 2F0 型超幾何多項式.
P (x ≥ x0) = ]{π ∈ Sn | x[f, gπ] ≥ x0}/n!
f, g : N −→ Λ, aλ := |f −1(λ)|, bλ := |g −1(λ)|.


(
)
(
)

∏ ∑ a
∑( n )
b
λ
λ
・F (u) :=
k! uk =
k! q(k) uk
k
k
k


λ
k≥0
k≥0
(
)
∑
k
(−1)k−x
q(k)
・p(x) =
x
k≥x
・P (x ≥ x0 ) = p(x0 ) + p(x0 + 1) + · · · + p(n).
例:上古日本語と中期朝鮮語 x0 = 53.P (x ≥ 53) =
971072955976527370489065992048363534695258683180916330016972623729162842170272509552467370904366650977071823270606663
621808756731104460234413202960802888298370454841707272110637520765525658472228904396826948279002883680647387345546300000
P (x0 ≥ 53) = 0.00156169(正確).正規 0.000554.二項 0.00238.
29
言語年代学 — Swadesh の公式とその改良.
言語 LA, LB.分岐年代 T (単位千年).一致数 x0.
時刻 t における言語 LA(t).LA(T ) = LA = LB.
r :ひとつの単語の語頭音の千年あたりの残存率 (r ≈ 0.8).
● Swadesh の公式:x0(t) = x0(0)r t.x0 = nr 2T .
これから分岐時期 T が求まる.
m(t):LA(0) と LA(0) の平均一致数.x0(t):LA(0) と LA(t) の一致数.
●改良 Swadesh の公式:
x0(T ) − m(T )
x0 − m
= rT ,
= r 2T .
x0(0) − m(0)
x0(0) − m(0)
日本語と朝鮮語の (同系としての) 分岐年代は,6400 年前.
30
日本語の起源
●日本語に同系の言語は琉球語 (南北 2 系統) のみ.
●日本語周辺で,強い関係のある言語対,有意確率 0.0005 以下,(括弧内は
0.001 以下)
・日本語 (東京)—カンボジア語,朝鮮語
・日本語 (上古)—インドネシア語,(カンボジア語,朝鮮語)
・日本語 (沖縄)—インドネシア語,ベトナム語
・朝鮮語—アイヌ語
●結論—日本語と同系の言語は琉球語以外にない.日本語の祖語もない.日本語
の骨格は縄文語で北方系.さらにインドネシア語・カンボジア語などの南方系言語
が流れ込んだ.弥生時代に,ビルマ系江南語など南方系言語の語彙を取り込んだ.
東アジアにおける,中国語 (漢語) の爆発的拡大によって,南方系の言語は東西南
に拡散した.
31
・吉田 知行 「言語間の距離とシフト法」数理科学 1984/12
・吉田 知行 「数学の応用事例—比較言語学への応用」サイエンストピックス,北大理学部HP
・ポリヤ『数学における発見はいかになされるか』第2巻『発見的推論』1959.
・安本美典・野崎昭弘『言語の数理』筑摩書房 1976.
・安本美典『言語の科学』朝倉書店 1995.
・安本美典『日本語の誕生』大修館書店 1983.
・R.Gray-Q.Atkinson, Language-tree divergence times support the Anatolian theory of Indo-European origin, NATURE 426 (2003), 435–439.
http://www.psych.auckland.ac.nz/Psych/research/Evolution/Gray&Atkinson2003.pdf
32
音韻対応表
J\K
k
m
n
p
r
t
w
y
-
k m
n
p r
t w y 9
6
6
9 3 11 0 0 4
48
7
4
1
4 2
5 0 1 1
25
3
4
3
3 1
2 0 0 1
17
6
3
7 10 0
6 0 0 1
33
0
0
0
0 0
2 0 0 0
2
4
5
8 11 1 27 0 1 0
57
1
0
3
2 1
3 0 0 0
10
1
1
2
2 0
1 0 0 1
8
0
0
0
0 0
0 0 0 0
0
31 23 30 41 8 57 0 2 8 200
K\A
k
m
n
p
r
t
w
y
-
k m n p
r
8 2 4 5 2
3 0 4 7 2
4 0 6 6 1
5 4 4 15 3
2 0 1 1 3
5 3 6 8 5
0 0 0 0 0
1 0 0 1 0
2 0 0 3 0
30 9 25 46 16
t
10
5
11
9
1
24
0
0
0
63
w
0
2
0
0
0
0
0
0
3
2
y
0
0
1
1
0
5
0
0
0
7
0 31
0 23
1 30
0 41
0
8
1 57
0
0
0
2
0
8
2 200
J\A
k
m
n
p
r
t
w
y
-
k m
n
8 1
6
2 1
2
4 2
2
4 0
4
0 0
0
8 3
8
3 1
0
1 1
3
0 0
0
30 9 25
p
r
10
6
8
2
2
2
10
1
1
0
10
5
2
0
3
0
0
0
46 16
t w y 16 0 0 1
48
8 1 1 0
25
4 0 1 0
17
11 0 3 0
33
1 0 0 0
2
20 1 2 0
57
3 0 0 1
10
0 0 0 0
8
0 0 0 0
0
63 2 7 2 200
似た音はまとめる
H=h=p=b=f=v=x,
t=sh=ts=d=s=z,
k=g=q=ng,r=l
33