第9回 6月10日 (峯松)

情報技術論第@2013
性差・年齢差を越えた
音声のモデル化とその応用
峯松 信明
大学院工学系研究科
工学部電子情報工学科
情報技術論のキーワード
抽象化
モデル化
情報技術
情報技術論のキーワード
刺激の物理的多様性とその認知的不変性
感覚受容器が受け取る情報は容易に変貌する
見えの変化
視点を変えて見た犬
対象との距離を変えて見た像
色みの変化
朝日の花と夕焼け空の花
異なる色眼鏡を通して見た像
音高の変化
男性のハミングと女性のハミング
カラオケでのキーの上げ下げ
A scale in LilyPon
! $LilyPon
! ! in
!
" & ! ! ! $ A scale
%
$ & "
#
" " " #
"
" "
音色の変化
男性のおはよう!と女性のおはよう!
大人のおはよう!と子供のおはよう!
でも,我々は容易に「同一性」を認知できる
音高の相対音感/音色の相対音感
CDEFG
493.9
log(F0) [Hz]
440.0
392.0
349.2
329.6
293.7
261.6
0.0 0.2
0.4 0.6
0.8 1.0
1.2 1.4
time [sec]
dummy
音高の動的変化パターン
log(F0)
調の変化
/aiueo/
2200 F2 [Hz]
2000
1800
1600
1400
1200
1000
800
0.0 0.1
0.2 0.3
0.4 0.5
0.6 0.7
time [sec]
400
300
700
600
500 F1 [Hz]
音色の動的変化パターン
F2
話者の変化
F1
音高の相対音感/音色の相対音感
音楽における調不変の音配置とその変種
西洋音楽=5全音+2半音
種々の配置=教会音楽
民族音楽には半音以外の配置
短調→
長調→
←アラビア音階
音声における話者不変の音配置とその変種=欧米の方言
I
E
U
Q
A
ç
Williamsport, PA
Chicago, IL
Ann Arbor, MI
Rochester, NY
興味深い思考実験を一つ
一卵性双生児が生まれた直後に両親が離婚した・・
一人ずつ引き取られた。
彼らは10年後どんな発音をしているのだろうか?
声道形状の性差=音色の差異
?
I
E
Q
√
A
ç
Williamsport, PA
方言差=音色の差異
?
幼児が学ぶものを学ぶ機械
幼児が無視するものは無視する機械
I
Q
E
A
√
ç
Rochester, NY
計算できる馬
賢馬ハンスから学べること
本講義の流れ
抽象化・モデル化と音声コミュニケーション技術
音声の物理学・基礎編
音声の生成からその物理的(音響的)側面まで
人間が受け取るメディア情報の多様性と不変性
視・聴・触・味・嗅,多様に変形しても同じだと分かる。
多様性の「そぎ落とし」と内在する不変性
その数学的な回答とそれに基づく音声のモデル化
多様性に打ち勝つ音声技術の構築と応用
音声認識,外国語発音分析を例にとって
「そぎ落とし」が気付かせてくれる異分野との接点
あれと,あれは,同じ原理なのか?
惑星とリンゴは同じである。音声とXXは同じである。
音高の相対音感/音色の相対音感
CDEFG
493.9
log(F0) [Hz]
440.0
392.0
349.2
329.6
293.7
261.6
/aiueo/
2200 F2 [Hz]
2000
1800
1600
1400
1200
1000
800
女声平均
0.0 0.2
0.4 0.6
0.8 1.0
1.2 1.4
time [sec]
dummy
音高の動的変化パターン
log(F0)
調の変化
0.0 0.1
0.2 0.3
0.4 0.5
0.6 0.7
time [sec]
男声平均
400
300
700
600
500 F1 [Hz]
音色の動的変化パターン
F2
話者の変化
F1
スペクトル包絡の効率的なベクトル表現
音声波形→スペクトラム→ケプストラム
フーリエ変換
フォルマント周波数
逆フーリエ変換
(c0 , c1 , · · · , cN )
N
!
i=0
(ci − c!i )2
スペクトル包絡の効率的なベクトル表現
(
(
(
(
(
(
(
(
(
(
(
(
(
(
音声波形→スペクトラム→ケプストラム
スペクトル包絡の効率的なベクトル表現
ケプストラム空間における「点」と「点間距離」
C1
N
!
i=0
C2
(ci −
! 2
ci )
C3
点=スペクトル包絡,点間距離=スペクトル間差異
変換不変な音響量の数学的探求
話者の違い=空間写像(話者・声質変換)
話者Aの音響空間 話者Bの音響空間
A
C1
f
f
C2
B
C3
C1
1
C2
話者Aの声を65億全ての話者の声へ変形する
65億 x 65億 の写像関数が定義可能
話者不変のコントラスト=写像不変のコントラスト
任意の写像に対して不変なるコントラスト量は存在するのか?
C3
変換不変な音響量の数学的探求
二人の話者空間(一対一対応)における不変音響量
音響事象を点ではなく, 分布として表現する。
空間Aの分布 p は空間Bの分布 P へと写像される。
p と P は異なる物理特性を持つ([あ]と[あ])
両空間において不変な物理量はどこに?不変コントラストは存在する?
y
A
v
p2 (x, y)
線形
B
P2 (u, v)
非線形
p1 (x, y)
P1 (u, v)
x
u
変換不変な音響量の数学的探求
変数変換と積分
一変数: x = x(t) (x1 = x(t1 ), x2 = x(t2 ))
x2
t2
t2
dx(t)
f (x(t))
f (x)dx =
dt =
g(t)x (t)dt
dt
t1
x1
t1
x = 3u + 2v 5
y = 4u + 5v + 3
二変数: x = x(u, v), y = y(u, v)
f (x, y)dxdy =
A
⇥(x, y)
⇥(u, v)
J(u, v)
y
x
y
g(u, v)|J(u, v)|dudv
B
⇥
x
x
det
u
y
u
v
y
v
v
A
B
x
u
=
=
r cos
r sin
変換不変な音響量の数学的探求
変数変換と確率密度分布関数
一変数: x = x(t) (x1 = x(t1 ), x2 = x(t2 ))
x2
t2
dx(t)
p(x(t))
1.0 =
p(x)dx =
dt =
dt
t1
x1
t2
q(t)x (t)dt
t1
二変数: x = x(u, v), y = y(u, v)
1.0 =
p(x, y)dxdy =
A
⇥(x, y)
⇥(u, v)
J(u, v)
y
det
q(u, v)|J(u, v)|dudv
B
⇥
x
x
u
y
u
v
y
v
v
A
B
x
u
変換不変な音響量の数学的探求
バタチャリヤ距離(=分布間距離尺度の一つ)
座標変換による式の変形 x = x(u, v), y = y(u, v)
BD(p1 (x, y), p2 (x, y))
⇥
= log ⇤ p1 (x, y)p2 (x, y)dxdy
=
=
=
log ⇤
log ⇤
log ⇤
⇥
⇤
⇥
q1 (u, v)q2 (u, v)|J(u, v)|dudv
q1 (u, v)|J(u, v)| · q2 (u, v)|J(u, v)|dudv
P1 (u, v)P2 (u, v)dudv
= BD(P1 (u, v), P2 (u, v))
q1 (u, v) = p1 (x(u, v), y(u, v)),
J = Jacobian
変換不変な音響量の数学的探求
二人の話者空間(一対一対応)における不変音響量
音響事象を点ではなく, 分布として表現する。
空間Aの分布 p は空間Bの分布 P へと写像される。
p と P は異なる物理特性を持つ([あ]と[あ])
両空間において不変な物理量はどこに?不変コントラストは存在する?
各事象は可変, しかし, 少なくともバタチャリヤ距離は不変。
y
A
v
p2 (x, y)
線形
B
P2 (u, v)
非線形
p1 (x, y)
P1 (u, v)
x
u
変換不変な音響量の数学的探求
変換不変量の一般式はあるのか?
f-divergence 不変性の十分性
p1 (x)
p2 (x)
fdiv (p1 , p2 ) =
p2 (x)g
g(t) = t log(t)
fdiv = KL
dx
g(t) =
div.
log(fdiv ) = BD
t
fdiv (p1 , p2 ) = fdiv (P1 , P2 )
f-divergence 不変性の必要性
M (p1 (x), p2 (x))dx が如何なる可逆&連続の変換に対しても不変
p1 (x)
この場合,M = p2 (x)g
であることが必要。
p2 (x)
y
v
A
(x,y)
p1
B
p2
(u,v)
fdiv
P1
x
fdiv
P2
u
変換不変な音響量の数学的探求
位相幾何学(トポロジー)における不変量
連続かつ可逆な任意の変形を施しても不変なる幾何学的性質
変換不変な音響量の数学的探求
位相幾何学(トポロジー)における不変量
連続かつ可逆な任意の変形を施しても不変なる幾何学的性質
分布間距離群としての音声表象
頑健に話者不変な音声表象=構造的・全体的表象
Sequence of spectrum slices
Sequence of cepstrum vectors
Sequence of distributions
Structuralization by interrelating temporally-distant events
分布間距離群としての音声表象
ケプトラム系列 分布系列 距離行列
c1
c1
cD
c4
c3
c2
c2
Bhattacharyya distance
cD
c4 slices
Sequence of spectrum
c3
BD-based distance matrix
Sequence of spectrum slices
spectrogram (spectrum slice sequence)
Sequence of cepstrum vectors
Sequence of spectrum slices
Sequence of spectrum slices
cepstrum vector sequence
Sequence of cepstrum vectors
Sequence of cepstrum vectors
Sequence of cepstrum vectors
Sequence of distributions
Sequence of distributions
Sequence of distributions
Sequence of distributions
distribution sequence
音色の偏差とその認知的不変性
色み・音高の恒常・不変的認知
コントラスト情報に基づく処理が重要
コントラスト群から成る全体的パターン処理が要素同定を可能に
A scale in LilyPon
! $LilyPon
! ! in
!
" & ! ! ! $ A scale
%&
$
" " " #
"
" " " #
音色の恒常・不変的認知
コントラスト情報に基づく処理が重要
コントラスト群から成る全体的パターン処理が要素同定を可能に
P
c1
c2
P
c1
cD
c4
c3
c2
cD
c4
c3
本講義の流れ
抽象化・モデル化と音声コミュニケーション技術
音声の物理学・基礎編
音声の生成からその物理的(音響的)側面まで
人間が受け取るメディア情報の多様性と不変性
視・聴・触・味・嗅,多様に変形しても同じだと分かる。
多様性の「そぎ落とし」と内在する不変性
その数学的な回答とそれに基づく音声のモデル化
多様性に打ち勝つ音声技術の構築と応用
音声認識,外国語発音分析を例にとって
「そぎ落とし」が気付かせてくれる異分野との接点
あれと,あれは,同じ原理なのか?
惑星とリンゴは同じである。音声とXXは同じである。
音声の構造的表象の工学的・実験的検証
f-div. (BD)に基づく一発声の構造化
c1
c1
cD
c4
c3
c2
Bhattacharyya distance
cD
c4
c3
c2
BD-based distance matrix
2発声(=2距離行列)間の音響照合
2距離行列間のユークリッド距離
P1
1
P5
Q1
P2
P4
5
Q2
Q5
P3
4
Q4
Q3
2
O
3
回転:声道長差異
シフト:マイク差異
話者適応・環境適応後のス
コアが適応処理無しで算出
話者性を削除した音声表象
音声の構造的表象の工学的・実験的検証
Speech signal
Statistical structure model
Cepstrum vector sequence
Word 1
Cepstrum distribution
sequence (HMM)
Word 2
Distances of distributions
Structure (distance matrix)
0
s = (s1 , s2 , ... )
0
0
0
Word N
0
音声の構造的表象の工学的・実験的検証
孤立単語音声の認識実験
二つの問題とその解決
強すぎる不変性→マルチストリーム構造化による都合のよい不変性へ
高すぎる次元数→線形判別分析(LDA)による次元数削減
孤立単語認識実験による提案手法の評価
日本語五母音を並び替えて作成される120単語の孤立単語認識
学習話者男女8
評価話者男女8
PP=120
80
60
0.40
0.35
0.30
0.15
0.10
0.05
0.00
-0.05
-0.10
-0.15
-0.20
-0.25
-0.30
0
-0.35
20
0.25
40
0.20
4130-speaker 単語HMM(20S)
triphone HMMs
17整合HMMs
構造モデル(20S)
-0.40
認 識 精 度 [%]
100
音色の偏差とその認知的不変性
色み・音高の恒常・不変的認知
コントラスト情報に基づく処理が重要
コントラスト群から成る全体的パターン処理が要素同定を可能に
A scale in LilyPon
! $LilyPon
! ! in
!
" & ! ! ! $ A scale
%&
$
" " " #
"
" " " #
音色の恒常・不変的認知
コントラスト情報に基づく処理が重要
コントラスト群から成る全体的パターン処理が要素同定を可能に
P
c1
c2
P
c1
cD
c4
c3
c2
cD
c4
c3
本講義の流れ
抽象化・モデル化と音声コミュニケーション技術
音声の物理学・基礎編
音声の生成からその物理的(音響的)側面まで
人間が受け取るメディア情報の多様性と不変性
視・聴・触・味・嗅,多様に変形しても同じだと分かる。
多様性の「そぎ落とし」と内在する不変性
その数学的な回答とそれに基づく音声のモデル化
多様性に打ち勝つ音声技術の構築と応用
音声認識,外国語発音分析を例にとって
「そぎ落とし」が気付かせてくれる異分野との接点
あれと,あれは,同じ原理なのか?
惑星とリンゴは同じである。音声とXXは同じである。
そもそもの出発点はここ
学習者の英語発音を評価する技術の構築
発音の習熟度を定量的にスコア化する。
個々の発声における,不適切な発音部位を検出する。
発音評価技術構築における根本的な問題
教師音声データベースから個々の音素の音響モデルを構築する。
学習者は小学生かもしれない。
音韻の違い=話者の違い=管形状の違い=音色の違い
学習者にあった音響モデルの構築
話者適応技術
大人用モデル/子供用モデル
発音評定?声帯模写評定?
峯松の声から峯松を消したい
そんなことができるのか?
Mismatch
problem
で,こういうのができました。
峯松の普通の英語発音はどちらに近いのか?
speaker
USA/F12
Minematsu
Minematsu
gender
female
male
male
age
??
36
36
mic
Sennheiser
cheap mic
cheap mic
room
recording
room
living
room
living
room
AD
SONY DAT
PowerBook
PowerBook
proficiency
perfect
good
Japanized
Those answers will be straight forward if you think them through carefully first.
で,こういうのができました。
母語話者発音と日本語的峯松発音の音響モデルを利用
各モデルから峯松英語発声が観測される確率 P (o|M )
USA/F12
Minematsu
(Japanized)
USA/M08
Minematsu
(Japanized)
で,こういうのができました。
母語話者発音と日本語的峯松発音の音響モデルを利用
峯松発声が,所望の音素列の読み上げである確率 P (M |o)
USA/F12
Minematsu
(Japanized)
USA/M08
Minematsu
(Japanized)
で,こういうのができました。
母語話者発音と日本語的峯松発音の構造モデルを利用
母語発音構造,日本語的峯松発音構造と,峯松発音構造を比較
USA/F12
Minematsu
(Japanized)
USA/M08
Minematsu
(Japanized)
で,こういうのができました。
峯松の普通の英語発音はどちらに近いのか?
speaker
USA/F12
Minematsu
Minematsu
gender
female
male
male
age
??
36
36
mic
Sennheiser
cheap mic
cheap mic
room
recording
room
living
room
living
room
AD
SONY DAT
PowerBook
PowerBook
proficiency
perfect
good
Japanized
Those answers will be straight forward if you think them through carefully first.
英語母音の発音トレーニング
個々の母音ではなく,母音群の体系を評価対象
beat
about
bit
bird
bet
bought
bat
but
boot
pot
put
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
発音の構造表象に基づいて構築した技術・機能
•
•
•
•
•
•
•
42F
49F
30M
65M
14F
29M
24M
80M
17F
21M
23M
35F
23F
09M
24F
18F
25M
55F
26F
39F
17F
06M
32M
22F
52M
24F
41F
29M
22M
16M
21M
38M
11M
34F
22F
22M
41F
42F
14M
33F
16F
36F
08M
58F
53M
47F
24F
53M
35F
52M
23F
39M
55M
38F
73M
35F
22M
17M
33F
52F
42F
28M
10M
24F
34F
21M
32F
25M
36F
64F
16M
43M
22F
28M
11F
24M
25M
24M
56M
19M
58M
32F
51M
19F
24M
26M
18M
66M
30M
25M
36F
35F
26M
49F
20M
06M
22M
13M
25F
23M
38M
20M
25M
50M
32M
22M
31F
24M
38F
25M
52M
17M
24F
66M
19F
56F
48M
28M
19M
21M
38F
17M
42M
24M
38M
24M
63M
29M
21M
26M
53M
54M
42F
22M
45F
05F
47M
51F
62M
57M
33F
41F
11M
66M
62M
24M
17F
54F
62M
75F
40F
56M
59F
33F
17M
16F
74M
34M
07M
58F
65M
23M
33F
25M
68F
16M
27F
24F
41F
48M
25M
32M
24F
47M
17M
45M
51M
23M
50M
26M
61F
24M
38F
84M
21F
51F
21M
50F
30F
25M
50F
68M
39F
21M
37F
16F
31F
69M
21F
16F
36F
24F
24M
70M
14M
16F
40F
24F
24M
44M
52F
40M
36F
70F
11F
25M
10F
31M
08F
45M
54M
64M
23M
47F
16M
32M
24F
28M
30F
24M
37M
46M
64M
26M
21M
48M
50F
26F
27F
61M
28F
45F
25M
13M
63F
68M
70M
07F
74M
67M
67M
54F
24M
39M
44M
23M
38F
10F
44F
60F
58F
16M
64M
15M
45M
23M
12M
09M
27M
62F
29M
44M
17M
07M
23M
16M
14F
23M
67F
45M
32M
24F
56M
17M
44M
17F
24M
45M
39F
56M
26F
21M
46F
30F
31F
42M
17F
39M
43F
20M
12M
14F
35F
36M
25F
71F
14F
25M
16M
35M
17M
16M
17M
21M
26F
24F
77F
48M
11M
35F
36M
09F
12F
57M
17M
40F
17M
25M
44M
09F
09F
22M
30M
52M
06M
42M
09F
28F
21M
47M
23M
56F
06M
22F
06M
11M
21F
46F
44M
10F
21M
72M
22M
23M
06F
15F
59F
27F
33F
33M
38F
23F
35M
64F
30F
53M
12M
57F
22F
60M
14M
07F
16M
10M
73M
73M
22M
36M
08F
22M
22M
28F
07M
17F
12F
38M
08F
40F
05F
16M
21M
04F
48F
22F
70M
10F
40M
31F
57F
29F
25M
65M
21M
70M
05F
56F
65F
11F
25M
08M
13M
60F
71M
43F
22M
57M
10M
53F
17F
17M
49F
45F
66F
10F
16F
09M
09M
16F
47M
14M
13M
21F
30F
27F
60M
38M
21M
58F
11F
38M
36M
44M
17M
61M
23F
17F
57M
51M
28M
33F
25F
68M
41F
51M
43M
31M
84M
36M
44M
63F
49F
21M
23M
32M
48F
24M
25M
23M
51F
22M
27M
38M
47M
23M
60M
49M
11M
35M
43M
24M
28M
44F
48M
26M
36M
22M
29M
30M
11F
24M
46M
43M
30F
29M
67M
21M
28M
25F
25M
42F
12M
24M
49F
20F
50F
10F
52M
14M
24M
16M
21F
25M
23M
20M
27F
60F
46F
41F
38M
72M
45F
35M
40M
33F
30M
47F
11F
32M
17F
17F
28F
39M
55F
43F
21F
45M
49F
24M
36M
50F
27M
24M
22M
24M
26M
34F
71F
21M
63M
54F
07M
44F
61M
35F
12F
69M
26M
29F
57F
27M
23M
76M
31M
37F
母音体系に見る発音習熟度
学習者の母音体系がどのような状態にあるのかを記録する
お手本の母音構造と比較して,矯正対象の母音を教示する
複数の教師からお手本としたい教師(相手)を選ぶ
■さてさて,どこから直していこうか。よ∼く,考えてみよう!
!♪♪
♪♪チェックポイントはここ!
!さあ,自分の発音を “自分で”チェックしてみよう!
æと E この二つはいっつも仲良しです。あなたの発音はどうなってますか?
I と i これはかなり違う音ですよ。I は「イ」と「エ」の中間音とも言われます。
I と,E やæ その結果,I は E やæに似くるはずですが,あなたの発音ではどうなってます?
A と O アメリカ英語では,これらが似ている方言もあります。母音図で O が下がってきます。
@と,2 や A やæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。
@とÄ この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。
Ä 実は r と殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。
あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し
年齢,性別などには影響されない学習者発音の分類
ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示
されている母音)ほど「重傷」で,緊急入院が必要な母音です。20 程度であれば,ほおっておいて大
丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか?
どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音
質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきま
す。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。
Gxxgle Pronunciaton in Kashiwa Area
結局,厳密には,み∼んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた
自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。
学習者の発音状態の記録とその遷移
分析対象の音声資料
3333333333331111111111116666666666665555555585558282522222222224444
英語劇経験者による英語&日本語単語音声
F F F FMMMMMMF FMFMF FMMFMF FMFMFMFMMMF F FMMMF F F FMMMFMFMMMMMFMMF F FMMF FMMMM
beat, bit, bet, bat, but, pot,
boot, put, bird, about x 1
Fig.bought,
1 学習者発音構造のクラスタリング
ばと,びと,ぶと,べと,ぼと x 5
一部では、異なる状
Table 1 母音置換の組み合わせ
S5 と S8)も見受け
幾つかの米語母音と日本語母音の置き換え
Japanese vowels English vowels
による分類が行われ
a
A, æ,
@, U,
Ä E, 2, A, æ, O,
i, I,2, u,
@, u,
Ä i,U,I,E,u,2,U,A,E,æ
i,ては、同一状態のク
I,
i,I,I,u,u,U,U,E,E,2,2,A,A,æ
i,ている部分が見受け
i
I, ii, I, u, U,i, E,
I, u,
U,
E,
2,O, A,
æ,
O, @, Ä
2, A, æ,
@,
Ä
i,O,I,@,u,ÄU, E, 2, A, æ
i,
I,
u,
U,
E,
2,
A,
æ,
u
U, u
i,i, I,I, u,
A,
u, U,
U, E,
E, 2,
2,によるクラスタを
A, æ,
æ, O,
O, @,
@, Ä
Ä
e
E
が混合したクラスタ
o
O
考察
a i,U,
i,3.4
I, u,
I,E,u,2,U,A,E,æ
日本人学習者の母音発音の模擬的生成
J
S1
AE
「あ」的な母音の置換
Table 2 発音状態の定義
A 「い」的な母音の置換
æ 2 @ Ä I
i
U
J :
J
J
J
J
J
J
J
i,I,I,u,u,U,U,E,E,2,2,A,A,æ
i,
i, I, u, U, E, 2,上記の結果より、
A,
a æ, O, a@, Ä
a 2,り、発音状態によっ
i,
I,
u,
U,
E,
A,
a æ, O, @, Ä
u E O
J
J
J
た。発音状態の定義
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
aJ
S2
iJ
S3
uJ
S4
eJ
S5
oJ
S6
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
aJ
S2
iJ
S3
uJ
S4
eJ
S5
oJ
S6
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
aJ
S2
iJ
S3
uJ
S4
eJ
S5
oJ
S6
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
aJ
S2
iJ
S3
uJ
S4
eJ
S5
oJ
S6
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
aJ
S2
iJ
S3
uJ
S4
eJ
S5
oJ
S6
学習者の発音状態の記録とその遷移
S1からS6への遷移の様子の記述
S1
S2
S3
S4
S5
S6
a
J
u
J
e
J
o
J
i
J
Gooooooooooooooooooooooooooooal !!
優先的に矯正すべき母音の教示
全体的構造歪みと局所的構造歪み
P1
全体的構造歪み→発音習熟度の推定
1
T D(S, T ) =
(Sij Tij )2
M i<j
1
P5
5
Q1
P2
Q2
Q5
P3
P4
4
Q3
Q4
局所的構造歪み→矯正すべき発音部位の推定
M
LD(S, T, i) =
j=1
|Sij
Tij |
LD = 大 当該母音の矯正度 = 大
S
1 2
1
2
3
4
5
3 4 5
0
0
T
1 2 3 4 5
1
2
0
3
0
4
0
5
0
0
0
0
0
2
O
3
Table 1 母音置換の組み合わせ
Japanese vowels English vowels
a
A, æ, 2, @, Ä
i
I, i
u
U, u
e
E
o
O
優先的に矯正すべき母音の教示
S8 : 米語,S1-S7 : 日本語混入米語
S3 to S8
15
10
5
Distortion
S2 to S8
0
•
•
•
‘ Q ´ √ I A E•
•
20
S1•• to S8
20
!♪♪
♪♪チェックポイントはここ!
!さあ,自分の発音を “自分で”チェックしてみよう!
A æ 2 @ Ä I
i
U u E O
æP1
と to
E この二つはいっつも仲良しです。あなたの発音はどうなってますか?
P2 to P8
P8
S1
J
J
J
J
J
J
J
J
J
J
J
S2
E E E E E J
J
J
J
J
J
I と i これはかなり違う音ですよ。I は「イ」と「エ」の中間音とも言われます。
S3
J
J
J
J
J E E E E E E
I と,E やæ その結果,I は E やæに似くるはずですが,あなたの発音ではどうなってます?
S4
E E
J
J
J E E J
J E E
S5
J
J E E E OJ が下がってきます。
J E E J
J
A と O アメリカ英語では,これらが似ている方言もあります。母音図で
S6
E
J E J E J
J
J
J E E
@と,2 や A やæ 後ろ三つは舌を下げる音です。S7
@がこれらと似てたら重傷。救急車呼びます。
J E
J E J E E E E J
J
S8
E E E E E E E E E E E
@i とçÄU
この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。
u
I i E U ç Q√ u ´ ‘A
E:英語の母音発声を使用, J :日本語の母音発声で置換
Ä 実は r と殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。
P4 to P8
P3 to P8
S4 to S8
: 日本語母音で置換
音響分析条件
Table 3
15
Distortion
■さてさて,どこから直していこうか。よ∼く,考えてみよう!
サンプリング 16bit / 16kHz
10
窓
窓長 25 ms, シフト長 1ms
あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し
パラメータ
FFT ケプストラム (1∼10 次元)
ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示
されている母音)ほど「重傷」で,緊急入院が必要な母音です。
20 程度であれば,ほおっておいて大
の発音状態を定義した。
S1 は全部日本語で置換、S8
‘´ √ A ç U u E Q I i
´ Q ‘ A √ ç E丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか?
i I u U
を全部英語発音の状態とし、S2∼S7 については、全
15
P6 to
P8
S6 to
S8
10
Distortion
20
0
5
: 置換無し
5
P5 to P8
S5 to
S8
0
15
10
5
15
10
5
15
10
5
0
Distortion
20
0
Distortion
20
0
Distortion
20
教師と学習者の母音距離行列のみから,優先的矯正対象を推定
Table 2 発音状態の定義
I QE A i ç √ U ´ ‘u
I ´QE A i U √ ç u ‘
Figure 15: The estimated order of vowel correction
音素 11 種類のうちの半分(5 個か 6 個)の音素が置
換されるような状態を定義した。
収録音声から目視により母音部分を切り出し、
Table 3 に示す音響分析条件の下でケプストラムパ
ラメータを求め、MAP 推定を用いて分布化した。各
母音に対してそれぞれ 1 発声のみを用いている。複
数の英語母音を 1 種類の日本語母音で置き換える場
合は、日本語母音は異なる発声を用いるものとする。
例えば、/b2t/と/bæt/を置き換える場合は、2 回の
お手本となる相手を選ぶインタフェース
2通りの学習者分類
333333333333111111111111666666666666555555558555828
F F F FMMMMMMF FMFMF FMMFMF FMFMFMFMMMF F FMMMF F F FMMMFMFMMM
12人の帰国子女による96人の学習者シミュレーション
Fig. 1 学習者発音構造
米語11母音+日本語5母音を含む単語音声収録
一
S
に
て
て
に
が
1回 Table 1 母音置換の組み合わせ
Japanese vowels English vowels
5回
beat, bet, bat, but, .....
ばと, びと, ぶと, .....
a
A, æ, 2, @, Ä
I, i
u
U, u
どの米語母音を置換するのか? 8通りの置換パターン
e
E
12人の帰国子女 x 8通りの置換パターン = 96人の学習者
o
O
米語母音の一部を日本語母音で置換
i
3
[ A∼L ] x [ 1∼8 ] = 96個の 11x11 距離行列
あ
い
う
え
お
A, Q, √, ´, ‘
I, i
U, u
E
ç
Table 2
S1
S2
S3
S4
S5
S6
S7
S8
A
J
E
J
E
J
E
J
E
æ
J
E
J
E
J
J
E
E
2
J
E
J
J
E
E
J
E
@
J
E
J
J
E
J
E
E
発音状態の定義
Ä
J
E
J
J
E
E
J
E
I
J
J
E
E
J
J
E
E
i
J
J
E
E
J
J
E
E
U
J
J
E
J
E
J
E
E
u
J
J
E
J
E
J
E
E
E
J
J
E
E
J
E
J
E
E:英語の母音発声を使用, J :日本語の母音発声で置換
O
J
J
E
E
J
E
J
E
り
た
必
と
こ
可
合
で
2通りの学習者分類
96 x 96 の距離行列に基づく学習者分類
話者:A∼L
発音:1∼8
1 2 3 4 5 6 7
1
2
3
4
5
6
7
0
0
0
0
0
96
0
0
96
ABCD
?
0
0
0
0
1 234
2通りの学習者分類
2通りの構造間距離
P1
コントラストの比較に基づく構造間距離
S
音の実体の比較に基づく構造間距離
⇥
C1
1
(Sij
M i<j
C3
C2
⇥
1
M
T
BD(viS , viT )
i
1
P5
Q1
P2
P4
5
Q2
Q5
P3
4
Q4
2
O
Q3
3
Tij )2
C1
S
C2
C3
T
2通りの学習者分類
コントラストの比較に基づく構造間距離
1 3 6 5 2
4 7 8
F I KACDEHBGALDFHE I BGKCLKCAF I J LEHBDGBLGF FCEDHKKGKAE I DH J C J AA I I AC I FH J J J LEKGBDBLG I FHADKCELLGBBDEFC J H J
111111111131333333333366666666666655525555525282222222585584444441344444477777777777288828888788
音の実体の比較に基づく構造間距離
L E J K I A D B G F HC
LLLLLLLLEEEEEEEE J J J J J J J JKKKKKKKK I I I I I I I I AAAAAAAADDDDDDDDBBBBBBBBGGGGGGGGF F F F F F F FHHHHHHHHCCCCCCCC
783416258734162537485612256481371437852646137825782516343478162517342568251768343714256817342568
42F
49F
30M
65M
14F
29M
24M
80M
17F
21M
23M
35F
23F
09M
24F
18F
25M
55F
26F
39F
17F
06M
32M
22F
52M
24F
41F
29M
22M
16M
21M
38M
11M
34F
22F
22M
41F
42F
14M
33F
16F
36F
08M
58F
53M
47F
24F
53M
35F
52M
23F
39M
55M
38F
73M
35F
22M
17M
33F
52F
42F
28M
10M
24F
34F
21M
32F
25M
36F
64F
16M
43M
22F
28M
11F
24M
25M
24M
56M
19M
58M
32F
51M
19F
24M
26M
18M
66M
30M
25M
36F
35F
26M
49F
20M
06M
22M
13M
25F
23M
38M
20M
25M
50M
32M
22M
31F
24M
38F
25M
52M
17M
24F
66M
19F
56F
48M
28M
19M
21M
38F
17M
42M
24M
38M
24M
63M
29M
21M
26M
53M
54M
42F
22M
45F
05F
47M
51F
62M
57M
33F
41F
11M
66M
62M
24M
17F
54F
62M
75F
40F
56M
59F
33F
17M
16F
74M
34M
07M
58F
65M
23M
33F
25M
68F
16M
27F
24F
41F
48M
25M
32M
24F
47M
17M
45M
51M
23M
50M
26M
61F
24M
38F
84M
21F
51F
21M
50F
30F
25M
50F
68M
39F
21M
37F
16F
31F
69M
21F
16F
36F
24F
24M
70M
14M
16F
40F
24F
24M
44M
52F
40M
36F
70F
11F
25M
10F
31M
08F
45M
54M
64M
23M
47F
16M
32M
24F
28M
30F
24M
37M
46M
64M
26M
21M
48M
50F
26F
27F
61M
28F
45F
25M
13M
63F
68M
70M
07F
74M
67M
67M
54F
24M
39M
44M
23M
38F
10F
44F
60F
58F
16M
64M
15M
45M
23M
12M
09M
27M
62F
29M
44M
17M
07M
23M
16M
14F
23M
67F
45M
32M
24F
56M
17M
44M
17F
24M
45M
39F
56M
26F
21M
46F
30F
31F
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
こういうのを作ってみたい・・
フレーズの発声を用いたモデル話者・学習者間の比較
「一発声→構造(形態)パターン」への変換
パターン間の比較を通して行なう矯正箇所・教示の生成
Phrase of the week!!
You ve got a friend in me.
World Englishes
Individual Englishes
Gxxgle Pronunciaton i
The speech accent archive
本講義の流れ
抽象化・モデル化と音声コミュニケーション技術
音声の物理学・基礎編
音声の生成からその物理的(音響的)側面まで
人間が受け取るメディア情報の多様性と不変性
視・聴・触・味・嗅,多様に変形しても同じだと分かる。
多様性の「そぎ落とし」と内在する不変性
その数学的な回答とそれに基づく音声のモデル化
多様性に打ち勝つ音声技術の構築と応用
音声認識,外国語発音分析を例にとって
「そぎ落とし」が気付かせてくれる異分野との接点
あれと,あれは,同じ原理なのか?
惑星とリンゴは同じである。音声とXXは同じである。
音声の構造的表象の工学的・実験的検証
f-div. に基づく一発声の構造化
c1
c1
cD
c4
c3
c2
Bhattacharyya distance
cD
c4
c3
c2
BD-based distance matrix
2発声(=2距離行列)間の音響照合
2距離行列間のユークリッド距離
P1
1
P5
Q1
P2
P4
5
Q2
Q5
P3
4
Q4
Q3
2
O
3
回転:声道長差異
シフト:マイク差異
話者適応・環境適応後のス
コアが適応処理無しで算出
話者性を削除した音声表象
100年ほど前の出来事です
彼らは数学的に導いたのか?感覚しただけなのか?
Ferdinand de Saussure (1857-1913)
Language is a system of differences.
The important thing in the word is not the sound alone but the
phonic differences that make it possible to distinguish the word
from the others.
Roman Jakobson (1896-1982)
Physiologically identical sounds may possess different values in
conformity with the whole sound system, i.e. with their relations
to the other sounds.
形と形の比較 ∼分子構造の比較∼
第 83 回 月例発表会(2005 年 12 月)
知的システムデザイン研究室
部分構造最適化の組み合わせによるタンパク質立体構造予測の提案
宇野 尚子
DNA・RNA・タンパク質と音声の構造解析
Naoko UNO
2.2
はじめに
1
近年,タンパク質の立体構造予測が注目されている.
タンパク質はアミノ酸が複数連なって構成される物質
で,自然界ではある決まった構造に折りたたまれた状態
で存在している.この構造をタンパク質の立体構造と呼
び,タンパク質の機能と密接に関わっていると言われて
いる.そのため,立体構造を解明することによって病理
の解明や新薬の開発につながることが期待されている.
タンパク質はエネルギーの低い安定した構造に折り
たたまれるので,エネルギー最小化問題と捉えることが
予測結果の評価基準
タンパク質の立体構造予測を行う際に,評価する基準
は 2 つある.1 つはエネルギー値,もう 1 つは構造の形で
ある.構造が既知のタンパク質ならば,シミュレーショ
ン結果がどの程度その構造に似ているかが重要となる.
2 つの構造の差異を定量化するために用いられる量が
RMSD(Root Mean Square Deviation) である.RMSD
は 2 つの分子構造を重ね合わせて,対応する各原子のず
れの二乗を平均したものの平方根で定義される.式 (1)
に RMSD の求め方を示す.
できる.本研究室では「遺伝的交叉を用いた並列シミュ
!
"
N
"1 $
#
RM SD(A, B) =
(ai − bi )2
N i=1
レーテッドアニーリング (Parallel Simulated Annealing
with Genetic Crossover:PSA/GAc)1) 」を用いて立体
構造予測を行っている.本報告では,タンパク質の立体
構造予測の難しさと,PSA/GAc が抱えている問題点を
挙げ,今後の研究方針について述べる.
タンパク質立体構造予測
2
2.1
エネルギー関数
目的関数は,タンパク質の系をモデル化したエネル
ギー関数を用いる.タンパク質のエネルギー関数は非常
に複雑で,Fig. 1 のように大域的にいくつかの,局所的
に無数の極小値を持つと考えられている.
RMSD の単位は Å で,値が小さいほど 2 つの構造が
よく似ていることになる.
遺伝的交叉を用いた並列シミュレーテッド
アニーリング (PSA/GAc)
3
3.1
概要
PSA/GAc は Fig. 2 のように並列に実行している SA
の解の伝達時に遺伝的アルゴリズムのオペレータである
遺伝的交叉を用いたものである.
d
d Native
d 構造
Fig. 4 Protein-A の
Crossover
ዪᚲ⸃
(1)
SA
X1 X2 X3 X4
X1 X2 X3 X4
d
「これ,電子雲ですか?」
構造が歪まないように, 空間を歪めているだけ・・
!
!
0.5 0.0
0.0 0.5
"
!
1.0 2.0
0.0 1.0
"
!
x[bit]
2.0 0.0
0.0 2.0
"
1.0 0.0
1.5 1.0
"
A = 回転,b = シフト
再度,音声の構造的表象
c1
音声の構造的表象についておさらい
定常波として存在する音声を対象とする。
c2
音声スペクトルは常に揺れている。これを分布で表現する。
N個の音声事象はN個の分布となる(分布群)。
⇥
p1 (x) · p2 (x)dx = cos
2事象間の関係を で定量化
log(cos ) で定量化
2事象間の距離を 全ての2事象距離を計算し,NxNの距離行列を算出
変換・写像不変の情報の構造的表象
p1
p2
p5
1 2 3 4 5
p3
1
2
3
p4 4
5
0
0
0
cD
c4
c3
う∼ん,似すぎている・・?
価電子群の配置=分子構造の計算
|
2
(x)|
= p1 (x)
1
電子は原子核の周りに定常波として存在する。
その定常波の2乗はその電子の確率密度関数(分布)である。
N個の価電子はN個の分布となる(分布群)。
2事象間の重なり具合を で定量化(重なり積分)
1 (x) 2 (x)dx
全ての2事象間を計算し,行列化(重なり行列)
重なり積分の関数として距離を算出。NxNの距離行列
変換・写像不変の情報の構造的表象?
峯松 信明
峯松からの課題
平成 22 年 5 月 31 日
各教官の講義(2 回ずつ)に対して 3 課題を選択し,学期末に教務課に提出すればよい。但し,課題執筆後
に,次回の講義にて提出してもよい(近山先生に渡します)。科類・学年・学籍番号などを忘れないように。
本講義の課題を以下に示す。課題以外に,本講義についての感想なども期待している。
1. 授業で紹介した f -divergence,
fdiv (p1 , p2 ) =
!
p2 (x)g
"
p1 (x)
p2 (x)
#
dx
が,連続かつ可逆な如何なる写像に対しても不変であることを証明せよ。pi (x) は確率密度関数である。
√
なお,授業で g(t) = t,BD(p1 , p2 ) = − log(fdiv (p1 , p2 )) で定義されるバタチャリヤ距離の不変性につ
いては説明した。これを参照してよい。
2. 体格,年齢,性別などによる声の違いを空間写像として考え,fdiv のみで音声を表現する(距離行列化)
ことで,不変構造として音声を捉える手法を説明した。このような構造不変の現象は,音声ばかりでは
なく,広く物理現象として存在しているかのように思える。思いを巡らして,身近に潜む「不変構造」を
探求してみよ。思いを巡らすのに苦労する学生向けに,身近に,かつ,当たり前のように存在する音声
以外の不変構造を授業で紹介した。
「音声の不変構造」と「授業中に紹介した不変構造」とが,数学的に
同一の枠組みで記述されていることについて,考察せよ。単なる偶然なのか,それとも必然なのか,諸
君の知識&想像力に期待したい(答えの無い課題を出しています)。
?
興味深いレポート,期待してます
?
?