情報技術論第@2013 性差・年齢差を越えた 音声のモデル化とその応用 峯松 信明 大学院工学系研究科 工学部電子情報工学科 情報技術論のキーワード 抽象化 モデル化 情報技術 情報技術論のキーワード 刺激の物理的多様性とその認知的不変性 感覚受容器が受け取る情報は容易に変貌する 見えの変化 視点を変えて見た犬 対象との距離を変えて見た像 色みの変化 朝日の花と夕焼け空の花 異なる色眼鏡を通して見た像 音高の変化 男性のハミングと女性のハミング カラオケでのキーの上げ下げ A scale in LilyPon ! $LilyPon ! ! in ! " & ! ! ! $ A scale % $ & " # " " " # " " " 音色の変化 男性のおはよう!と女性のおはよう! 大人のおはよう!と子供のおはよう! でも,我々は容易に「同一性」を認知できる 音高の相対音感/音色の相対音感 CDEFG 493.9 log(F0) [Hz] 440.0 392.0 349.2 329.6 293.7 261.6 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 time [sec] dummy 音高の動的変化パターン log(F0) 調の変化 /aiueo/ 2200 F2 [Hz] 2000 1800 1600 1400 1200 1000 800 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 time [sec] 400 300 700 600 500 F1 [Hz] 音色の動的変化パターン F2 話者の変化 F1 音高の相対音感/音色の相対音感 音楽における調不変の音配置とその変種 西洋音楽=5全音+2半音 種々の配置=教会音楽 民族音楽には半音以外の配置 短調→ 長調→ ←アラビア音階 音声における話者不変の音配置とその変種=欧米の方言 I E U Q A ç Williamsport, PA Chicago, IL Ann Arbor, MI Rochester, NY 興味深い思考実験を一つ 一卵性双生児が生まれた直後に両親が離婚した・・ 一人ずつ引き取られた。 彼らは10年後どんな発音をしているのだろうか? 声道形状の性差=音色の差異 ? I E Q √ A ç Williamsport, PA 方言差=音色の差異 ? 幼児が学ぶものを学ぶ機械 幼児が無視するものは無視する機械 I Q E A √ ç Rochester, NY 計算できる馬 賢馬ハンスから学べること 本講義の流れ 抽象化・モデル化と音声コミュニケーション技術 音声の物理学・基礎編 音声の生成からその物理的(音響的)側面まで 人間が受け取るメディア情報の多様性と不変性 視・聴・触・味・嗅,多様に変形しても同じだと分かる。 多様性の「そぎ落とし」と内在する不変性 その数学的な回答とそれに基づく音声のモデル化 多様性に打ち勝つ音声技術の構築と応用 音声認識,外国語発音分析を例にとって 「そぎ落とし」が気付かせてくれる異分野との接点 あれと,あれは,同じ原理なのか? 惑星とリンゴは同じである。音声とXXは同じである。 音高の相対音感/音色の相対音感 CDEFG 493.9 log(F0) [Hz] 440.0 392.0 349.2 329.6 293.7 261.6 /aiueo/ 2200 F2 [Hz] 2000 1800 1600 1400 1200 1000 800 女声平均 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 time [sec] dummy 音高の動的変化パターン log(F0) 調の変化 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 time [sec] 男声平均 400 300 700 600 500 F1 [Hz] 音色の動的変化パターン F2 話者の変化 F1 スペクトル包絡の効率的なベクトル表現 音声波形→スペクトラム→ケプストラム フーリエ変換 フォルマント周波数 逆フーリエ変換 (c0 , c1 , · · · , cN ) N ! i=0 (ci − c!i )2 スペクトル包絡の効率的なベクトル表現 ( ( ( ( ( ( ( ( ( ( ( ( ( ( 音声波形→スペクトラム→ケプストラム スペクトル包絡の効率的なベクトル表現 ケプストラム空間における「点」と「点間距離」 C1 N ! i=0 C2 (ci − ! 2 ci ) C3 点=スペクトル包絡,点間距離=スペクトル間差異 変換不変な音響量の数学的探求 話者の違い=空間写像(話者・声質変換) 話者Aの音響空間 話者Bの音響空間 A C1 f f C2 B C3 C1 1 C2 話者Aの声を65億全ての話者の声へ変形する 65億 x 65億 の写像関数が定義可能 話者不変のコントラスト=写像不変のコントラスト 任意の写像に対して不変なるコントラスト量は存在するのか? C3 変換不変な音響量の数学的探求 二人の話者空間(一対一対応)における不変音響量 音響事象を点ではなく, 分布として表現する。 空間Aの分布 p は空間Bの分布 P へと写像される。 p と P は異なる物理特性を持つ([あ]と[あ]) 両空間において不変な物理量はどこに?不変コントラストは存在する? y A v p2 (x, y) 線形 B P2 (u, v) 非線形 p1 (x, y) P1 (u, v) x u 変換不変な音響量の数学的探求 変数変換と積分 一変数: x = x(t) (x1 = x(t1 ), x2 = x(t2 )) x2 t2 t2 dx(t) f (x(t)) f (x)dx = dt = g(t)x (t)dt dt t1 x1 t1 x = 3u + 2v 5 y = 4u + 5v + 3 二変数: x = x(u, v), y = y(u, v) f (x, y)dxdy = A ⇥(x, y) ⇥(u, v) J(u, v) y x y g(u, v)|J(u, v)|dudv B ⇥ x x det u y u v y v v A B x u = = r cos r sin 変換不変な音響量の数学的探求 変数変換と確率密度分布関数 一変数: x = x(t) (x1 = x(t1 ), x2 = x(t2 )) x2 t2 dx(t) p(x(t)) 1.0 = p(x)dx = dt = dt t1 x1 t2 q(t)x (t)dt t1 二変数: x = x(u, v), y = y(u, v) 1.0 = p(x, y)dxdy = A ⇥(x, y) ⇥(u, v) J(u, v) y det q(u, v)|J(u, v)|dudv B ⇥ x x u y u v y v v A B x u 変換不変な音響量の数学的探求 バタチャリヤ距離(=分布間距離尺度の一つ) 座標変換による式の変形 x = x(u, v), y = y(u, v) BD(p1 (x, y), p2 (x, y)) ⇥ = log ⇤ p1 (x, y)p2 (x, y)dxdy = = = log ⇤ log ⇤ log ⇤ ⇥ ⇤ ⇥ q1 (u, v)q2 (u, v)|J(u, v)|dudv q1 (u, v)|J(u, v)| · q2 (u, v)|J(u, v)|dudv P1 (u, v)P2 (u, v)dudv = BD(P1 (u, v), P2 (u, v)) q1 (u, v) = p1 (x(u, v), y(u, v)), J = Jacobian 変換不変な音響量の数学的探求 二人の話者空間(一対一対応)における不変音響量 音響事象を点ではなく, 分布として表現する。 空間Aの分布 p は空間Bの分布 P へと写像される。 p と P は異なる物理特性を持つ([あ]と[あ]) 両空間において不変な物理量はどこに?不変コントラストは存在する? 各事象は可変, しかし, 少なくともバタチャリヤ距離は不変。 y A v p2 (x, y) 線形 B P2 (u, v) 非線形 p1 (x, y) P1 (u, v) x u 変換不変な音響量の数学的探求 変換不変量の一般式はあるのか? f-divergence 不変性の十分性 p1 (x) p2 (x) fdiv (p1 , p2 ) = p2 (x)g g(t) = t log(t) fdiv = KL dx g(t) = div. log(fdiv ) = BD t fdiv (p1 , p2 ) = fdiv (P1 , P2 ) f-divergence 不変性の必要性 M (p1 (x), p2 (x))dx が如何なる可逆&連続の変換に対しても不変 p1 (x) この場合,M = p2 (x)g であることが必要。 p2 (x) y v A (x,y) p1 B p2 (u,v) fdiv P1 x fdiv P2 u 変換不変な音響量の数学的探求 位相幾何学(トポロジー)における不変量 連続かつ可逆な任意の変形を施しても不変なる幾何学的性質 変換不変な音響量の数学的探求 位相幾何学(トポロジー)における不変量 連続かつ可逆な任意の変形を施しても不変なる幾何学的性質 分布間距離群としての音声表象 頑健に話者不変な音声表象=構造的・全体的表象 Sequence of spectrum slices Sequence of cepstrum vectors Sequence of distributions Structuralization by interrelating temporally-distant events 分布間距離群としての音声表象 ケプトラム系列 分布系列 距離行列 c1 c1 cD c4 c3 c2 c2 Bhattacharyya distance cD c4 slices Sequence of spectrum c3 BD-based distance matrix Sequence of spectrum slices spectrogram (spectrum slice sequence) Sequence of cepstrum vectors Sequence of spectrum slices Sequence of spectrum slices cepstrum vector sequence Sequence of cepstrum vectors Sequence of cepstrum vectors Sequence of cepstrum vectors Sequence of distributions Sequence of distributions Sequence of distributions Sequence of distributions distribution sequence 音色の偏差とその認知的不変性 色み・音高の恒常・不変的認知 コントラスト情報に基づく処理が重要 コントラスト群から成る全体的パターン処理が要素同定を可能に A scale in LilyPon ! $LilyPon ! ! in ! " & ! ! ! $ A scale %& $ " " " # " " " " # 音色の恒常・不変的認知 コントラスト情報に基づく処理が重要 コントラスト群から成る全体的パターン処理が要素同定を可能に P c1 c2 P c1 cD c4 c3 c2 cD c4 c3 本講義の流れ 抽象化・モデル化と音声コミュニケーション技術 音声の物理学・基礎編 音声の生成からその物理的(音響的)側面まで 人間が受け取るメディア情報の多様性と不変性 視・聴・触・味・嗅,多様に変形しても同じだと分かる。 多様性の「そぎ落とし」と内在する不変性 その数学的な回答とそれに基づく音声のモデル化 多様性に打ち勝つ音声技術の構築と応用 音声認識,外国語発音分析を例にとって 「そぎ落とし」が気付かせてくれる異分野との接点 あれと,あれは,同じ原理なのか? 惑星とリンゴは同じである。音声とXXは同じである。 音声の構造的表象の工学的・実験的検証 f-div. (BD)に基づく一発声の構造化 c1 c1 cD c4 c3 c2 Bhattacharyya distance cD c4 c3 c2 BD-based distance matrix 2発声(=2距離行列)間の音響照合 2距離行列間のユークリッド距離 P1 1 P5 Q1 P2 P4 5 Q2 Q5 P3 4 Q4 Q3 2 O 3 回転:声道長差異 シフト:マイク差異 話者適応・環境適応後のス コアが適応処理無しで算出 話者性を削除した音声表象 音声の構造的表象の工学的・実験的検証 Speech signal Statistical structure model Cepstrum vector sequence Word 1 Cepstrum distribution sequence (HMM) Word 2 Distances of distributions Structure (distance matrix) 0 s = (s1 , s2 , ... ) 0 0 0 Word N 0 音声の構造的表象の工学的・実験的検証 孤立単語音声の認識実験 二つの問題とその解決 強すぎる不変性→マルチストリーム構造化による都合のよい不変性へ 高すぎる次元数→線形判別分析(LDA)による次元数削減 孤立単語認識実験による提案手法の評価 日本語五母音を並び替えて作成される120単語の孤立単語認識 学習話者男女8 評価話者男女8 PP=120 80 60 0.40 0.35 0.30 0.15 0.10 0.05 0.00 -0.05 -0.10 -0.15 -0.20 -0.25 -0.30 0 -0.35 20 0.25 40 0.20 4130-speaker 単語HMM(20S) triphone HMMs 17整合HMMs 構造モデル(20S) -0.40 認 識 精 度 [%] 100 音色の偏差とその認知的不変性 色み・音高の恒常・不変的認知 コントラスト情報に基づく処理が重要 コントラスト群から成る全体的パターン処理が要素同定を可能に A scale in LilyPon ! $LilyPon ! ! in ! " & ! ! ! $ A scale %& $ " " " # " " " " # 音色の恒常・不変的認知 コントラスト情報に基づく処理が重要 コントラスト群から成る全体的パターン処理が要素同定を可能に P c1 c2 P c1 cD c4 c3 c2 cD c4 c3 本講義の流れ 抽象化・モデル化と音声コミュニケーション技術 音声の物理学・基礎編 音声の生成からその物理的(音響的)側面まで 人間が受け取るメディア情報の多様性と不変性 視・聴・触・味・嗅,多様に変形しても同じだと分かる。 多様性の「そぎ落とし」と内在する不変性 その数学的な回答とそれに基づく音声のモデル化 多様性に打ち勝つ音声技術の構築と応用 音声認識,外国語発音分析を例にとって 「そぎ落とし」が気付かせてくれる異分野との接点 あれと,あれは,同じ原理なのか? 惑星とリンゴは同じである。音声とXXは同じである。 そもそもの出発点はここ 学習者の英語発音を評価する技術の構築 発音の習熟度を定量的にスコア化する。 個々の発声における,不適切な発音部位を検出する。 発音評価技術構築における根本的な問題 教師音声データベースから個々の音素の音響モデルを構築する。 学習者は小学生かもしれない。 音韻の違い=話者の違い=管形状の違い=音色の違い 学習者にあった音響モデルの構築 話者適応技術 大人用モデル/子供用モデル 発音評定?声帯模写評定? 峯松の声から峯松を消したい そんなことができるのか? Mismatch problem で,こういうのができました。 峯松の普通の英語発音はどちらに近いのか? speaker USA/F12 Minematsu Minematsu gender female male male age ?? 36 36 mic Sennheiser cheap mic cheap mic room recording room living room living room AD SONY DAT PowerBook PowerBook proficiency perfect good Japanized Those answers will be straight forward if you think them through carefully first. で,こういうのができました。 母語話者発音と日本語的峯松発音の音響モデルを利用 各モデルから峯松英語発声が観測される確率 P (o|M ) USA/F12 Minematsu (Japanized) USA/M08 Minematsu (Japanized) で,こういうのができました。 母語話者発音と日本語的峯松発音の音響モデルを利用 峯松発声が,所望の音素列の読み上げである確率 P (M |o) USA/F12 Minematsu (Japanized) USA/M08 Minematsu (Japanized) で,こういうのができました。 母語話者発音と日本語的峯松発音の構造モデルを利用 母語発音構造,日本語的峯松発音構造と,峯松発音構造を比較 USA/F12 Minematsu (Japanized) USA/M08 Minematsu (Japanized) で,こういうのができました。 峯松の普通の英語発音はどちらに近いのか? speaker USA/F12 Minematsu Minematsu gender female male male age ?? 36 36 mic Sennheiser cheap mic cheap mic room recording room living room living room AD SONY DAT PowerBook PowerBook proficiency perfect good Japanized Those answers will be straight forward if you think them through carefully first. 英語母音の発音トレーニング 個々の母音ではなく,母音群の体系を評価対象 beat about bit bird bet bought bat but boot pot put 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 発音の構造表象に基づいて構築した技術・機能 • • • • • • • 42F 49F 30M 65M 14F 29M 24M 80M 17F 21M 23M 35F 23F 09M 24F 18F 25M 55F 26F 39F 17F 06M 32M 22F 52M 24F 41F 29M 22M 16M 21M 38M 11M 34F 22F 22M 41F 42F 14M 33F 16F 36F 08M 58F 53M 47F 24F 53M 35F 52M 23F 39M 55M 38F 73M 35F 22M 17M 33F 52F 42F 28M 10M 24F 34F 21M 32F 25M 36F 64F 16M 43M 22F 28M 11F 24M 25M 24M 56M 19M 58M 32F 51M 19F 24M 26M 18M 66M 30M 25M 36F 35F 26M 49F 20M 06M 22M 13M 25F 23M 38M 20M 25M 50M 32M 22M 31F 24M 38F 25M 52M 17M 24F 66M 19F 56F 48M 28M 19M 21M 38F 17M 42M 24M 38M 24M 63M 29M 21M 26M 53M 54M 42F 22M 45F 05F 47M 51F 62M 57M 33F 41F 11M 66M 62M 24M 17F 54F 62M 75F 40F 56M 59F 33F 17M 16F 74M 34M 07M 58F 65M 23M 33F 25M 68F 16M 27F 24F 41F 48M 25M 32M 24F 47M 17M 45M 51M 23M 50M 26M 61F 24M 38F 84M 21F 51F 21M 50F 30F 25M 50F 68M 39F 21M 37F 16F 31F 69M 21F 16F 36F 24F 24M 70M 14M 16F 40F 24F 24M 44M 52F 40M 36F 70F 11F 25M 10F 31M 08F 45M 54M 64M 23M 47F 16M 32M 24F 28M 30F 24M 37M 46M 64M 26M 21M 48M 50F 26F 27F 61M 28F 45F 25M 13M 63F 68M 70M 07F 74M 67M 67M 54F 24M 39M 44M 23M 38F 10F 44F 60F 58F 16M 64M 15M 45M 23M 12M 09M 27M 62F 29M 44M 17M 07M 23M 16M 14F 23M 67F 45M 32M 24F 56M 17M 44M 17F 24M 45M 39F 56M 26F 21M 46F 30F 31F 42M 17F 39M 43F 20M 12M 14F 35F 36M 25F 71F 14F 25M 16M 35M 17M 16M 17M 21M 26F 24F 77F 48M 11M 35F 36M 09F 12F 57M 17M 40F 17M 25M 44M 09F 09F 22M 30M 52M 06M 42M 09F 28F 21M 47M 23M 56F 06M 22F 06M 11M 21F 46F 44M 10F 21M 72M 22M 23M 06F 15F 59F 27F 33F 33M 38F 23F 35M 64F 30F 53M 12M 57F 22F 60M 14M 07F 16M 10M 73M 73M 22M 36M 08F 22M 22M 28F 07M 17F 12F 38M 08F 40F 05F 16M 21M 04F 48F 22F 70M 10F 40M 31F 57F 29F 25M 65M 21M 70M 05F 56F 65F 11F 25M 08M 13M 60F 71M 43F 22M 57M 10M 53F 17F 17M 49F 45F 66F 10F 16F 09M 09M 16F 47M 14M 13M 21F 30F 27F 60M 38M 21M 58F 11F 38M 36M 44M 17M 61M 23F 17F 57M 51M 28M 33F 25F 68M 41F 51M 43M 31M 84M 36M 44M 63F 49F 21M 23M 32M 48F 24M 25M 23M 51F 22M 27M 38M 47M 23M 60M 49M 11M 35M 43M 24M 28M 44F 48M 26M 36M 22M 29M 30M 11F 24M 46M 43M 30F 29M 67M 21M 28M 25F 25M 42F 12M 24M 49F 20F 50F 10F 52M 14M 24M 16M 21F 25M 23M 20M 27F 60F 46F 41F 38M 72M 45F 35M 40M 33F 30M 47F 11F 32M 17F 17F 28F 39M 55F 43F 21F 45M 49F 24M 36M 50F 27M 24M 22M 24M 26M 34F 71F 21M 63M 54F 07M 44F 61M 35F 12F 69M 26M 29F 57F 27M 23M 76M 31M 37F 母音体系に見る発音習熟度 学習者の母音体系がどのような状態にあるのかを記録する お手本の母音構造と比較して,矯正対象の母音を教示する 複数の教師からお手本としたい教師(相手)を選ぶ ■さてさて,どこから直していこうか。よ∼く,考えてみよう! !♪♪ ♪♪チェックポイントはここ! !さあ,自分の発音を “自分で”チェックしてみよう! æと E この二つはいっつも仲良しです。あなたの発音はどうなってますか? I と i これはかなり違う音ですよ。I は「イ」と「エ」の中間音とも言われます。 I と,E やæ その結果,I は E やæに似くるはずですが,あなたの発音ではどうなってます? A と O アメリカ英語では,これらが似ている方言もあります。母音図で O が下がってきます。 @と,2 や A やæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。 @とÄ この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。 Ä 実は r と殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。 あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し 年齢,性別などには影響されない学習者発音の分類 ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示 されている母音)ほど「重傷」で,緊急入院が必要な母音です。20 程度であれば,ほおっておいて大 丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか? どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音 質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきま す。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。 Gxxgle Pronunciaton in Kashiwa Area 結局,厳密には,み∼んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた 自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。 学習者の発音状態の記録とその遷移 分析対象の音声資料 3333333333331111111111116666666666665555555585558282522222222224444 英語劇経験者による英語&日本語単語音声 F F F FMMMMMMF FMFMF FMMFMF FMFMFMFMMMF F FMMMF F F FMMMFMFMMMMMFMMF F FMMF FMMMM beat, bit, bet, bat, but, pot, boot, put, bird, about x 1 Fig.bought, 1 学習者発音構造のクラスタリング ばと,びと,ぶと,べと,ぼと x 5 一部では、異なる状 Table 1 母音置換の組み合わせ S5 と S8)も見受け 幾つかの米語母音と日本語母音の置き換え Japanese vowels English vowels による分類が行われ a A, æ, @, U, Ä E, 2, A, æ, O, i, I,2, u, @, u, Ä i,U,I,E,u,2,U,A,E,æ i,ては、同一状態のク I, i,I,I,u,u,U,U,E,E,2,2,A,A,æ i,ている部分が見受け i I, ii, I, u, U,i, E, I, u, U, E, 2,O, A, æ, O, @, Ä 2, A, æ, @, Ä i,O,I,@,u,ÄU, E, 2, A, æ i, I, u, U, E, 2, A, æ, u U, u i,i, I,I, u, A, u, U, U, E, E, 2, 2,によるクラスタを A, æ, æ, O, O, @, @, Ä Ä e E が混合したクラスタ o O 考察 a i,U, i,3.4 I, u, I,E,u,2,U,A,E,æ 日本人学習者の母音発音の模擬的生成 J S1 AE 「あ」的な母音の置換 Table 2 発音状態の定義 A 「い」的な母音の置換 æ 2 @ Ä I i U J : J J J J J J J i,I,I,u,u,U,U,E,E,2,2,A,A,æ i, i, I, u, U, E, 2,上記の結果より、 A, a æ, O, a@, Ä a 2,り、発音状態によっ i, I, u, U, E, A, a æ, O, @, Ä u E O J J J た。発音状態の定義 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 aJ S2 iJ S3 uJ S4 eJ S5 oJ S6 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 aJ S2 iJ S3 uJ S4 eJ S5 oJ S6 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 aJ S2 iJ S3 uJ S4 eJ S5 oJ S6 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 aJ S2 iJ S3 uJ S4 eJ S5 oJ S6 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 aJ S2 iJ S3 uJ S4 eJ S5 oJ S6 学習者の発音状態の記録とその遷移 S1からS6への遷移の様子の記述 S1 S2 S3 S4 S5 S6 a J u J e J o J i J Gooooooooooooooooooooooooooooal !! 優先的に矯正すべき母音の教示 全体的構造歪みと局所的構造歪み P1 全体的構造歪み→発音習熟度の推定 1 T D(S, T ) = (Sij Tij )2 M i<j 1 P5 5 Q1 P2 Q2 Q5 P3 P4 4 Q3 Q4 局所的構造歪み→矯正すべき発音部位の推定 M LD(S, T, i) = j=1 |Sij Tij | LD = 大 当該母音の矯正度 = 大 S 1 2 1 2 3 4 5 3 4 5 0 0 T 1 2 3 4 5 1 2 0 3 0 4 0 5 0 0 0 0 0 2 O 3 Table 1 母音置換の組み合わせ Japanese vowels English vowels a A, æ, 2, @, Ä i I, i u U, u e E o O 優先的に矯正すべき母音の教示 S8 : 米語,S1-S7 : 日本語混入米語 S3 to S8 15 10 5 Distortion S2 to S8 0 • • • ‘ Q ´ √ I A E• • 20 S1•• to S8 20 !♪♪ ♪♪チェックポイントはここ! !さあ,自分の発音を “自分で”チェックしてみよう! A æ 2 @ Ä I i U u E O æP1 と to E この二つはいっつも仲良しです。あなたの発音はどうなってますか? P2 to P8 P8 S1 J J J J J J J J J J J S2 E E E E E J J J J J J I と i これはかなり違う音ですよ。I は「イ」と「エ」の中間音とも言われます。 S3 J J J J J E E E E E E I と,E やæ その結果,I は E やæに似くるはずですが,あなたの発音ではどうなってます? S4 E E J J J E E J J E E S5 J J E E E OJ が下がってきます。 J E E J J A と O アメリカ英語では,これらが似ている方言もあります。母音図で S6 E J E J E J J J J E E @と,2 や A やæ 後ろ三つは舌を下げる音です。S7 @がこれらと似てたら重傷。救急車呼びます。 J E J E J E E E E J J S8 E E E E E E E E E E E @i とçÄU この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。 u I i E U ç Q√ u ´ ‘A E:英語の母音発声を使用, J :日本語の母音発声で置換 Ä 実は r と殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。 P4 to P8 P3 to P8 S4 to S8 : 日本語母音で置換 音響分析条件 Table 3 15 Distortion ■さてさて,どこから直していこうか。よ∼く,考えてみよう! サンプリング 16bit / 16kHz 10 窓 窓長 25 ms, シフト長 1ms あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し パラメータ FFT ケプストラム (1∼10 次元) ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示 されている母音)ほど「重傷」で,緊急入院が必要な母音です。 20 程度であれば,ほおっておいて大 の発音状態を定義した。 S1 は全部日本語で置換、S8 ‘´ √ A ç U u E Q I i ´ Q ‘ A √ ç E丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか? i I u U を全部英語発音の状態とし、S2∼S7 については、全 15 P6 to P8 S6 to S8 10 Distortion 20 0 5 : 置換無し 5 P5 to P8 S5 to S8 0 15 10 5 15 10 5 15 10 5 0 Distortion 20 0 Distortion 20 0 Distortion 20 教師と学習者の母音距離行列のみから,優先的矯正対象を推定 Table 2 発音状態の定義 I QE A i ç √ U ´ ‘u I ´QE A i U √ ç u ‘ Figure 15: The estimated order of vowel correction 音素 11 種類のうちの半分(5 個か 6 個)の音素が置 換されるような状態を定義した。 収録音声から目視により母音部分を切り出し、 Table 3 に示す音響分析条件の下でケプストラムパ ラメータを求め、MAP 推定を用いて分布化した。各 母音に対してそれぞれ 1 発声のみを用いている。複 数の英語母音を 1 種類の日本語母音で置き換える場 合は、日本語母音は異なる発声を用いるものとする。 例えば、/b2t/と/bæt/を置き換える場合は、2 回の お手本となる相手を選ぶインタフェース 2通りの学習者分類 333333333333111111111111666666666666555555558555828 F F F FMMMMMMF FMFMF FMMFMF FMFMFMFMMMF F FMMMF F F FMMMFMFMMM 12人の帰国子女による96人の学習者シミュレーション Fig. 1 学習者発音構造 米語11母音+日本語5母音を含む単語音声収録 一 S に て て に が 1回 Table 1 母音置換の組み合わせ Japanese vowels English vowels 5回 beat, bet, bat, but, ..... ばと, びと, ぶと, ..... a A, æ, 2, @, Ä I, i u U, u どの米語母音を置換するのか? 8通りの置換パターン e E 12人の帰国子女 x 8通りの置換パターン = 96人の学習者 o O 米語母音の一部を日本語母音で置換 i 3 [ A∼L ] x [ 1∼8 ] = 96個の 11x11 距離行列 あ い う え お A, Q, √, ´, ‘ I, i U, u E ç Table 2 S1 S2 S3 S4 S5 S6 S7 S8 A J E J E J E J E æ J E J E J J E E 2 J E J J E E J E @ J E J J E J E E 発音状態の定義 Ä J E J J E E J E I J J E E J J E E i J J E E J J E E U J J E J E J E E u J J E J E J E E E J J E E J E J E E:英語の母音発声を使用, J :日本語の母音発声で置換 O J J E E J E J E り た 必 と こ 可 合 で 2通りの学習者分類 96 x 96 の距離行列に基づく学習者分類 話者:A∼L 発音:1∼8 1 2 3 4 5 6 7 1 2 3 4 5 6 7 0 0 0 0 0 96 0 0 96 ABCD ? 0 0 0 0 1 234 2通りの学習者分類 2通りの構造間距離 P1 コントラストの比較に基づく構造間距離 S 音の実体の比較に基づく構造間距離 ⇥ C1 1 (Sij M i<j C3 C2 ⇥ 1 M T BD(viS , viT ) i 1 P5 Q1 P2 P4 5 Q2 Q5 P3 4 Q4 2 O Q3 3 Tij )2 C1 S C2 C3 T 2通りの学習者分類 コントラストの比較に基づく構造間距離 1 3 6 5 2 4 7 8 F I KACDEHBGALDFHE I BGKCLKCAF I J LEHBDGBLGF FCEDHKKGKAE I DH J C J AA I I AC I FH J J J LEKGBDBLG I FHADKCELLGBBDEFC J H J 111111111131333333333366666666666655525555525282222222585584444441344444477777777777288828888788 音の実体の比較に基づく構造間距離 L E J K I A D B G F HC LLLLLLLLEEEEEEEE J J J J J J J JKKKKKKKK I I I I I I I I AAAAAAAADDDDDDDDBBBBBBBBGGGGGGGGF F F F F F F FHHHHHHHHCCCCCCCC 783416258734162537485612256481371437852646137825782516343478162517342568251768343714256817342568 42F 49F 30M 65M 14F 29M 24M 80M 17F 21M 23M 35F 23F 09M 24F 18F 25M 55F 26F 39F 17F 06M 32M 22F 52M 24F 41F 29M 22M 16M 21M 38M 11M 34F 22F 22M 41F 42F 14M 33F 16F 36F 08M 58F 53M 47F 24F 53M 35F 52M 23F 39M 55M 38F 73M 35F 22M 17M 33F 52F 42F 28M 10M 24F 34F 21M 32F 25M 36F 64F 16M 43M 22F 28M 11F 24M 25M 24M 56M 19M 58M 32F 51M 19F 24M 26M 18M 66M 30M 25M 36F 35F 26M 49F 20M 06M 22M 13M 25F 23M 38M 20M 25M 50M 32M 22M 31F 24M 38F 25M 52M 17M 24F 66M 19F 56F 48M 28M 19M 21M 38F 17M 42M 24M 38M 24M 63M 29M 21M 26M 53M 54M 42F 22M 45F 05F 47M 51F 62M 57M 33F 41F 11M 66M 62M 24M 17F 54F 62M 75F 40F 56M 59F 33F 17M 16F 74M 34M 07M 58F 65M 23M 33F 25M 68F 16M 27F 24F 41F 48M 25M 32M 24F 47M 17M 45M 51M 23M 50M 26M 61F 24M 38F 84M 21F 51F 21M 50F 30F 25M 50F 68M 39F 21M 37F 16F 31F 69M 21F 16F 36F 24F 24M 70M 14M 16F 40F 24F 24M 44M 52F 40M 36F 70F 11F 25M 10F 31M 08F 45M 54M 64M 23M 47F 16M 32M 24F 28M 30F 24M 37M 46M 64M 26M 21M 48M 50F 26F 27F 61M 28F 45F 25M 13M 63F 68M 70M 07F 74M 67M 67M 54F 24M 39M 44M 23M 38F 10F 44F 60F 58F 16M 64M 15M 45M 23M 12M 09M 27M 62F 29M 44M 17M 07M 23M 16M 14F 23M 67F 45M 32M 24F 56M 17M 44M 17F 24M 45M 39F 56M 26F 21M 46F 30F 31F 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 こういうのを作ってみたい・・ フレーズの発声を用いたモデル話者・学習者間の比較 「一発声→構造(形態)パターン」への変換 パターン間の比較を通して行なう矯正箇所・教示の生成 Phrase of the week!! You ve got a friend in me. World Englishes Individual Englishes Gxxgle Pronunciaton i The speech accent archive 本講義の流れ 抽象化・モデル化と音声コミュニケーション技術 音声の物理学・基礎編 音声の生成からその物理的(音響的)側面まで 人間が受け取るメディア情報の多様性と不変性 視・聴・触・味・嗅,多様に変形しても同じだと分かる。 多様性の「そぎ落とし」と内在する不変性 その数学的な回答とそれに基づく音声のモデル化 多様性に打ち勝つ音声技術の構築と応用 音声認識,外国語発音分析を例にとって 「そぎ落とし」が気付かせてくれる異分野との接点 あれと,あれは,同じ原理なのか? 惑星とリンゴは同じである。音声とXXは同じである。 音声の構造的表象の工学的・実験的検証 f-div. に基づく一発声の構造化 c1 c1 cD c4 c3 c2 Bhattacharyya distance cD c4 c3 c2 BD-based distance matrix 2発声(=2距離行列)間の音響照合 2距離行列間のユークリッド距離 P1 1 P5 Q1 P2 P4 5 Q2 Q5 P3 4 Q4 Q3 2 O 3 回転:声道長差異 シフト:マイク差異 話者適応・環境適応後のス コアが適応処理無しで算出 話者性を削除した音声表象 100年ほど前の出来事です 彼らは数学的に導いたのか?感覚しただけなのか? Ferdinand de Saussure (1857-1913) Language is a system of differences. The important thing in the word is not the sound alone but the phonic differences that make it possible to distinguish the word from the others. Roman Jakobson (1896-1982) Physiologically identical sounds may possess different values in conformity with the whole sound system, i.e. with their relations to the other sounds. 形と形の比較 ∼分子構造の比較∼ 第 83 回 月例発表会(2005 年 12 月) 知的システムデザイン研究室 部分構造最適化の組み合わせによるタンパク質立体構造予測の提案 宇野 尚子 DNA・RNA・タンパク質と音声の構造解析 Naoko UNO 2.2 はじめに 1 近年,タンパク質の立体構造予測が注目されている. タンパク質はアミノ酸が複数連なって構成される物質 で,自然界ではある決まった構造に折りたたまれた状態 で存在している.この構造をタンパク質の立体構造と呼 び,タンパク質の機能と密接に関わっていると言われて いる.そのため,立体構造を解明することによって病理 の解明や新薬の開発につながることが期待されている. タンパク質はエネルギーの低い安定した構造に折り たたまれるので,エネルギー最小化問題と捉えることが 予測結果の評価基準 タンパク質の立体構造予測を行う際に,評価する基準 は 2 つある.1 つはエネルギー値,もう 1 つは構造の形で ある.構造が既知のタンパク質ならば,シミュレーショ ン結果がどの程度その構造に似ているかが重要となる. 2 つの構造の差異を定量化するために用いられる量が RMSD(Root Mean Square Deviation) である.RMSD は 2 つの分子構造を重ね合わせて,対応する各原子のず れの二乗を平均したものの平方根で定義される.式 (1) に RMSD の求め方を示す. できる.本研究室では「遺伝的交叉を用いた並列シミュ ! " N "1 $ # RM SD(A, B) = (ai − bi )2 N i=1 レーテッドアニーリング (Parallel Simulated Annealing with Genetic Crossover:PSA/GAc)1) 」を用いて立体 構造予測を行っている.本報告では,タンパク質の立体 構造予測の難しさと,PSA/GAc が抱えている問題点を 挙げ,今後の研究方針について述べる. タンパク質立体構造予測 2 2.1 エネルギー関数 目的関数は,タンパク質の系をモデル化したエネル ギー関数を用いる.タンパク質のエネルギー関数は非常 に複雑で,Fig. 1 のように大域的にいくつかの,局所的 に無数の極小値を持つと考えられている. RMSD の単位は Å で,値が小さいほど 2 つの構造が よく似ていることになる. 遺伝的交叉を用いた並列シミュレーテッド アニーリング (PSA/GAc) 3 3.1 概要 PSA/GAc は Fig. 2 のように並列に実行している SA の解の伝達時に遺伝的アルゴリズムのオペレータである 遺伝的交叉を用いたものである. d d Native d 構造 Fig. 4 Protein-A の Crossover ዪᚲ⸃ (1) SA X1 X2 X3 X4 X1 X2 X3 X4 d 「これ,電子雲ですか?」 構造が歪まないように, 空間を歪めているだけ・・ ! ! 0.5 0.0 0.0 0.5 " ! 1.0 2.0 0.0 1.0 " ! x[bit] 2.0 0.0 0.0 2.0 " 1.0 0.0 1.5 1.0 " A = 回転,b = シフト 再度,音声の構造的表象 c1 音声の構造的表象についておさらい 定常波として存在する音声を対象とする。 c2 音声スペクトルは常に揺れている。これを分布で表現する。 N個の音声事象はN個の分布となる(分布群)。 ⇥ p1 (x) · p2 (x)dx = cos 2事象間の関係を で定量化 log(cos ) で定量化 2事象間の距離を 全ての2事象距離を計算し,NxNの距離行列を算出 変換・写像不変の情報の構造的表象 p1 p2 p5 1 2 3 4 5 p3 1 2 3 p4 4 5 0 0 0 cD c4 c3 う∼ん,似すぎている・・? 価電子群の配置=分子構造の計算 | 2 (x)| = p1 (x) 1 電子は原子核の周りに定常波として存在する。 その定常波の2乗はその電子の確率密度関数(分布)である。 N個の価電子はN個の分布となる(分布群)。 2事象間の重なり具合を で定量化(重なり積分) 1 (x) 2 (x)dx 全ての2事象間を計算し,行列化(重なり行列) 重なり積分の関数として距離を算出。NxNの距離行列 変換・写像不変の情報の構造的表象? 峯松 信明 峯松からの課題 平成 22 年 5 月 31 日 各教官の講義(2 回ずつ)に対して 3 課題を選択し,学期末に教務課に提出すればよい。但し,課題執筆後 に,次回の講義にて提出してもよい(近山先生に渡します)。科類・学年・学籍番号などを忘れないように。 本講義の課題を以下に示す。課題以外に,本講義についての感想なども期待している。 1. 授業で紹介した f -divergence, fdiv (p1 , p2 ) = ! p2 (x)g " p1 (x) p2 (x) # dx が,連続かつ可逆な如何なる写像に対しても不変であることを証明せよ。pi (x) は確率密度関数である。 √ なお,授業で g(t) = t,BD(p1 , p2 ) = − log(fdiv (p1 , p2 )) で定義されるバタチャリヤ距離の不変性につ いては説明した。これを参照してよい。 2. 体格,年齢,性別などによる声の違いを空間写像として考え,fdiv のみで音声を表現する(距離行列化) ことで,不変構造として音声を捉える手法を説明した。このような構造不変の現象は,音声ばかりでは なく,広く物理現象として存在しているかのように思える。思いを巡らして,身近に潜む「不変構造」を 探求してみよ。思いを巡らすのに苦労する学生向けに,身近に,かつ,当たり前のように存在する音声 以外の不変構造を授業で紹介した。 「音声の不変構造」と「授業中に紹介した不変構造」とが,数学的に 同一の枠組みで記述されていることについて,考察せよ。単なる偶然なのか,それとも必然なのか,諸 君の知識&想像力に期待したい(答えの無い課題を出しています)。 ? 興味深いレポート,期待してます ? ?
© Copyright 2024 Paperzz