特徴表現 - 中部大学

プ
中部大学
工学部ロボット理工学科
教授
中部大学
工学部情報工学科
講師
藤吉弘亘
博士（工学）
中部大学
工学部ロボット理工学科
助手
山下隆義
博士（工学）
機械知覚＆ロボティクスグループ
機械知覚＆ロボティクスグループ
愛知県春日井市松本町1200
Tel 0568-51-9096
Fax 0568-51-9409
[email protected]
http://vision.cs.chubu.ac.jp
MACHINE PERCEPTION AND ROBOTICS GROUP
山内悠嗣
中部大学
工学部ロボット理工学科
博士（工学）
宮腰あゆみ
愛知県春日井市松本町1200
Tel 0568-51-9670
Fax 0568-51-1540
[email protected]
http://vision.cs.chubu.ac.jp
機械知覚＆ロボティクスグループ
487-8501
愛知県春日井市松本町1200
Tel 0568-51-8249
Fax 0568-51-9409
[email protected]
http://vision.cs.chubu.ac.jp
機械知覚＆ロボティクスグループ
487-8501
愛知県春日井市松本町1200
Tel 0568-51-9096
Fax 0568-51-9409
[email protected]
http://vision.cs.chubu.ac.jp
MACHINE PERCEPTION AND ROBOTICS GROUP
MACHINE PERCEPTION AND ROBOTICS GROUP
MACHINE PERCEPTION AND ROB
第19回画像の認識・理解シンポジウム
MIRU KIKU
487-8501
487-8501
音・画像情報処理における特徴表現 -まとめ- / 藤吉弘亘（中部大）, 戸田智基（名大）
http://mprg.jp
中部大学
工学部情報工学科
講師
博士（工学）
山下隆義
中部大学
工学部ロボット理工学科
助手
山内悠嗣
Chubu University
Department of Robotics Science and Technology
College of Engineering
Professor
Chubu University
Department of Computer Science
College of Engineering
Lecturer
Chubu University
Department of Robotics Science and Technology
College of Engineering
Research Assistant
Chubu University
Department of Robotics Science a
College of Engineering
Hironobu Fujiyoshi
Takayoshi Yamashita
Yuji Yamauchi
Ayumi Miyako
博士（工学）
機械知覚＆ロボティクスグループ
Dr.Eng.
-8501
487
Machine Perception and Robotics
Group
Machine Perception and Robotics Group
1200 Matsumoto-cho, Kasugai, Aichi
1200 Matsumoto-cho, Kasugai, Aichi
1200
愛知県春日井市松本町
487-8501 Japan
487-8501 Japan
Tel +81-568-51-9096
Tel
+81-568-51-9670
Tel 0568-51-9670
Fax +81-568-51-9409
Fax +81-568-51-1540
[email protected]
Fax 0568-51-1540 [email protected]
Dr.Eng.
博士（工学
機械知覚＆ロボティクスグループ
-8501Group
487
Machine Perception
and Robotics
Machine Perception and Robotic
1200 Matsumoto-cho, Kasugai, Aichi
1200 Matsumoto-cho, Kasugai, A
1200
愛知県春日井市松本町
487-8501 Japan
487-8501 Japan
Tel +81-568-51-8249
Tel +81-568-51-9096
Tel 0568-51-8249
Fax +81-568-51-9409
Fax +81-568-51-9409
[email protected]
[email protected]
Fax 0568-51-9409
1
Dr.Eng.
音情報処理と画像情報処理における特徴表現
1. 物理性質を表す特徴表現
2. 勾配（変化）の特徴表現
3. 集積の特徴表現
4. データに基づく識別的な特徴表現
2
Deep Learningによる認識性能の向上
28.2
25.8
9.4%向上
27.4%
16.4
11.7
18.5%
7.3
6.7
3.57
8.9%向上
2010
2011
2012
AlexNet
1990年
2000年
2011年
音声認識性能の推移
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
2013
2014
VGG
2014 2015
Google ResNet
Net
画像認識性能の推移(ILSVRC)
http://research.microsoft.com/en-us/um/people/kahe/ilsvrc15/
ilsvrc2015_deep_residual_learning_kaiminghe.pdf
3
Deep Learning
DNN
構成：全結合層
Fully Connection Layer
CNN
構成：畳込み層＋全結合層
Convolution Layer
Fully Connection
Layer
RNN
構成：全結合層＋LSTM
4
伸縮後
後の
2
伸縮関数
メルスケール
音・画像情報処理におけるDeep
0
Learning
/2
周波数 (rad)
特徴表現を得る代表的なアプローチ
音信号
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
音信号
1D
→時間
1. 物理性質を考慮する！
画像
短時間フレーム分析
特徴量系列
2D
周波数
出力
バンク
クID
→周波数
メルフィルタバンク出力
メルフィルタバンク
leopard
CNN
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
音響モデル
音響モデル
音響モデル
言語モデル
言語モデル
言語モデル
複数フレームの連結
時間
→時間
（（ル（ルフモデル）
ル
フモデル）
フモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
ルルルデル（
デル（
デル（）＋）＋）＋
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
をモデル化
をモデル化
をモデル化
音素/
音素/a/
音素/
音素/a/
音素/
音素/a/
/ / 音素/r/
/音素/r/
音素/
音素/
音素/
音素/r/
/ / /
セグメント
HMM
HMM
HMM
特徴量系列
引用
系列情報 p( yp(| wyp|)(wy )| w )
tt
t
t
p (wp)(wp)(w )
認識処理
認識処理
認識処理
・・・
GMMs
GMMs
GMMs
re/AdvSLP/slide/AdvSLP_02.pdf
p ( yp (|yps ()| ys )| s )
t
単語グラフ
単語グラフ
単語グラフ
候補単語系列に対する確率
候補単語系列に対する確率
候補単語系列に対する確率
情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)
3. 所望の情報を取り出す！
識別的
識別的
識別的 k k o N n i chi i i w w
固定次元特徴量系列
正解単語系列に対する確率
正解単語系列に対する確率
正解単語系列に対する確率
特徴量系列
特徴量系列
y yy yyyyyy yy y
p ( yp (| w
yp|(w
y)|pw()wp ()wp)( w) )
特徴量
変換関数の最適化
変換関数の最適化
変換関数の最適化
w
1
w
w
( r ) ( r ) ( r )( r ) ( r ) ( r )
21 321 432 4 3 4
系列全体で集積
同時最適化
M
M
M
yt yt yP
P| m
xPt | xmA
xAt t m xAbt mm xbt m bm
t m
t |mx
m 1 m 1 m 1
x1 xx21xxx32x1xx432xx43 x 4
別特徴量系列
セグメント
セグメント
セグメント
特徴量系列
特徴量系列
特徴量系列
相互情報量の最大化
相互情報量の最大化
相互情報量の最大化
) ( r )( r ) ( r ) ( r )
p ( yp (| w
yp|((rw
y) )(|prw
()wp ()wp)( w) )
I yI; wyI; wy;ln
w ln ln
p ( yp (| w
yp|)(w
py()|wp
w)()wp)( w )
w w w
4. 最適な特徴表現を
14 14 14
自動的に獲得する！
5
CNNの音声認識への利用
ABDEL-HAMID et al.: CONVOLUTIONAL NEURAL NETWORKS FOR SPEECH RECOGNI
TABLE III
PERFORMANCE ON TIMIT OF DIFFERENT CNN CONFIGURATIONS, COMPARED WI
OF PARAMETERS, AND THE SPEED IN TOTAL NUMBER OF MULTIPLY-AND-ACCUM
WITH DIFFERENT RANDOM SEEDS AND SHOWN IN THE 3RD COLUMN, WHILE THE M
SECOND COLUMN SHOWS THE NETWORK STRUCTURE AND THE CONFIGURATION
OF NODES OF A FULLY CONNECTED LAYER IS GIVEN DIRECTLY. FOR CNN LAYE
BRACKETS WHERE: ‘M’ IS THE NUMBER OF FEATURE MAPS, ‘P’ IS THE PO
Convolutional Neural Networks for Speech Recognition
PEECH RECOGNITION
olution
revious
feature
mber of
lutional
weight
ber that
y one of
olution
dimenpad the
dummy
ps. As a
the fea.
nnected
ch cone input.
ocal reply can
, where
Convolution層の導入：メルフィルタバンクに畳み込む
1537
TABLE IV
PERFORMANCE ON THE VS LARGE VOCABULARY DATA SET IN PERCENT
WER WITH AND WITHOUT PRETRAINING (PT). THE EXPERIMENTAL
SETTING IS THE SAME AS TABLE I
layers while the CNN had one pair of convolution and pooling
plies in addition to two hidden fully connected layers. The CNN
layer used limited weight sharing and had 84 feature maps per
section. It had a ﬁlter size of 8, a pooling size of 6, and a shift
size of 2. Moreover, the context window had 11 frames. Frame
energy features were not used in these experiments.
Table IV shows that the CNN improves word error rate
Fig. 3. An illustration of the regular CNN that uses so-called full weight
sharing. Here, a 1-D convolution
is applied
along frequency
bands.
(WER) performance over the DNN regardless of whether
Convolutional
neural networks
for speech
recognition.
Ossama Abdel-Hamid, Abdel-Rahman Mohamed, Hui Jiang,
Li Deng,isGerald
Yu.
pretraining
used. Penn,
Similarand
to Dong
the TIMIT
results, the CNN
IEEE/ACM Trans. Audio, Speech and Lang. Proc. 22, 10 (October
2014),
1533-1545.
improves
performance
by
about
an
8%
relative
error reducshows a pooling ply with a pooling size of three. Each pooling
tion over the DNN in the VS task without pretraining. With
unit receives input from three convolution ply units in the same pretraining, the relative word error rate reduction is about
6
ply
com
W
TIM
task
det
for
per
ins
tha
Fin
wa
voi
exp
in o
伸縮後
後の
2
伸縮関数
メルスケール
音・画像情報処理におけるDeep
0
Learning
/2
周波数 (rad)
特徴表現を得る代表的なアプローチ
音信号
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
音信号
1D
→時間
1. 物理性質を考慮する！
画像
短時間フレーム分析
特徴量系列
2D
周波数
出力
バンク
クID
→周波数
メルフィルタバンク出力
メルフィルタバンク
leopard
CNN
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
音響モデル
音響モデル
音響モデル
言語モデル
言語モデル
言語モデル
複数フレームの連結
時間
→時間
（（ル（ルフモデル）
ル
フモデル）
フモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
ルルルデル（
デル（
デル（）＋）＋）＋
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
をモデル化
をモデル化
をモデル化
音素/
音素/a/
音素/
音素/a/
音素/
音素/a/
/ / 音素/r/
/音素/r/
音素/
音素/
音素/
音素/r/
/ / /
セグメント
HMM
HMM
HMM
特徴量系列
引用
系列情報 p( yp(| wyp|)(wy )| w )
p (wp)(wp)(w )
認識処理
認識処理
認識処理
・・・
re/AdvSLP/slide/AdvSLP_02.pdf
GMMs
GMMs
GMMs
p ( ypt(|ypstt()| yst )| st )
単語グラフ
単語グラフ
単語グラフ
RNN
候補単語系列に対する確率
候補単語系列に対する確率
候補単語系列に対する確率
情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)
3. 所望の情報を取り出す！
識別的
識別的
識別的 k k o N n i chi i i w w
固定次元特徴量系列
正解単語系列に対する確率
正解単語系列に対する確率
正解単語系列に対する確率
特徴量系列
特徴量系列
y yy yyyyyy yy y
p ( yp (| w
yp|(w
y)|pw()wp ()wp)( w) )
特徴量
変換関数の最適化
変換関数の最適化
変換関数の最適化
w
1
w
w
( r ) ( r ) ( r )( r ) ( r ) ( r )
21 321 432 4 3 4
系列全体で集積
同時最適化
M
M
M
yt yt yP
P| m
xPt | xmA
xAt t m xAbt mm xbt m bm
t m
t |mx
m 1 m 1 m 1
x1 xx21xxx32x1xx432xx43 x 4
別特徴量系列
セグメント
セグメント
セグメント
特徴量系列
特徴量系列
特徴量系列
相互情報量の最大化
相互情報量の最大化
相互情報量の最大化
) ( r )( r ) ( r ) ( r )
p ( yp (| w
yp|((rw
y) )(|prw
()wp ()wp)( w) )
I yI; wyI; wy;ln
w ln ln
p ( yp (| w
yp|)(w
py()|wp
w)()wp)( w )
w w w
4. 最適な特徴表現を
14 14 14
自動的に獲得する！
7
伸縮後
後の
2
伸縮関数
メルスケール
音・画像情報処理におけるDeep
0
Learning
/2
周波数 (rad)
特徴表現を得る代表的なアプローチ
音信号
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
音信号
1D
→時間
1. 物理性質を考慮する！
画像
短時間フレーム分析
特徴量系列
2D
周波数
出力
バンク
クID
→周波数
メルフィルタバンク出力
メルフィルタバンク
leopard
CNN
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
音響モデル
音響モデル
音響モデル
言語モデル
言語モデル
言語モデル
複数フレームの連結
時間
→時間
（（ル（ルフモデル）
ル
フモデル）
フモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
ルルルデル（
デル（
デル（）＋）＋）＋
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
をモデル化
をモデル化
をモデル化
音素/
音素/a/
音素/
音素/a/
音素/
音素/a/
/ / 音素/r/
/音素/r/
音素/
音素/
音素/
音素/r/
/ / /
セグメント
HMM
HMM
HMM
特徴量系列
引用
系列情報 p( yp(| wyp|)(wy )| w )
単語グラフ
単語グラフ
単語グラフ
認識処理
認識処理
認識処理
・・・
re/AdvSLP/slide/AdvSLP_02.pdf
GMMs
GMMs
GMMs
p ( ypt(|ypstt()| yst )| st )
p (wp)(wp)(w )
?
3. 所望の情報を取り出す！
RNN
候補単語系列に対する確率
候補単語系列に対する確率
候補単語系列に対する確率
情報源と対応付け
識別的
識別的
識別的 k o o N n i chi i w a a
固定次元特徴量系列
正解単語系列に対する確率
正解単語系列に対する確率
正解単語系列に対する確率
特徴量系列
特徴量系列
y yy yyyyyy yy y
p ( yp (| w
yp|(w
y)|pw()wp ()wp)( w) )
特徴量
変換関数の最適化
変換関数の最適化
変換関数の最適化
w
1
pw( ypw(| w
yp|)(w
py()|wp
w)()wp)( w )
( r ) ( r ) ( r )( r ) ( r ) ( r )
21 321 432 4 3 4
系列全体で集積
同時最適化
M
M
M
yt yt yP
P| m
xPt | xmA
xAt t m xAbt mm xbt m bm
t m
t |mx
m 1 m 1 m 1
x1 xx21xxx32x1xx432xx43 x 4
別特徴量系列
セグメント
セグメント
セグメント
特徴量系列
特徴量系列
特徴量系列
相互情報量の最大化
相互情報量の最大化
相互情報量の最大化
) ( r )( r ) ( r ) ( r )
p ( yp (| w
yp|((rw
y) )(|prw
()wp ()wp)( w) )
I yI; wyI; wy;ln
w ln ln
p ( yp (| w
yp|)(w
py()|wp
w)()wp)( w )
w w w
4. 最適な特徴表現を
14 14 14
自動的に獲得する！
8
e vector
on in I.
among
ure map
embeds
yer [16]
se label
cing the
network
ĥ(vi )
of vi .
hared
earn a
artificial
n verh equip
have
a
画像における系列情報の扱い
DAG(directed acyclic graph)-Recurrent Neural Networks for Scene Labeling
LSTMをCNNのエンコーダとデコーダの間に入れる
→大局的な関係を考慮したセグメンテーションを実現
Figure 2: An 8-neighborhood UCG and one of its induced DAG in the
southeastern (SE) direction.
Convolution
Layer
DAG-Recurrent
Neural Network
Deconvolution
Layer
adjacent
units in image plane may not necessarily be neighDAG-Recurrent Neural Networks for Scene Labeling
BingThe
Zhen Zuo, Bing Wang,
Gang
Wang;
Figure
of graphical
the
full
labeling
network, whichthat
consists
of
bors3:
in Shuai,
thearchitecture
chain. The
representations
respect
The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 3620-3629
three functional layers: (1), convolution layer: it produces discriminative
the 2-D neighborhood system are more plausible solutions,
9
伸縮後
後の
2
伸縮関数
メルスケール
音・画像情報処理におけるDeep
0
Learning
/2
周波数 (rad)
特徴表現を得る代表的なアプローチ
音信号
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
音信号
1D
→時間
1. 物理性質を考慮する！
画像
短時間フレーム分析
特徴量系列
2D
周波数
出力
バンク
クID
→周波数
メルフィルタバンク出力
メルフィルタバンク
leopard
CNN
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
音響モデル
音響モデル
音響モデル
言語モデル
言語モデル
言語モデル
複数フレームの連結
時間
→時間
（（ル（ルフモデル）
ル
フモデル）
フモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
ルルルデル（
デル（
デル（）＋）＋）＋
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
をモデル化
をモデル化
をモデル化
音素/
音素/a/
音素/
音素/a/
音素/
音素/a/
/ / 音素/r/
/音素/r/
音素/
音素/
音素/
音素/r/
/ / /
セグメント
HMM
HMM
HMM
特徴量系列
引用
系列情報 p( yp(| wyp|)(wy )| w )
p (wp)(wp)(w )
認識処理
認識処理
認識処理
・・・
re/AdvSLP/slide/AdvSLP_02.pdf
GMMs
GMMs
GMMs
p ( ypt(|ypstt()| yst )| st )
単語グラフ
単語グラフ
単語グラフ
RNN
候補単語系列に対する確率
候補単語系列に対する確率
候補単語系列に対する確率
3. 所望の情報を取り出す！
情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)+
識別的
識別的
識別的 k o o N n i chi i w a a
固定次元特徴量系列
正解単語系列に対する確率
正解単語系列に対する確率
正解単語系列に対する確率
特徴量系列
特徴量系列
y yy yyyyyy yy y
CTC
p ( yp (| w
yp|(w
y)|pw()wp ()wp)( w
) )
特徴量
変換関数の最適化
変換関数の最適化
変換関数の最適化
w
1
w
w
( r ) ( r ) ( r )( r ) ( r ) ( r )
21 321 432 4 3 4
系列全体で集積
/ko 同時最適化
N ni chi wa/
M
M
M
yt yt yP
P| m
xPt | xmA
xAt t m xAbt mm xbt m bm
t m
t |mx
m 1 m 1 m 1
x1 xx21xxx32x1xx432xx43 x 4
別特徴量系列
セグメント
セグメント
セグメント
特徴量系列
特徴量系列
特徴量系列
相互情報量の最大化
相互情報量の最大化
相互情報量の最大化
) ( r )( r ) ( r ) ( r )
p ( yp (| w
yp|((rw
y) )(|prw
()wp ()wp)( w) )
I yI; wyI; wy;ln
w ln ln
p ( yp (| w
yp|)(w
py()|wp
w)()wp)( w )
w w w
4. 最適な特徴表現を
14 14 14
自動的に獲得する！
10
コネクショニスト時系列分類法(CTC)
現を得る代表的なアプローチ
RNNによる学習
入力
教師ラベル
RNN
/ko/ /N//ni/ /chi/ /wa/
1. 物理性質を考慮する！
短時間フレーム分析
各音素と音声データの時間フレームに対応付けられている
現を得る代表的なアプローチ
列
列
列
RNN＋CTCによる学習
入力
複数フレームの連結
教師ラベル
CTC
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
/ko-N-ni-chi-wa/
CTC：入力と出力の系列長が異なる際に用いられる損失関数
1. 物理性質を考慮する！
短時間フレーム分析
→教師ラベルが一つの系列に対応付けられている
情報源と対応付け
3. 所望の情報を取り出す！
11
伸縮後
後の
2
伸縮関数
メルスケール
音・画像情報処理におけるDeep
0
Learning
/2
周波数 (rad)
特徴表現を得る代表的なアプローチ
音信号
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
音信号
1D
→時間
1. 物理性質を考慮する！
画像
短時間フレーム分析
特徴量系列
2D
周波数
出力
バンク
クID
→周波数
メルフィルタバンク出力
メルフィルタバンク
leopard
CNN
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
音声認識における識別的特徴獲得
2 系列の特徴を捉える！
2. 系列の特徴を捉える！
音響モデル
音響モデル
音響モデル
言語モデル
言語モデル
言語モデル
複数フレームの連結
時間
→時間
（（ル（ルフモデル）
ル
フモデル）
フモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• N‐gram（マルコフモデル）
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 単語列の生起確率をモデル化
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
• 隠れマルコフモデル（HMM）＋GMM
隠れ
ルルルデル（
デル（
デル（）＋）＋）＋
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
• 単語列に対応した音響特徴量系列
をモデル化
をモデル化
をモデル化
音素/
音素/a/
音素/
音素/a/
音素/
音素/a/
/ / 音素/r/
/音素/r/
音素/
音素/
音素/
音素/r/
/ / /
セグメント
HMM
HMM
HMM
特徴量系列
引用
系列情報 p( yp(| wyp|)(wy )| w )
p (wp)(wp)(w )
認識処理
認識処理
認識処理
・・・
re/AdvSLP/slide/AdvSLP_02.pdf
GMMs
GMMs
GMMs
p ( ypt(|ypstt()| yst )| st )
単語グラフ
単語グラフ
単語グラフ
RNN
候補単語系列に対する確率
候補単語系列に対する確率
候補単語系列に対する確率
3. 所望の情報を取り出す！
情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)+
識別的
識別的
識別的 k k o N n i chi i w a a
固定次元特徴量系列
正解単語系列に対する確率
正解単語系列に対する確率
正解単語系列に対する確率
特徴量系列
特徴量系列
y yy yyyyyy yy y
CTC
p ( yp (| w
yp|(w
y)|pw()wp ()wp)( w
) )
特徴量
変換関数の最適化
変換関数の最適化
変換関数の最適化
w
1
w
w
( r ) ( r ) ( r )( r ) ( r ) ( r )
21 321 432 4 3 4
系列全体で集積
?
/ko 同時最適化
N ni chi wa/
M
M
M
yt yt yP
P| m
xPt | xmA
xAt t m xAbt mm xbt m bm
t m
t |mx
m 1 m 1 m 1
x1 xx21xxx32x1xx432xx43 x 4
別特徴量系列
セグメント
セグメント
セグメント
特徴量系列
特徴量系列
特徴量系列
相互情報量の最大化
相互情報量の最大化
相互情報量の最大化
) ( r )( r ) ( r ) ( r )
p ( yp (| w
yp|((rw
y) )(|prw
()wp ()wp)( w) )
I yI; wyI; wy;ln
w ln ln
p ( yp (| w
yp|)(w
py()|wp
w)()wp)( w )
w w w
4. 最適な特徴表現を
14 14 14
自動的に獲得する！
12
CTCの画像認識分野への利用を考えてみる
セマンティックセグメンテーション
入力
教師ラベル
sky
road
CNN
sidewalk
vehicle
building
入力
教師ラベル
CTC
{道路, 木, 建物, 空, 車}
境界無し教師ラベルによる学習→アノテーションが簡易になるかも！
13
音と画像の連携
動画像をCNN+LSTMに入力して音信号を生成
Visually Indicated Sounds
Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson, William T. Freeman;
The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2405-2413
14
音・画像情報処理における特徴表現
1. Deep Learningを介して眺めてみると共通点が多い
CNN（画像→音）：DNNよりCNNの方が高性能
RNN（音声言語→画像）：系列（近傍）の大域的な情報伝搬
2. 音情報処理からの輸入
CTCが導入できるかも？
KIKUの皆様：是非コラボしましょう！
MIRUの皆様：他分野を知ることで新しい問題設定を開拓しましょう！
15
謝辞
本資料の内容は、戸田智基先生(名大)と山下隆義先生(中部大)との
議論をまとめたものです。
2016年7月19日＠中部大学
16