プ 中部大学 工学部 ロボット理工学科 教授 中部大学 工学部 情報工学科 講師 藤吉 弘亘 博士(工学) 中部大学 工学部 ロボット理工学科 助手 山下 隆義 博士(工学) 機械知覚&ロボティクスグループ 機械知覚&ロボティクスグループ 愛知県春日井市松本町1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND ROBOTICS GROUP 山内 悠嗣 中部大学 工学部 ロボット理工学科 博士(工学) 宮腰 あゆみ 愛知県春日井市松本町1200 Tel 0568-51-9670 Fax 0568-51-1540 [email protected] http://vision.cs.chubu.ac.jp 機械知覚&ロボティクスグループ 487-8501 愛知県春日井市松本町1200 Tel 0568-51-8249 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp 機械知覚&ロボティクスグループ 487-8501 愛知県春日井市松本町1200 Tel 0568-51-9096 Fax 0568-51-9409 [email protected] http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND ROBOTICS GROUP MACHINE PERCEPTION AND ROBOTICS GROUP MACHINE PERCEPTION AND ROB 第19回画像の認識・理解シンポジウム MIRU KIKU 487-8501 487-8501 音・画像情報処理における特徴表現 -まとめ- / 藤吉弘亘(中部大), 戸田智基(名大) http://mprg.jp 中部大学 工学部 情報工学科 講師 博士(工学) 山下 隆義 中部大学 工学部 ロボット理工学科 助手 山内 悠嗣 Chubu University Department of Robotics Science and Technology College of Engineering Professor Chubu University Department of Computer Science College of Engineering Lecturer Chubu University Department of Robotics Science and Technology College of Engineering Research Assistant Chubu University Department of Robotics Science a College of Engineering Hironobu Fujiyoshi Takayoshi Yamashita Yuji Yamauchi Ayumi Miyako 博士(工学) 機械知覚&ロボティクスグループ Dr.Eng. -8501 487 Machine Perception and Robotics Group Machine Perception and Robotics Group 1200 Matsumoto-cho, Kasugai, Aichi 1200 Matsumoto-cho, Kasugai, Aichi 1200 愛知県春日井市松本町 487-8501 Japan 487-8501 Japan Tel +81-568-51-9096 Tel +81-568-51-9670 Tel 0568-51-9670 Fax +81-568-51-9409 Fax +81-568-51-1540 [email protected] Fax 0568-51-1540 [email protected] Dr.Eng. 博士(工学 機械知覚&ロボティクスグループ -8501Group 487 Machine Perception and Robotics Machine Perception and Robotic 1200 Matsumoto-cho, Kasugai, Aichi 1200 Matsumoto-cho, Kasugai, A 1200 愛知県春日井市松本町 487-8501 Japan 487-8501 Japan Tel +81-568-51-8249 Tel +81-568-51-9096 Tel 0568-51-8249 Fax +81-568-51-9409 Fax +81-568-51-9409 [email protected] [email protected] Fax 0568-51-9409 1 Dr.Eng. 音情報処理と画像情報処理における特徴表現 1. 物理性質を表す特徴表現 2. 勾配(変化)の特徴表現 3. 集積の特徴表現 4. データに基づく識別的な特徴表現 2 Deep Learningによる認識性能の向上 28.2 25.8 9.4%向上 27.4% 16.4 11.7 18.5% 7.3 6.7 3.57 8.9%向上 2010 2011 2012 AlexNet 1990年 2000年 2011年 音声認識性能の推移 http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html 2013 2014 VGG 2014 2015 Google ResNet Net 画像認識性能の推移(ILSVRC) http://research.microsoft.com/en-us/um/people/kahe/ilsvrc15/ ilsvrc2015_deep_residual_learning_kaiminghe.pdf 3 Deep Learning DNN 構成:全結合層 Fully Connection Layer CNN 構成:畳込み層+全結合層 Convolution Layer Fully Connection Layer RNN 構成:全結合層+LSTM 4 伸縮後 後の 2 伸縮関数 メルスケール 音・画像情報処理におけるDeep 0 Learning /2 周波数 (rad) 特徴表現を得る代表的なアプローチ 音信号 ※HTS Slides より一部引用 http://hts.sp.nitech.ac.jp/ 音信号 1D →時間 1. 物理性質を考慮する! 画像 短時間フレーム分析 特徴量系列 2D 周波数 出力 バンク クID →周波数 メルフィルタバンク出力 メルフィルタバンク leopard CNN 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 2 系列の特徴を捉える! 2. 系列の特徴を捉える! 音響モデル 音響モデル 音響モデル 言語モデル 言語モデル 言語モデル 複数フレームの連結 時間 →時間 ( (ル (ルフモデル) ル フモデル) フモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ ル ル ルデル( デル( デル()+)+)+ • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 をモデル化 をモデル化 をモデル化 音素/ 音素/a/ 音素/ 音素/a/ 音素/ 音素/a/ / / 音素/r/ /音素/r/ 音素/ 音素/ 音素/ 音素/r/ / / / セグメント HMM HMM HMM 特徴量系列 引用 系列情報 p( yp(| wyp|)(wy )| w ) tt t t p (wp)(wp)(w ) 認識処理 認識処理 認識処理 ・・・ GMMs GMMs GMMs re/AdvSLP/slide/AdvSLP_02.pdf p ( yp (|yps ()| ys )| s ) t 単語グラフ 単語グラフ 単語グラフ 候補単語系列に対する確率 候補単語系列に対する確率 候補単語系列に対する確率 情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w) 3. 所望の情報を取り出す! 識別的 識別的 識別的 k k o N n i chi i i w w 固定次元特徴量系列 正解単語系列に対する確率 正解単語系列に対する確率 正解単語系列に対する確率 特徴量系列 特徴量系列 y yy yyyyyy yy y p ( yp (| w yp|(w y)|pw()wp ()wp)( w) ) 特徴量 変換関数の最適化 変換関数の最適化 変換関数の最適化 w 1 w w ( r ) ( r ) ( r )( r ) ( r ) ( r ) 21 321 432 4 3 4 系列全体で集積 同時最適化 M M M yt yt yP P| m xPt | xmA xAt t m xAbt mm xbt m bm t m t |mx m 1 m 1 m 1 x1 xx21xxx32x1xx432xx43 x 4 別特徴量系列 セグメント セグメント セグメント 特徴量系列 特徴量系列 特徴量系列 相互情報量の最大化 相互情報量の最大化 相互情報量の最大化 ) ( r )( r ) ( r ) ( r ) p ( yp (| w yp|((rw y) )(|prw ()wp ()wp)( w) ) I yI; wyI; wy;ln w ln ln p ( yp (| w yp|)(w py()|wp w)()wp)( w ) w w w 4. 最適な特徴表現を 14 14 14 自動的に獲得する! 5 CNNの音声認識への利用 ABDEL-HAMID et al.: CONVOLUTIONAL NEURAL NETWORKS FOR SPEECH RECOGNI TABLE III PERFORMANCE ON TIMIT OF DIFFERENT CNN CONFIGURATIONS, COMPARED WI OF PARAMETERS, AND THE SPEED IN TOTAL NUMBER OF MULTIPLY-AND-ACCUM WITH DIFFERENT RANDOM SEEDS AND SHOWN IN THE 3RD COLUMN, WHILE THE M SECOND COLUMN SHOWS THE NETWORK STRUCTURE AND THE CONFIGURATION OF NODES OF A FULLY CONNECTED LAYER IS GIVEN DIRECTLY. FOR CNN LAYE BRACKETS WHERE: ‘M’ IS THE NUMBER OF FEATURE MAPS, ‘P’ IS THE PO Convolutional Neural Networks for Speech Recognition PEECH RECOGNITION olution revious feature mber of lutional weight ber that y one of olution dimenpad the dummy ps. As a the fea. nnected ch cone input. ocal reply can , where Convolution層の導入:メルフィルタバンクに畳み込む 1537 TABLE IV PERFORMANCE ON THE VS LARGE VOCABULARY DATA SET IN PERCENT WER WITH AND WITHOUT PRETRAINING (PT). THE EXPERIMENTAL SETTING IS THE SAME AS TABLE I layers while the CNN had one pair of convolution and pooling plies in addition to two hidden fully connected layers. The CNN layer used limited weight sharing and had 84 feature maps per section. It had a filter size of 8, a pooling size of 6, and a shift size of 2. Moreover, the context window had 11 frames. Frame energy features were not used in these experiments. Table IV shows that the CNN improves word error rate Fig. 3. An illustration of the regular CNN that uses so-called full weight sharing. Here, a 1-D convolution is applied along frequency bands. (WER) performance over the DNN regardless of whether Convolutional neural networks for speech recognition. Ossama Abdel-Hamid, Abdel-Rahman Mohamed, Hui Jiang, Li Deng,isGerald Yu. pretraining used. Penn, Similarand to Dong the TIMIT results, the CNN IEEE/ACM Trans. Audio, Speech and Lang. Proc. 22, 10 (October 2014), 1533-1545. improves performance by about an 8% relative error reducshows a pooling ply with a pooling size of three. Each pooling tion over the DNN in the VS task without pretraining. With unit receives input from three convolution ply units in the same pretraining, the relative word error rate reduction is about 6 ply com W TIM task det for per ins tha Fin wa voi exp in o 伸縮後 後の 2 伸縮関数 メルスケール 音・画像情報処理におけるDeep 0 Learning /2 周波数 (rad) 特徴表現を得る代表的なアプローチ 音信号 ※HTS Slides より一部引用 http://hts.sp.nitech.ac.jp/ 音信号 1D →時間 1. 物理性質を考慮する! 画像 短時間フレーム分析 特徴量系列 2D 周波数 出力 バンク クID →周波数 メルフィルタバンク出力 メルフィルタバンク leopard CNN 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 2 系列の特徴を捉える! 2. 系列の特徴を捉える! 音響モデル 音響モデル 音響モデル 言語モデル 言語モデル 言語モデル 複数フレームの連結 時間 →時間 ( (ル (ルフモデル) ル フモデル) フモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ ル ル ルデル( デル( デル()+)+)+ • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 をモデル化 をモデル化 をモデル化 音素/ 音素/a/ 音素/ 音素/a/ 音素/ 音素/a/ / / 音素/r/ /音素/r/ 音素/ 音素/ 音素/ 音素/r/ / / / セグメント HMM HMM HMM 特徴量系列 引用 系列情報 p( yp(| wyp|)(wy )| w ) p (wp)(wp)(w ) 認識処理 認識処理 認識処理 ・・・ re/AdvSLP/slide/AdvSLP_02.pdf GMMs GMMs GMMs p ( ypt(|ypstt()| yst )| st ) 単語グラフ 単語グラフ 単語グラフ RNN 候補単語系列に対する確率 候補単語系列に対する確率 候補単語系列に対する確率 情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w) 3. 所望の情報を取り出す! 識別的 識別的 識別的 k k o N n i chi i i w w 固定次元特徴量系列 正解単語系列に対する確率 正解単語系列に対する確率 正解単語系列に対する確率 特徴量系列 特徴量系列 y yy yyyyyy yy y p ( yp (| w yp|(w y)|pw()wp ()wp)( w) ) 特徴量 変換関数の最適化 変換関数の最適化 変換関数の最適化 w 1 w w ( r ) ( r ) ( r )( r ) ( r ) ( r ) 21 321 432 4 3 4 系列全体で集積 同時最適化 M M M yt yt yP P| m xPt | xmA xAt t m xAbt mm xbt m bm t m t |mx m 1 m 1 m 1 x1 xx21xxx32x1xx432xx43 x 4 別特徴量系列 セグメント セグメント セグメント 特徴量系列 特徴量系列 特徴量系列 相互情報量の最大化 相互情報量の最大化 相互情報量の最大化 ) ( r )( r ) ( r ) ( r ) p ( yp (| w yp|((rw y) )(|prw ()wp ()wp)( w) ) I yI; wyI; wy;ln w ln ln p ( yp (| w yp|)(w py()|wp w)()wp)( w ) w w w 4. 最適な特徴表現を 14 14 14 自動的に獲得する! 7 伸縮後 後の 2 伸縮関数 メルスケール 音・画像情報処理におけるDeep 0 Learning /2 周波数 (rad) 特徴表現を得る代表的なアプローチ 音信号 ※HTS Slides より一部引用 http://hts.sp.nitech.ac.jp/ 音信号 1D →時間 1. 物理性質を考慮する! 画像 短時間フレーム分析 特徴量系列 2D 周波数 出力 バンク クID →周波数 メルフィルタバンク出力 メルフィルタバンク leopard CNN 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 2 系列の特徴を捉える! 2. 系列の特徴を捉える! 音響モデル 音響モデル 音響モデル 言語モデル 言語モデル 言語モデル 複数フレームの連結 時間 →時間 ( (ル (ルフモデル) ル フモデル) フモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ ル ル ルデル( デル( デル()+)+)+ • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 をモデル化 をモデル化 をモデル化 音素/ 音素/a/ 音素/ 音素/a/ 音素/ 音素/a/ / / 音素/r/ /音素/r/ 音素/ 音素/ 音素/ 音素/r/ / / / セグメント HMM HMM HMM 特徴量系列 引用 系列情報 p( yp(| wyp|)(wy )| w ) 単語グラフ 単語グラフ 単語グラフ 認識処理 認識処理 認識処理 ・・・ re/AdvSLP/slide/AdvSLP_02.pdf GMMs GMMs GMMs p ( ypt(|ypstt()| yst )| st ) p (wp)(wp)(w ) ? 3. 所望の情報を取り出す! RNN 候補単語系列に対する確率 候補単語系列に対する確率 候補単語系列に対する確率 情報源と対応付け 識別的 識別的 識別的 k o o N n i chi i w a a 固定次元特徴量系列 正解単語系列に対する確率 正解単語系列に対する確率 正解単語系列に対する確率 特徴量系列 特徴量系列 y yy yyyyyy yy y p ( yp (| w yp|(w y)|pw()wp ()wp)( w) ) 特徴量 変換関数の最適化 変換関数の最適化 変換関数の最適化 w 1 pw( ypw(| w yp|)(w py()|wp w)()wp)( w ) ( r ) ( r ) ( r )( r ) ( r ) ( r ) 21 321 432 4 3 4 系列全体で集積 同時最適化 M M M yt yt yP P| m xPt | xmA xAt t m xAbt mm xbt m bm t m t |mx m 1 m 1 m 1 x1 xx21xxx32x1xx432xx43 x 4 別特徴量系列 セグメント セグメント セグメント 特徴量系列 特徴量系列 特徴量系列 相互情報量の最大化 相互情報量の最大化 相互情報量の最大化 ) ( r )( r ) ( r ) ( r ) p ( yp (| w yp|((rw y) )(|prw ()wp ()wp)( w) ) I yI; wyI; wy;ln w ln ln p ( yp (| w yp|)(w py()|wp w)()wp)( w ) w w w 4. 最適な特徴表現を 14 14 14 自動的に獲得する! 8 e vector on in I. among ure map embeds yer [16] se label cing the network ĥ(vi ) of vi . hared earn a artificial n verh equip have a 画像における系列情報の扱い DAG(directed acyclic graph)-Recurrent Neural Networks for Scene Labeling LSTMをCNNのエンコーダとデコーダの間に入れる →大局的な関係を考慮したセグメンテーションを実現 Figure 2: An 8-neighborhood UCG and one of its induced DAG in the southeastern (SE) direction. Convolution Layer DAG-Recurrent Neural Network Deconvolution Layer adjacent units in image plane may not necessarily be neighDAG-Recurrent Neural Networks for Scene Labeling BingThe Zhen Zuo, Bing Wang, Gang Wang; Figure of graphical the full labeling network, whichthat consists of bors3: in Shuai, thearchitecture chain. The representations respect The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 3620-3629 three functional layers: (1), convolution layer: it produces discriminative the 2-D neighborhood system are more plausible solutions, 9 伸縮後 後の 2 伸縮関数 メルスケール 音・画像情報処理におけるDeep 0 Learning /2 周波数 (rad) 特徴表現を得る代表的なアプローチ 音信号 ※HTS Slides より一部引用 http://hts.sp.nitech.ac.jp/ 音信号 1D →時間 1. 物理性質を考慮する! 画像 短時間フレーム分析 特徴量系列 2D 周波数 出力 バンク クID →周波数 メルフィルタバンク出力 メルフィルタバンク leopard CNN 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 2 系列の特徴を捉える! 2. 系列の特徴を捉える! 音響モデル 音響モデル 音響モデル 言語モデル 言語モデル 言語モデル 複数フレームの連結 時間 →時間 ( (ル (ルフモデル) ル フモデル) フモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ ル ル ルデル( デル( デル()+)+)+ • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 をモデル化 をモデル化 をモデル化 音素/ 音素/a/ 音素/ 音素/a/ 音素/ 音素/a/ / / 音素/r/ /音素/r/ 音素/ 音素/ 音素/ 音素/r/ / / / セグメント HMM HMM HMM 特徴量系列 引用 系列情報 p( yp(| wyp|)(wy )| w ) p (wp)(wp)(w ) 認識処理 認識処理 認識処理 ・・・ re/AdvSLP/slide/AdvSLP_02.pdf GMMs GMMs GMMs p ( ypt(|ypstt()| yst )| st ) 単語グラフ 単語グラフ 単語グラフ RNN 候補単語系列に対する確率 候補単語系列に対する確率 候補単語系列に対する確率 3. 所望の情報を取り出す! 情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)+ 識別的 識別的 識別的 k o o N n i chi i w a a 固定次元特徴量系列 正解単語系列に対する確率 正解単語系列に対する確率 正解単語系列に対する確率 特徴量系列 特徴量系列 y yy yyyyyy yy y CTC p ( yp (| w yp|(w y)|pw()wp ()wp)( w ) ) 特徴量 変換関数の最適化 変換関数の最適化 変換関数の最適化 w 1 w w ( r ) ( r ) ( r )( r ) ( r ) ( r ) 21 321 432 4 3 4 系列全体で集積 /ko 同時最適化 N ni chi wa/ M M M yt yt yP P| m xPt | xmA xAt t m xAbt mm xbt m bm t m t |mx m 1 m 1 m 1 x1 xx21xxx32x1xx432xx43 x 4 別特徴量系列 セグメント セグメント セグメント 特徴量系列 特徴量系列 特徴量系列 相互情報量の最大化 相互情報量の最大化 相互情報量の最大化 ) ( r )( r ) ( r ) ( r ) p ( yp (| w yp|((rw y) )(|prw ()wp ()wp)( w) ) I yI; wyI; wy;ln w ln ln p ( yp (| w yp|)(w py()|wp w)()wp)( w ) w w w 4. 最適な特徴表現を 14 14 14 自動的に獲得する! 10 コネクショニスト時系列分類法(CTC) 現を得る代表的なアプローチ RNNによる学習 入力 教師ラベル RNN /ko/ /N//ni/ /chi/ /wa/ 1. 物理性質を考慮する! 短時間フレーム分析 各音素と音声データの時間フレームに対応付けられている 現を得る代表的なアプローチ 列 列 列 RNN+CTCによる学習 入力 複数フレームの連結 教師ラベル CTC 2 系列の特徴を捉える! 2. 系列の特徴を捉える! /ko-N-ni-chi-wa/ CTC:入力と出力の系列長が異なる際に用いられる損失関数 1. 物理性質を考慮する! 短時間フレーム分析 →教師ラベルが一つの系列に対応付けられている 情報源と対応付け 3. 所望の情報を取り出す! 11 伸縮後 後の 2 伸縮関数 メルスケール 音・画像情報処理におけるDeep 0 Learning /2 周波数 (rad) 特徴表現を得る代表的なアプローチ 音信号 ※HTS Slides より一部引用 http://hts.sp.nitech.ac.jp/ 音信号 1D →時間 1. 物理性質を考慮する! 画像 短時間フレーム分析 特徴量系列 2D 周波数 出力 バンク クID →周波数 メルフィルタバンク出力 メルフィルタバンク leopard CNN 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 音声認識における識別的特徴獲得 2 系列の特徴を捉える! 2. 系列の特徴を捉える! 音響モデル 音響モデル 音響モデル 言語モデル 言語モデル 言語モデル 複数フレームの連結 時間 →時間 ( (ル (ルフモデル) ル フモデル) フモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • N‐gram(マルコフモデル) • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 単語列の生起確率をモデル化 • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ • 隠れマルコフモデル(HMM)+GMM 隠れ ル ル ルデル( デル( デル()+)+)+ • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 • 単語列に対応した音響特徴量系列 をモデル化 をモデル化 をモデル化 音素/ 音素/a/ 音素/ 音素/a/ 音素/ 音素/a/ / / 音素/r/ /音素/r/ 音素/ 音素/ 音素/ 音素/r/ / / / セグメント HMM HMM HMM 特徴量系列 引用 系列情報 p( yp(| wyp|)(wy )| w ) p (wp)(wp)(w ) 認識処理 認識処理 認識処理 ・・・ re/AdvSLP/slide/AdvSLP_02.pdf GMMs GMMs GMMs p ( ypt(|ypstt()| yst )| st ) 単語グラフ 単語グラフ 単語グラフ RNN 候補単語系列に対する確率 候補単語系列に対する確率 候補単語系列に対する確率 3. 所望の情報を取り出す! 情報源と対応付けp( yp(| wyp|)(wpy()|wpw)()wp)(w)+ 識別的 識別的 識別的 k k o N n i chi i w a a 固定次元特徴量系列 正解単語系列に対する確率 正解単語系列に対する確率 正解単語系列に対する確率 特徴量系列 特徴量系列 y yy yyyyyy yy y CTC p ( yp (| w yp|(w y)|pw()wp ()wp)( w ) ) 特徴量 変換関数の最適化 変換関数の最適化 変換関数の最適化 w 1 w w ( r ) ( r ) ( r )( r ) ( r ) ( r ) 21 321 432 4 3 4 系列全体で集積 ? /ko 同時最適化 N ni chi wa/ M M M yt yt yP P| m xPt | xmA xAt t m xAbt mm xbt m bm t m t |mx m 1 m 1 m 1 x1 xx21xxx32x1xx432xx43 x 4 別特徴量系列 セグメント セグメント セグメント 特徴量系列 特徴量系列 特徴量系列 相互情報量の最大化 相互情報量の最大化 相互情報量の最大化 ) ( r )( r ) ( r ) ( r ) p ( yp (| w yp|((rw y) )(|prw ()wp ()wp)( w) ) I yI; wyI; wy;ln w ln ln p ( yp (| w yp|)(w py()|wp w)()wp)( w ) w w w 4. 最適な特徴表現を 14 14 14 自動的に獲得する! 12 CTCの画像認識分野への利用を考えてみる セマンティックセグメンテーション 入力 教師ラベル sky road CNN sidewalk vehicle building 入力 教師ラベル CTC {道路, 木, 建物, 空, 車} 境界無し教師ラベルによる学習→アノテーションが簡易になるかも! 13 音と画像の連携 動画像をCNN+LSTMに入力して音信号を生成 Visually Indicated Sounds Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson, William T. Freeman; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2405-2413 14 音・画像情報処理における特徴表現 1. Deep Learningを介して眺めてみると共通点が多い CNN(画像→音):DNNよりCNNの方が高性能 RNN(音声言語→画像):系列(近傍)の大域的な情報伝搬 2. 音情報処理からの輸入 CTCが導入できるかも? KIKUの皆様:是非コラボしましょう! MIRUの皆様:他分野を知ることで新しい問題設定を開拓しましょう! 15 謝辞 本資料の内容は、戸田智基先生(名大)と山下隆義先生(中部大)との 議論をまとめたものです。 2016年7月19日@中部大学 16
© Copyright 2024 Paperzz