実践 Deep Learning 株式会社システム計画研究所奥村義和 1 会社概要 • • • • • 株式会社システム計画研究所／ISP 設立：1977年11月10日資本金：8,000万円所員数：約100名事業内容 • • • • 医療情報制御・宇宙通信・ネットワーク画像処理 2 ISPと機械学習・部位検出・物体検出・高速化 (CUDA) 機械学習 Deep Learning 大規模データ解析次世代リコメンドシステム研究試作 3 本日の話題 • テーマ：手形状の認識 – 認識器の学習 – 認識器をJetson TK1で動かす 4 Video 目次 • 学習 - 理論編 • 学習 - 実践・実験編 • Jetson TK1で動かす 5 学習 - 理論編 6 機械学習の発展とDeep Learning • データからパターンを学習 – 判別、回帰、クラスタリング、etc • パーセプトロン 1960– 線形判別関数＋Max抽出器 – 特徴空間を線形に分離 • 多層パーセプトロン 1980– 新しい学習則(バックプロパゲーション) – 3層構造・非線形性 – 課題 : 局所解・ハイパーパラメタ・計算量・学習が収束しない • SVM, Boosting, Random Forest, ... 1990– 大域解、ハイパーパラメタ減 • Deep Learning 2010- f(Wx + b) W x – BigData・Algorithm・HPC – Neural Networkの復権 7 従来手法(SVM) と Deep Learning • SVM – 新しい手法に対するベンチマークとして標準的 – Pylearn、OpenCV等組み込み済み。 – 入力としてデータそのもの(画像)も可。 – ハイパーパラメータは存在するが、グリッドサーチによる調整が一般的。 • Deep Learning – 入力としてデータそのもの(画像)も可 – Caffe、Theano、Torch7など実装系も増えてきた – ハイパーパラメータ多 8 SVM • マージン最大化 • ソフトマージン • カーネルトリック 9 SVM • マージン最大化 • ソフトマージン • カーネルトリック 10 SVM • マージン最大化 • ソフトマージン • カーネルトリック •そもそも特徴空間上でうまくデータ分離できていると更なる性能が期待できる → 特徴量 11 特徴量の例： HOG • • • • Histograms of Oriented Gradients 局所領域における輝度の勾配方向のヒストグラム一定領域に対して特徴量を定義。形状の表現が可能。特徴次元数の例： – 30x60x3画像 = 5400次元 – 1 cell 5x5, 1 block 3x3 cell, 9 bin => (4x10) x 3x3 x 9 = 3240次元 www.vision.cs.chubu.ac.jp/joint_hog/pdf/HOG+Boosting_LN.pdf 12 Deep Learning • 層を重ねることにより特徴を自動獲得する • いくつかの流派 ... – フィードフォワード vs 生成モデル – Convolutional Neural Network vs Layer-wise pre-training + fine-tuning – etc … • 画像においてはConvolutional – 画像の特性(ピクセルと近傍)を利用 – 時系列etc 13 畳み込みニューラルネット(CNN) 概要 • 視覚野は階層構造 • Simple Cell – 局所的 – 単純(棒状・角度) • Complex Cell – 複数Simple Cellの出力を足し合わせ • Complex Cellの出力をより高次な細胞に入力 http://ohzawa-lab.bpe.es.osaka-u.ac.jp/ohzawa-lab/rf/rf_j.htm 14 畳み込みニューラルネット(CNN) 全体像入力画像畳み込み畳み込み Pooling Pooling • 画像の特性を取り込んだモデル • 局所的 → 大域的 • 画像フィルタ • (畳み込み＋プーリング層) ×N 入力画像 • 畳み込み ≒ Simple Cell • Pooling ≒ Complex Cell • Fully-Connectな層を挟み、出力層につなげる http://deeplearning.net/tutorial/lenet.html#lenet 15 Fully Connect 出力 0.5 -0.5 -0.5 -0.3 0.4 -0.3 0.0 -0.8 0.7 重み各層で反応する形状 Visualizing and Understanding Convolutional Networks 16 各層で反応する形状 17 DeepLearning/CNNの性能を伸ばす為の工夫 • データ拡張 – Data Augmentation – Elastic Distortion • 前処理 – PCA：色の偏りを利用 – GCN：平均0、分散1 – ZCA Whitening：ピクセル間の相関↓ 18 理論編まとめ • • • • Deep Learningと他の機械学習の比較 SVM Convolutional Neural Network データ拡張・前処理 19 学習 - 実践・実験編 20 作業フローデータ収集ラベル作成検証学習 21 キーポイントデータ収集ラベル作成【キーポイント】 今回のポイント 背景は？ 手の大きさは？ 手の角度は？検証 照明条件は？ 一般には… 入手可能な分量は？ 正解ラベルの振りやすさは？学習 ノイズの程度は？ 22 キーポイントデータ【キーポイント】 学習アルゴリズムの決定 特徴量の定義 前処理の有無 ハイパーパラメタの調整収集検証学習 23 キーポイントデータ【キーポイント】 アプリケーションへの組み込み収集 試作機・実環境での評価 誤判定データの蓄積 →誤判定データを学習データに追加、再学習による性能向上検証学習 24 実験パターン • • • • SVM vs Deep Learning データ拡張効果前処理の効果両手対応 25 実験条件: データ • 画像条件 – 40 x 40 pixel, RGB – 男性: 14名、女性: 6名 • 各形状約2,100枚 + 1,000枚合計 3000 x 6 = 18,000枚 • 学習画像・テスト画像 – 学習画像に用いた画像はテスト画像にしない – 撮った写真を学習用とテスト用に分割 – 2名分はテスト画像のみに利用 26 実験条件: SVM • ガウスカーネル • カーネル関数、ソフトマージン等の設定値はデフォルト値 • グリッドサーチは利用せず • 特徴量 – 画像そのもの – HOG • Cell size 5 x 5, Block size 5 x 5 • 予備実験により決定 • OpenCVを利用 27 実験条件: Deep Learning(CNN) • ネットワーク構造 • CIFAR10データセットで有効なネットワークを微変更 – 32x32 RGB、10カテゴリ – 今回は40x40, 8カテゴリ。32x32では手が小さくなった為。 • 学習係数は0.0001で固定 • Caffeを利用 28 Caffeについて補足 • • • • CNNに特化したミドルウェア Pythonフロントエンド、C++/CUDA実装 CPU only / GPUで学習・推論可能 CIFAR10、MNIST、AlexNet、VCG、NIN等サンプルが多数付属 • 学習済みの重みを配布(ModelZoo) 29 Caffeにおける学習手順 • CIFAR10などオープンデータを使う場合 – 多分デフォルトで対応しています... • 独自データを読み込ませる場合 – 画像ファイルをBLOB形式に変換 – LMDBに投入 – ネットワーク定義ファイルを編集、データソースを変更 • 後はtrainコマンドを実行すればＯＫ R G B R G B R G B R R R G G G B B B 30 実験結果 - SVM 100 90 80 70 正 60 答率 50 % 40 SVM [ SVM+HoG ] 30 20 10 0 800枚/形状全4,800枚 1200枚/形状全7,200枚 31 2100枚/形状全12,600枚実験結果 - SVM vs Deep Learning 100 90 80 70 正 60 答率 50 % 40 SVM [ SVM+HoG DL(2000回) ] 30 DL(4000回) 20 10 0 800枚/形状全4,800枚 1200枚/形状全7,200枚 32 2100枚/形状全12,600枚実験結果 - データ拡張効果 100 90 80 70 ベースライン正 60 答率 50 % 40 [ データ拡張 ] データ拡張 (4000回学習) 30 20 10 0 800枚/形状全4,800枚 1200枚/形状全7,200枚 33 2100枚/形状全12,600枚 10倍にデータ拡張実験結果 - 前処理の効果 • PCAで色空間を変換 • 照明変動の大きい第1主成分を除去(2ch化) 100 90 80 70 [ ベースライン ] 正 60 答率 50 % 40 PCA 30 20 10 0 800枚/形状全4,800枚 1200枚/形状全7,200枚 34 2100枚/形状全12,600枚両手対応 • 今までは右手のみ。 • 左右反転した画像を学習データに追加。右手でも左手でも認識する様にした。 • クラス内分散が増えた場合に、どの程度性能に影響するか計測した。正答率はテストデータにも左右反転画像を追加して計測した。 35 実験結果 - 左右反転 90 80 70 60 正答 50 率 40 % 30 右手のみ版 [ 両手対応版 ] 20 10 0 800枚 1200枚 36 2100枚 JETSON TK1で動かす 37 実行環境 • 学習環境と実行環境は別 • 組み込み機器 – デジタルカメラ – 車載 • PC – ノートPC – 各種装置バックエンド • データセンタ – クラウドサービスバックエンド 38 NVIDIA Tegra K1 SOC / Jetson TK1 • NVIDIA Tegra K1 SOC 搭載評価ボード • CUDA, OpenGL 4.4, Tegra Accelerated OpenCV • 次世代機Tegra X1も近日発売予定。ＧＴＣ 2015では車載向けのDRIVE PXが発表。 http://www.nvidia.co.jp/object/jetson-tk1-embedded-dev-kit-jp.html 39 cuDNN • • • • • NVIDIAによるDeep Neural Networkの計算ライブラリ Caffe/Theanoのエンジンとして利用可(v1) Feed Forward / Back Propagation Convolution, Pooling, Softmax Activation ( ReLU, Sigmoid, Tanh ) 15 13.28 学習時間 [分/一定回数] 10 4.45 5 K20機[分] 0.51 0 Caffe CPU Caffe GPU Caffe + cuDNN デフォルト実装 40 ISP + Jetson TK1 + cuDNN v2 • caffeをそのまま移植(Python / C++ / cuDNNv1) 呼び出しプログラム =>判別に23～25ms... cuDNNv2 Caffe • caffeのpython部分を削除 C++ Python => 判別に20ms ～ 30ms cuDNNv1 • cuDNNv2ベースのISP 独自実装 =>判別に5ms程度 – cuDNN v2はまだCaffeも未対応 – デバイス制御回りの工夫カメラから画像取得 Loop 判別画面表示 41 デモのご紹介 • • • • Jetson Tegra K1 + 手形状認識スターターキット + 手形状認識 with GUI Jetson Tegra K1 + リアルタイムクロマキー処理 DeepLearning BOX 技ラボ検索 42