深層学習の最近の進展稲垣祐一郎i Recent advances in deep learning Yuichiro INAGAKI 機械学習の分野で数十年に一度のブレークスルーと言われる深層学習の最近の進展について述べる．特に，深層学習の今後の可能性の拡がりを期待させる One-shot learning，Long Short Term Memory(LSTM)，word2vec を用いた自然言語処理などのトピックについて事例を紹介するとともに，特許情報処理における試行例について述べる． (キーワード): Deep Learning，深層学習，画像認識，音声認識，自然言語処理，LSTM 1 はじめに (KDD2014) と，機械学習分野の国際学会である Neural 「人工知能」というテーマは，長い間技術者にとって一種のタブーとなっていたが Proccessing Systems 2014 (NIPS2014)の双方に参加してきたが，どちらの学会 1) ，この一年ほども昨年に比べて大幅に参加者が増加したとのことでであっという間に注目される技術の一つとなってしまった Information あり，会場の雰囲気も非常に活気のあるものだった． 2) ．一般的に認知されたのは，グーグルによ Kurzweil の「収穫加速の法則」とは，半導体の Moore る DeepMind 社の買収，2045 年に人間並みの人工知の法則に典型的に見られる様に，技術と技術の結び能が実現するとの予測 3) や「収穫加速の法則」で有つきにより次の技術的発展が産まれるというメカニ名な Ray Kurzweil の Google への移籍，質問応答シズムを通じてイノベーションが指数関数的に加速すステム IBM ワトソンが米国のクイズ番組で優勝しるという主張であるが，これらの学会においても， 4) たことなど Google，IBM などの動きが原因と思わ様々な新しいアイディアが統合されテストされていれるが，技術的な面における最大の要因は，深層学て研究の展開のスピードが速く，まさに収穫加速の習（Deep Learning）と呼ばれる，機械学習分野の大法則が具現化している現場に立ち会っているとの印きなブレークスルーがあったことであろう．深層学象を受ける．習とは，多層のニューラルネットワークを用いて機械学習を行う技術である 5) 6) 本稿では，これらの学会で話題となっていた深層．多層のニューラルネッ学習の今後の更なる発展を期待させるいくつかの最トワークを使うというアイディア自体は古くからあ近の進展を示す研究と，弊社で取り組んでいる特許ったが，学習アルゴリズムの進展と入力データが大情報処理への試行例について述べる．量に得られるようになったことなどにより，従来のニューラルネットワークと比べて格段に性能が進歩 2 One-shot learning した．自動運転，IoT(Internet of Things)，ロボット等の今後市場が拡大すると予想される多くの分野が，従来の機械学習では，教師あり学習にしろ教師な機械学習あるいは人工知能と密接な関係を持っておし学習にしろ，学習過程においてある程度のサンプり，今後の応用への発展が期待されている 7)．ル数が必要であった．手書き文字認識を例に取ると，筆者は今年，データマイニング分野の国際学会である i Knowledge Discovery サイエンスソリューション部 and Data 新しい漢字を新たに学習するには，その字のサンプルは最低でも 50 程度は必要であった． Mining エレクトロニクスチームシニアコンサルタント 41 博士（理学） ple) visual concepts, generalizing in human-like ways from just one image. W e evaluated performance on a challenging one-shot classifi cati on task, where our model achieved a human-level error rate while substantially outperforming two deep learning models. W e also tested the model on another conceptual task, generating new examples, by using a “visual Turing test” to show that our model produces human-like performance. roduction しかし，人間には，一つあるいはごく少数の例を 3 Long Short Term Memory 見ただけでその特徴を掴み，一つのカテゴリーとして記憶し，類似の例を認識する能力が備わっている． 3.1 日本語の文脈依存性 can acquire a この能力のことは，１例で学習が可能になるという new concept from only the barest of experience – just one or a handful of s in a high-dimensional space of raw perceptual input. Although machine learning has 意味で One-shot learning と呼ばれている．図 1 で，日本語は，世界の言語の中でも文脈への依存性が some of the same classifi cation and recognition problems that people solve so effortlessly, 赤四角で囲われた字と同じ字を下のパネルから選ぶ dard algorithms require hundreds or thousands of examples to reach高い言語として知られている．生成文法の立場にお good performance. ことは人間には容易である．この能力はどの様なメいても，日本語は主題卓越型言語と分類され，主題 e standard M NIST benchmark dataset for digit recognition has 6000 training examples per ], people can カニズムで実現されているのであろうか？ classify new images of a foreign handwritten character from just one example （文脈上の話題）が重視される言語とされている 10)． 1b) [23, 16, 17]. Similarly, while classifi ers are generally trained on hundreds of images per 日本語の文脈依存性を示す例として良く引き合いに ing benchmark datasets such as ImageNet [4] and CIFAR-10/100 [14], people can learn a b) 出される例に，「僕はうなぎだ」という文があるが， c) るのか？という問題である．この文は丼物屋での注文の際の発言であるという文脈があって初めて普通の理解が可能となる文となっている．従って日本語の処理を行う際には，文脈をどのように取り扱うかが重要となってくる． H u m a n d r a w e r s 主題として提示されている情報に対して言及する 1 2 1 1 （=情報処理を行う）ことをニューラルネットワー 1 2 2 2 3 クで実現するには，何らかのメモリ機能を備えた再 3 3 3 帰的なものであることが必要である．しかし，その c a n o n ic a l 5 5 .1 5 .3 Can you learn a new concept from just one example? (a & b)8) W here are the other examples of the 図 1 One-shot learning による文字認識様なモデルがまだ十分に検討されていないことが， hown in red? Answers for b) are row 4 column 3 (left) and row 2 column 4 (right). c) The learned also support many other abilities such as generating examples and parsing. 英語-日本語間の自動翻訳の精度がなかなか向上し 1 1 2 2 2 2 この問いに対する機械学習の観点からの一つの回ないことの一因となっていると考えられる． 3 1 3 答が，「既に学習されている特徴量を用いれば，新し 1 いパターンがどの特徴量の組合せで構成されるかを 3 6 .2 6 .2 7 .1 3.2 再帰的なニューラルネットワーク 1 3 7 .4 効率的に学習することが可能」というものである 9)． Salakhutdinov らは， Hierarchcal Bayesian Program 1 1 2 1 3 2 再帰的な構造を持ったニューラルネットの研究は， Learning (HBPL)という One-shot learning の一つのモ 3 11) 3 Elman による先駆的な研究に遡ることが出来る． 2 デルを用いた文字認識のタスクにおいて，人間によ Elman は，再帰的なモデルである Simple Recurrent 8 .2 8 .4 1 2 る誤認識率（4.5%)と同等の誤認識率(4.8%)に抑えら Network (SRN)を簡単な英語例文に適用し，文法の学れることを示した（表 1）．習が可能であることを示した．しかし，SRN における学習では，時間的に過去へネットワークを展開し表 1 One-shot 文字認識における HBPL と他のモデルとの比較てバックプロパゲーションによる学習を行うために学習器誤認識率人間 4.5% 層が深くなると誤差の勾配が指数関数的に減衰し， HBPL 4.8% 学習出来なくなるという問題が起こることが知られ Affine model 18.2% ており，Vanishing Gradient Problem と呼ばれている Hierarchical Deep Model 34.8% 12) （Back Propagation Through Time, BPTT），展開の階． Deep Boltzman Machines 38% Simple Strokes 62.5% Long Short Term Memory(LSTM)である 12) 13)．LSTM Nearest Neighbor 78.3% では，ニューラルネットワークにメモリ機能を持た SRN の発展形として最近注目されているのが，せることにより，Vanishing Gradient Problem を回避既に習得されている特徴量や知識を用いて新しいしている．日本語に LSTM を適用した研究は筆者の概念クラスを one-shot で認識するという基本的な考知る限りまだほとんど無いと思われるが，今後検討え方は，今後他の分野へも適用されていくであろうすべきモデルであろう．以下では，LSTM モデルと，と考えられる． NIPS2014 で発表されていた適用例について述べる． 42 3.3 LSTM モデル LSTM では，Vanishing Gradient Problem の解決策 NIPS 2014 においても，Google の研究者であるとして，BPTT により時間的に展開しても誤差が減 Sutskever らが LSTM を用いた発表をしており，注目衰しない様な構造を導入する．LSTM のネットワーを集めた 13)．図 3 は，LSTM による学習後，いくつク構造は，Constant Error Carrousel (CEC)と CEC へのかの文を入力した際の隠れ層の状態を連結して多次入力と出力をコントロールするゲートを含む単位セ元のベクトルとして表現したものを，主成分分析にルが連なった構造をしている（図 2）．CEC は，自より第１主成分と第２主成分の 2 次元上に射影した分自身に重み１で結合しており，これにより，誤差ものである．隠れ層は，各時点でのモデルの内部状が減衰することなく重み１でループすることが可能態を保持していることから，このベクトルは文脈のとなり，時系列上で離れた単語の間の関係（例えば，意味を表現していると言える．意味の相似（admire 長い関係節の前後など）を捉えることが可能となっと in love と respect），反対の意味になる構文（"Mary ている．また，メモリ機能には，情報を入力するタ admires John"と"John admires Mary"など），異なる構イミングと忘却するタイミングを制御することも必文で示された内容の一致（"I was given a card by her in 要であり，これを gating ユニットとして導入する（図 the garden."と"In the garden, she gave me a card."など） 2 の●）．また，入力と出力にそれぞれ活性化関数がの構造が捉えられていることが判る．導入される（図 2 の g と h）． Sutskever らは，英語-フランス語間の自動翻訳に LSTM を適用した結果を示している．入力側（英語）と出力側（フランス語）のそれぞれに LSTM を 4 層ずつ配置した構造を用いている．非常にシンプルな構造であるにも関わらず，今までの最良の方法に近い成績が得られている． 4 特許情報処理への適用試行例 4.1 word2vec と doc2vec 2013 年に，Mikolov らは単語の意味をベクトル空間に射影するアルゴリズムを考案し，その実装 word2vec と共に発表して大変話題となった 14) 15)．図 2 LSTM の単位セル意味の相似同一内容構文逆の意味の構文図 3 LSTM による構文と意味の把握 43 Le らは，このモデルを更に拡張し，パラグラフや文 5 まとめ書全体の意味を表現するベクトルを単語のベクトル本稿では，NIPS2014 等の学会で話題となっていたと一緒に学習する Distributed Memory Model of ．Le らは，深層学習の今後の更なる発展を期待させるいくつか PV-DM を，映画のレビュー文章の内容が好意的か否の最近の進展を示す研究について，概説を行った．かを判定するセンチメント解析 17)と呼ばれるタスク紹介した以外にも，重要と思われる研究も多い．通に適用し，従来の研究に比べてエラー率を低減させ常の Recurrent Neural Network では deep さが足りなている（7.42%）．Le らの PV-DM アルゴリズムは，いとする論文 20)，Recurrent Neural Network を使って doc2vec としてフリーソフトウェア gensim18)に実装時系列データのパターンを学習するアルゴリズムされている． Conceptor21)22)，ロボットの学習などに適用可能と考 Paragraph Vectors (PV-DM)を開発した 16) えられる強化学習と深層学習を組み合わせた deep Q-network23)など興味深い論文は多い． 4.2 類似文献検索弊社では，深層学習の最新の成果の科学技術論文これらの部分的な理解が順に統合され，さらに実や特許情報の処理へ適用を試みている．その第一歩世界とのインターフェース・情報プラットフォームとして，word2vec と doc2vec を用いた特許の類似文としてのロボットやインターネットと結合されると，献検索のシステムを開発している．本格的な人工知能の実現も Kurzweil の予想よりも意外に早いのではと思われる．凡そ 1,000 億単語を含む Google ニュースのデータ弊社においても，今後深層学習の日本語への適用，セットを用いて 300 万の単語とフレーズのベクトル表現を学習したデータ 19)を用い，米国特許庁の特許各種センサーデータへの適用など，深層学習の応用文献に対する類義語まで含めた検索を可能にした．展開へ取り組んで行きたい． gensim を用いて，米国特許庁からオープンデータと引用文献して提供されている米国特許の検索を試みた． 1) ジェルリー・A・ムーア著，川又政治訳:キャズム，従来の通常の検索では，何らかの単語に関連する翔泳社(2002). 文献を検索する場合，類義後のリストを手動で作成 2) 日経コンピュータ: ビッグデータは人工知能にする必要があった．しかし，gensim を使えば，例え任せた！，日経 BP 社 2014.10.2 号. ば，"nanotube"と類似性の高い単語とフレーズのリス 3) レイ・カーツワイル著，井上健ほか訳: ポスト・トを抽出することが出来る（表 2）．これにより， nanotube と関係の深い言葉として， nanowire ，ヒューマン誕生 graphene，quantum_dot などナノテクノロジーの分野超えるとき，日本放送出版協会(2007). コンピュータが人類の知性を 4) http://www-06.ibm.com/ibm/jp/lead/ideasfromibm/w で重要な単語が認識されている．これにより，ユー atson/ ザーが様々な関連の深い文献を抽出することが可能 5) 人工知能学会誌連載記事参照（2013 年 5 月～2014 となった．年 7 月）. 表 2 1 2 3 4 5 6 7 8 9 10 6) 「特集：機械学習」，みずほ情報総研 nanotube と類似の単語（類似性上位 20） nanotubes carbon_nanotube carbon_nanotubes nanowire nanowires graphene quantum_dot nanoscale nanostructures nanometer_scale 11 12 13 14 15 16 17 18 19 20 技報，Vol.6, No.1（2014）. CNTs quantum_dots silicon_nanowires polymer semiconducting nanostructure nanoparticle nanocrystals nano_scale graphene_layers 7) Manyika, J. et al. :Distructive technologies:Advances that will transform life, business, and the global economy, McKinsey Global Institute(2013). 8) Lake, B. M., Salakhutdinov, R. R., Tenenbaum, J.:One-shot learning by inverting a compositional causal process, Proc. Neural Information Processing Systems(2013). 9) Salakhutdinov, R., Tenenbaum, J. B. , Torralba, A.: Learning with Hierarchical-Deep Models, IEEE Transactions on Pattern Analysis and Machine 44 Intelligence, 35, 8, 1958-1971(2013). 10) ベイカー,M.C.著,郡司隆男訳:言語のレシピ-多様性にひそむ普遍性をもとめて,岩波書店（2010). 11) Elman, J. L.: Finding Structure in Time, Congnitive Science, 14, pp.179-211 (1990). 12) Hochreiter, S., and Schmidhuber, J.:Long Short-Term Memory, Neural Computation 9(8),pp.1735-1780 (1997). 13) Sutskever, I., Vinyals, O. V., Le, Q.:Sequence to Sequence Learning with Neural Networks, Proc. NIPS(2014). 14) Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient Estimation of Word Representations in Vector Space, arXiv 1301.3781v3 (2013). 15) https://code.google.com/p/word2vec/ 16) Le, Q., Mikolov, T.,:Distributed Representations of Sentences and Documents, arXiv1405.4053v2(2014). 17) http://ai.stanford.edu/~amaas/data/sentiment/ 18) http://radimrehurek.com/gensim/index.html 19) 上記 15)のページの以下のファイル： GoogleNews-vectors-negative300.bin.gz 20) Pascanu, R.: How to Construct Deep Reccurrent Neural Networks, arXiv1312.6026v5(2014). 21) Jaeger, H.: Conceptors: an easy introduction, arXiv 1406.2671(2014). 22) Jaeger, H.: Controlling Recurrent Neural Networks by Conceptors, arXiv 1403.3369(2014). 23) Minih, V. et al.:Human-level control through deep reinforcement learning, Nature, 518, 529-533 (2015). 45