実時間コンピュータビジョン: その挑戦と限界

フェロー&マスターズ未来技術研究会資料
FM05-4-3(2006.3.25)
実時間コンピュータビジョン: その挑戦と限界
Real-time Computer Vision: Challenges and Breakthroughs
横矢 直和
Naokazu Yokoya
奈良先端科学技術大学院大学 情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
1. まえがき
コンピュータビジョン(CV)研究には,(1)人間のような一
般的な視覚機能の実現を目指す汎用ビジョンの立場と(2)特
定の応用・目的に特化して実際に働くシステムの開発を目
指す目的指向ビジョンの 2 つの立場があると言えよう。こ
の立場の違いによって研究アプローチが大きく異なること
が多いが、共通するのは、「(一人の)人間の視覚にでき
ていることをコンピュータで実現したい」という願望であ
る。
本パネル討論の趣旨は、それぞれの分野で 2020 年頃に
到達可能な夢を語るというもので、未来予測の趣がある。
未来予測の常として、現在ある概念・技術の発展形として
の未来を予測する場合がほとんどで、今存在していない概
念・技術をベースにした予測が行われるのは極めて稀であ
るので、以下ではまず、CV 研究の原動力として研究パラ
ダイムと道具立てに注目し、40 年余りの CV 研究を概観し、
次に未来を展望したい。
2 .これまでの CV 研究の原動力は?
CV 研究の起源をどこに求めるかには諸説あろうが、40
年以上の歴史を持っていることは確かである。そこで、20
年を区切りとして、CV 研究の発展をもたらした原動力が
何であったのか振り返ってみたい。
(1)1985 年以前
まず、研究パラダイムとして大きな影響を与えたのは、
・ Roberts の汎用ビジョンの基本的枠組み[1]
・ Marr の視覚の計算理論に基づくビジョン研究パラダイ
ム[2]
である。Roberts によって、2 次元画像の特徴抽出結果であ
る 2 次元多面体線画と 3 次元ワイヤーフレームモデルの照
合によって物体認識を行う汎用ビジョンの基本的枠組みが
提案され、当初の積木の世界からの脱却と特徴抽出の高度
化を目指して研究が進んだ。Marr は視覚を実現するために
は何を計算すべきかを明確にし、画像特徴を記述したプラ
イマルスケッチ→シーンの 2 1 2 次元表現→3 次元モデルの
過程からなる計算理論を示した。この視覚の計算理論をコ
ン ピ ュ ー タ で 実 現 す る た め に 、 そ の 後 、 Shape from X
(X=shading, texture, contour, motion など)と呼ばれる一連の
研究が活発になり、現在まで続いている。
一方、CV 研究の道具立てとしては、
・ 画像入力装置の普及
・ ビジョンアルゴリズムのライブラリ化
が大きい。これによって、CV が誰でも参入できる研究分
野になった。今からは想像もできないが、1970 年代後半ま
では、デジタル画像を自前で容易に入力できる研究機関は
限られていた。言い換えると、それまでは、CV は特定の
研究機関だけが独占的に取り組める研究分野であった。
(2)1985 年頃からの 20 年
研究パラダイムに関しては
・ アクティブビジョン[3]
が現れた。アクティブビジョンはロボット視覚における身
体性とビジョンの関わり等の課題を提起したが、CV 分野
においては Roberts や Marr の研究パラダイムほどの影響力
はなかった。
この期間における CV 研究の主たる原動力は、その道具
立ての進歩であり、中でも
・ 動画像入力装置の普及
・ 計算パワーの向上による実時間処理の実現
・ メモリの大容量化
・ カメラのユビキタス化
が顕著である。これによって、かつては計算時間とメモリ
使用量の観点から非現実的と思われていた前の世代に提案
されたパターン認識・CV の手法・技法が現実的になった。
また、ロボットや自動車のような実時間性が不可欠な分野
での CV の実用化が進むとともに、仮想現実・複合現実に
代表される新たな研究分野が勃興した。この CV の新しい
展開の底流にあるのは「自動化技術からメディア技術とし
ての CV へ」[4]という考え方である。このことは、CV 分
野の代表的な国際会議である ICCV と CG 分野の代表的な
国際会議である SIGGRAPH に基本的には同じ内容が投稿
されるという最近の傾向からも、国際的な潮流であること
が分かる。
ところで、汎用ビジョンの立場から基本的な課題が解決
されたかというと否である。普通に人間の視覚ができてい
ることでコンピュータにはできないことの方が多い。この
ため、ビジョンの本質的な問題を捉えた研究の必要性も提
言されている[5]。また、目的指向ビジョンの立場で CV の
利用が求められている応用・目的に十分に応えられている
かというと、これもまた否であろう。
3.さて、これからの CV 研究の方向は?
CV 研究の主たる原動力を研究パラダイムと道具立ての
観点から概観したが、これからの 20 年はどうなるのであ
ろうか。凡庸な頭脳では、今存在していない新しい概念の
出現を予測するのは難しいので、ここでは、現在の道具立
てが進化した状態を想定して、そこで展開されるであろう
研究の方向性を考えてみたい。
CV 研究の最も基本的な道具は入力装置としてのカメラ
である。CV 技術を駆使した単体カメラの手ぶれ補正・時
空間高解像度化・高ダイナミックレンジ化が可能であり、
現状の延長線上に、CV 技術によるデバイス本来の機能を
超えたスマートカメラの実現が予想される。例えば、手持
4
ちのビデオカメラを用いて通常の PC でも実時間でのビデ
オモザイキングが可能であり、カメラ付き携帯電話等での
実装も視野に入ってきている(図 1 参照)。
といった概念の中にネットワークビジョンが取り組むべき
技術課題が含まれているのではないだろうか。すなわち
・ 大量カメラが連携することによる大域的な環境理解と
異常(普通でない)状態の学習・検出
・ カメラ群が捉えた時系列光線情報からの任意時間・任
意視点映像の生成
・ 環境理解結果および映像生成結果の人間や車輌への実
時間提供
である。
従来の CV 研究との決定的な違いは、当たり前のことと
考えていた「一人の人間がもっている視覚機能をコンピュ
ータで実現する」のではなく、「一人の人間ではできない
視覚機能をコンピュータで実現する」ことにある。人間が
簡単にできることさえ満足にできていないことを考えると、
これは無謀な挑戦のようにも思えるが、一方では、医療に
革新をもたらした CT や CV 研究の重要なツールであると
同時に実用的な 3 次元計測機器となったレンジファインダ
の例を見ると、人間にできないことの方が易しいこともあ
るのが分かる。
ネットワークビジョンの実現には、CV 固有の技術課題
以外に、以下のような取り組むべき課題が存在する。
・ 広域に存在する大量カメラの無線接続を含むネットワ
ーク化と全体のシステムアーキテクチャ
・ カメラ単体の高機能化と局所的な自律処理による機能
分散(一部は CV 技術によって実現)
・ カメラ以外のセンサとの融合(カメラや人間・移動体
の自己位置・姿勢計測など)
・ 大規模時空間データの要約・蓄積と高速検索・データ
マイニング
・ 環境中のビジブルロボットおよびアンコンシャスロボ
ットとの連携による環境への作用
また、プライバシーの問題をどう克服するかもある。
入力画像の一部
超解像モザイク画像中の対応箇所
超解像モザイク画像
(1600×1961)
図 1 手持ちカメラによる超解像ビデオモザイキング
個人使用のデジタルビデオカメラがすでに一般的なもの
となったが、これに加えて、住宅や街中のサーベイランス
カメラ、携帯電話搭載カメラ、車載カメラと、至る所にカ
メラが溢れるユビキタス化の流れが顕著である。また、各
種センサ類のネットワーク化も始まっている。その先に容
易に想像できる CV の新しい道具立ては、社会インフラと
しての
・ ユビキタス社会における広域センサネットワークのノ
ードとしての大量のカメラ
4.むすび
本稿では、これまでの CV 研究の原動力を振り返るとと
もに、これから取り組むべき方向性の一つとして「ネット
ワークビジョン」について述べた。これが 2020 年頃に実
現しているという確信はないが、挑戦する価値が十分にあ
る課題であると考える。
参考文献
図 2
[1] L.G. Roberts: Machine perception of three-dimensional solids, in
Optical and Electro-Optical Information Processing (J.T. Tippett
et al., Eds.), MIT Press, pp.159-197, 1965.
[2] D. Marr: Vision – A Computational Investigation into the Human
Representation and Processing of Visual Information, W.H.
Freeman and Company, 1982.
[3] J.Y. Aloimonos, I. Weiss, and A. Bandyopadhyay: Active vision,
Proc. 1st Int. Conf. on Computer Vision, pp.35-54, 1987.
[4] 大田: 3 次元画像メディアとコンピュータビジョン―ロボッ
ト技術としての CV からメディア技術としての CV へ―. 情
報処理, Vol.37, No.5, pp.981-986, 1996.
[5] 辻: ビジョン研究のパラダイム―「コンピュータビジョン
への道」を再び訪ねて―, 画像の認識・理解シンポジウム
(MIRU2005)講演論文集, pp.6-7, 2005.
広域環境に溢れるカメラのネットワーク化
の存在である(図 2 参照)。
現状ではユビキタスカメラは局所的にしかネットワーク
化されていない。したがって、まだ実態はないが、ネット
ワーク接続された大量カメラの映像を扱う「ネットワーク
ビジョン」がこれから CV が挑戦すべき課題であると思わ
れる。機能的には 2001 年には実現しなかった HAL のビジ
ョン版とも言えるが、「安全・安心・快適な」社会の実現
には必須である。すでに存在している
・ ネットワーク型広域ビデオサーベイランス
・ ウェアラブル拡張現実
・ ネットワークロボット
・ 環境知能
5