視覚認識研究の過去・現在・未来

巻頭D/京都大・松山 99.3.30 6:45 PM ページ 30
1. はじめに
わが国におけるコンピュータを用いた画像・映
視
覚
認
識
研
究
の
過
去
・
現
在
・
未
来
像の処理、認識、理解研究を語るとき、情報処理
学会のイメージプロセッシング研究会(1975∼
1979年)、コンピュータビジョン研究会(1979∼
1996年)
、コンピュータビジョンとイメージメディ
ア研究会(1996年∼)と続く研究会活動を抜きに
することはできない。筆者は、1996年に第100回コ
ンピュータビジョン研究会記念資料集を編集した
際、このことを改めて強く思った。
ここでは、こうした学会を中心とした研究活動
の歴史を振り返り、視覚認識研究のパラダイムが
どのように進展してきたのかを整理し、今後の研
究方向に関する私見を述べる。
2. 過去から現在へ
図1は、この30年間の視覚認識研究の歴史を模式
的に表したもので、約10年ごとに研究のパラダイ
ムが変わっている。
2.1 画像処理からコンピュータビジョンへ
コンピュータを用いたデジタル画像処理は、
1960年ごろから始められ、当初は人工衛星画像の
画質改善や、文字を表す2値画像の認識などが試み
られた。1970年代になると、画像処理アルゴリズ
ムや画像処理装置、それらを用いた各種の応用シ
ステムの研究・開発が活発に行われ、デジタル画
像処理が研究分野として確立されるとともに、そ
の実用的有効性が示された。
一般にデジタル画像処理では、写真(フィルム)
のデジタル化、濃度や幾何学的歪みの補正、エッ
ジ強調のためのフィルタリングといった、画像か
ら画像への変換(図1上段)が中心的な処理とな
る。こうした画像処理アルゴリズムは、電子技術
総合研究所においてFORTRANのサブルーチンラ
イブラリSPIDERとしてまとめられ、今なお多くの
松山隆司
京都大学大学院
工学研究科電子通信工学専攻
30 ︱eizojoho industrial
研究機関で使われている。
1980年代になると、Marrの提案した視覚の計算
理論(computational vision)に基づく「見え方の科学
(shape from X (X: shading,texture,contour,motion))
」に
巻頭D/京都大・松山 99.3.30 6:45 PM ページ 31
関する計算アルゴリズムが活発に研究され、そう
がある(図1下段左)。アクティブビジョンでは、
した研究分野を表す名前として、
「コンピュータビ
シーンを受動的に観測するのではなく、撮像装置
ジョン(CV)
」が使われるようになった。
や照明の位置、方向、配置を能動的に制御し、撮
画像処理では、
「与えられた画像」をどのように
像→認識・理解→シーン記述→撮像装置の制御→
処理・変換するかが問題であったのに対し、CVで
撮像という処理ループを繰り返すことにより、多
は、3次元シーンの光学像が2次元平面に写像され
角的な視点からの能動的観測、注視制御に基づい
たものとして画像データを捉え、2次元画像→3次
て複雑なシーンの3次元構造を理解する。このほか、
元シーンという逆写像を行うことを処理の目的と
多種多様なセンサからの情報を統合することによ
している(図1中段)
。具体的には、画像からの3次
ってシステムの信頼性の向上を目指すセンサフュ
元距離・運動情報の復元や3次元物体の形状モデル
ージョンや、複数の処理モジュールが並列に入力
を利用した物体認識、ロボットビジョンへの応用
データを解析し、得られた出力(行動制御命令)
などが研究されるようになり、産業界においても
を統合、調整することにより、動的に変化する環
コンピュータビジョンのイメージが定着した。
境に対する適応能力の向上を目指す包摂アーキテ
クチャといった考え方も提案された。
2.2 アクティブビジョン、イメージメディアへの展開
もう1つ別の方向への研究分野・対象領域の拡張
CVにおけるアルゴリズムは、光学モデルや解析
としては、
「イメージメディア世界」
(図1下段右)に
幾何学の知識を利用し、処理・計算には多様な数
おける視覚情報処理を考えようとするものがある。
理的最適化手法や統計的推定法を駆使するという
もので、「CVによってはじめて視覚認識研究が学
イメージメディアでは、次のようなさまざまな
処理の統合が考えられている。
問として確立された」という見方を定着
させた。しかし、その反面、「CVの研究
は研究(論文)のための研究になってお
り、現実世界の問題解決には役立たない」
という批判が次第に広がってきたのも事
実である。
これは、本来2次元画像→3次元シーン
という逆写像を行う処理は不良設定問題
であり、それを解くにはさまざまな仮定
や前提条件が必要で、多様な現実世界の
状況の中で頑健に動作するアルゴリズム
をCVの枠組みの中だけで考えるのはむず
かしいことによる。
1990年代になると、2次元画像データ→
3次元シーン情報という情報変換アルゴリ
ズムの研究という、
“狭い”研究領域から
抜け出し、より広い視点から視覚情報処
理研究を行おうとする試みが進められる
ようになった。
その1つは、知能システムの構成という
観点から視覚認識の問題を考えようとす
るもので、その代表例として「行動と知
覚の統合」を目指すアクティブビジョン
図1 視覚認識研究の歴史
January 1998︱ 31
巻頭D/京都大・松山 99.3.30 6:46 PM ページ 32
・2次元画像→3次元シーンの写像を行うCVと3次
元シーン→2次元画像の写像を行うCGという相補
的な情報変換プロセスを統合し、画像・映像の認
識と生成を一体化して考える。
・この両者を繋ぐものとして「編集」という処理プ
ロセスを導入する。編集の具体例としては、CVで得
られた3次元シーンを撮影時とは別の視点から見た
ときの画像を生成することや、CG画像と実写画像の
合成、画像に記録された色情報をCVアルゴリズム
によって物体色成分と光源色成分に分離し、物体色
のみを変化させた画像を生成することなどがある。
・CV→編集→CG(+画像処理)という処理プロセ
図2 分散協調視覚システム
スを送り手(撮影者)から受け手(観賞者)に至る
観測ステーションと移動ロボット、移動ロボット
通信路、画像やビデオ映像、3次元物体イメージを
同士のコミュニケーション、協調によって、動的に
情報伝達メディアとして捉え、送り手と受け手の
変化する実世界の多様な状況を実時間で把握する。
間の豊かなコミュニケーションを実現する。
s対話的実時間映像生成:理解の結果得られた実
・コンピュータ内部の数値・記号情報を種々の画
世界の状況記述やネットワークを介して得た情報
像・映像メディアを用いて人間に分かりやすく提
を人間に分かりやすい多様な形態の映像情報とし
示し、人に優しいヒューマン・インタフェイス
て実時間で対話的に表現・生成・編集する。
(HI)を実現するための方法として、CVおよびCG
を統合する。
分散協調視覚システムを利用すれば、実時間広
域監視・交通管制システムといった広域シーンを
このように、イメージメディアの世界は、CVと
対象とした視覚認識システムのほか、対話型遠隔
CGの統合による情報の双方向変換、人間同士、人
会議・講義システム、対話型3次元立体テレビシス
間−機械の間の情報伝達・コミュニケーションを
テム・知的テレビスタジオ、手術、芸術、スポー
軸とした、学際的研究・技術開発のための領域と
ツなど高度な身体技能の詳細な映像記録の作成、
なっており、現在活発な研究活動・技術開発が進
さらには、移動ロボットや身体障害者の対話的誘
められている。
導システムや、サッカーなど移動ロボット群によ
るチームプレイが実現できる。分散協調視覚は、
3. 未来への提言
アクティブビジョンやイメージメディアの考え方
にネットワークを介したコミュニケーション機能
我々は、アクティブビジョンおよびイメージメ
を付加しようというもので、情報ネットワークを
ディアの考え方をさらに発展させた、21世紀にお
基盤とする高度情報化社会における視覚認識シス
ける視覚認識システムの姿として、
「分散協調視覚」
テムの枠組みを与えるものと考えている。
という考え方を提案している(図2)
。
分散協調視覚システムでは、有線・無線ネット
ワークで結ばれた多数の観測ステーション(多自
由度カメラ雲台を備えた実時間3次元画像・映像処
4. おわりに
2、3で示した見解はあくまでも筆者の私見であ
理装置)や視覚機能を備えた移動ロボットにより、
るが、視覚認識に関する研究は過去30年間に着実な
動的に変化する実世界の状況を多角的に観測する
進展を遂げ、今後もさらなる発展が約束されてい
ことによって、以下の2点を実現することを目的と
るのは間違いないことで、読者の方々が今後の画
している。
像・映像処理の方向性を考えられる際に本稿が少
a分散協調型状況理解:観測ステーション同士、
しでも参考になれば幸いである。
32 ︱eizojoho industrial