CMOS カメラのプログレッシブスキャン特性を用いた 全周囲

日本バーチャルリアリティ学会第 11 回大会論文集(2006 年 9 月)
CMOS カメラのプログレッシブスキャン特性を用いた
全周囲立体映像の取得
Omnistereo Video Imaging with CMOS Image Sensor
三代真己,梶本裕之,川上直樹,舘暲
Masami MISHIRO, Hiroyuki KAJIMOTO, Naoki KAWAKAMI, Susumu TACHI
東京大学 大学院情報理工学系研究科
(〒113-0033 東京都文京区本郷 7-3-1, [email protected], {kaji, kawakami, tachi}@star.t.u-tokyo.ac.jp)
Abstract: Concentric mosaics is an approach to construct a system for capturing omnistereo video imaging.
We constrain camera motion to planar circles to render concentric mosaics. This approach is a good
representation for computational efficiency, so it’s often used when we capture real-time video imaging.
This paper presents a system for capturing omnistereo video imaging with CMOS image sensor. This system
is a better system to capture omnistereo video imaging based on Concentric mosaics. We also concider
reconstruction of motion-blurred image and estimate this construction.
Key Words:concentric mosaics, omnistereo video imaging, CMOS image sensor, motion blur
1.はじめに
臨場感をともなった全周囲立体映像取得系を構成する
アプローチの1つに,同心モザイクがある.これは,ユー
ザーの頭部回転運動以外を制限し,ユーザーを取り囲む閉
曲面を横切る光線群を近似して取得するものであり,情報
量も小さくリアルタイムの動画像取得にも応用されてい
る.本研究では,CMOS イメージセンサのプログレッシブ
スキャン特性を利用し,より同心モザイクに忠実な全周囲
立体映像取得系を提案する.また,回転撮像系の問題とな
る motion blur とその補正の評価を行う.
2.従来研究
臨場感をともなった全周囲立体映像の取得には,大別す
ると2つのアプローチが考えられている.1つは、提示さ
れるユーザーの動きに合わせて頭部の位置情報や方向情
報を計測し,その方向の映像のみを取得するものである.
これは情報量が削減できるというメリットがあるものの,
提示の際,頭部の位置情報の計測誤差や,提示系での方向
追従の遅れによって,映像に違和感が生じてしまう.この
アプローチの例としては,人型ロボットを用いたマスター
スレーブシステム[1]が挙げられる.
一方,もう1つのアプローチは、ユーザーを取り囲む閉
曲面を横切る光線群をできるだけ大量に取得するもので
ある.これは情報量が多くなってしまうものの,頭部位置
計測の誤差や提示系での方向追従の遅れがなくなるとい
うメリットがある.このアプローチの例のうち,ユーザー
の 頭 部 の 回 転 を 許 容 す る 例 と し て , Chen ら に よ る
QuickTimeVR[2]のような全周囲画像取得がある.この全周
囲画像は Immersive Projection Technology(IPT)などの広画
角な画像提示系[3][4][5][6]と組み合わせることでユーザー
に 没 入 感 を 与 え ら れ る ば か り で な く , Head Moutnted
Display(HMD)[7]を利用したマスタースレーブ方式の画像
取得提示系でユーザーに違和感を与える頭部追跡の誤差
や遅れの軽減にも貢献できる.
後者のアプローチは,前者に比べ比較的簡単に全周囲画
像を取得することができる.しかし,これは前者が「立体
視」を前提としているのに対し,後者は必ずしも立体視を
前提としていないためである.
227
また,ユーザーの頭部の移動に対応し,複数のユーザー
に提示できるシステムとして,多視点系(Multiviewpoint
System)が挙げられる.これは,理論的に Adelson らの
Plenoptic Function[8] に基づいたものであり,3次元空間
内のすべての位置(Vx, Vy , Vz), すべての可能な画角(θ,
φ), すべての波長(λ), すべての時刻(t)における光線情報
を取得し,提示することを目的にしている.実写画像の取
得,再構成に Plenoptic Function を応用する場合,取得する
光線情報が多次元になりその情報量が膨大になることか
ら,静止被写体を対象とした検討が数多くなされており,
McMillan らの Plenoptic Modeling[9]や Gortler らの The
Lumigraph[10],Levoy らの Light Field Rendering[11]などが
提案されている.
4次元の光線記述で,実時間における動画像の取得およ
び提示した例に,岡野らのインテグラル立体テレビ[12]が
挙げられる.これは,インテグラルフォトグラフィー
(Integral Photography)に基づいて開発されたシステムであ
り,ユーザーの視点は自由に選択することが可能だが,4
次元の情報をすべて1枚の画像データに収める必要があ
るため,十分な方向分解能をもつ高解像度のカメラを使用
しても出力される画像の解像度は低くなってしまう.
このような理由から,なんらかの制約条件や近似を利用
して,光線情報の次元数をさらに削減する試みも行われて
いる.次に述べる Shum らの同心モザイク(Concentric
Mosaic)[13]もその1つである.同心モザイクは,制約条件
と近似を用いて光線情報の次元数を小さくし,その分で時
間解像度を向上させようとするものであり,本研究でも用
いている.
3.同心モザイク
前章で述べたように,実時間における全周囲映像の取得
には,光線情報の次元数を小さくするために,何らかの制
約条件や近似が必要である.同心モザイクは図 1のように,
視点の移動を回転方向θのみに制限する.さらに,視線の
正面方向の光線だけを取得することを考え,周辺視野の光
線情報は他の回転角での取得画像を用いて近似する.これ
らの制約条件や近似から,ある時刻における全周囲映像を
3次元の光線情報(r,θ,y)で記述できる.ここで,r はカ
メラの回転半径,y は光線群の垂直方向の位置である.こ
のように光線情報を記述することにより,図 2のように両
眼に見立てたカメラを2つ並べることで容易に両眼立体
視が可能になる映像を取得することができると考えられ
る.
5.CMOS イメージセンサの特性
本章では,画像を取得するデバイスであるイメージセン
サについて触れる.イメージセンサには、一部の特殊な用
途を除けば,CCD もしくは CMOS が使われている.この
2つは平面上に配置されたフォトダイオードに入射した
光を信号電荷にかえ、時間軸に沿って順に信号電圧として
読み出す,という原理は同じである.しかし,電荷を読み
出し信号電荷を出力するまでの経緯は異なっている.CCD
は図 4(左)のように,信号電荷を垂直,水平レジスタの順
に送り,最後に電圧に変換して出力する.一方,CMOS は
図 4(右)のように,画素ごとで電圧に変換し,信号線への
スイッチングを用いて出力している.
㫐
㫐
㫉
図 1 同心モザイク.
図 4 イメージセンサの読み出し方式.
(左)CCD,(右)CMOS.
この読み出し方式の違いは撮像領域のすべての画素の
蓄積期間の同期に影響を与え,そのため被写体によっては
取得画像に大きな差が生じる.図 5,図 6はそれぞれ CCD,
CMOS の走査線ごとの電荷の蓄積の様子を表している.図
5 のように,CCD は走査線ごとの電荷の蓄積は同期して
いる.一方,図 6 のように CMOS は走査線ごとに電荷の
蓄積時間(シャッタータイミング)にズレがある.そのため,
動く被写体を撮影すると,CMOS による画像には motion
blur と呼ばれるブレが生じてしまう欠点が挙げられる.一
般に,CCD のような蓄積を「グローバル・シャッター」,
CMOS のような蓄積を「ローリング・シャッター」と呼ば
れる.また,図 6 のように,走査線順に電荷を蓄積して
いく方式を「プログレッシブスキャン」と呼ぶ.本研究で
は,CMOS の上述の2つの特性を利用した全周囲立体映
像取得系を提案し,次章でこれを説明する.
図 2 両眼立体視が可能になる同心モザイク.
4.種々のカメラによる全周囲立体映像取得系
同心モザイクを実装する際,ライン CCD イメージセン
サ(以後 CCD)を回転させるのが原理的に正しい.しか
し,一般にライン CCD は高価で大きく,回転させるのは
難しい.そこで,図 3(左)のように,エリアイメージセン
サを使う試みも行われているが,この手法は必ずしも正面
方向の光線だけを取得しているわけではないため,同心モ
ザイクの近似にすぎない.そこで,本稿では CMOS イメ
ージセンサ(以後 CMOS)の走査線ごとの取得時間ずれを
利用し,CMOS を 90 度回転させた擬似的なラインスキャ
ンカメラを回転させることを提案する.このカメラで回転
とともに撮影し,各フレームを繋げることで全周囲立体映
像を取得することができる.
図 5 CCD イメージセンサの電荷蓄積.
図 3 全周囲撮像系.(左)エリアイメージセンサ,(右)CMOS.
228
が,取得画像が全体的に暗くなってしまう問題が生じる.
そこで,各フレームを繋げる前に撮影した画像を何らかの
画像処理により補正する必要がある.
7.1.水平回転する撮像系のブレ
回転は水平方向のみであり,回転速度,カメラのシャッ
タースピード,画角が既知であるので,撮影画像 y とブレ
補正後の画像 s の関係は以下のようになり,M×N の歪み
行列 A の逆行列を求めることでボケを補正できる.
y = sA
図 6
⎡1
⎢M
⎢
⎢M
⎢
1
A=⎢
⎢0
⎢
⎢M
⎢M
⎢
⎣⎢0
CMOS イメージセンサの電荷蓄積.
6.CMOS を利用した全周囲立体映像取得系
Creative Technology Ltd 製の Web Camera の CMOS イメ
ージセンサを,図 7 のように,90 度回転させて固定した.こ
れにより,取得画像の垂直ラインが同期したラインスキャンカ
メラのようなものができる.このイメージセンサを,垂直方向を
軸とする回転円盤上に設置し,回転とともに撮影をし,各フレ
ームを繋げると全周囲立体映像を取得することができる.この
カメラのスペックを表 1に記す.ここでいう最大蓄積期間ズレ
とは,走査線の最初の行と最後の行での蓄積を開始する時
間のズレを指す.シャッタースピードと最大蓄積期間ズレは独
自に計測したものである.
図 7
0 L 0 1 L 1 1⎤
M 0
M M ⎥⎥
1
M O 0 M
1 M⎥
⎥
M L 1 0 L 0 1⎥
1 L M 1 L M 0⎥
⎥
M M O 0 M⎥
0
M
M M L 1 0⎥
⎥
0 L 1 1 L 1 1⎦⎥
(1)
(2)
ここで,M×M 行列 A の要素1の垂直方向の数 L はシ
ャッタースピードと最大蓄積時間ブレから求まり,今回使
用したカメラの画像では L=M×(10 / 20)となっている.
7.2.シミュレーション実験
Matlab 上で図 8(左)の画像(M=256)を L=31 でブレを生じ
させた画像(図 8 (右))を作成し,前節の方法で補正を行っ
た.結果は図 9 (左)のようになった.
CMOS を利用した全周囲立体映像取得系.
図 8 (左)元画像 (右)ブレ画像.
表 1 今回使用した CMOS イメージセンサのスペック.
画素数
フレームレート
シャッタースピード
最大蓄積時間ズレ
640x480
10-30[fps]
10[ms]
20[ms]
7.画像のブレとその補正
本手法では,CMOS を水平円盤上で回転させることで全
周囲立体映像を取得することを目指しているが,その取得
画像は,ある程度回転速度を上げることで motion blur を
含んだものになってしまう.例えば,画角 45°のカメラ
を 1rps の速さで回転させると,取得画像の垂直ラインは静
止時の画像の垂直ラインが 50 も重なったものとなり,非
常にブレを含んだ画像になってしまう.ブレを防ぐには,
一般にシャッタースピードを速くすることが考えられる
229
図 9 (左)逆変換後(L=31) (右)丸めた後,変換.
7.3.計算の信頼性
図 9(左)の画像は,いくつかの空間周波数成分によるノ
イズのため縞模様が入ってしまっている.これは,A のフ
ーリエ変換 H に現れるゼロ点のため,数値計算に誤差が生
じてしまうためである.実際,図 10に示すような H のパ
ワースペクトルが非常に小さくなる空間周波数に応じた
縞模様が図 9(左)で見て取れる.そこで,H のゼロ点を,
数値計算の精度が保障される最小値(今回のシミュレーシ
ョンでは 1.4×10^(-9))で丸め(置換し),変換すると,図
9 (右)が得られ,縞模様が消えていることが確認できる.
しかし,L の値を増やしていくと,図 11 のように影が入
ってしまう.
図 10 行列 H のパワースペクトル(縦軸は正規化している)
図 11 逆変換後の画像.(左)(L=64) (右)L=128.
8.結果
ブレ補正にブレの度合いを表した歪み行列 A の逆行列
を用いたが,実際に撮影した画像はノイズも含まれるため,
Wiener フィルタを用いるのが一般的である[14].Wiener フ
ィルタによるブレ補正を正確に行うには,歪み行列 A と取
得画像の S / N 比が必要であるが,本システムではどちら
も既知である.しかし,図 11のように L が大きいと正確
に補正ができなくなる.今回用いたカメラは L=128 と非常
に大きい値のため,正確に補正を行うことは難しい.しか
し,フレームレート 10fps,シャッタースピード 10ms,最
大蓄積時間ズレ 80m のカメラであれば,ブレ補正が行え
る L=31 程度の画像を撮影でき,今回提案した全周囲立体
映像取得系は実現できると考えられる.
9.おわりに
本稿では CMOS カメラの特性を利用した全周囲立体映
像取得系を提案した.回転撮像系は取得できる全周囲映像
のフレームレートを上げるには回転速度を上げることが
必要となりブレの問題が生じる.そこで,ブレ補正の観点
から必要なイメージセンサのスペックを見出し,実装の可
能性を探った.今後は今回の考察を元にカメラを選定し,
実装を行う.
230
参考文献
[1] K. Komoriya, S. Tachi, K. Tanie and M. Kaneko,
Tele-existence(I)-Design and evaluation of a
visual display with sensation of presence,
In
Proceedings of RoManSy, 84 The Fifth CISM-IFToMM
Symposium, pp. 245-254, 1984.
[2] S. E. Chen,
Quicktime VR - An Image-Based
Approach to Virtual Environment Navigation, In
Proceedings
of
SIGGRAPH
1995
Conference
Proceedings, pp. 39-46, 1995.
[3] C. Cruz-Neira, D. J. Sandin, T. A. DeFantil,
Surround-Screen
Projection-Based
Virtual
Reality: The Design and Implementation of the
CAVE, In Proceedings of SIGGRAPH 1993, Computer
Graphics Proceedings, Annual Conference Series, pp.
135-142, ACM, ACM Press / ACM SIGGRAPH, 1993.
[4] 廣瀬, 小木, 石綿, 山田:多面全天周ディスプレイ
(CAVIN)の開発とその特性評価, 信学論(D- II), Vol.
J81-D- II,No. 5,pp. 888-896,1998.
[5] 岩田洋夫:シームレス全周球面ディスプレイ, 日本
バーチャルリアリティ学会大会論文集 Vol. 3,pp.
155-158,1998.
[6] 橋本, 岩田:凸面鏡を用いた球面没入型ディスプレ
イ:Ensphered Vision, 日本バーチャルリアリティ学
会大会論文集, Vol. 4,No. 3,pp. 479-486,1999.
[7] I. E. Sutherland,
A head-mounted three
dimensional display, In Proceedings of the 1968
Fall
Joint
Conference,
AFIPS
Conference
Proceedings, Vol. 33,pp. 757-764,1968.
[8] E. H. Adelson, J. R. Bergen,
The plenoptic
function and the elements of early vision,
M.
Landy and J. A. Movshon, editors, Computational
Models of Visual Processing, MIT Press,pp. 3-20,
1991
[9] L. McMillan, G. Bishop, Plenoptic Modeling : An
Image-Based Rendering System,
Proceeding of
SIGGRAPH 1996,pp. 39-46,1996.
[10]S. J. Gortler, R. Grzeszczuk, R. Szeliski, M. F.
Cohen, The Lumigraph, Proceeding of SIGGRAPH
1996,pp. 43-54,1996.
[11]M. Levoy, P. Hanrahan, Light Field Rendering,
Proceeding of SIGGRAPH 1996,pp. 31-41,1996.
[12]F. Okano et al.
Real-time three-dimensional
pickup and display system based on Integral
Photography, Proceeding of SPIE, Conference on
Novel Optical Systems Design and Optimization II,
Vol. 3430,pp. 70-79,1998.
[13]H. Shum, L. He,
Rendering with concentric
mosaics, Proceedings of SIGGRAPH 1996, pp. 31-41,
1996.
[14]Image Processing Toolbox ユーザーズガイド, Wiener
フ ィ ル タ を 使 っ て , ブ レ 除 去 :
http://www.cybernet.co.jp/matlab/support/manual
/r14/toolbox/images/deblurr6.shtml