監視映像シーケンスの非定常度推定 - IRC 知能ロボティクス研究所｜ATR

監視映像シーケンスの非定常度推定
数藤恭子†
大澤
達哉†
小軍†
ウ
若林
佳織†
安野貴之†
† NTT サイバースペース研究所
横須賀市光の丘 1-1
† NTT サイバーコミュニケーション総合研究所
E-mail: †{sudo.kyoko,osawa.tatsuya,wu.xiaojun,wakabayashi.kaoru,yasuno.takayuki}@lab.ntt.co.jp
あらまし
監視業務の効率化を目的として，映像中に含まれる人物の動きに基いて非定常なシーケンスを
識別し，非定常性の定量的な指標を抽出する手法を提案する．多数のカメラから構成される監視システム
に適用するためには，特徴量には環境依存の知識を用いないことや，識別のための学習において教師デー
タを必要としないことが望ましい．本研究では，環境依存の知識を用いない特徴量として，映像時空間内
での変化領域を抽出して二値で表現し，主成分分析で次元圧縮したものを用いる．また，識別に１クラス
SVM による教師なし学習を適用し，非定常性を算出する．これらの結果を用いて映像を非定常性の度合い
の高い順に並べて提示することで，監視映像のスクリーニングの効果が期待できることを実環境を模した
監視映像による実験で示した．
キーワード
監視映像, 非定常検出, 1 クラス SVM Detecting the Degree of Anomaly in Security Video Sequences
Kyoko SUDO† , Tatsuya OSAWA† , Wu XIAOJUN† , Kaoru WAKABAYASHI† , and
Takayuki YASUNO†
† NTT Cyber Space Laboratories
1-1 Hikarinooka, Yokosuka, JAPAN
† NTT Cyber Communications Laboratory Group
E-mail: †{sudo.kyoko,osawa.tatsuya,wu.xiaojun,wakabayashi.kaoru,yasuno.takayuki}@lab.ntt.co.jp
Abstract The method to discriminate anomalous image sequences for efficiently watching monitoring
videos is proposed. Considering of applying systems composed of many monitoring cameras, the method
is required which is independent of the camera setting environment and the contents of the videos. We
propose a method that can discriminate anomalous image sequences for more efficiently utilizing security
videos. Considering the wide popularity of security cameras, the method is independent of the camera
setting environment and the contents of the videos. We use the spatio-temporal feature obtained by
extracting the areas of change from the video. To create the input for the discrimination process, we
reduce the dimensionality of the data by PCA. Discrimination is based on a 1-class SVM, which is a
non-supervised learning method, and its output is the degree of anomaly of the sequence. The method
is applied to videos that simulate real environments and the results show the feasibility of determining
anomalous sequences from security videos.
Key words monitoring video, anomaly detection, 1-class SVM
–1–
監視を想定した映像を用いた評価実験について述べる．
1. はじめに
近年，社会的不安の増加のためビデオカメラを用いた
2. 映像からの特徴量の抽出
自動監視システムの開発が盛んに行われている．カメラ
の低価格化，ネットワークやデータ蓄積技術の発達によ
2. 1 背景モデルの推定を用いた変化領域の抽出
り，多数の監視カメラ設置が可能になり，大量の映像デー
タがセンターに送られ蓄積されている．そうした映像を
人手で確認するには時間と労力を要するため，監視業務
の効率化のための画像処理技術が求められている．映像
確認作業における一つの重要な指標は，映像中の人物の
有無とその行動である．近年では監視映像を対象とした
顔検出や動領域抽出，人物追跡技術に力が注がれ，精度
のよい人物検出や追跡のための有効なアルゴリズムも提
案されている．これらの検出や追跡の技術を有効利用し
て行動パターンを解析し，非定常なシーケンスを検出で
映像監視技術では，一般的に画像の変化領域に基く特
徴量が用いられる [6]．特に非定常状態を検出するには人
物や物体の有無などが重要な情報となるため，変化領域
に基づく特徴量が有効であると考えられる．変化領域を
得る代表的な方法は背景差分である．そのほかフレーム
間差分，オプティカルフローなどを用いた抽出方法が用
いられるが，
「うろうろする」
「様子を伺う」など映像監視
で注目すべき不審な動きの中でも位置移動が少ない動き
を検出するのは困難であると考えられる．そこで本研究
では背景差分を用いることにする．
きれば長時間の監視映像のスクリーニングに有効である．
最終的な判断は人間の目視によって行われるようにする
のが現実的な方策であるため，判断する人間の手間が省
けるように非定常の度合いの高い順にシーケンスを並べ
変えて提示する方法を提案する．本研究は，そのために非
定常の度合の指標を定量的に抽出することを目的とする．
多数のカメラから構成される監視システムにおいて，
人手による確認作業を効率化するためには，カメラごと
の設定が不要であること，識別結果が定量化されている
安定して人物を検出するためには，環境の変化に追随
して背景を更新する必要がある．これには，背景を画素
ごとにモデル化し，画素の時系列データからモデルの推
定を行う方法が有効である．その一つのアルゴリズムと
して，本研究では Stauffer らの方法 [7] を採用する．背
景を混合分布モデルとして近似し推定することで定常的
な変化を吸収する．これに属するか否かにより新たな入
力画素が背景であるか前景であるかを区別して，背景と
前景の二値画像を出力する．
ことなどが求められる．そこで教師つきデータを必要と
入力映像の時刻 t における画素 (x, y) の値を Xt =
せず，非定常の度合い示す指標が得られるような識別手
I(x, y, t) とする．時刻 t における背景を k 個の正規混
法が適していると考えられる．教師なし学習による非定
合分布で近似し，これを構成する分布を νk,t とする．
常検出に関する従来研究は大きく分けて 2 つのアプロー
I(x, y, t) の νk,t−1 へのあてはまりの良さを求め，分布に
チがある．一つは，定常的な行動パターンをクラスタリ
属する場合には Mk,t = 1，属さない場合には Mk,t = 0
ングし，新たな入力シーケンスをクラスタリングされた
となる値 Mk,t を定める．あてはまりのよい分布ほど重み
パターンと照合し，クラスタリングの結果いずれのクラ
が高くなるように式 (1) によって分布の重みを決定する．
スにも属さないものを非定常とする方法 [1] [2] で，この
場合の出力は定常または非定常の 2 クラスである．もう
一つは，サンプルの分布が疎なものを非定常とする考え
方で [3]．サンプルの特徴空間での分布を学習し，分布か
らのはずれ具合によって非定常性を判定する方法である．
ある k について Mk,t = 1 となるとき，Xt は背景である
と判定され，このとき出力画素値を I 0 (x, y, t) = 0 とす
る．また，式 (2)(3) に従って分布 νk,t−1 のパラメータに
Xt の値を加えた更新を行い，νk,t のパラメータ µt , σt を
求める．更新の速さは α の値によって調整される．
分布からのはずれ点を検出するには，事後確率推定に基
づく方法 [4]，部分空間法を用いる方法 [5] などがある．い
wk,t = (1 − α)wk,t−1 + α(Mk,t )
(1)
µt = (1 − ρ)µt−1 + ρXt
(2)
ずれの場合も非定常の度合いを学習サンプルの分布との
距離などで定義することにより，定量的に表現すること
2
2
T
σt = (1 − ρ)σt−1 + ρ(Xt − µt ) (Xt − µt )
ができる．本研究では，1-class SVM を用いてはずれ点
(3)
ρ = αη(Xt |µk , σk ) (η はガウス密度関数)
となるサンプルの検出とそのはずれ具合の尺度の抽出を
Mk,t = 0 の場合には I 0 (x, y, t) = 1 とする．以上の過程
行う．
以下本稿では，第 2 章において，識別特徴量の抽出方
において二値画像列 I 0 (x, y, t) (t = 1, 2, · · · , T ) を得る．
法，および 1 クラス SVM を用いた非定常性の指標の抽
2. 2 時空間情報をもつ特徴量の生成
出方法を説明する．第 3 章では，銀行の ATM における
次に，変化領域の二値画像を時間方向に並べた時空間
的な形状の特徴を特徴量として抽出する．時空間的な特
–2–
徴を扱う場合，次元数が膨大となるため，次元数を削減
したうえで効率的な識別処理を行なうことが望ましい．
従来研究では，時空間特徴による異常検出において固有
I 0 (x, y, t)
···
I 0 (x, y, t + N )
I(x, y, t)
···
I(x, y, t + N )
空間におけるマッチングを行うことで効率化を図ってい
る例がある [8]．また，映像の類似シーン検索を行なう研
変化領域抽出
-
究 [9] において，主成分分析を用いて長時間映像を段階的
に次元圧縮する方法が示されている．本研究では，対象
とする映像から変化領域の二値画像を抽出した後，主成
(a)
分分析によって次元数の削減を行う．処理対象とするす
べてのフレームについて一定の寄与率以上の主成分によ
I 0 (x, y, t) · · ·
I 0 (x, y, t + N )
る低次元のベクトルを抽出する．
変化領域画像の主成分の時系列を時間的に区切って識
別のための特徴量とする．区切り方は，連続して変化が
みられるフレームをひと区切りとして抽出するか，固定
f (t)
6
p×N
x×y
···
?
のフレーム数に区切ることが考えられる．前者の場合，
F (t) · · · F (t + N )
主成分分析
- p6
? A · ·A·
6©F·(t)
··
F (t + N )
- ?©
シーケンスごとにフレーム数は異なるため，特徴量の次
(b)
元数が一定しない．そこで，後者の方法を用いることに
する．
以上の流れを図 1 を用いて説明する．図 1(a) において，
入力映像をサイズ x × y の画像の時系列 I(x, y, t) とする．
N フレーム分の時系列 I(x, y, t) · · · I(x, y, t + N ) から識
別のための特徴量を生成する．始めに変化領域を前景とす
図 1 時空間情報をもつ特徴量の抽出方法．(a) 入力映像をサ
イズ x × y の画像の時系列 I(x, y, t) とする．N フレー
る二値画像 I 0 (x, y, t) · · · I 0 (x, y, t + N ) を得る．図 1(b)
ム分の時系列 I(x, y, t) · · · I(x, y, t + N ) から識別のため
において，I 0 (x, y, t) を x × y 次の一列のベクトルとして，
の特徴量を生成する．始めに動領域を前景とする二値画
全フレームから得られたベクトルを用いて主成分分析を
像 I 0 (x, y, t) · · · I 0 (x, y, t + N ) を得る．(b)I 0 (x, y, t) を
行う．p 個の主成分を用いて，各フレームの情報を p 次に
x × y 次の一列のベクトルとして，全フレームから得られ
圧縮したベクトルの列 F (t) · · · F (t + N ) を得る．これを
たベクトルを用いて主成分分析を行う．p 個の主成分を用
一列に並べたベクトルを時刻 t における特徴量 f (t) とす
いて，各フレームの情報を p 次に圧縮したベクトルの列
F (t) · · · F (t + N ) を得る．これを一列に並べたベクトル
る．以上の手順で元の画像の I(x, y, t) · · · I(x, y, t + N )
を時刻 t における特徴量 f (t) とする．
に対応して特徴量 f (t) を得る．次の特徴量は最初のフ
レームを s(< N ) フレームずらし，元の画像の時系列
I(x, y, t + s) · · · I(x, y, t + s + N ) に対応して f (t + s) を
として利用することにする．ドキュメントの分類への適
生成する．このように，時間方向に N フレーム分の情報
用，[10] ，発電所のセンサ出力監視への適用 [11] などの従
をもった特徴量を開始位置を s フレームずつずらしなが
来研究があるが，監視映像からの非定常検出への 1 クラ
ら生成する．
ス SVM 適用については，特徴量やパラメータをどのよ
うに用いると効果的であるか知られていないため，今後
3. 非定常性の指標の抽出
検討の必要がある．
本研究では，特徴空間におけるはずれ点を非定常とみ
3. 1 1 クラス SVM
なし，多くのサンプルを含む領域からはずれている度合
いが大きいほど非定常性が高いとする．多くのサンプル
1 クラス SVM [12] [13] は，ガウシアンカーネル
2
を含む領域を求めるために，1 クラス SVM を用いる．1
K(xi , x) = exp(− ||xiσ−x||
) を用いて特徴空間への写
2
クラス SVM は，ガウシアンカーネルを用いて特徴量を
像を行うと，入力空間で他から孤立しているはずれ点は
写像した高次元特徴空間において，はずれ値が原点付近
高次元特徴空間の原点近くに写像されるという性質を利
に寄る性質を利用した 1 クラスの識別器である．主に
用している．式 (2) を識別関数とすると，式 (3) を解く
外れ点検出に利用される手法だが，集合からのはずれ具
ことにより，あらかじめ決められた割合 ν のサンプル群
合が数値として求まるため，これを非定常の度合の指標
が原点側に残るように原点とサンプル群を分けるような
超平面が求められる．
–3–
レビドラマなどで用いられている，普通の銀行の ATM
と同様のスタジオセットにて撮影したものである．カメ
識別関数 f (x) = sign(ωΦ(x) − ρ)
1
1
min
||ω||2 +
Σi ξi − ρ
2
νn
< ρ − ξi , ξ i <
制約条件 ωΦ(xi ) =
=0
w∈F,ξ∈Rn ,ρ∈R
(4)
ラは，通常多くの実際の銀行 ATM におけるカメラの設
置環境と同じく地面から約 2m の高さに設置されており，
(5)
ATM の利用者が頭上斜め上から撮影される．以上のよ
うに，撮影環境（撮影場所とカメラの設置条件）は実際
のものと同じである．
式 (2) と式 (3) のカーネルトリックによる非線形への拡
張はそれぞれ式 (6)，式 (7) となる．
次に，カットの撮影方法を説明する．提案手法の評価
に用いるため，長時間映像のすべての時刻に定常または
非定常の正解ラベルがつくように製作した．定常のカッ
トと，非定常として想定されるカットをあらかじめシナ
識別関数 f (x) = sign(Σi αi K(xi , x) − ρ)
(6)
リオ生成し，区別して撮影した．登場人物はすべて肖像
権を確保した役者であり，シナリオに基づいて行動する．
1
最適化する関数 minα Σi,j αi αj K(xi , xj )
2
1
制約条件 0 <
= αi <
= νn , i = 1, · · · , n
Σn
i=1 αi = 1
人がキャッシュディスペンサーに近寄り，引き出しや入金
(7)
などの操作を行い立ち去る一連の動作を定常なカットと
し，携帯電話による暗証番号盗撮や，ゴミ箱からの明細
持ち去りなどを非定常のカットとした．
1 クラス SVM は，式 (7) を最適化することにより，原点
とすべてのサンプルが最も離れるような識別軸を決定す
る．このとき，あらかじめ設定したパラメータ ν によっ
て決まる割合のサンプルがはずれ点となる．
次に，こうして撮影された複数のカットを編集した．
40 個の定常カットに 10 個の非定常カットを挿入して編
集し，全 30 分の映像とした．映像は毎秒 30 フレームで
デジタルビデオテープに記録し編集を行った後，処理を
行った．
4. 2 実験条件
3. 2 非定常性の定量化
処理対象としたオリジナルの映像は 640 × 480 画素，毎
特徴空間において，あるサンプル x と x 以外のすべて
秒 30 フレームの映像で，これを 160 × 120 画素に縮小し
の点の距離が離れているとき，式 (6) の識別関数 f (x) 中
て処理を行った．30 分間の映像 54000 フレームについて，
の Σi αi K(xi , x)−ρ の値は小さくなる．Σi αi K(xi , x)−ρ
15 フレームおきに時空間特徴を求め，3600 サンプルの入
が負の時，そのサンプル x は非定常となる．そこで，非
力特徴ベクトルを生成した．二値画像列の生成方法にお
定常と識別されたサンプルについて，|Σi αi K(xi , x) − ρ|
いて，各画素の背景モデルの混合分布の分布の数 K を 5，
（以下 = |g(x)|）の値を非定常性の指標として用いること
にする．|g(x)| が大きいほど非定常性が高いことになる．
非線形変換のため，g(x) の大小と元の特徴空間でのサ
式 (1) の α を 0.01 とした．識別特徴量生成の方法にお
いて，処理する各フレームのサイズは x = 160, y = 120，
1 つのサンプルを生成するために用いるフレーム数は
ンプル同士の距離の関係は不明であるが，Scholkopf は
N = 500，サンプルを生成する時間間隔は s = 15 とした．
実験によって，ν の値を変化させたとき，識別境界が分
1-class SVM による処理においては，ガウシアンカーネ
布のまとまりの中心から等高線状に変化する様子を 2 次
ルの σ の値を 0.01，非定常として検出するサンプルの全
元特徴量のデータを用いて示している [12]．本研究にお
サンプルに対する割合 ν の値を 0.05 とした．
いては，2 次元データを用いた予備実験を行い，ν の値の
4. 3 結
果
大きさと分布の中心からの外れ具合について順序性がみ
まず特徴抽出においては，カメラ視野に人の出入りが
られることを確認した．また，σ の値は今回は固定値と
途切れない場合や，人の動きが画面内で一時的に停止し
し，予備実験の際に適切な値を設定した．式 (5) におけ
た場合のどちらに対しても安定して変化領域を抽出する
る ν の値は，はずれ点の割合を示すため，全データの何
ことができた．処理対象とした入力映像と，対応する変
%を非定常とするかをユーザが設定することができる．
化領域抽出結果の一例をそれぞれ図 2，図 3 に示す．次
4. 実
に，30 分間の映像 (30 フレーム/秒，全 54000 フレーム)
験
からの非定常度の推定結果を図 4 に示す．横軸は時刻 (フ
4. 1 入力データ
レーム) で，縦軸は各時刻における特徴量を識別器に入力
提案手法の有効性を確認するため，実験用の監視映像
した結果の数値を示す．g(x) < 0 となる時刻のサンプル
を用いた評価実験を行った．実験用の監視映像とは，テ
が非定常サンプルとして検出された．元の映像には無人
–4–
と 10 個のカットが検出され，このうち 8 個は非定常とし
て正解付けされたものであった．
図 5 に実験の結果得られた非定常なカット 3 種類の例
と，定常なカットの一例を非定常度の度合いとともに示
す．以上の結果では，非定常として想定したカットを提
案手法によって良好に抽出することができた．
今回非定常シーケンスについて得られた非定常性の数
値については，現段階では定量的な評価は行っていない
が，おおむね直感と近い結果が得られた．本提案手法に
図 2 処理対象とした映像の 1 フレーム．
より識別される非定常シーケンスが実際に人の主観と近
いものであるかどうか，評価の手法も含めて今後の検討
が必要である．
検出される非定常シーケンスの全シーケンスに対する
割合は，1 クラス SVM のパラメータ ν の値によってあ
らかじめ設定する必要がある．本研究では，人が最終的
に見てチェックする監視映像のスクリーニングとして，注
図 3 背景モデル推定により，図 2 の元画像から抽出した変化
領域の二値画像．
目すべきシーケンスから順番に並べ替えて提示するよう
なアプリケーションを想定しいるため，ある一定の時間
0.3
区間およびその中から優先的に閲覧したいデータ数の割
anomal sample
合を (ν によって) ユーザが指定するという使い方は妥当
0.25
である．
0.2
g(x)
0.15
5. おわりに
0.1
映像監視への適用を目指した非定常度推定手法を提案
0.05
した．多数のカメラから構成される監視システムに用い
0
るため，特徴抽出において，カメラの設置場所に依存し
-0.05
た知識を用いずに元の映像そのものの情報に近い時空間
-0.1
特徴量を用いることと，非定常度の推定において，あら
0
10000
20000
30000
frame
40000
50000
60000
かじめ定常と非定常の教師データを必要としない 1-class
SVM を用いた教師なし学習を行なうことを特徴とする．
図 4 30 分間の映像 (30 フレーム/秒，全 54000 フレーム) か
らの非定常度の推定結果．
横軸は時刻 (フレーム)．縦軸は各時刻における特徴量を
識別器に入力した結果の数値を示し，g(x) < 0 となる時
刻のサンプルが非定常サンプルとして検出される．映像
あらかじめ定常と非定常のラベルづけを行い編集した
監視シミュレーション映像に対し，上記の手法を適用す
る実験を行い，映像シーケンスの非定常度を推定した．
その結果，非定常とラベルづけされた 10 種類のカットの
に変化領域がない領域から生成されたサンプルは識別器
うち 8 種類のカットは非定常度の高いシーケンスとして
への入力を行わないため，g(x) の値は出力されない (横
検出された．おおむね直感に近い結果が得られているこ
軸が 11000∼13000 の領域，32000∼39000 の領域)．
とから，監視映像のスクリーニングとして利用できる可
能性が示唆された．今回用いた正解データは定常・非定
のシーンも含まれており，今回は識別特徴量生成の際の
常の区別のみであるが，今後非定常の順序についての評
入力映像フレームがすべて無人の領域から生成されたサ
価が必要である．また，逐次学習のアルゴリズムを導入
ンプルは識別器への入力対象外とした．実際に識別器に
することによって，オンライン的な使い方に拡張してい
入力されたサンプル数は 2333 サンプルであった．識別実
くことが今後の課題である．
験の結果は，124 サンプルが g(x) < 0 となった．その中
に，非定常ラベルがついた 150 サンプルのうちの 98 サ
ンプルが含まれた．非定常として検出されたサンプルの
うち，時間的に連続しているものは一つのカットとする
–5–
文
献
[1] G. L. Foresti:“A Real-Time System for Video Surveillance of Unattended Outdoor Environments”, IEEE
[2]
[3]
[4]
(a)
[5]
[6]
[7]
(b)
[8]
[9]
[10]
[11]
(c)
[12]
[13]
(d)
図 5 非定常として検出されたシーケンスの代表フレームと，定
常の 1 シーケンスの代表フレームの例.
(a)∼(c) は非定常として検出されたカットの 1 フレー
ム.
非定常性の数値はそれぞれ (a) |g(x)| = 0.03,
(b) |g(x)| = 0.02, (c) |g(x)| = 0.001．内容は (a) は
ゴミ箱から明細を取る不審者．(b) はカードを取り忘れて
振り向く女性．(c) は端末利用者が横に置いた財布を取る
不審者．(d) は g(x) > 0 となる定常なカットの一例の 1
フレーム (g(x) = 0.11)．
–6–
Trans. on Circuits and Systems for Video Technology,
Vol. 8, No. 6, pp.697–704, 1998.
Z. Fu, W. Hu and T. Tan: “Similarity Based Vehicle Trajectory Clustering and Anomaly Detection”,
Proc. IEEE International Conference on Image Processing, ICIP2005.
I. Steinwart, D. Hush and C. Scovel, : “A Classification Framework for Anomaly Detection”, Journal of
Machine Learning Research 6, PP. 211–232, 2005.
横井：“画像に基づく監視ロボットのための異常検出手
法”, 信学技報 PRMU2004-144, pp. 61–66, 2004.
T. Nanri and N. Otsu: “Unsupervised Abnormality
Detection in Video Surveillance”, Proc. IAPR Conference on Machine Vision Application, pp. 574–577,
2005.
W. Hu, T. Tan, L. Wang: “A Survey on Visual
Surveillance of Object Motion and Behaviors”, Proc.
IEEE Trans. on Systems, Man, and Cybernetics
Part C, Vol. 34, No. 3, pp.334–352, 2004.
Stauffer, Grimson ：“Adaptive background mixture
models for real-time tracking”, IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, Vol.2, pp.246–252,1999.
室谷，大矢，油谷，：“固有空間法を用いた警備ロボット
のための異常検出”, 日本機会学会講演会論文集，No.
1P1-68-098，2000.
野田，目加田，井手，村瀬：“特徴次元圧縮による長時間
映像中における同一区間映像の高速検出法”, FIT2004，
No. I-039, 2004.
L.M.Manevitz and M.Yousef: “One-Class SVMs for
Document Classification”, Journal of Machine Learning Research 2, pp.139–154, 2001.
小野田, 村田, 山名, 清水, 野邊, 村川：“One Class SVM に基づく水力発電所軸受異常振動の予兆発見 (1)”,
第 18 回人工知能学会全国大会，2F2-01, 2004.
B. Scholkopf, J. C. Platt, J. Shawe-Taylor, A. J.
Smola and R. C. Williamson: “Estimating the support of a high-dimensional distribution”, Neural
Computation 13, pp.1443–1471, 2001.
麻生, 津田, 村田：“パターン認識と学習の統計学”, 岩波
書店, 2003.

Download Report