映像編集支援システムのための使用可能ショット自動抽出

社団法人
電子情報通信学会
信学技報
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
TECHNICAL REPORT OF IEICE.
映像編集支援システムのための使用可能ショット自動抽出
熊野
雅仁y
有木
康雄y
y 龍谷大学理工学部
〒
520{2194 滋賀県大津市瀬田大江町横谷 1{5
デ ィジタル時代の到来により,映像コンテンツの不足が問題となっている.この問題を解
決するためには,映像コンテンツの制作において最も時間を必要とする編集作業の効率化が必要で
ある.編集を行うためには,カメラマンが撮影した素材映像から放送映像に使用可能なショット区間
を抽出する必要がある.この作業は,編集作業の中で大半を占める非効率的な部分である.そこで、
本論文では,素材映像から放送用に使用できる映像の区間を推定し,ショット区間を自動抽出する方
法を検討する。
あらまし
キーワード
映像文法、映像編集、素材映像、ショット
Automatic Usefull Shot Extraction for a Video Editing Support System
Masahito KUMANOy and Yasuo ARIKIy
y Faculty of Science and Technology, Ryukoku University
1{5 Yokotani, Seta-Oecho, Otsu-shi, Shiga, 520{2194 Japan
Abstract In the coming digital age, a lack of video contents makes a serious problem. To solve
this problem, an eÆcient video editing is required because it consumes a lot of works. To do the
video editing, useful shots have to be extracted from raw video materials for broadcasting. The shot
extraction is uneÆcient and occupies the most part of the video editing. This paper proposes a
method to automatically extract the useful shots.
Key words Video grammar, Video editing, Video material, Shot
|1|
1.
はじ めに
客観的
注目人物との感情的な距離
主観的、親近感
人 に 関 す るシ ョ ッ ト サ イ ズ
ディジタル放送時代を迎え,映像コンテンツの制作
Full figure Knee
Waist
Bust
Tight bust Close up
Up
者側では,放送の多チャンネル化やインタラクティブ
(α)
TVなど ,新たなサービスへの対応を迫られている.
LS
(β)
これを受けて,これまで以上に大量の番組作成が必
(γ)
LS
MS
LS
MS
TS
MS
TS
TS
要とされているだけでなく,新しいサービス向けの索
引情報の埋め込みなど,その作業は増大し,複雑化し
注目対象の全体像
ている.映像コンテンツ提供者がこうした問題に対
応していくためには,従来より効率的な番組制作技
術,または新しいコンテンツ制作技術の開発が必要
となる.アナログ時代,ディジタル時代を問わず映像
注目対象、焦点
人以外のショットサイズ
図 1 ショットサイズと相対的関係
Girgensohn ら [5] は,ホームビデオ用の素材映像か
の制作において最も時間を要する作業は編集である.
ら編集に適した区間を選択し ,半自動的な編集シス
従って,従来より効率的な番組作成を行うためには,
テムを提案しているが,不適切な区間の判定につい
この映像編集作業を効率よく行う必要がある.
ては,明るさについての不適合度を用いるに止まって
一般大衆向けの放送用映像では,番組制作者の意
いる.また,土橋ら
[6] は,MPEG2 の動きベクトル
図を正確に伝え,誰もが誤解せず,自然に受け入られ
を用いてカメラワークの手ぶれ区間を推定している
る映像表現を重要視している.このような映像表現
が,手ぶれ以外の問題については言及してない.本
は,熟練した技術者による長年の経験によって培われ
論文では,フェーズ3に引き渡すクリップの集合を
た基本技法であり,映像文法と呼ばれる
生成するまでの要点をまとめ,諸問題について述べ,
[1] [2].我々
はこの映像文法に着目し ,編集作業の効率化を目的
として,映像文法を用いた映像編集支援システムの
開発に取り組んできた
[3] [4].
使用可能・不能区間の推定法について報告する.
2.
映像用語と映像文法
ところで,我々が開発に取り組んできた映像編集支
ここでは,クリップと使用不能区間について定義を
援システムでは,カメラマンが撮影した素材映像を
行うが,ショットやカットなどを含め,海外から輸入
受け取った時点から,映像を完成させるまでの作業,
された映像関連用語は国内で誤用されていたり,造語
つまりこれまで編集者が行ってきた作業を,以下の
ような3つのフェーズに分けている.
:
フェーズ2:
フェーズ3:
フェーズ1
[7],概念が統一されて
いない.本論文では混乱を避けるため,文献 [5] [7] [8]
が定着している場合などがあり
素材映像の解析と索引付け
に従って,本論文内でのショット,ショットサイズ,ク
クリップ
リップ、カットについて定義を行い,素材映像の特徴
(2. で解説) の切り出し
映像編集支援部
我々のアプローチでは,フェーズ1,2の完全自動
2.
とフォローについて述べる.
2. 1
ショット とショット サイズ
化を目指し,フェーズ3では, で説明する接続可能
映像は実世界を四角い枠(フレーム)で切り出した
なクリップの候補だけを編集者に一覧表示する.こ
記録物である.ショットはこのフレームを通して見え
れにより,編集者は,非効率なフェーズ1,2の作業
る,構図や撮影対象に依存した時間方向にとぎれの
から解放され,フェーズ3内で,映像表現の要となる
ない連続した区間であり,映像の最小単位と定義され
クリップの接続と,時間長の調整のみに作業を集中
る.国内ではこれをカットと呼んでいる場合もある
することが可能となる.ここで,接続可能なクリップ
が,ここではショットと呼ぶ.フレームが動くと構図
とは,放送用に使用可能な映像の区間であるが,素
が変化することになるが,映像文法では面積の
材映像中には放送用として使用できない使用不能区
変化が起これば異なるフレームであるとされている.
間も存在する.使用不能区間とは,手ぶれや取り直
つまり,ショットも異なるものとなる.このショット
しに関わるカメラワークの不安定な区間,もしくは,
の違いを表現する1つの指標にショットサイズがある.
カメラパラメータの調整や,意図した撮影区間の前
図 は,人に関するショットサイズ(索引付けの方法
5%の
1
影開始の合図を行う際のカメラマンの手が入った区
[9] にて報告している)と人以外のショッ
トサイズ(自動付与法については [4] にて報告してい
間や,撮影の行われていない区間などもある.
る)について例が示されている.
後にあるカメラの撮影方向調整区間である.また,撮
については
|2|
表 1 映像文法抜粋
rule(1): シーンの冒頭はマスターショット (シーンの全 rule(6):
体像:通常 LS) で始める
rule(2): MS と MS は接続できない
rule(7):
rule(3): TS と TS は接続できる
rule(8):
rule(4): 同じ被写体で同じショットサイズは接続できな rule(9):
い
rule(5): ショットサイズの急激な変化 (LS-TS) は避ける rule(10):
Clip1
Type2
FIX
PAN
カメラワークの前後には1秒以上のフィックス
が必要
カメラワークは安定していること
被写体が静止しているフィックスは 15 秒まで
LS は 6 秒,MS は 4 秒,TS は 2.5 秒程度の長
さとする
シーン中最初と最後のショットは 2 秒増やす
Clip2
Clip3
FIX
Clip4
ZOOM
Type1
LS
FIX
FIX ZOOM
TS
×
FIX
TS
MS
○
○
図3
図2
MS
クリップの接続判定
.
起すズームに大別される カメラワークが起こってい
クリップの種類
ない部分はフィックスと定義する
.
ショットサイズは,フレーム内に占める被写体の
Type1 は,ショットと等価である.つまり,Type1
大きさ,見方を変えれば被写体とカメラ 映像を見る
のクリップを切り出すことはショットを切り出すこと
側 との距離を表しており,タイトショット
に相当する.しかし ,
(
)
ドルショット
(TS),ミ
(MS),ルーズショット (LS) に分類され
Type2 は,カメラワークを挟
んで2つのフィックスが存在する.ショットは構図が
る.これらは,相対的な分類であり,あるショットよ
変われば異なるショットであるため,変化が起こって
り被写体に近寄ったショットをタイトショット,引い
いるパンやズームの途中では,通常ショットを定義で
たショットをルーズショット,両者の中間となるショッ
きない.それゆえ,カメラワークを含んだクリップ
トをミドルショットと呼ぶ.図 中,
は,カメラワークの前後に1秒以上の異なるショット
において,
を2つ持つことになる.フェーズ3では,表
らず,ショットサイズが異なる.このように,ショッ
す
1
(),( ) の関係
Waist shot は同じ 構図であるにもかかわ
トサイズは3つのショットを比較して初めて定義でき
るショットの分類指標である.
ショットサイズの利用法として,人の場合は心理的
1 に示
rule(1) から rule(5) などの映像文法を用いて,図
3 のようなクリップど うしの接続判定が行われる.例
えば Clip1 と 2 は rule(5) に従い接続できない.
クリップについてはもう1つ,ショットの時間長と
1
rule(8),(9),(10)
な描写に使われる.また、物体の場合は対象の全体像
いう重要な要素が存在する.表 中,
を伝えたり,焦点をどこにあてるかといった表現,ま
がショットの時間長に関する映像文法である.シーン
た実際には1年の話を 分の世界に縮める際,ショッ
内に1つしかクリップが存在しない場合はショットサ
トサイズの変遷によって時空間の抽象化を表現する
イズが定義できない.しかし,複数のクリップが存在
など ,ショットサイズは映像表現において重要な役割
する場合,ショットサイズと時間長に関する
を担う.また,ショットの時間長にも映像を及ぼすた
よって
め,時間方向のリズムにも影響を与える 表 の映像
ム内に多くのものが写っているほど ,情報量が多く,
文法,
見る側はその情報を理解するのにより時間を必要と
1
( 1
rule(9)).
2. 2
クリ ップ
[5] では,素材映像から切り出した映像の区間
rule(9) に
Type1,Type2 共にこの制約を受ける.フレー
する.つまり,3つのショットサイズで比較した場合,
をクリップと呼んでいる.本論文ではこれに従う.た
1 rule(6) により,図 2 のよう
に,カメラワークに依存した,少なくとも 2 種類の
LS の情報量が最も多いため時間長が長いのである.
rule(9) はそれを反映したものであり,時間長は経験
だし ,映像文法の表 ,
により定まった値である.
クリップが考えられる.ここでいうカメラワークと
あり,あらかじめこれに対応することはできない.つ
は カメラの軸位置を固定した上でカメラの撮影方向
まりフェーズ3の編集作業では,クリップの切り出し
を変化させるパン チルトはパン動作の中で上下の動
区間変更要求に対し ,該当区間が使用可能であるか
作に特化した呼び方であり ここでは使用しない ま
ど うかに応答するための索引情報も必要となる.
文献
,
(
,
),
rule(10) は,編集を行う際の決定事項で
ところで,
たカメラのレンズ操作による撮影対象の拡大縮小を
|3|
Camera shake
Camera adjustment
failure
Blank
Cut Point
Cut 1
Shot1
Shot Size
TS
Duration
Camera work
Scene
Cut 3
Cut 2
Shot2
Shot3
TS
TS
Shot4
LS
Shot5
Shot6
MS
MS
Shot7
MS
shot8
Shot9
MS
MS
Useless
PAN
right
left
PAN
up
down
ZOOM
in
out
Clip1
-1Clip1
-2 Clip1
-3
Clip2
Clip3
Clip4
-1
Clip4
-2
Clip4
-3
図 4 素材映像の特徴
2. 3
図
素材映像の特徴とカット
4 は,素材映像の特徴を簡易的に示したもので
れたまま複数のショットやそのリテイクを撮影する場
合もある.すると,放送用映像として意図して撮影
ある.素材映像にはカット点やカメラワークが存在
した区間とそうではない区間が存在することになる.
する.パンやズームがなく,カット点を含まない連続
例えば
る意味を持っている.素材映像上のカット点は,カメ
Shot3 は,カメラマンが Type1 のクリップを
想定して撮影したショットである.次に,続けて LS
を撮影しようとすると,ズームが必要である.Shot3
と Shot4 の間にあるズームは意図して撮影したズー
ラのスイッチをオン・オフしたことに相当する.この
ムではなく,無造作に動かした結果か位置調整であ
カット点とカット点で挟まれた区間を本稿ではカット
る.これは
と呼ぶことにする(これは国内で広まっているが,国
である.このように意味のあるカメラワークとそう
外では通用しない).一方,完成された映像のカット
ではないものを判別する必要がある.
した区間がフィックスであり,ショットとなる.
このカット点は放送用として完成された映像と異な
点は,ここでいうクリップの開始点と終了点である.
4
図 における素材映像中の
Cut1 や Cut2 は,単独
のショットごとにカメラをオン・オフしているもので
Shot1 と Shot2 は同じ
ショットの取り直し( リテイク)である.この Shot1
を 8 秒だとすると,LS なら1つのクリップしか取り出
せないが,TS の場合は2つのクリップを取り出すこ
とが可能である.カメラマンが Shot1 を1つのショッ
トとして撮影したとしても,編集段階で Shot1 から
ある.特に,このカット内の
Shot4 と Shot5,Shot7 と Shot8 間も同様
4 の PAN・ZOOM に関して,縦方向
は変化量の大きさを表している.PAN については
right:left と up:down に分け,それぞれ中央の線を0
として正負の変化量を知ることができる.ZOOM の
場合は in:out の倍率である.例えば Clip4-1 の枠内に
ここで,図
あるパンは,右パンから左パンに急激な変化を起こ
していると見ることができる.この
Clip4-1 にあるパ
ンは,意図して撮影しようとしたが,カメラマンが気
に入らなかったのか,カメラを引き戻した結果であ
Clip4-1 は rule(7) に従い使用できな
2つのクリップを取り出すということは間違いでは
る.その意味で
ない.このように,カメラマンが意図したショットと
い.こうした放送用には使用できないカメラワーク
編集者が切り出すクリップが異なる場合がある.ま
Shot2 には両端に手ぶれの区間がある.TS であ
るため,使用可能区間として Clip1-3 の範囲が 2.5 秒
た,
4
で上下反転するなどの特徴を持つ.しかし ,Clip4-3
は通常,急峻かつ不安定な動きをしていたり,図 上
は,上下反転をしているにもかかわらず,使用可能な
取ることができれば,ぎ りぎ り候補として採用でき
カメラワークである.これは皿をなめるように円運
る.しかし,これがシーンの最後のショットとなった
動する特殊なパンを行っている区間である.これ以
場合は手ぶれ区間に掛かり, 秒増やすことができな
外にも,カメラの感度調整や照明の調整,合図と考え
いため,候補からはずれることになる.この場合は
られるカメラマンの手が横切る区間なども存在する.
2
Shot2 が Shot1 のリテイクであるため,同じショット
である Clip1-1 や Clip1-2 で代替えが可能である.
また,カメラマンは,Cut3 のようにスイッチを入
Clip4-2 にあるパンは正常であるが,パ
ところで,
ン後に手ぶれ区間が存在している.通常これは使用
できないが,このクリップのリテイクがない場合,手
|4|
ぶれの度合いが小さければ採用する場合も想定でき
Material Video
る.この場合は,手ぶれの区間検出だけでなく,どの
程度の手ぶれであるかを示し,使用可能なクリップに
A
ついてスコアを提示するといった対処法も考えられ
る.あるいは,手ぶれを除去する処理も考えられる.
2. 4
B
Blank
extraction
Blank section
List
フ ォロー
Cut Point
extraction
Cut section
List
フォローとは,撮影対象を追いかけて撮影するこ
D
Follow
discrimination
とであるが,大きく分けて以下の2つが想定できる.
1: カメラを固定し,パンやズームで対象を追跡
2: カメラマンがカメラを担いで対象を追跡
ラを担いで撮影しているため,カメラが絶えず動い
F
Unsuitability
discrimination
Index
図5
れまでの映像文法をそのまま適用してクリップを検
2:
E
Continuous
section
extraction
Follow section
Other sectionUseful section
Useless sect
List
List
List
List
フォローを行っている場合のパンやズームにはこ
出することが困難である場合が多い. の場合はカメ
C
Camera work
analysis
3.
索引情報生成過程
使用可能・不能区間の推定
る状態と見た目で同じとなる.特に今回扱っている
5 は,使用可能・不能区間を特定し ,索引情報
を生成するまでの処理過程を示している.A は,ブ
料理番組用の素材映像では,調理シーンでフォロー
ランクを検出して区間リストを生成する処理である.
ており,映像的にはパンやズームが頻繁に起こってい
図
とは困難である.今日のカメラワーク検出技術では,
B は,カット点検出を行い,カットの区間リストを生
成する.C はカメラワークの解析部である.D は,A
と C の結果をもとに,ブランク以外のカットについ
てフォローであるかを判定する処理である.E は,C
の結果と,D で生成されたフォロー以外のカット区間
いずれの方法を用いても,本質的にこの問題に対処
リストを受け取り,カットごとにカメラワークのまと
できない.
まった部分を抽出する処理である.このまとまりに
がよく使われている.このとき,対象はフレーム内
で大きい領域を占め,なおかつ動いており,カメラマ
ンはその対象を追いかけているため,カメラが動い
ているのか対象が動いているかについて判定するこ
1:
また, の場合でも,レポーターが料理を食べなが
は正常なカメラワークの区間,無造作なカメラワー
ら話している場合,レポーターをフレーム内に収め
クの区間,手ぶれの区間などが含まれる. は, で
るよう若干のパンやズームを行う場合や,パンとズー
得られたまとまりごとに,手ぶれ区間検出やカメラ
ムを併用したパン・ズームにより,レポーターから料
ワークの不安定性を評価し,使用可能・不能な区間の
理長へカメラを向け,そのまま料理長が話すような
リスト生成する.
F
E
素材映像に対するカット 点検出
ものもある.この場合も被写体を追いかけている影
3. 1
響で微妙なカメラワークが発生している.
編集支援システムでは素材映像が得られてから編
このように,映像が絶えず動いていると,ショット
集処理に至るまでの処理時間は短いことが求められ
の定義だけでなく,パンやズームも同様に定義があい
る.カット点検出については,数多くの方法が報告
まいになる.これは表 の
されている
なカメラワークではなく,無造作ではあるが,意味が
れば方法論はかぎられてくる.我々は,フラッシュな
ない訳ではない.また,レポーターをフォローしてい
ど の瞬時的な変化に対応し ,比較的高精度で実時間
るシーンでは,レポーターが発話していたり,意味の
処理可能な方法として,ヒストグラムインターセク
ある動作をしている場合がある.このようなシーン
ション
では,映像文法の
検出法を提案している.バッファリング手法は,音声
1 rule(6)(7) が意図するよう
rule(6) のように,カメラワークの
前後,例えば1秒の点で単純にクリップを切り出すこ
とはできない.なぜならその点でレポーターが発話
中である可能性があるからである.現在,フォロー内
でクリップを切り出すのに有効な規則がなく,本論文
ではフォローが撮影されるカットを特定するに止め,
クリップの抽出については今後の課題とする.
[10] が,処理速度と精度の高さを考慮す
[11] とバッファリング手法を併用したカット点
の研究領域で異なる話者の区間検出法として知られ
GLR[12] を簡易化した方法となっている [13].
この手法を用いて 25 分の素材映像に適用した実験
結果を表 2 に示す.基本的には,映像データから1フ
レームごとに RGB 画像が得られれば良いが,現時点
では,カラー,352x240,フルフレームの MPEG1 ファ
|5|
ている
イルを作成し,フレーム精度で画像を復元できるツー
[14] を用いて実験を行っている.PentiumIII800 を
ル
搭載したノートパソコン上でリアルタイムで動作し
ている.以下に実験の結果を示す.
表 2 カット点検出の結果
50
正解率
2
:
未検出 D
3
M
湧き出し
= M + D;
5
:
I
適合率
図6
正解率
94 3% 90 9%
:
=
follow 区間の特徴
適合率
:
1
M
M +I
表 に示すとおり,正解率,適合率ともに高い値を
得ることができている.ここでの湧き出しは素材映
像特有のもので,カメラ調整による明るさの変化が
2つ,カメラマンもしくはスタッフの手が横切った部
分が3つである.この区間は使用不能区間検出で判
定できるため,カット点検出としては間違いである
normal
follow
0.8
Density score
:
正解検出 M
0.6
0.4
0.2
が,クリップの生成については問題とならない.未見
出部分はカメラのスイッチが瞬時的に切れたような
0
もので,人が見ても見逃しやすいものが1つ.残り
0
50
100 150 200 250
Instability score
2つは同じ対象で,若干ショットサイズが異なるもの
図 7 Follow score
300
であった.これはヒストグラムにあまり違いが得ら
ンやズームが急峻かつ断続的に行われる場合が多い.
れなかったものであると推測できる.
特にカメラを担いだ撮影で,対象が大きく動いてい
3. 2
素材映像に対するカメラワーク解析
映像編集支援システムでは,カット点検出と同様,
る区間では,図
6 のようになっている.
そこで,フォローを行っているカットの判定につい
カメラワークの解析にも速度が要求される.また,手
ては,急峻で大きく変化するカメラワークが断続的
ぶれ,カメラワークの安定性を問う場合,変化量に
に起こっていることを検出するため,短い区間(窓)
ついても精度が必要となる.これまで,カメラワー
ごとの分散をカット内で積算し,カット区間長で正規
クの解析法についてはいくつかの研究が行われてい
る
[15] [16] [17] [18].我々は,処理速度とともに,手
ぶれやカメラワークの安定性を十分に検証できる方
[18] を採用している.
カット点検出で用いた MPEG1 ファイルとツール
法として投影法を用いた手法
により,1フレーム単位で処理を行った.ただし,ブ
ランクは,輝度がほとんどない区間であるため,単純
な輝度判定で検出できる.今回,投影量を用いれば
5 A,C
ブランクの検出も判定可能であるため,図 の
は同時に処理を行った.その結果,ブランクを含め,
パンとズーム量をリアルタイムで検出することがで
きる.
3. 3
フォローの判定
映像文法に従った映像では,ショットの接続によっ
て映像を表現することが主になるため,比較的フィッ
(1) を不安定度の基本式とする.C は対象と
なるカット区間長,W は窓区間長を表し,x(j ) はフ
化した式
レーム番号 j のカメラワーク変化量である.i は窓
区間内の x の平均値を表している.特に,フォローの
6
区間では,図 のように,縦横方向のパンやズームが
(j ),縦方
向のパンを xv (j ),ズームを xz (j ) として,式 (2) を
同時に検出されるため,横方向のパンを xh
用いる.
I (x) =
(C
1
W )W i=1
することが良いとされる.従って,フォロー以外の区
間では,カメラワークが検出される区間は全体から
見れば一部である.これに対し,フォローは比較的パ
j =i
(x(j )
i)2 (1)
1
I 0 (xh ; xv ; xz ) = (I (xh ) + I (xv ) + I (xz )) (2)
3
(
0 (x = 0) (3)
f (x) =
1 (x =j 0)
D(x) =
クスが多い.また,プロが作成する映像のカメラワー
クは,多用を避け,ポイントとなるところにのみ使用
CXW WX
+i 1
C
1X
f (x(k)) (4)
C k=1
1
3 (D(xh ) + D(xv ) + D(xz )) (5)
F (xh ; xv ; xz ) = I 0 (xh ; xv ; xz )D0 (xh ; xv ; xz ) (6)
|6|
D0 (xh ; xv ; xz ) =
また,フォローが行われているカットでは,カメラ
カメラワークの区間,正常なカメラワーク区間を識
や被写体が絶えず動くため,カメラワークの変化量
別する.この3つの区間には以下のような特徴の違
が検出される区間が多い.そこで値を持つフレーム
いがある.
数をカウントし,カット区間長で正規化した式
重みとして式
(5) を
(6) にてフォロー区間の判定を行う.図
7 は,学習用の素材映像からフォロー区間と通常の区
間を別途抜き出し,式 (2) を横軸,式 (5) を縦軸に置
いて値を描画したものである.フォローはいずれの
値も大きい値を示すことがわかる.判定については,
連続性
値・変化
手ぶれ
不連続
値は小さく正負にふれる
急峻
連続
短い区間で変化がある
正常
連続
短い区間で変化が少ない
ここで,正負の値を持つという特徴は,急峻な変
(6) の分散を求めて分散の3倍
化を持つ区間でも存在し ,正常な区間でも,円運動
に入るものを通常の区間,それ以外はフォローとし
を行うパンの区間で現れるため,識別用の特徴とは
て判定を行った.
ならない.そこで,まず,手ぶれとそれ以外を識別す
通常の区間を用い,式
3. 4
区間検出
5 E では,カットごとにカメラワークの変化
図 の
るために,式
(4) をこの区間に対して適用した式 (8)
を用いる.L は,区間長である.
量を基盤として,まとまりのある区間を抽出し,区間
連続する1秒以内の微少区間は,区間検出の際に
リストを生成する.正常もし くは急峻なカメラワー
雑音として除外されているため,区間内で値を持た
クは,いずれも変化量が時系列上で連続している.し
ない部分があるものは,手ぶれ区間である可能性が
かし,手ぶれなどの区間は,カメラワークの変化量が
高い.閾値以上の割合で値を持たないフレーム数が
不連続に存在している.両方の区間抽出が可能な方
存在する区間は,これを手ぶれ区間とする.
法として,ここではカメラワークの変化量が存在す
30 フレーム (1 秒に相当)
るフレームがあった場合,
先までにカメラワークが存在していれば ,その点を
含めた区間をまとまりのある区間とした.これによ
り,連続・不連続を問わず区間の抽出が可能となる.
この区間検出は,パンの右左,上下,ズームの3つそ
れぞれ独立に行った.図
4 の白抜き矢印がその区間
であり,素材映像上重なる場合もある.このように,
区間リストには,正常なカメラワーク,急峻な動きを
するカメラワーク,手ぶれが含まれることになる.
(
0 (x = 0)
1 (x =j 0)
L
1X
D(x) =
f (x(k))
L
f (x) =
(7)
(8)
k=1
次に急峻な変化をする区間と正常な区間の識別に
ついては,式
(1) を区間リストに適用した式 (9) を用
いる.
I (x) =
今回,ズーム検出については,ゆっくりとしたズー
(L
LXW WX
+i 1
1
W )W i=1 j =i
(x(j )
i )2
(9)
ムを検出できるように感度を上げているため,ズー
この閾値に関しては,学習用の素材映像から急峻
ムに対して正負に振動する雑音成分が多く現れる.し
な変化をする区間と正常な区間を取り出し ,それら
かし ,素材映像上の正常なズームは通常変化量が一
の平均値で決定する.W については,なめらかな変
定であるため,ズームに関しては一定の値が続く区
化との違いをつける上で,区間長が長すぎてはあま
間についてのみ残し ,変動が小刻みに激しい区間は
り意味がなく,短すぎても違いがでない.急峻な変化
除去した.また,パンの区間検出では,リスト中,1
は1秒以内でも起こっているため,1秒以内で予備
秒以内の連続した区間は手ぶれではなく雑音と考え
実験を行った結果,
これも除去した.
この値を用いている.
3. 5
使用可能・不能区間判定
5 F では E で得られた区間リストに対し,使
図 の
用可能区間と使用不能区間の識別を行う.使用不能
区間については,手ぶれの区間と急峻な変化のある
区間とを識別し,索引情報に付与する.これにより,
手ぶれや急峻な変化の度合いが小さいと判定できる
区間は,編集の段階で採用することも可能となる.そ
こで,この
F では,手ぶれ区間,急峻な変化を行う
10 程度が良かったため,現在は
4.
実
験
今回は,使用可能・不能区間の判定処理が有効であ
るか否かを判断するため,プロのカメラマンが撮影
1
した以下の素材映像 本に対し実験を行った.カット
55 区間存在する.
料理店名パスカルぺニョ(352x240,29.97frame/s)
MPEG1,Quality:75%,25 分 27 秒,45763frame
の区間数はこの素材映像の場合
|7|
MPEG1 を用いているのは,速度を重視している
行う方法について研究を行った.これにより,2次的
ためであり,カット検出とカメラワーク解析において
にショットの区間を特定することが可能となる.今後
解像が高いものと大きな違いがなかったためである.
は,この使用不能区間推定の精度を向上させるため
処理時間はカット点検出、カメラワーク解析共にリア
の手法を検討するとともに,現在あいまいになって
ルタイムである.また,使用可能・不能区間推定処理
いる
はカット点検出とカメラワーク解析の結果を利用し
を探求する.
たテキスト処理であり,全体で1分以内に終了する.
3
表 に実験の結果を示す.
表3
使用可能・不能区間推定の実験結果
blank
6
0
0
(%) 100
(%) 100
正解検出数
未検出数
湧き出し
正解率
適合率
follow
4
1
0
80
100
手ぶれ
22
5
18(14)
81.0
55.0(84.5)
急峻
7
1
0
87.5
100
使用可能
21
4(2)
2
84.0(91.3)
91.3
今回の実験においては、使用可能なカメラワーク区
間の推定精度は
91.3%となった.ショットはこの区間
以外でカット点を挟まない連続したフィックス区間を
抜き出せば良い.ただし,使用不能区間として
,
blank,
手ぶれ カメラワークの急峻な変化がある区間を除い
follow である.手ぶれ区間の検出
では,正解率は 81.0%あるものの,適合率は 55.0%と
低い値を示している.これは,follow 区間の検出で
た区間,ならびに
未検出となった区間における湧き出しが原因である.
14 個はこの区間のものであっ
た.これを取り除けば適合率は 84.5%となる.使用可
能区間についても follow 区間で未検出が 2 つあった.
これを除けば正解率は 91.3%となる.
follow 区間はレポーターが料理のレポートをしてい
手ぶれの湧き出し中,
る区間であるが,カメラを固定してフォローをして
いる区間である.そのフォローの程度が少なかったた
follow の区間として検出されなかったものと考
め,
えられる.このような区間は音声認識や顔の検出な
どによる索引情報を用いることができれば
follow の
区間をより精度よく識別できると思われる.手ぶれ
の未検出区間が5つあるが,カメラワーク解析の精
度よりも区間検出で失敗しているものが多く改良の
余地がある.また,区間の一致度については前後
10
フレームの誤差を許せばほとんど 一致するが,ズー
ムに関して3つの区間が大幅に異なっていた.これ
はゆっくりとしたズーム区間の検出で雑音が多く,区
間検出で間違うことが原因である.
5.
ま と
め
映像文法を背景とした素材映像に対し ,編集時に
用いられるクリップを抽出する際に必要となる索引
follow 区間でのクリップ抽出法について解決法
文
献
[1] 徳平, 山口, 永田, 熊野, 有木, 春藤, 塚田: \映像内
容の解析に基づく映像編集に向けて", 画像電子学
会第 182 回研究会, 00-05-04, pp.21-28, 2000.
[2] M.Kumano, Y.Ariki, K.Shunto, K.Tsukada:
\Video Editing Support System Based on
Video Content Analysis", ACCV2002,VolII,p.628633,2002-01.
[3] 熊野雅仁, 有木康雄,上原 邦昭,下條 真司,春藤
憲司,塚田 清志: \映像編集支援システムのための
ショットサイズ自動付与", 電子情報通信学会論文誌,
Vol.-D-I, No., pp.-, 2002(採録決定).
[4] 天野 美紀,上原 邦昭,熊野雅仁, 有木康雄,下條
真司,春藤 憲司,塚田 清志: \映像文法に基づく映
像編集支援システム",情報処理学会論文誌 (投稿
中).
[5] Andreas Girgensohn and John Borecxk, \A Semiautomatic Approach to Home Video Editing,"
Proc. of UIST '00, ACM Press, pp.81{89, 2000.
[6] 土橋 健太郎,小舘 亮之,富永 英義: \手ぶれを考
慮したカメラワーク検出に関する検討" 電子情報通
信学会総合大会,D-12-56,pp.223,2001:
[7] 日本映画・テレビ編集協会:図解映像編集の秘訣, 玄
光社 MOOK(1999).
[8] ダニエル アリホン , 岩本, 出口 (訳), 映画の文法, 紀
伊国屋書店 (1980).
[9] 永田, 徳平, 山口, 山本, 熊野, 有木, 春藤, 塚田: \映
像編集支援システムのための人物に関するインデ
キシング ", 電子情報通信学会総合大会,D-12-138,
p.305, 2001.
[10] 鈴木賢一郎, 中嶋正臣, 坂野鋭: \識別的な手法に基
づく映像データからのカット検出法", 画像工学研
究会,IE2001-27,pp.63-70,2001-07.
[11] M.J.Swain and K.H.Ballard: \Color indexing",
IJCV,vol.7,pp,11-32,1991.
[12] Liu,D.,and Kubala,F.:Fast Speaker Change Detection for Broadcast News Transcription and Indexing,Erurospeech99, pp.1031-1034,1999.
[13] 熊野雅仁, 林義文, 有木康雄, 上原邦昭,下條真司,
春藤憲司, 塚田清志: " アクティブ 探索を用いた映
像編集支援のためのショットサイズ自動判定" 電子
情報通信学会技術研究報告,(オフィスシステム研究
会 OFS2001-24), pp.31-pp38, 2001-09.
[14] http://avs.kddlabs.co.jp/mpeg/mpfs/index.html
[15] Michael A.Smith,Takeo Kanade: "Video Skimming and Characterzation through the Combination of Image and Language Understanding
Techniques",CVPR1997,pp.775-781,1997.
[16] 興梠 正克, 村岡 洋一: \グローバルなアフィン動き
パラメータの実時間推定手法", 電子情報通信学会
論文誌 D-II,Vol.J82,No.7,pp.1161-1170,1999.
[17] 長坂晃朗, 宮武孝文: \時間変化領域の画像相関に着
目した実時間ビデオモザイク", 電子情報通信学会
論文誌 D-II,Vol.J82,No.10,pp.1572-1580(1999).
[18] 阿久津 明人,外村 佳行: \投影法を用いた映像の
解析方法と映像ハンド リングへの応用", 電子情報
通信学会論文誌,D-II, Vol.J79-D-II, No.5, pp.675686,1996.
情報を自動生成し ,使用可能・不能な区間の特定を
|8|