動きに基づく料理映像の自動要約 - 田中英彦・坂井修一研究室へようこそ

動きに基づく料理映像の自動要約
三浦 宏一
1
序論
そのような目的に沿って作成されている。しかし、そ
の一方でテレビ番組としての冗長性や娯楽性を含む場
1.1
研究の背景
近年の情報通信技術の進歩に伴い、テレビ放送やイ
ンターネットなどを通じて提供されるマルチメディア
データは増大の一途をたどっている。これに伴い、こ
れら大量のデータを収集・整理し、効率良く保存・再
利用するための研究がますます重要な技術となってき
ており、マルチメディア処理及びその応用技術に関す
る様々な研究が盛んに進められている。
映像には様々な種類のものがあり、種類ごとに映像
的特徴も視聴者の目的も異なる。そのため汎用性の高
い映像解析技術のみでは解析内容が限定され、個々の
映像内容に深く立ち入った解析を行うことは困難であ
る。高度な内容解析のためには、対象とする映像の種
類を限定し、その対象に固有の特徴を考慮する必要が
ある。
合も多く、例えば雑談などの冗長な部分のために、閲
覧にある程度の時間を要する。そのため日常的なレシ
ピ選びや実際の調理の際には、テキスト形式のレシピ
を閲覧する方が短時間で済むため簡便であることが多
い。しかし、映像にはテキストでは表現しきれない様々
な重要な視覚的情報が含まれており、特に調理手順の
理解のためには非常に重要である。
そこで、本研究ではこのようなレシピ選びや実際の
調理の際に、テキスト形式のレシピを閲覧するよりも
視覚的情報を多く含み、なおかつ同様の簡便さで閲覧
できる要約映像を作成することを目的とする。すなわ
ち調理手順の重要な部分を抽出し、短い閲覧時間で手
順の全体的な流れを視覚的・直感的に充分に理解でき
る映像、つまり要約映像単独でも手順の概要が理解可
能な映像を作成する。
本研究の先行研究として、対象として様々な映像の
中でも生活に密着した料理映像に着目し、映像の意味
的構造解析や索引付けなどの研究が行われている [38,
39, 46] 。これらの研究では、対象を料理映像に限定し、
対象に固有の知識を最大限に活かすことで、比較的簡
単な要素技術を用いながらも、各々の処理の精度を確
保した実用的なシステムの構築を目標としている。ま
た、料理は極めて日常的な行為でありながら、豊富な知
識と熟練を必要とする複雑な作業であるため、調理支
援に対しての大きな需要が存在すると考えられる。今
後、家庭内への計算機の進出に伴い、このように解析・
索引付けされた料理映像や料理レシピの検索に対する
需要は高まっていくものと考えられる。
1.3
本論文の構成
本論文では,このような背景と目的をふまえ、料理
映像の特徴を利用した要約映像作成手法について提案
し、その検討および評価を行う。
まず第 2 章で、映像の自動要約及び料理映像につい
ての関連研究について紹介し、第 3 章で本研究で対象
とする料理映像の特徴と重要部分について述べる。
第 4 章では、料理映像を対象とした要約について述
べ、それを実現するために本論文で提案する要約手法
の概要について説明する。
第 5 章で重要部分検出の前処理となる、料理映像の
基本構成を解析するためのカット検出、ショット分類手
1.2
研究の目的
本論文では、一連のメディア処理に関する研究の中
でも特に料理映像の自動要約を目的とした映像解析手
法について説明し、その精度について述べる。
第 6 章で、映像要約の際に用いる映像の重要部分の
検出手法を提案する。
第 7 章では、検出された重要部分の重複を避けるた
法を提案する。料理映像の自動要約が実現することで、
めの類似映像セグメント検出手法を提案し、第 6 章の
映像による料理レシピの閲覧の他に、効率的な料理映
手法により検出した重要部分から実際に要約映像を作
像データベースの検索や閲覧などの応用が考えられる。
成し、評価・考察を行う。
料理映像は教材映像の一種であるため、実用的な場
面で利用されることが多い。また、多くの料理映像は
最後に第 8 章で全体のまとめと今後の課題について
述べる。
2
関連研究
を対象とした映像要約の研究 [6] がなされている。こ
の研究では、映像をショット・シーンに分割し、主要
本章では、まず映像の自動要約についての関連研究
人物のクローズアップ、爆発音や発砲音などを手がか
について述べる。次に、本研究で対象としている料理
りにして特定のイベントを検出し、これらをつなぎ合
映像に関する研究について紹介する。
わせることで予告編的な要約映像を作成している。し
かし、こうして作成された要約映像の評価に関しては、
2.1
自動映像要約手法の研究動向
実際にテレビ放送されているドラマのダイジェスト版
と比較したところ、画像部分に関して明らかな違いは
映像要約を自動生成する手法は、これまでにも様々
なかったと述べるにとどまっている。
な研究が行われている [3, 4, 6, 7, 8, 9, 10, 11, 12, 13,
14, 15] 。数年前まで、映像の自動要約に関する研究は
メディア処理全般を扱う大規模なプロジェクトにおい
て散見される程度であった。しかし、近年の情報技術
の進歩に伴い、コンピュータ上で映像メディアを扱う
ための環境構築が容易になるにつれ、映像要約に関す
る研究の数も増加しつつある。以下、それらの研究の
いくつかについて紹介する。
Informedia プロジェクト [1, 2] は、Carnegie Mellon
大学(CMU) において行われている大規模なオンライ
ン電子映像図書館プロジェクトである。このプロジェク
トは、映像の内容依存の探索の実現のために画像、音
これらの研究は、映像要約の研究としては比較的古
く、映像の意味内容よりも映像の表層的な特徴に着目
する手法である。そのため、より映像内容に即した要
約を作成するためには改善の余地がある。 そこで最近
の研究では、要約作成手法をより実用化するために大
きく 2 種類のアプローチが存在する。
1 つは、コンテンツの意味内容にまで立ち入った高
度な情報抽出処理を行うことをやめ、容易に抽出でき
る単純な特徴量のみを用いることで、自動的かつ低コ
ストに要約情報を抽出するアプローチである。
声、自然言語認識技術を統合的に適用しており、この
オーディオビデオコンテンツの符号化データ上の特
分野では代表的なプロジェクトである。この情報検索
性を利用して要約を行う研究 [7, 8] では、MPEG-7 記
システムの利用者のために、問い合わせ結果の映像の
述との親和性も考慮し、MPEG で圧縮された映像から
概略を提供する方法の 1 つとして、Video-Skims[3] と
符号化データを用い、要約情報を抽出する方式を提案
いう要約映像が用意されている。
している。この研究では、MPEG で符号化されたデー
この Video-Skims では、まず、音声の書き下しテキ
タから動き情報、色配置、また音響信号レベルを抽出
ストであるトランスクリプトから TF-IDF 法によって
し、閾値処理を行うことで外部から指定された要約時
キーワードを抽出する。さらに、顔検出やカメラワー
間長に応じた映像を作成している。しかしこの要約映
クの検出などを手がかりにして、キーワードの発話時
像の評価はまだされておらず、要約の精度よりは、実
間に相当するフレームを選ぶ。また、音声レベルを調べ
現性や汎用性を追求した手法であると考えられる。
て、低レベル部分や無音部分を話者やトピックの変更部
として利用する。このようにして選択された音声部分
もう 1 つのアプローチは、より実用的な精度の要約
と画像部分から、元の内容の圧縮映像(Video-Skims:
を得るためにはより深く映像の意味内容を解釈する必
スキム)が生成される。スキムの長さは、選択するキー
要があるという立場である。これは意味的内容の重要
ワードの数で調整する。このようにして作成されたス
性から要約映像を作成しようとするものであり、多くの
キムは、単純にある間隔で映像を取り出して作成した
研究がこのアプローチでの映像要約を試みている。し
スキムよりも意味があり、ユーザの満足を得られるこ
かし、重要なシーンなどの意味的な内容を解釈するた
とが実験により示されている [4]。
めには、対象映像を限定した高度な処理が必要であっ
たり、現状では人手による補助が必要になることも多
一方、MoCA プロジェクト(Movie Content Analysis
Project)[5] はドイツの Mannheim 大学において行わ
い。そこで最近の研究では、映像の意味内容を他の特
徴に置き換えて解析しようとする研究も見られる。
れているもので、テレビ放送上の映像や映画を対象と
している。
このプロジェクトの中の 1 つの研究において、映画
アメリカンフットボール映像を題材とした要約映像
生成の研究 [9] では、映像の意味内容の抽出を、ハイ
ライト部を記述した外部データベースと連続的な映像
また、ユーザの注目度を利用した要約映像生成手法
メディアストリームとの対応付け問題に還元して考察
の研究 [12] でも、直接映像の意味内容を解釈するので
している。具体的な外部データベースとしては、新聞
はなく、映像の重要度をユーザの注目度に置き換えて
やインターネットからの獲得が可能な試合記録である
いる。ここでのユーザの注目度とは、[10] の研究のよ
ゲームスタッツ(gamestats)を想定している。対応付
うな個人の好みではなく、一般的な注目度のことを指
けは映像中に出現するゲーム上の時刻や得点状態など
している。この研究では、画像、音声に対する表層的
を表す字幕(open caption)に含まれるテキスト情報
特徴とユーザの注目度の関係をモデル化し、要約映像
を認識することにより実現される。この手法は、利用
を生成する手法を提案している。
しやすい外部データベースがある場合には有効である
と思われる。
文脈を考慮に入れた映画の要約作成の研究 [13] は、
また、この研究では個人の嗜好を記述したプロファ
これまでの自動要約映像生成手法では時間毎に重要な
イルを利用することで、映像要約に個人適用の考え方
区間を検出し、単純につなぎ合わせているに過ぎない
を導入している。
と指摘し、映像の文脈を考慮することを提案している。
対象を映画に限定し、映画の文法を考慮に入れること
さらに、個人の好みを反映した要約映像作成の研究
としては、学習による要約映像作成の研究 [10] が挙げ
られる。この研究では、ユーザの好むシーン、好まな
で映像の表層的な特徴を映像文脈に置き換えようとし
ているが、現段階では、要約映像として従来手法に比
べてよい結果を得るには至っていない。
いシーンは同じ特徴を備えているという考えに基づき、
ユーザが過去に閲覧したフレームと早送りによりとば
したフレームの特徴量から、投票をもとにした学習手
法を用いてユーザの好みを学習する。そしてユーザの
好みをもとに新しい映像の各フレームの重要度を求め、
要約映像を作成している。
この研究は映像の意味解釈をユーザによる学習に置
き換えており、コンピュータでは意味解釈を行わず、画
像の類似度のみを用いている。しかしこの著者により
人手による注釈データを用いて欠点を補う可能性が述
本研究ではこれらの関連研究から得られる知見をも
とに、精度のよい要約映像を作成するためには、対象
とする映像の種類を限定し、効率よく映像の意味内容
を抽出する必要があると考える。そこで、料理映像を
題材とし、対象に特化した処理を行うことで映像の意
味内容にまで立ち入り、実用的で高精度な要約システ
ムの実現を目指す。
2.2
料理映像に関する研究
べられているように、実際に精度の良い要約映像を作
これまで、料理レシピのテキストについて解析を行っ
成するためには、最終的には映像の高度な意味解釈が
ている研究は少ないが、個々の料理手順を時間的側面
必要となってくる。またユーザによる学習を用いるこ
にしたがって分類する研究 [16] や調理手順から料理の
とで汎用性を求めてはいるが、ある程度映像の特性に
定義を抽出する研究 [17] 、またレシピ文から手順の時
依存してしまうことは避けられないようである。
間的関係構造を自動生成する研究 [18] などが見られる。
また、料理映像を対象とした映像処理研究はほとん
心理的内容に基づいた要約映像生成の研究 [11] では、
ど見られない。ただし、映像の解析ではなく料理映像
心理的内容に高いプライオリティをおいていることが
の自動生成に関する研究として、手や物体を検出する
多いと考えられるドラマ映像を対象とし、意味的内容
ことで複数台のカメラを切り替え、自動的に映像を撮
というよりも心理的内容を解釈することで要約映像を
影するシステム [19] や、調理手順を解析し、その手順
生成している。ドラマ映像は、物理的構成要素としてト
に沿った CG アニメーションを作成する研究 [20] など
ラック構造(カッティング、登場人物のセリフ、BGM、
がある。
効果音)を有している。この研究では、演出家などが
本研究を含む一連の研究では、これらの研究とは異
心理的な印象を表現する際の経験的知識に基づき、心
なり、放送されている料理映像を対象とし、映像の内
理的に重要な箇所をそれに対応するトラック構造の時
容解析や索引付け、さらにはアプリケーションの開発
系列パターンとして検出し、要約映像を生成する手法
などを目的とした構造化の研究を行っている。以下に
を提案している。
それらの研究について簡単に紹介する。
まず、これまでに要素技術として提案してきた画像、
音声、テキスト教材それぞれの解析手法について紹介
3
料理映像の特徴
する。
本章では、まず一般的な映像の定義と構成について
画像解析では、動作検出手法として、調理動作の中で
も特に重要な動作に比較的共通する性質として繰り返
述べる。その後、料理映像の構成と、料理映像におけ
る要約に関わる重要部分の定義について述べる。
しに着目した動作の検出手法 [40] を提案した。本手法
は本研究でも利用しており、6.2 節で詳しく説明する。
また、調理動作の種類を推測するための背景のクラス
タリング手法 [44] についても検討している。この手法
では、背景部分の色ヒストグラム特徴や、C4.5[21, 22]
3.1
映像の画像的構成と用語の定義
一般に映像は、図 1 に示すような階層構造により成
り立っている。
による決定木の学習法などを利用した、番組やスタジ
映像の中の画像は多数のフレーム(frame)からでき
オセットなどに汎用な自動分類手法を検討している。さ
ており、画像的に連続なフレームの集まりをショット
らに、一般的に画像処理のみでは実現が困難である画
(shot)と呼ぶ.またショットとショットの境(画像の
像中からの物体検出(特に料理素材)について、テキス
不連続点)をカット(cut)、さらに意味的なまとまり
ト教材などからの制約情報を利用し、画像処理と組み
のあるショットの集合をシーン(scene)と呼ぶ。
合わせることで効率的に行う手法 [45] も検討している。
音声に関しては、音声認識手法と音響解析手法のそ
れぞれについて料理映像への適用を検討した。まず、音
声認識手法としては、テキスト教材からのキーワード
自動抽出を利用した半自動的なワードスポッティング
手法 [41] などを検討している。しかし、料理映像には
複数の話者がおり、しばしば音声同士の重なりが起こ
ること、また調理中の雑音が大きいことなどから、実
用的な精度には達していない。また、音響に関しては
背景の雑音からの調理状況の推測 [42] についても検討
図 1: 映像の画像的構造
している。この手法においては、料理の背景雑音を「高
周波性音(揚げる音、炒める音など)」「インパルス性
音(切る音、刻む音など)」
「ランダム性音(混ぜる音、
もみ込む音など)」の大きく 3 種類に分け、特に高周波
性音の認識に成功している。
テキスト解析手法としては、料理映像に固有の辞書
3.2
料理映像の構成
図 2 に示すように、料理映像のショットは大きく (a)
人物ショット、(b) 手元ショットの 2 つに分類できる。
を構築し、これを利用することで調理手順の構造を調
べ、その結果から素材に対する加工の流れを有向グラ
フで表示することで、制約条件および入れ替わり可能
な部分を明確にする手法 [39] を提案している。
これら個々のメディア解析の結果を利用したメディ
ア統合処理研究として、テキスト教材と映像を対応づ
けることによって映像の索引付けを行う研究 [44] を提
案した。
(a)人物ショット
(b)手元ショット
図 2: 料理映像におけるショット分類
これらの研究は、いずれも対象の性質を効果的に利
用した手法により、基礎となる解析・索引付け技術を
人物ショットは、人物を中心としたスタジオ全体か、
提供している。そこで本研究では、これらの技術を利
人物の上半身のアップが映るショットであり、調理人や
用した具体的な応用として、実用的で高精度な料理映
その助手が調理法などに関して説明していることが多
像の要約手法を提案する。
い。しかし、手元は映らないか、部分的に小さく映る
のみであり、映像から調理に関して視覚的な知見を得
や食材の状態を示すものである。料理映像には、この
ることは難しい。
ような素材などの状態を示すために静止してしばらく
一方、手元ショットは材料やそれを調理する手元が
様子を映し出す部分がある。また、これらを要約に含
大きく映され、視覚的に重要な情報を含むショットで
めることで、動作と進行に応じた料理の状態を示すこ
ある。しかし多くの場合、手元ショットはその中に調理
とができ、
(2)の条件も同時に満たせると考えられる。
において重要な部分を含む一方で、動作と動作の間な
そこで本研究では、料理映像から(a)重要な調理動
ど比較的冗長な部分を含む。
また、これらのショットは主に固定カメラで撮影さ
れ、カメラワークは、他の種類の映像(スポーツ映像
作部分(「調理動作部分」)と、(b)料理や食材の状態
を示す部分(「状態部分」)を重要部分として検出し、
要約を生成することとする。
やドラマ映像など)に比べごくわずかしか用いられな
実際の料理映像を参照した結果、これらの重要部分
い。そのため、次節で述べる重要部分と映像の動きの
における画像中の動きには、以下のような特徴がある
関係が成り立つ。
ことが観察された。
一般的な料理映像の構成例を図 3 に示す。図 3 に
示すように、料理映像においては人物ショット(Face
Shot)と手元ショット(Hand Shot)がほぼ交互に出現
し、視覚的に重要である手元ショットの中には、さらに
重要な部分と比較的冗長な部分が含まれる。
(a)調理動作部分: 大きい(激しい)
(b)状態部分: ほぼ静止
さらに、調理動作には様々なものがあるが、より効
果的な要約映像を作成するために、一般的な調理動作
の中から特に重要な動作を抽出して特別に扱う。実際
の料理映像を参照して検討した結果、特に重要な動作
に比較的共通する性質として、図 4 に示すような繰り
図 3: 料理映像のショット構成例
返し動作があることが観察された。繰り返し動作とは、
具体的には、
「切る」
「あえる」
「こねる」
「混ぜる」
「泡
立てる」など、様々な対応する動詞がある。また、動
詞からみて繰り返し動作であるとは予測できないよう
3.3
重要部分の定義
料理映像には、一般的に対応するテキスト教材が存
在することが多い。映像の利点は、特に、テキストで
は表現しきれない視覚的な情報を示す部分にあると考
えられる。
図 3 のような構成の料理映像を要約する際には、ま
な動きでも、実際には繰り返されることがある。重要
な動作には様々なものがあるが、本論文では、調理動
作の中でも特に繰り返し動作を取り上げることとする。
そこで、動作の時間方向の周期性に着目した検出手法
[40] を用いて繰り返し動作を検出し、要約映像作成に
利用することとした。
ず調理のための視覚的情報に乏しい人物ショットを除
外する。さらに残された手元ショットの中から特に重
要な部分を選択することが必要となる。
ここで料理映像を要約する際に特に必要なのは、
(1 )
テキストでは表現しきれない重要な視覚的情報を含む
ことと、(2)調理手順の流れを知るのに必要な情報を
失わないことである。
(1)の視覚的情報には、大きくわけて 2 種類の映像
がある。一つは(a)調理動作の様子を示すものである。
これは、動作の要領や細かいコツなどは、実際に目で
見ないと分からないことが多いためである。もう一つ
は、調理後の素材の色、盛り付け具合いなど、
(b)料理
図 4: 繰り返し動作の例
4
料理映像要約手法の概要
そこで本研究では第 3 章で述べたように、料理映像
の構成と重要部分の特徴に基づき映像中の動きを解析
本章では、料理映像を対象とした要約について述べ、
それを実現するために本論文で提案する要約手法の概
要について説明する。
する。それにより効率よく映像内容の重要部分を検出
し、要約映像を作成する。
これまでの映像要約研究においては、要約された映
像は見づらいとの報告もある [4]。これは、要約映像に
4.1
料理映像を対象とした要約
おいて音声が断続的に途切れ、映像との同期も失われ
るためであると言われている。そこで、要約映像を作
本研究で対象とする料理映像は教材映像の一種であ
り、多くの視聴者は、実用的な教材としての利用を目的
としている。その一方で、雑談などの冗長な部分も比
較的多く、映像の閲覧にはある程度の時間を要する。そ
のためレシピ選びや実際の調理の際には、テキスト形
式のレシピを閲覧する方が簡便であることが多い。し
かし、料理映像にはテキストでは表現しきれない様々
な重要な視覚的情報が含まれており、特に調理手順の
理解のためには非常に有効である。
そこで、本研究では以上のような料理映像の特徴を
活用し、レシピ選びや実際の調理の際に、テキスト形
成する際には、音声部分が不自然にならないように考
慮して映像を切り出したり [6, 14, 15] 、制作者側で作成
される番組予告などの要約映像では音声は別のものに
吹き替えられたりする。しかし、料理映像では音声が
なくても視覚的な情報から動作や手順を容易に理解で
きるという特徴があるため、本研究で作成する要約映
像では音声の連続性などは考慮しない。そのため、画
像特徴に沿った柔軟なショット構成が可能となり、精度
の良い要約映像が作成できると考えられる。この点に
おいても料理映像は、自動要約が効果的な対象である
と考えられる。
式のレシピを閲覧するよりも視覚的情報を含み、なお
かつ簡便に閲覧できるインターフェースを提供するこ
とを目的とする。個人の技量、好みの問題も考慮すべ
4.2
提案する要約手法の概要
きことではあるが [9, 10] 、まずは調理手順の重要な部
提案する要約手法の概要を図 5 に示す。
分を集め、短い閲覧時間で調理の全体的な流れを視覚
本手法ではまず、料理映像の基本的な映像構成を解
的・直感的に充分に理解できる映像を作成する。つま
析するために、カット検出、ショット分類を行う。カッ
り、元の映像と併用するのではなく、要約映像単独で
ト検出は DCT クラスタリングを利用する手法 [24] を
も手順の概要が理解可能な精度を目標とする。
利用する。また、ショット分類は画像中の顔を認識して
第 2 章で述べたように、これまで、ニュースやドキュ
行うが、顔認識手法については既存の複雑な手法では
メンタリ映像などを対象とした自動要約に関する様々
なく、肌色の統計分布を利用した手法と料理映像の特
な研究がなされているが [3, 4, 6] 、それらの映像は比較
徴を組み合わせることで、単純かつ高精度な手法を提
的冗長性が低く、多くは元の映像を全体にわたって閲
案する。これらのカット検出、ショット分類手法につい
覧することを目的として、要約映像を利用する傾向が
ては、第 5 章に詳述する。
強い。
映像構成の解析後、ショットを人物ショットと手元
一方、映像に比較的冗長性があり、要約映像単独で
ショットに分類するが、第 3 章でも述べたように、ま
の利用を想定している、という意味において本研究と
ず調理のための視覚的情報に乏しい人物ショットを除
同様の目的で要約映像を作成するものは、スポーツ映
外する。残された手元ショットに対して第 6 章で述べ
像を対象にした研究 [9, 10] などに見られる。しかし、
る重要部分検出手法を適用し、本研究で提案する動き
料理映像では、アメリカンフットボール映像を題材と
に基づく重要部分検出手法により「(a)調理動作部分」
した要約映像作成手法 [9] のような映像内容と直接対応
「(b)料理や食材の状態を示す部分」を検出する。さら
した外部データベースは容易に利用できず、この手法
に、調理動作の中でも特に重要な動作に比較的共通す
を適用することは難しい。また、料理映像はサッカー
る性質として観測された繰り返し動作を検出し、動き
映像のゴールシーンなどのように重要部分に共通する
のある部分のなかでも優先的に扱う。
明確な画像特徴をもたないため、パーソナライズ要約
検出された重要部分からは、それぞれの重要部分を
映像作成手法 [10] のようにユーザの視聴行動を学習す
代表する映像セグメントを抽出し、また、同じ視覚的
る手法を用いて精度の高い要約映像を作成することも
情報を示すセグメントを本研究で提案する類似セグメ
現実的ではない。
ント検出手法によって 1 つにまとめ、それらのセグメ
図 6: 要約映像生成の様子
手法がカット検出手法として提案されている。
本研究においては、DCT クラスタリングを利用する
手法 [24] を基にカット検出を実装した。料理映像は、
スタジオ内の比較的理想的な照明条件下で撮影される
ため、高いカット検出率が期待される。以下、その手
法の紹介と料理映像に適用した場合の精度を示す。
5.1.1
図 5: 提案する要約手法の概要
ントを結合することで要約映像を自動生成する。これ
については第 7 章で詳述する。
図 3 の料理映像の構成図に、この要約手法を適用し、
要約映像を生成する様子を図 6 に示す。
DCT クラスタリングによるカット検出手法
3.1 節で定義したように、ショットとは画像的に連続
なフレームの集まりであり、一般的に、カットの前後
のフレームは画像的に類似しない。したがって、連続
するフレーム間の類似度を評価し、その類似度が低い
部分を検出するのがカット検出の基本原理である。
本研究で利用する DCT 成分を用いたクラスタリング
によるカット検出手法 [24] は、隣接するフレーム間の
変化を求めてカットを検出するのではなく、同じショッ
トに属する隣接フレームは類似しているという性質に
5
映像構成の解析
本章では、料理映像の構成を解析する際に必要なカッ
ト検出、ショット分類手法について紹介し、その精度に
ついて述べる。本章の処理は、次章で詳述する映像要
約の際に用いる重要部分の検出の前に必要な、基本的
な映像構成の解析である。
5.1
カット検出
基づき、連続するフレームのクラスタを形成すること
によって、形成された 2 つのクラスタを分割する点と
してカット点を求める手法である。
フレームの大まかな構造を知るためには画像を周波
数領域に変換する手法が有効であるが、この空間領域
から周波数領域への変換を行う手法の 1 つが DCT(離
散コサイン変換)であり、MPEG や JPEG などの波形
符号化の分野で広く用いられている技術である。なお、
ここでは DCT とは 2 次元の DCT を指すものとする。
大きさ M × N の画像における DCT の変換式を示
一般的に、ショットは索引付けなど映像を扱ううえで
す。順変換とは空間領域の情報を周波数領域に変換す
の最小単位となることが多いため、カット検出は映像
るもので、逆変換は逆に、周波数領域から空間領域に
解析における画像処理の中でも最も一般的かつ必要な
変換するものである。
技術である。したがって、色ヒストグラムや色コリロ
グラムで画像の色調変化を検出する手法 [2, 3, 23] や、
DCT クラスタリングを利用する手法 [24] など、様々な
( 3 ) D が閾値以上のものはクラスタから外れるものと
し、これが続く場合にはカットが生じたとみなし、
順変換
F (u, v)
=
M −1 N −1
4C(u)C(v) f (j, k)
MN
クラスタを分割する。そして、再び ( 1 ) より処理
を繰り返す。
j=0 k=0
(2j + 1)uπ
(2k + 1)vπ
cos
(1)
2M
2N
· cos
逆変換
M −1 N −1
f (j, k)
=
( 4 ) フレームがクラスタに含まれる場合は、1 フレーム
入力するたびにクラスタの特徴量を更新し、( 2 )
より繰り返す。
C(u)C(v) · F (u, v)
u=0 v=0
· cos
ただし、
C(w) =
(2j + 1)uπ
(2k + 1)vπ
cos
(2)
2M
2N
√1
2
1
if w = 0
otherwise
DCT により、画像を周波数領域に変換したときの成
分は、図 7 のように、左上を直流成分とし、右下に向
かって周波数が上がっていくように並ぶ。これらの成
分のうち、低周波成分を用いることによって、画面全
体の大まかな構造を表現できる。
DC
AC1
AC2
AC4
AC5
図 8: DCT 成分によるクラスタの形成
...
5.1.2
AC3
..
.
カット検出精度
上記の DCT クラスタリングによるカット検出手法
を約 100 分間の料理映像に適用した結果を表 1 に示す。
図 7: DCT 成分の並び方
表 1: カット検出結果
複数のショットを含む動画像における DCT 成分の変
化をプロットすると、同一ショット中のフレームは類
正解数 正検出 誤検出 検出もれ 再現率 適合率
599
568
10
31
94.8% 98.3%
似度が高いため近傍に配置され、カット点では類似度
が低いため遠方に配置される。その結果、図 8 のよう
に複数のクラスタを形成する。ここで、各クラスタが
1 つのショットに対応するので、以下の手順によりクラ
スタを分割し、カットを検出する。
( 1 ) 1 枚のフレームをブロックに分割し、ブロック毎
に DCT 成分を求める。ここでは、DCT 成分のう
ここで再現率と適合率は、それぞれ以下のように定
義される。
再現率
=
適合率
=
正検出
正検出 + 検出洩れ
正検出
正検出 + 誤検出
ち、図 7 の AC1 , AC2 を用いる。クラスタの正規
分布を仮定し、始めの数フレームから平均ベクト
検出もれの大部分は、前後のショットがオーバーラッ
ル µ と分散共分散行列 Σ を求め、これをクラスタ
プしながら切り替わるカット(ディゾルブ)などの特
の特徴量とする。これを初期クラスタとする。
殊な映像効果が施されたカットであった。このような
( 2 ) それ以降の次のフレームに対し、このクラスタと
のマハラノビス距離 D を求める。マハラノビス距
離 D は式 3 で表される。
D2 = (x − µ)T Σ−1 (x − µ)
カットは、様々な手法を用いても検出が困難であるこ
とが知られている。
しかしながら、再現率、適合率共に 95%以上と、本
手法により、要約映像の作成上は問題ない程度の性能
(3)
でカット検出は自動化できることが示された。
5.2
ショット分類
H
3.2 節で述べたように、料理映像中のショットは(a)
人物ショット、(b)手元ショットの 2 つに分類できる。
=
cos
−1
1/2[(R − G) + (R − B)]
Sm
if B > G then
H
=
−1
2π − cos
したがって料理映像のショット分類は、前節のカット検
1/2[(R − G) + (R − B)]
Sm
(6)
(7)
出手法によって分割されたそれぞれのショットが人物
ショットに分類されるかどうかを検出し、人物ショット
として検出されなければ手元ショットに分類する、と
いう手法をとる。
以下、本研究で用いる人物ショット検出手法を提案
し、その手法を利用して料理映像に対してショット分
類を適用した結果を示す。
5.2.1
人物ショット検出手法
人物ショットは画像中に人物の顔が映っているため、
図 9: RGB モデル
図 10: 修正 HSV モデル
顔領域を抽出することにより検出する。
顔領域を抽出する研究は、ニューラルネットワーク
を用いたもの [25] や、部分空間法 [26] など様々な手法
があるが、ここでは単純に顔領域の存在・位置・大きさ
が分かれば十分である。したがって、本研究では、よ
り高度で複雑な目や口などの位置をモデル化した手法
は採用せず、
H, Sm, V のうち、V (明度)については閾値処理
を行い、暗い領域を排除するためのみに用いた。肌色
の判定は、実際の様々な顔領域の色を参考に、H (色
相)–Sm(修正彩度)空間中の矩形領域を肌色領域と
設定し、H と Sm の値がこの領域に含まれるかどうか
( 1 ) 色情報を用いて肌色領域を抽出
で判断した。このとき用いた、実際の肌色領域のサン
( 2 ) 検出された肌色領域から一定の条件により顔領域
プリングに基づく H–Sm 空間における肌色領域の分布
[43] を、図 11 に示す。
を決定
という手順で単純かつロバストに顔領域を抽出し、実
用的な精度で人物ショットを検出することとする。
肌色領域の抽出に利用する色情報は、RGB 表色系か
ら、肌色領域抽出に有効とされている修正 HSV 表色系
[27](H:色相, Sm:修正彩度, V :明度)に変換して利用
した。
修正 HSV 表色系は、HSV 表色系のうち彩度につい
て新たな変換式を提案するもので、RGB モデル(図 9)
上の正六面体の定義域を平面上の正六角形の値域(図
10)に変換し、色相 H 、修正彩度 Sm、明度 V をそれ
ぞれ式 4 〜7 のように定義している。
V
Sm
=
max(R, G, B)
= Rr + Gg + Bb
√
(R − G) + (R − B) 3(G − B) ,
= 2
2
=
(R − G) + (R − B)
2
√
2
+
3(G − B)
2
(4)
肌色領域の抽出は、純粋に色のみを手がかりにした
ものであるため、人間の顔だけでなく、手、木のしゃも
じ、机など、似た色をもつ対象も検出してしまう。こ
2
のようなものを排除するため、肌色領域を検出した後、
以下のような条件により顔領域を決定した。これらの
条件は、一般的な画像特徴に加え、料理映像に固有の
(5)
if B ≤ G then
図 11: H–Sm 空間における肌色領域の分布
性質も考慮している。また、図 12 に本手法を用いた顔
領域の抽出例を示す。
• 面積が大き過ぎるもの(画面の 1/4 以上)、小さ
過ぎるものは除外
表 3: 顔領域の検出結果
正解数 正検出 誤検出 検出もれ 再現率 適合率
料理映像においては、顔領域は画面上である程度
の大きさで映っており、大き過ぎたり小さ過ぎる
672
493
48
179
73.4% 91.1%
場合は、顔以外のもの(壁、テーブルなど)を検
出してしまっていることが多いため
• 領域が画面の端に接しているものは除外
誤検出の主な原因は、肌色領域によって顔検出をし
ているために、壁や鶏肉などの色が似ている部分を検
料理映像においては、顔領域が画面の端に接する
出してしまったことである。また検出もれの主な原因
ようなカメラワークが用いられることはなく、肌
は、顔の向きにより肌色領域が小さくなってしまった
色領域が画面の端に接する場合は、調理中の手な
こと、顔に似た色の壁と一体となった領域として検出
どが映っていることが多いため
されてしまったことであった。
表 3 に見られるように、顔領域の検出もれが多いが、
• 顔領域の候補が複数ある場合、それらの面積は同
人物ショットにおいては複数の人物が存在することが
程度であると仮定
料理映像においてはスタジオセットの構造上、同
一ショットに顔領域が複数ある場合は、それらの
面積は同程度となるため
• 顔領域は少なくともその一部が画像の上半分の領
域にあることを仮定
料理映像中のショットの構図上、顔領域が画像の
上半分にかからないことはないため
多いため、表 2 のように人物ショット自体の検出には
それほど影響がみられなかった。
5.2.3
ショット分類精度
前項までの結果から、約 100 分間の料理映像(計 600
ショット)を対象としてショット分類を行った結果を、
改めて表 4 に示す。
これによりショット分類は、提案手法により要約映
像の作成上は問題ない程度の性能で自動化されること
が示された。
6
重要部分の検出
本章では、映像要約の際に用いる映像の重要部分の
定義と検出手法について詳述する。まず、画像中の動
図 12: 顔領域の抽出例
きに基づいて重要部分を検出する手法について提案し、
さらにそれらの動きを分類する手法の 1 つとして、繰
り返し動作検出手法について紹介する。また、字幕検
5.2.2
出による重要部分検出の可能性を示す。
人物ショット検出精度
約 100 分間の料理映像(計 600 ショット)について、
上記の手法を用いて人物ショットの検出を行った結果
を表 2 に示す。また、そのときの顔領域の抽出結果を
表 3 に示す。表中の数字は顔の数を示す。
6.1
動きに基づく重要部分検出
本節では、画像中の動きに注目し、調理手順を理解
するうえで重要である(a)調理動作部分と(b)状態
部分を検出する手法を提案し、評価する。
表 2: 人物ショットの検出結果
正解数 正検出 誤検出 検出もれ 再現率 適合率
282
247
32
35
87.6% 88.5%
6.1.1
映像中の動き検出
映像中から動きを検出する手法として、本研究では、
後に動きの方向や速度などを利用することも考え、オ
プティカルフローを利用する。オプティカルフローと
表 4: ショット分類結果
ショットの種類
正解数
正検出
誤検出
検出もれ
再現率
適合率
人物ショット
282
318
247
286
32
35
35
32
87.6%
89.9%
88.5%
89.1%
手元ショット
は、時間的に連続な一連の画像(動画像)から導出さ
という条件を付け加える。式 10 と式 11 の誤差が、画
れる見かけ上の動きのベクトル表現のことである。
像全体:S で最小になるようにオプティカルフローを
これまでにオプティカルフローを検出する手法は数
多く提案されている [28] 。しかし現時点では映像全体
の大まかな動きに着目することが目的であり、厳密な
動きの解析は必要でないと考えられること、また大量
の画像を処理するため、できるだけ単純な手法を用い
決定する。すなわち誤差 E を
E = {(ρx u + ρy v + ρt )2 + α2 (u2x + u2y + vx2 + vy2 )}ds
S
(12)
と定義する。ただし、
ρx = ∂ρ/∂x, ρy = ∂ρ/∂y,
ux = ∂u/∂x, uy = ∂u/∂y
vx = ∂v/∂x, vy = ∂v/∂y
たい、などの理由から、基礎的な手法である Horn ら
の手法 [29] を基に実装した。
以下、このオプティカルフロー検出法について簡単
ρt = ∂ρ/∂t
であり、α は式 10 と式 11 との相対的な重みを決定
に説明する。
まず、時刻 t において座標 (x, y) にある濃淡パターン
が、δt 時刻経過した後に座標 (x + δx, y + δy) に、その
濃淡値分布を一定に保ったまま移動したとき、その対
するものである。
この評価関数 E は汎関数と考えられ、変分法を用い
ると以下の条件式を得る。
ρ2x u + ρx ρy v = α2 ∇2 u − ρx ρt
ρx ρy u + ρ2y v = α2 ∇2 v − ρy ρt
応付けから、動画像の画像関数(濃淡値)を ρ(x, y, t)
として次式が成り立つ。
ρ(x, y, t) = ρ(x + δx, y + δy, t + δt)
(8)
右辺を (x, y, t) のまわりでテイラー展開し、δx, δy, δt
の 2 次以上の項を微小であるとして無視すると次式を
(13)
式 13 の連立方程式を、例えば Gauss–Sidel 法を用いて
解くことにより、オプティカルフロー v = (u, v) を求
める。
本手法を用いて、料理映像中からオプティカルフロー
を検出した例を、図 13 に示す。
得る。
∂ρ
∂ρ
∂ρ
δx +
δy +
δt = 0
∂x
∂y
∂t
(9)
両辺を δt で割り、δt が無限小の場合を考え、δt の極限
として δt → 0 とすると、以下の式を得る。
∂ρ dx ∂ρ dy ∂ρ
·
+
·
+
=0
∂x dt
∂y dt
∂t
(10)
これは、動画像の濃淡値の時間・空間に関する偏微分(勾
配)とオプティカルフロー v = (u, v) = (dx/dt, dy/dt)
とを関係付ける基礎的な式である。この式には 2 つの
図 13: オプティカルフロー検出の例
未知数 (dx/dt, dy/dt)(=v) が含まれるため、オプティ
カルフロー v を求めるためにはこの式に加え、さらに
1 つ以上の拘束条件が必要である。
そこで、この Horn らの手法では、オプティカルフ
ローの空間的変化を最小にする条件、すなわち、
∂u
∂x
2
+
∂u
∂y
2
+
∂v
∂x
2
+
∂v
∂y
2
→ min (11)
6.1.2
動き検出による映像の重要部分検出手法
検出されたオプティカルフローを利用し、重要部分
を検出する。具体的には、30 フレーム毎秒の料理映像
に対し、以下の手法を適用した。
( 1 ) 前章の手法によりカット検出、ショット分類を行
い、人物ショットを除去
6.1.3
( 2 ) 残された手元ショット中の各フレームにおいて、オ
めに、カメラワークについても調理動作の重要部分と
プティカルフローを検出
カメラワークによる動きの除去
前項の手法では、画像全体に大きな動きが生じるた
して誤検出してしまう。そこでカメラワークを検出し、
調理動作として検出された重要部分から除外する必要
( 3 ) ( 2 ) の各フレームごとに、全画素におけるオプ
ティカルフローベクトルの大きさを求め、それら
の和をとる(S とする)。
( 4 ) ノイズの影響を軽減するため、10 フレームごとに
S の平均をとる(S とする)。
実際の料理映像における S の時間変化を図 14 に示す。
がある。
料理映像中のカメラワークは、大きくパン(画像が
一定方向に平行移動)1 とズーム(対象にズームアップ・
ダウン)の 2 種類に分けられる。パンは調理動作や料理
や食材の状態を見せるのが目的ではなく、対象から対
象へカメラを移動させる途中に現れるものである。し
たがって、画像中に視覚的知見が得られる重要な事象
は映っていないことが多く、重要部分検出の誤検出の
主な原因となる。一方ズームは、一般的に画像の中心
に視聴者に見せたい重要な事象が映る傾向があること
から重要部分に含むこととし、特に区別して検出する
必要はない。
そこで、ここではカメラワークの中でも特に誤検出
の原因となるパンを検出する。カメラワークを検出す
る研究には過去にも様々なものがあるが、すでに検出
されているオプティカルフローを用いた単純な手法で
検出するために、以下のような手順で行った。
図 14: フレームごとのオプティカルフローの大きさ
このように変化する S に基づいて、重要部分である
(a)調理動作部分と、(b)状態部分を抽出する。
ここで、S のショット内での平均値を Save 、また、
Smove , Sstate1 , Sstate2 を(a),
(b)の検出に用いる閾
( 1 ) フレーム f 中の全ピクセル p(i, j) において、オプ
ティカルフローベクトルの向き(0 ≤ θ(i, j) < 2π)
を求める。ベクトルの大きさ v(i, j) で重み付けを
し、角度の分布をとる(angle histogram )。この
際、角度分布を Hf = { hf (Θ) | 0 ≤ Θ < π } と
し、π ≤ θ(i, j) < 2π の向きのベクトルに対して
は、Θ = θ(i, j) − π とし、負の重み −v(i, j) をも
たせる。
値とする。
まず、Save ≥ Smove を満たすショットの中で、S >
αSave を満たす部分を調理動作部分として検出する(α:
定数)。ただし、60 フレーム(2 秒)以内で隣接する区
hf (Θ) =
1 δΘ (i, j) · v(i, j)
S
i
(14)
j
ただし、
間については連続する動作とみなし、1 つの区間とし
て検出する。これは、全体的に動きの激しいショットの
なかでも特に大きな動きを示す部分を調理動作として
検出することを意味する。
次に、S < Sstate1 が T フレーム以上継続する区間、


 1 ( if Θ = θ(i, j) )
δΘ (i, j) =
−1 ( if Θ = θ(i, j) − π )


0 ( otherwise )
あるいは、Save < Sstate2 をみたすショットの中で、
( 2 ) 一連の動きとみなせる範囲のフレーム(f1 ∼ f2 )
S < Sstate2 を満たす区間を料理や食材の状態を示す静
について平均した角度分布 H = { h(Θ) | 0 ≤
止部分として検出する。前者は動きの少ない画像が連
Θ < π } をとる。一連の動きは、S を基に判断す
続する部分、また後者は全体的に動きの少ないショッ
1 ここでは、パン(左右方向)
、チルト(上下方向)などを区別せ
トのなかで特に動きのない部分を検出することを意味
ず、画像が一定方向に平行移動する場合を全て含めてパンと呼ぶこ
する。
ととする。
る。( 1 ) で π ≤ θ < 2π の向きのオプティカルフ
いた閾値を示す。これらの閾値は予備的な実験に基づ
ローベクトルに対し負の重みをもたせたことによ
いて決定した。
り、逆方向の動きは打ち消し合うので、雑音(ラ
ンダム性を仮定)や動作が角度分布中に占める大
表 5: 実験データの特性
きさは小さくなり、パンを検出できる。
f2
1
h(Θ) =
hf (Θ)
f2 − f1 + 1
時間(合計)
(15)
f =f1
以上により、パンを含む動きの場合には角度分布は
図 15(a)のようにある程度の大きさの際立ったピーク
レシピ数
ファイル形式
画像サイズ
フレームレート
40 分
6
Motion JPEG
320×240 ピクセル
30 フレーム毎秒
を 1 つもち、そうでない動きの場合には図 15(b)の
ように明確なピークがないことが観測された。このよ
うな特徴を利用し、角度分布のピーク値 Fp がある適当
な閾値 Fth 以上であり、かつピークが 1 つのみである
ものをパンとして検出し、重要部分から除外すること
とした。
表 6: 実験に用いた閾値
Smove
10, 000
Sstate1
Sstate2
α
7, 000
10, 000
1.0
T
Fth
90
0.025
表 7 に重要部分検出実験の結果を示す。単純な手法
により、調理動作および料理や食材の状態に関する重
要部分を高精度で検出できたことが分かる。
(a)パンを含む場合
(b)パンを含まない場合
図 15: オプティカルフローの角度分布
本実験では、目視により真の正解を決定した。なお、
目視による重要部分検出においても動作の始まりと終
わりはあいまいで厳密には定義できないため、フレー
ム単位での厳密な区間を決定することは困難である。
6.1.4
また本手法は、要約映像作成のための重要部分検出手
重要部分検出実験
法であるため、検出された区間に重要部分を包含して
以上に述べた手順に基づき、料理映像から調理動作
いることが重要である。そこで本実験では、区間の開
部分、料理や食材の状態に関する部分を検出する実験
始点と終了点に関して、目視と自動検出との間におい
を行った。
て 3 秒程度の誤差範囲を許容することとし、正解区間
第 5 章においてカット検出、ショット分類共に高い精
が検出できれば正答とした。
度が得られることを確認したので、本実験では、動き
調理動作の誤検出と状態部分の検出もれの主な原因
に基づいた重要部分検出手法単独での評価をする。そ
は、調理に関係のない動きを検出したことによるもの
のため、カット検出とショット分類は理想的に行われた
であった。調理動作の検出もれの原因は動作が小さす
ものとし、6.1.2 で述べた手法に基づいて動作部分と状
ぎたこと、また状態部分の誤検出の原因は重要でない
態部分を検出した。また、6.1.3 で述べた手法に基づい
(映像の制作者が状態を見せようとしているのではな
てカメラワーク(パン)を検出し、動作部分から除外
い)にもかかわらず画像が静止していたことであった
した。
が、いずれの場合も稀であった。
実験には、ある特定の番組からキャプチャした 6 レ
また、カメラワーク(パン)を検出したことにより、
シピ分(約 40 分間)の料理映像を用いた。表 5 に実験
カメラワーク検出をしない場合に比べて、誤検出の約
40 % (17 から 10 に減少)を削減することができた。
に用いた映像の特性を示す。また、表 6 に本実験で用
表 7: 重要部分検出結果
重要部分
正解数
正検出
誤検出
検出もれ
再現率
適合率
調理動作
119
46
117
39
10
2
2
7
98%
85%
92%
95%
状態
6.2
繰り返し動作検出
本節では、調理動作の中でも特に重要な動作に比較
的共通する性質として観測された繰り返し動作の検出
手法 [40] と、その評価実験結果について述べる。 繰り
返し動作は、調理動作の中でも特に重要なものとして
分類し、優先的に扱う。
6.2.1
繰り返し動作検出手法
図 17: 映像の分割方法と FFT の適用
繰り返し動作の映像においては、映像の局所領域上
を対象物が往復する。そのため、図 16 に示すように、
繰り返し動作の周辺における輝度値は周期的な変化を
均輝度値の時間変化を示す。特に、繰り返し動作によっ
示す。そこで、本研究では時間周波数解析によって局
てそのブロック上を対象が往復している場合、Vx,y (t)
所領域の輝度値の時間変化を解析し、その周期性の有
は周期的な値の変化を見せるはずである。このように
無から繰り返し動作を検出する。以下にこの手法を説
Vx,y (t) が周期的な変化を見せるブロック列が複数ある
明する。
場合、その時間帯には映像中に周期的な振動があると
考えられる。
そこで、画像中のすべての x, y におけるブロック列
Vx,y (t) にそれぞれ FFT(Fast Fourier Transform)を
適用し、その周期性を調べることにした。FFT を適用
する時間方向の範囲は、大きさ(フレーム数)T = 2n
の時間窓内とする。この窓を t 方向に Tstep フレーム単
位で移動していくことにより、各時点での振動の有無
を調べる。以下に FFT の式を示す。
(a)繰り返し動作周辺
(b)背景
図 16: 局所領域における輝度値の時間変化
1
Fw,x,y (f) = √
T
t0 +T
−1
t=t0
2
Vx,y (t)W 式 16 において、W f t = e−j
f t
2π
T
(16)
、また Fw,x,y (f) =
まず、各フレームを小さなブロックに分割する。図
F (f) は周波数 f におけるパワーである。w は窓番号
であり、FFT を適用している時間帯を示す。
Vx,y (t) に明確な周期性がある場合、結果の FFT グ
17 に示す通り、各ブロックは 3 × 3 ピクセルから成る
ラフにはある周波数で明確なピークができると考えら
小さな正方形である。ここで、各ブロックに含まれる
れる。なお、ここでピークとはグラフにおいて他の値
ピクセルの平均輝度値を Vx,y (t) とする。なお、x, y は
と比べて特に突出した極大値を指すこととする。この
画像におけるブロックの空間座標、また t はそのブロッ
ようなピークを検出するため、FFT グラフに関するい
クが属するフレームの時間座標である。
くつかの統計量を利用する。その際に、人間の繰り返
図 17 に示すように、x, y を一定の位置に固定して t
を動かすと、Vx,y (t) は位置 x, y における、ブロックの平
し動作の速さから、考慮する周波数帯を限定した。そ
の範囲を f0 ≤ f < f0 + N とする(図 18)。
ピークの明確さの指標となっている。これらを利用し
て、映像中の動きの周期性の有無を調べる。
具体的には、2 点以上のブロックにおいて、以上の 6
パラメータがいずれも閾値以上の値をもつとき、その
時の窓 w において繰り返し動作が存在するとして検出
する。例えば w = w0 のときに振動が検出された場合、
その料理映像のうち、フレーム範囲 Tstep × w0 ≤ t <
Tstep × w0 + T において繰り返し動作が存在すること
になる。
なお、このような条件を満たすブロックが 1 カ所の
図 18: FFT グラフ
みである場合は雑音である可能性が高いため検出しな
まず、範囲内のパワーの総和は式 17 で示すように定
義される。
い。また、フレームの上下左右の端は画像的に不安定
で、雑音の振動を検出することがしばしば起こった。そ
P owerw,x,y =
f0 +N
−1
のため、映像の端から 15 ピクセル(5 ブロック)分は
F (f)
(17)
考慮にいれないこととした。
f =f0
次に、範囲内での F (f) の最大値を計算する。また、
最大値を与える周波数を fp とする(式 18 )。
6.2.2
繰り返し動作検出実験
前項で述べた方法に従い、評価実験を行った。実験
には、5 つの料理番組から取得した料理映像 68 レシピ
F (fp ) =
max
f0 ≤f <f0 +N
F (f)
(18)
ここで、F (fp ) は最大値ではあるが、明確なピーク
分(合計約 330 分)を利用した。映像の特性を表 8 に
示す。
といえるとは限らない。そこで F (fp ) がグラフにおい
てどの程度突出しているのかを知るため、Fpeak (fp ) な
る指標を定義した。これは、F (fp ) を除く F (f) の平均
値と F (fp ) との比である(式 19 )。
Fpeak (w, x, y) =
表 8: 実験データの特性
時間(合計)
レシピ数
F (fp ) × (N − 1)
f0 +N −1
f =f0 ,f =fp
F (f)
ファイル形式
(19)
画像サイズ
フレームレート
330 分
5 番組 68 レシピ
MPEG2
360 × 240 ピクセル
30 フレーム毎秒
また、低周波数におけるパワー F (1) や F (2) より
も F (fp ) が小さい場合は、本来周期的ではないゆっく
りした動作に含まれる繰り返しの断片を検出してしま
繰り返し動作の検出のためには、時間窓中で数回以
う可能性があるため、これを排除する。そこで、その
上は動作が繰り返されている必要がある。そこで、窓
指標として F (fp ) の F (1) と F (2) に対する比である
サイズ T は経験的に 32 フレーム(約 2 秒)、そして
R1 , R2 をそれぞれ用意する。R1 , R2 が十分に大きいと
き、F (fp ) は低周波帯のパワーより十分大きいことが
わかる。
窓の移動ステップ Tstep は 16 フレーム(約 1 秒)とし
た。また、対象とする周波数帯は f0 = 3, N = 12 とす
また、動きの周期性が曖昧な場合、グラフ全体のエ
に示す。また、前項で述べた通り、ある時点での窓 w
ネルギーは大きくなるが、ピークがあまり明確になら
において2つ以上のブロックで表 9 (b) に示す 6 つの
ない。そこでピークの鋭さの指標 Rsharp を式 20 のよ
パラメータが閾値より大きい場合、繰り返し動作を検
うに定義する。
出する。
Rsharp =
F (fp ) × 4
fp +2
f =fp −2,f =fp
る。周波数解析に関するパラメータをまとめて表 9 (a)
実験結果の評価においては、対象の料理映像から、振
(20)
F (f)
以上までに説明した P ower, F peak , fp , R1 , R2 ,
Rsharp の6つのパラメータは、FFT のパワーおよび
動動作部分の映像を人手で抜き出し、これを正解とし
た。そして自動解析結果と人手による正解を照合する
ことで、手法の評価を行なった。評価実験の結果を表
10 に示す。
表 9: 評価実験における各パラメータの値および閾値
(a) パラメータ
(b) 閾値
T
Tstep
f0
32
16
3
P ower > 500
Fpeak > 50
fp > 5
N
12
Rsharp > 3
R1 > 3
R2 > 3
(a) 成功例:キャベツの千切り
(b) 成功例:鶏肉をもむ
(c) 誤検出:肉を焼く
(d) 誤検出:器の中のタレ
(e) 検出もれ:小麦粉をはたく
(f) 検出もれ:ねぎを炒る
表 10: 繰り返し動作検出結果
正解数 正検出 誤検出 検出もれ 再現率 適合率
108
93
8
15
86.1% 92.1%
表 10 に示す通り、本手法の適合率は 92%、再現率
図 19: 繰り返し動作検出結果の例
は 86%程度である。これにより、本手法により繰り返
し動作が高精度で検出されることがわかった。本手法
による成功例、誤検出そして検出もれの具体的な例を
図 19 に示す。
人手で正解を作成する際にも、特に図 19 の (f) のよ
うなあいまいな動きの場合は、繰り返し動作か否か迷
まず、図 19 の (a), (b) は典型的な成功例である。い
う場面が多かった。このように、今回の実験において
ずれも十分に高速かつ規則的な動作であり、また調理
は、料理映像において繰り返し動作とは何かという厳
手順の中でも要領を要する重要な動作である。また (b)
密な定義が困難であるという問題点も明らかになる一
のような、肌色に近い色の食材を扱う映像の場合も正
方で、実験の結果では、人間から見ても振動があいま
確に検出することができた。
いなものほど検出率も悪くなる傾向にあった。
次に、図 19 の (c), (d) に誤検出の例を示す。これら
は共に動作は含まれていないが、まず (c) は、画面右
上のフライパンの上に置かれた菜箸が規則的に揺れて
6.3
字幕(テロップ)検出
いるため、これを振動として誤検出した。また (d) で
映像において、動きの特徴以外で重要部分を示すも
は、静止ショットであるにもかかわらず器の中のタレ
のとして考えられるものに、映像中の字幕(テロップ)
が規則正しく揺れており、その振動を誤検出した。こ
がある。
れは、映像に映される直前までタレが混ぜられていた
料理映像における字幕は図 20に示すように、
(a)料
ためと考えられる。このように、人の動作以外の振動
理のコツや(b)使用する材料を示し、調理の手順を理
を誤検出する例がいくつか見られた。
解する上での重要な情報を与えている。特に本研究の
最後に、図 19 の (e), (f) に検出もれの例を示す。(e)
ように音声を考慮しない要約映像を作成する場合には、
は魚に小麦粉をまぶし、これを軽くはたく動作である。
字幕が出現する部分を抽出することは内容理解の大き
検出もれの原因として、動き自体が小さく単発的であ
な助けとなることが予想される。したがって、映像中
り、さらに手と食材についた小麦粉の色により、輝度
の字幕が出現している部分は、出現していない部分よ
値の変化が少なかったことが考えられる。(f) はネギを
りも重要であると考えられる。そこで、高い精度を得
ゆっくりと炒る動作である。(f) の例に限らず、一般に
にくい文字認識まで行うのではなく、字幕が映像中に
鍋などで素材にゆっくりと火を通す際の動作は、動き
出現しているかどうかを検出することとする。
が遅く、そのため規則性も厳密ではないため検出もれ
が多かった。
映像中の字幕は、見やすさのために色や大きさ、表
示時間など様々な配慮がなされており、その結果とし
(a)料理のコツ
(b)使用する材料
図 21: 料理映像中の字幕検出例
図 20: 料理映像中の字幕
このように映像中の字幕を検出することができるが、
ていくつかの明確な特徴をもっている。これらに加え、
要約映像を作成する際に、字幕検出結果をどのように
文字または文字列そのものがもつ一般的な性質を利用
利用するかについては、さらなる検討が必要である。
することにより、任意の背景中に存在する字幕を選択
的に検出することが可能になる。
映像から字幕を検出する研究は、[3, 30, 31, 32] など、
7
自動要約映像生成
様々なものがあるが、これらの研究では基本的に、以
下のような映像中の字幕の性質を利用し、検出してい
る。検出精度は、対象映像や手法にもよるが、よいも
のは再現率、適合率共に 90%程度のものも報告されて
おり [32] 、自動化が実現できる精度である。
空間的性質
• 文字は背景とコントラストの強い色である
本章ではまず、第 6 章の手法により検出された重要
部分の重複を避けるための類似映像セグメント検出手
法について提案する。さらに、この結果を利用した要
約映像を作成して評価する。
7.1
類似映像セグメント検出
要約映像を作成する際には、第 6 章で述べた手法に
• 文字列は縦または横方向に直線的に並ぶ
より検出された重要部分を利用する。ここで、第 6 章
• 字幕は複数の文字から構成される
の手法は重要部分を全て検出するため、1 つの重要な
• おおよその大きさは決まっている
動作や状態から複数の重要部分を検出することがある。
時間的性質
• 一定時間は変形しない
• 一定時間以上は画面上に存在する
以上の性質、およびこれまでの手法を参考に次のよ
うな手法を料理映像に適用した結果、図 21 のように字
幕を検出することができた。
これらは同一の視覚的情報を示し、画像的にも内容的
にも非常に類似した映像セグメントとなるため、要約
に含めると冗長となる。そこで、このような冗長なセ
グメントを省くため、検出された重要部分から類似映
像セグメントを検出し、1 つの代表セグメントとする。
以下に、提案する類似映像セグメント検出手法につ
いて述べる。この手法では、2 つの映像セグメントの
全体的な類似度を求め、その類似度により重複するセ
グメントかどうかを判定する。
( 1 ) 輝度画像からエッジを検出
( 2 ) 字幕を検出するフレームとそれに連続する 5 フレー
ムとを比較し、エッジが一致しない部分を除く
( 3 ) フレームを 10×10 ピクセルの小領域に分割し、そ
の領域においてエッジの密集度がある程度高い部
分を字幕領域候補とする
( 4 ) 字幕は横方向に出ると仮定し、字幕領域候補が横
につながる部分を字幕領域として検出
7.1.1
カラーヒストグラム間の 2 次形式距離
本手法では類似映像セグメントを検出するために、各
セグメントに含まれる画像中の色ヒストグラム間の距
離を用いる。ヒストグラム間の距離は、画像検索システ
ム QBIC で類似度評価に使われた 2 次形式距離 [33, 34]
を用いることとした。
色数が n 個の色ヒストグラムを x = [x1 , . . . , x n]T
(xi は第 i 色の割合であり、
n
i xi
= 1 となるように
しておく)とすると、ヒストグラム x, y の 2 次形式距
ここで、Xst , Yst , Zst は完全拡散面の標準の光による
離Dは
色度であり、NTSC 方式では
D(x, y)
=
n n
[Xst Yst Zst ] = [98.072 100.000 118.225]
(xi − yi )Sij (xj − yj )
が用いられる。
i=1 j=1
=
T
(x − y) S(x − y)
(27)
(21)
で定義される。ここで、S = [sij ] は色類似度行列と
7.1.2
類似映像セグメント検出手法
料理映像の手元ショットにおいては、図 22 に示すよ
呼ばれ、sij は色 i と j の類似度である。
色の類似度において、人間の視覚が感じ取れる知覚的
な誤差は RGB 色空間での誤差とは異なることが知られ
ている。そこで、知覚的な誤差を測るために、国際照明
委員会 CIE(Commission International de l’Eclairage )
が知覚的にほぼ均等な尺度をもつ色空間として L∗ a∗ b∗
色空間(CIE LAB)及び L∗ u∗ v∗ 色空間(CIE LUV)
うに、画面中央の部分には調理をしている食材や動作
が、両端下端部分には、
「まな板」
「テーブル」
「ガスレ
ンジ台」などの背景部分を示すものが映ることが多い。
そこで、まず図 23(a) のように画面を 3 × 3 に分割
し、図 23(a)中に灰色で示した中央部分を中心ブロッ
クと定義する。また、図 23(b) のように画面を 8 × 4
に分割し、両端下端部分(図 23(b)中の灰色部分)を
を推奨している [35] 。
そこで、本手法では色空間として L∗ a∗ b∗ 色空間(L:
2 つ合わせて背景ブロックと定義する。
明度,a, b:彩度)を用いることとする。類似度 sij は、
色 i の L∗ a∗ b∗ 値を Li , ai , bi 、a を正定数として、以下
の式 22 のように定義した。
sij = e−a{(Li −Lj )
2
+(ai −aj )2 +(bi −bj )2 }
(22)
また、以下に RGB 空間から L∗ a∗ b∗ 色空間への変換
手順を簡単に説明する [36, 37] 。
まず、RGB 空間を XY Z 空間に変換する。これは
(a)中心ブロック
(b)背景ブロック
図 23: 類似判定に用いる画面の分割方法
NTSC 方式に基づいた変換式である。

X


0.607 0.174 0.201

R


 


 Y  =  0.299 0.587 0.114   G 
Z
0.000 0.066 1.117
B
f1 フレームを先頭とし、全 m フレームから構成さ
(23)
フレームから構成される映像セグメント 2 の比較を以
次に、式 23 で変換された XY Z 空間を L∗ a∗ b∗ 色空
間に変換する。明度 L は
116(Y /Yst)1/3 − 16
L=
903.29(Y /Y st)
∗
れる映像セグメント 1 と、f2 フレームを先頭とし全 l
下のように行う。
まず、映像セグメント中の各フレームにおいて、中
心ブロックの色ヒストグラム xct 、背景ブロックの色ヒ
if Y /Yst > 0.008856
if Y /Yst ≤ 0.008856
(24)
ストグラム xbg を計算する。
次に、映像セグメント 1, 2 における中心ブロックのヒ
ストグラムの全フレームにわたる平均をそれぞれ Sct ,
Sct 、背景ブロックのヒストグラムの全フレームにわ
∗
また、a , b は
a∗ = 500[f(X/Xst ) − f(Y /Yst )]
b∗ = 200[f(Y /Yst ) − f(Z/Zst )]
たる平均をそれぞれ Sbg , Sbg とする(式 28, 29 )。
(25)
Sct =
と与えられる。式 25 中の関数 f(λ) は、以下の式 26 で
与えられる。
f(λ) =
if λ > 0.008856
λ
7.78λ + 16/116 if λ ≤ 0.008856
(26)
f1 +m−1
xct (f)
, Sct =
f =f1
f2 +l−1
1 xct (f)
l
f =f2
(28)
Sbg =
1/3
1
m
1
m
f1 +m−1
f =f1
f2 +l−1
xbg (f)
, Sbg =
1 xbg (f)
l
f =f2
(29)
まな板
テーブル
ガスレンジ台
図 22: 手元ショットにおける中心ブロックと背景ブロック
さらに、式 21 を用いて、映像セグメント 1 と映像
セグメント 2 の間の中心ブロックの距離 Dct 、背景ブ
ロックの距離 Dbg を以下のように定義する。
Dct = D(Sct , Sct )
(30)
Dbg = D(Sbg , Sbg )
(31)
図 25: 類似映像セグメント(類似パターン B)
この Dct , Dbg をに対して適当な閾値を用いることで、
同一の視覚的情報を示す類似セグメントを検出する。
本手法によって検出する類似映像セグメント群には、
以下、それぞれの類似パターンの検出手法について
述べる。
大きく以下の 2 種類がある。1 つは、図 24 に示すよう
に、連続する 2 つのセグメント間の映像の差が非常に
類似パターン A
少ないものである(類似パターン A)。このような類似
まず、隣接する映像セグメントにおいて Dct , Dbg
パターンは数も多く、本手法で検出するセグメントも
を計算する。適当な閾値 Dth
場合である。これは連続する 3 つのセグメント間にお
Dth A2 を設定
し、Dct < Dth A1 かつ Dbg < Dth A2 のとき、こ
れらのセグメントを同一の視覚的情報を示す類似
いて、最初と最後のセグメント間に映像の差が非常に
セグメントとして検出する。
こちらが主である。もう 1 つは、図 25 に示すような
A1 ,
少なく、真ん中のセグメントは最初もしくは最後のセ
グメントのズームアップとなっているものである(類
類似パターン B
似パターン B)。この種類の類似は頻度は少ないが、放
まず、3 つの連続する映像セグメントを含む手元
送局や番組の違いにかかわらず料理映像ではしばしば
ショット間に別の手元ショットが含まれないこと
見られる。3 つのセグメントが同じ視覚的情報を示し
が条件となる。その条件を満たすセグメントを
ていることから、このパターンが要約に含まれるとよ
時間順にセグメント 1, 2, 3 とし、それぞれの
り冗長に感じられるため、これを本手法によって検出
セグメント間について Dct , Dbg を計算する。適
し、重複を排除することとする。
当な閾値 Dth B1 , Dth B2 を設定し、Dct (1, 2) <
Dth B1 , Dct (2, 3) < Dth B1 , Dct (1, 3) < Dth B1 ,
Dbg (1, 3) < Dth B2 の全てが満たされるとき、こ
れら 3 つのセグメントを同一の視覚的情報を示す
類似セグメントとして検出する。
7.1.3
類似セグメント検出手法の自動要約手法への
適用
図 24: 類似映像セグメント(類似パターン A)
以上の手法により類似セグメントを検出するが、要
約映像作成に適用するためには、検出された類似セグ
メントを 1 つにまとめる必要がある。検出されたセグ
メントは理想的には同じ視覚的情報を示すものである
表 12: 実験に用いた閾値
から、どの部分を用いてもよいが、以下の方針で類似
a
Dth
Dth
セグメントから 1 つの代表セグメントを選出し、要約
に用いることとした。
Dth
Dth
• 類似セグメントに状態セグメントが含まれる場合、
状態セグメントを代表セグメントとする。
• 上記の場合以外で類似セグメントに繰り返し動作
セグメントが含まれる場合、繰り返し動作セグメ
ントを代表セグメントとする。
• 類似セグメントが動作セグメント同士の場合は先
頭のセグメントを、状態セグメント同士の場合は
末尾のセグメントを代表セグメントとする。
• セグメントが異なるショットに含まれる場合、同
種類のセグメント(動作一般、繰り返し、静止同
士)のみを 1 つにまとめる。
A1
A2
B1
B2
0.001
0.05
0.05
0.05
0.05
比較的画面の端で作業が行われていたものを検出して
しまったことなどであったが、数は少なかった。また、
検出もれの主な原因は、同じ視覚的情報を示している
映像セグメントでありながら対象へのカメラのズーム
率が若干異なり、背景の映りこみ方が異なってしまった
ため、背景ブロック間の距離が大きくなったことであっ
た。しかし、再現率、適合率は共に 85%以上と高い精
度であり、特に適合率が再現率よりも高く 90%以上で
あるため、必要な情報を失わずに冗長セグメントを省
略する、という本要約手法の目的に沿う結果となった。
ここで、放送局の異なる 4 番組 8 レシピの映像を対
象とし、類似セグメント検出実験を行った。類似セグ
メント検出は、それぞれの映像に対して、6.1 節、6.2
7.2
要約映像の作成
節の手法によって重要部分を検出し、それらの重要部
要約映像の作成には、まず 6.1 節及び 6.2 節の手法
分のうち調理動作(繰り返し動作を含む)に関しては
によって検出された重要部分から各々代表セグメント
先頭部分、状態部分に関しては末尾部分の各 2 秒間を
を抽出し、さらに、7.1 節の手法によって同じ視覚的情
取り出した映像セグメント(204 セグメント)に対し
報を表す類似セグメントを 1 つにまとめ、それらを時
て行った。実験に用いた映像の特性を表 11 に、閾値
系列に沿って結合し、作成した。
を表 12 に示す。これらの閾値は予備実験に基づき決定
ここではその手法の詳細と、その結果自動生成され
た要約映像の特徴について述べる。
した。
結果を表 13 に示す。なお、表 13 は本手法での主な
検出対象となる類似パターン A についてのものであり、
表中の数字は類似セグメント対の数を示す。類似パター
ン B に関しては、今回の実験対象となる映像セグメン
ト中には 2 つしか見られなかった。したがって絶対数
が少なく、参考程度の結果ではあるが、再現率、適合
率共に 100%であった。
7.2.1
自動要約映像生成手法
提案手法を利用した自動要約アプリケーションを作
成した。図 26 に、アプリケーションの画面の例を示す。
以下に、具体的な要約映像の生成手法について述べ
る。
各手元ショットにおいて、まず、6.2 節の手法によっ
て繰り返し動作が検出されたショットに対しては繰り
表 11: 実験データの特性
返し動作部分の先頭を抽出した。また、繰り返し動作
が検出されないショットや繰り返し動作部分から十分
画像サイズ
4 番組 8 レシピ
320 × 240 ピクセル
色数
512 色(RGB 各 3 ビット)
動きに基づく重要部分検出手法によって検出された調
レシピ数
に(10 秒以上)離れている部分に関しては、6.1 節の
理動作部分の先頭を抽出した。このように、繰り返し
動作は調理動作の中でも特に重要な動作に比較的共通
表 13 から、高精度でパターン A の類似セグメント
する性質として観測されたことに基づき、優先的に要
が検出できていることがわかる。誤検出の主な原因は、
約に含めた。さらに、動きに基づく重要部分検出手法
表 13: 類似セグメント検出結果
対象セグメント対
正解数
正検出
誤検出
検出もれ
再現率
適合率
196
49
42
3
7
85.7%
93.3%
図 26: 料理要約映像アプリケーション画面の例
によって検出された料理や食材の状態部分の末尾を抽
出した。これら各部分 2 秒間を検出された重要部分の
代表セグメントとした。
これらの代表セグメントにおける類似セグメントは
7.1 節の手法により 1 つを選択し、それらを時系列に
沿って結合し、要約映像を生成した。なお、動きに基
づく重要部分検出手法単独による要約映像の評価を行
なうため、6.1 節と同様に、カット検出、ショット分類
図 27: 料理映像から要約された映像セグメント(黒縁:
繰り返し動作映像、灰縁:一般的な動作映像、白縁:状
態映像)
は理想的に行なわれたものとした。
7.2.2
生成された要約映像
の部分であり、動きの強さ、早さなど豊富な視覚的情
報を含んでいる。次に、繰り返しではない調理動作の
本アプリケーションによる要約の一例を図 27 に示
うち、(2)は「皮をむく」、(9), (10)は素材を鍋に
す。各フレームは要約に含まれる映像セグメントの代
「入れる」動作である。いずれも、テキストから容易に
表フレームである。図 27 において、黒縁のものが繰り
動きを推測できる動作であるが、要約に含めることで、
返し動作部分、灰縁のものがその他の動作部分、白縁
より調理手順を分かりやすくしている。最後に、
(1),
のものが状態部分である。
(3), (7), (8), (12)は、状態を示す静止部分で
図 27 において、繰り返し動作(4)〜(6)は、「里
ある。
(12)の盛り付けの映像をはじめとして、これら
芋を塩でもみ、ぬめりをとって洗い流す」映像である。
の状態を示す映像には視覚的に重要な情報が含まれる
これらの映像には、調理の手順を伝えるとともに「ぬ
うえ、要約映像における手順の進行を明確にしている。
めりをとる」
「洗い流す」といった単語だけでは表現し
放送局の異なる複数の料理番組 13 レシピに対し、要
きれない調理動作に関する重要な視覚的情報が含まれ
約映像を作成した際に抽出されたセグメント数を、番
ている。
(11)も同様に「なべを揺すって味をからませ
組毎にまとめたものを表 14 に示す。作成された要約映
る」という繰り返し動作で、このレシピにおけるコツ
像は、時間的には元の映像と比べて 1/8 から 1/12 に短
縮され、なおかつ表 14 のように番組毎に傾向の差はあ
が、(2)中には、同じ視覚的内容を表すセグメントが
るものの、調理手順を理解するのに重要な視覚的情報
重複している場合があるが、比較の際には、それらを
および手順が含まれており、提案する要約手法の有効
まとめて 1 つのセグメントとみなした。この比較の様
性が定性的に示された。
子の例を図 28 に示す。
表 14: 映像要約生成における抽出セグメント数
表 15: 抽出セグメント数による要約映像の比較
SegH SegM
レシピ数 繰り返し 一般動作 状態 平均要約率
SegC 再現率 適合率
番組 1
5
25
31
26
約 1/12
レシピ 1
12
20
11
92%
55%
番組 2
11
8
1
41
70
19
8
2
6
約 1/10
レシピ 2
約 1/9
レシピ 3
13
11
24
16
13
10
100%
91%
54%
63%
番組 4
3
3
2
約 1/8
全体
36
60
34
94%
57%
全体
13
45
161
42
約 1/10
番組 3
表 15 から、再現率が高いことがわかる。つまり提案
手法によって、番組制作者が要約に含めたものの大部
7.3
要約映像の評価
分を抽出できている。実際、抽出できなかったセグメ
ントは 2 つのみであった。
要約映像の良さに関する客観的な評価は困難な課題
一方、適合率はあまり高くないが、その 1 つの原因
である。これまでにも様々な映像要約の研究が行われ
として、ここで比較した要約映像は、一度番組を見た
てきたが、要約手法の評価に関する標準的な手法は存
視聴者が「おさらい」という形で見るためのものであ
在しない [12] 。しかし、アンケートによる主観評価が
り、本研究で目的とする調理の全体的な流れを視覚的・
比較的多くの研究において行われているようである。
直感的に理解するのに充分である映像とは若干目的の
本研究では、料理番組の制作者によって作成された
要約映像との比較と、アンケートによる評価の 2 つの
方法によって要約映像を評価することにする。
異なるものであることが挙げられる。
また、提案手法で過剰に抽出した部分の多くは、食
材を見せている部分や「切る」
・
「入れる」といった基本
的動作の部分であり、重要度は低いものの、調理の全
7.3.1
制作者による要約映像との比較
体的な流れを丁寧に視覚的に表現するためには必要な
表 14 に示した番組 3 においては、番組の最後に「本
部分であった。同時にこれらの部分のいくつかは、番
日のおさらい」という形で、番組制作者の用意した要
組制作者による要約映像において映像セグメントとし
約映像が存在する。そこで、番組 3 の 3 レシピ分を対
ては現れないが、新たに挿入された字幕やナレーショ
象とし、
(1)番組制作者による要約映像と(2)提案手
法による自動要約映像を比較した。
まず、要約映像の長さは、
(1)では 40 秒と固定長で
あるのに対し、(2)では、3 レシピ分の平均が約 53 秒
であり、後者の方が少し長かった。要約映像の時間につ
いては現時点では特に考慮していないので、今後、各々
のセグメントに最適な時間を設定することや、ユーザ
の熟練度に応じて変化させることなどの改良をしてい
くことが必要である。
ンによる説明で補われていた部分でもあった。
そこで、番組制作者による要約映像において、字幕
やナレーションによる説明部分も 1 セグメントとして
数えた結果を表 16 に示す。これにより、番組制作者に
よる要約映像の字幕やナレーションまで含めると、本
手法は比較的よい適合率が得られることが示唆された。
7.3.2
アンケートによる主観評価実験
生成した要約映像を別角度から評価するため、アン
次に、映像内容を比較した結果を表 15 に示す。提案
ケートによる主観評価実験を行った。アンケートは、10
手法による自動要約映像は音声を考慮していないので、
名の被験者(男性:6 名、女性:4 名)に対し、4 番組
視覚的内容のみを比べている。
(1)中のセグメント数を
7 レシピ分の映像に関して行った。被験者の料理の経
SegH 、(2)中のセグメント数を SegM 、また、両者に
共通するセグメント数を SegC 、再現率を SegC /SegH 、
適合率を SegC /SegM とする。また、わずかではある
験は、料理の経験がほとんどない人から、日常的に料
理をする人まで様々である。また、実験に用いた映像
は、放送局の異なる番組 1 ∼ 3 について各 2 レシピず
図 28: 要約映像の比較
ムとして用いられるということを考慮したものである。
表 16: 抽出セグメント数による要約映像の比較(字幕
また、今回の比較では、どちらの手法においても要約
およびナレーションによるセグメントを含む)
に含む映像セグメントは 2 秒と固定している。要約映
SegH SegM SegC 再現率 適合率
像の時間は合わせていないが、これは、それぞれの要
20
24
16
16
18
11
94%
100%
92%
80%
75%
69%
約手法において含まれる映像セグメントの内容的な良
レシピ 3
17
18
12
全体
47
60
45
96%
75%
答を依頼した。これらは、点数が大きい近いほど良い
レシピ 1
レシピ 2
さを比較するためである。
被験者には以下の 4 項目の質問に対して 7 段階で回
要約映像であることを示すようになっている。
つと、電子情報通信学会パターン認識・メディア理解
質問 1: 調理の全体的な流れのわかりやすさ
(1:とてもわかりにくい
研究会 VDBWG により公開されている評価用映像メ
←→ とてもわかりやすい:7)
ディアデータベース中の「ランクアップ Cooking 」1 レ
シピである。
質問 2: 手順が欠けているところがあるか
(1:とても多い ←→ ない:7)
実験では、まずそれぞれのレシピに対して比較対象
となる要約映像を作成し、その映像と提案手法による
自動要約映像の 2 つを被験者に見せた。そして、それ
質問 3: 冗長な部分があったかどうか
ぞれの映像に対する質問に 7 段階で答えてもらうこと
(1:とても多い ←→ ない:7)
で映像を評価してもらった。なお、2 つの映像を見せる
質問 4: この要約映像を見て、実際に調理が可能かど
順番はランダムとした。
うか
ここで、実験に用いた要約映像について表 17 に示
(1:不可能 ←→ 可能:7)
す。表 17 中の「セグメント数」は、それぞれの手法に
よって要約映像に含まれる映像セグメント数を示して
いる。
また、2 つの映像を見た後で、総合してどちらの要
約映像がよかったか、という質問に対して、下に示す
比較対象の要約映像としては、全手元ショットの先
ように全く同じ場合を 0 とし、差があると感じられる
頭部分をそれぞれ 2 秒間ずつ抽出し、それらをつなぎ
場合は映像の良さの差を 3 段階で回答を依頼した(質
合わせた映像を用いた。これは、料理映像中では人物
問 A とする)。
ショットよりも手元ショットが重要であること、また、
ショットの先頭部分が、しばしばショットの代表フレー
映像 1
映像 2
表 17: 主観評価実験に用いた映像
元映像
セグメ
映像
の時間
ント数
(秒)
要約手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
要約率
(時間割合)
番組 1 レシピ 1
405
19
11
1/11
1/18
番組 1 レシピ 2
479
18
22
1/13
1/11
番組 2 レシピ 1
426
22
1/10
18
1/12
1/10
1/12
番組 2 レシピ 2
418
22
18
番組 3 レシピ 1
491
25
28
1/10
1/9
番組 3 レシピ 2
484
24
35
1/10
1/7
ランクアップ 1
152
10
14
1/8
1/5
アンケートの結果を表 18 に示す。表における点数
は、質問に対する各回答の平均点で、満点は 7 点であ
果を詳しく分析する。
の得点を示す。数字が大きいほど、その要約映像に高
表 17 の要約映像に含むセグメント数について「番組
1 レシピ 2」
「番組 3 レシピ 1 」
「番組 3 レシピ 2」にお
いては、比較手法の方が要約に含むセグメント数が多
い評価が与えられたことになる。
いにもかかわらず、表 18, 7.3.2 に見られるように、質
る。またカッコ内に 7 点満点を 100%と正規化した場合
さらに、同一レシピの正規化した評価点において、
問 2「手順が欠けているところがあるか」で提案手法
(提案手法の評価点) − (比較手法の評価点)を計算
の方が良い評価を得た。これは、提案手法ではより短
したものと、質問 A「2 つの映像を比べて提案手法の
い要約に効率よく必要なセグメントを含むことができ
方がよかった度合い(3 点満点)」の評価点を表 7.3.2
たことを示す。
に示す。また、A のカッコ内の数値は、2 つの映像が全
また、表 7.3.2 中の評価点が負の値をとる部分、つ
く同じ場合を 50%とし、提案手法が 3 点満点であれば
まり比較手法の評価の方が高かったのは、
「番組 1 レシ
100%と正規化した値を示すものである。これらの数値
は、値が大きいほど提案手法のよさを示すものになっ
ている。
ピ 1」「番組 2 レシピ 1 」の質問 3、「ランクアップ 1」
の質問 4 の 3 箇所である。
質問 3「冗長な部分があったかどうか」の評価点が
まず、表 7.3.2 中の質問 A「2 つの映像を比べて提案
高い比較映像は、要約映像に含むセグメントが提案手
手法の方がよかった度合い」の評価点が全て負の値をと
法と比較しても少なく、冗長ではないと感じられたも
ることがなく、カッコ内の正規化した値も全て 50%以
のの、逆に質問 2「手順が欠けているところがあるか」
上であることから、提案手法と比較手法の比較では、全
の評価点は低く(表 18)、表 7.3.2 においても評価点の
てのレシピにおいて提案手法による要約映像の方が優
差が大きく見られ、比較手法では必要なセグメントが
れていたと被験者によって判断されたことがわかる。
要約に含まれていないことがわかる。
さらに、表 7.3.2 中の質問 1 ∼ 4 の項目でもほとん
質問 4「この要約映像を見て、実際に調理が可能か
どの評価点が正の値を示しており、全体的に提案手法
どうか」に関しては、質問自体が調理手順の全体的な
の優位性を示す結果が得られた。
流れを知る、という今回の要約の目的からは外れてい
以下、これらのアンケートによる主観評価実験の結
ること、また評価点が回答者のこれまでの調理経験に
要約手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
提案手法
比較手法
映像
表 18: アンケート結果(質問 1 ∼ 4)
質問 2
質問 3
質問 1
わかり
欠落性
冗長性
やすさ
6.1 (85%)
番組 1 レシピ 1
5.0 (67%)
質問 4
調理
可能性
4.9 (65%)
5.3 (72%)
2.2 (20%)
2.0 (17%)
5.5 (75%)
2.2 (20%)
5.3 (72%)
4.6 (60%)
4.4 (57%)
4.9 (65%)
4.4 (57%)
4.2 (53%)
4.3 (55%)
4.3 (57%)
番組 2 レシピ 1
6.3 (88%)
4.5 (58%)
5.9 (82%)
3.5 (42%)
5.2 (70%)
5.7 (78%)
5.4 (73%)
3.9 (43%)
番組 2 レシピ 2
5.4 (73%)
3.1 (35%)
5.0 (67%)
2.7 (28%)
5.0 (67%)
4.4 (57%)
5.0 (67%)
3.4 (40%)
番組 3 レシピ 1
5.8 (80%)
3.7 (45%)
5.2 (70%)
3.5 (42%)
4.9 (65%)
3.0 (33%)
5.2 (70%)
3.8 (47%)
5.5 (75%)
5.1 (68%)
3.9 (48%)
5.1 (68%)
番組 1 レシピ 2
番組 3 レシピ 2
ランクアップ 1
提案手法
平均
比較手法
5.2 (70%)
5.0 (67%)
3.4 (40%)
5.0 (67%)
5.6 (77%)
4.9 (65%)
5.1 (68%)
5.3 (72%)
5.5 (75%)
4.9 (65%)
4.5 (58%)
5.4 (73%)
5.7 (79%)
4.1 (51%)
5.1 (68%)
3.7 (45%)
4.8 (63%)
4.4 (57%)
5.2 (70%)
4.0 (50%)
表 19: 提案手法と比較手法の得点の差分(提案手法が優れている場合:正の値)
と提案手法の良さ(質問 A)
質問 2
質問 1
わかり
映像
欠落性
やすさ
質問 3
冗長性
質問 4
調理
可能性
質問 A
提案手法
の良さ
番組 1 レシピ 1
65
50
-10
52
2.6 (93%)
番組 1 レシピ 2
15
30
38
35
7
40
39
28
2
-8
10
32
8
30
27
23
1.0 (67%)
2.0 (83%)
1.4 (73%)
1.3 (72%)
ランクアップ 1
5
2
1
0
8
10
1
-1
1.0 (67%)
0.8 (63%)
平均
28
23
6
20
1.4 (74%)
番組 2 レシピ 1
番組 2 レシピ 2
番組 3 レシピ 1
番組 3 レシピ 2
大きく左右されること、さらにその評価点の差も 1 と
を提案し、これらの手法を適用した料理映像の自動要
わずかであることを考慮すると、あまり重視する必要
約アプリケーションを実装した。その結果、要約映像
はないと考えられる。
は元の映像の 1/8 から 1/12 の時間に短縮できた。
「ランクアップ 1」の映像などでは、表 17 に見られ
生成した要約映像の評価としては、まず、番組制作
るように提案手法では含む映像セグメントが比較手法
者によって用意された要約映像と比較することにより、
よりも少ないにもかかわらず、被験者による評価は同
提案する自動要約手法の有効性を示した。さらに、ア
程度以上であり、要約という意味では優れていると判
ンケートによる主観評価実験から、要約映像は調理手
断できる。実際、質問 3「冗長な部分があったかどう
順の内容を保っており、調理の全体的な流れがわかり
か」では提案手法の方が評価が高く(つまり冗長性が
やすいという結果が得られ、効率よく必要な映像セグ
低い)、質問 A の回答からも被験者によって提案手法
メントを要約に含むことができるという提案手法の有
の方がよいと判断されている。この点においても、提
効性が確認された。
案手法では効率よく必要なセグメントを要約に含むこ
とができるということが示されている。
また、表 7.3.2 の提案手法と比較手法の差分からは、
このような料理映像の自動要約が実現すれば、これ
を大量に作成し、要約料理映像データベースを構築す
ることが考えられる。これらの要約映像は、元の映像
全体的に冗長性がないという項目よりも必要な映像セ
を見るよりも短い時間でレシピのおおまかな手順やか
グメントの欠落がないという項目で特に高い評価を得
かる手間などを知ることができ、なおかつテキストレ
ており、本提案手法の目的に沿った要約が作成できて
シピを読むよりも雰囲気をつかみやすいと考えられる。
いることが示されている。
家庭でのレシピ選びなどに利用すれば、一本あたり数
以上によって、アンケートによる主観評価実験におい
ても、7.3.1 項の制作者による要約映像との比較同様、
十秒に縮められた映像を閲覧することで、直感的にレ
シピを選択できるようになる。
提案手法の有効性が確認できた。
8.2
8
結論
8.1
まとめ
今後の課題
今後の課題としては、より柔軟な自動要約アプリケー
ションを実現するために、要約率を可変にすることな
どが考えられる。本論文におけるアンケートによる主
本論文では、料理映像を対象とし、動きに基づいた
観評価実験の際にも、調理経験の豊富な人はより短い
重要部分検出による自動要約手法を提案した。本研究
要約映像を、また初心者はより長い要約を好む傾向が
では料理映像要約の目的を、調理の全体的な流れを視
見られた。このように、ユーザの調理経験の度合いや
覚的・直感的に理解するのに充分である映像を作成す
好みによって最適な要約率は異なる。
ることとし、対象に固有の特徴を考慮することで、意
要約率を可変にするためには、単純に抽出するセグ
味的内容に立ち入った精度の高い映像要約システムの
メント長を変えるのではなく、本論文では繰り返し動
構築を目指した。
作か否かだけであった動作の分類を拡充し、それぞれ
まず、料理映像の特徴から、視覚的に重要であるの
の動作による重要度の設定が課題となる。
は手元ショットであるとし、さらにその中でも調理動
また、現在の手法ではそれぞれの重要部分の代表セ
作部分と料理や食材の状態を示す部分が重要であると
グメントを決定する際に、各部分の先頭と末尾を固定
した。次に、これらの重要部分は動きの大小と関連が
長で抽出する、という単純な手法を用いている。これ
あることに着目し、オプティカルフローによりこれら
は、3.3 節で示した重要部分の定義などを考慮したも
を検出する手法を提案し、評価実験によりその有効性
のではあるが、経験的に決定されたものである。そこ
を示した。
で、例えばキーフレームの画像的な複雑さとそのシー
また、調理動作の中でも特に重要な動作に比較的共
ンを理解するのに必要な時間の関係を実験により導出
通する性質として、繰り返し動作に着目し、局所領域
し、それを基準として抽出するセグメント長を変化さ
の輝度値の時間的周期性に着目した手法を用いてこれ
せる研究 [14] などを参考に、代表セグメントの抽出法
を検出した。
についても検討する必要がある。
さらに、これらの重要部分のうち、同じ視覚的内容
さらには、映像のレシピと対応づけられたテキスト
を示す類似セグメントを検出して 1 つにまとめる手法
教材を利用し、さらに意味内容を考慮した要約手法の
検討や、要約映像の再生と共に対応するテキスト手順
を表示したりするなどのテキスト教材と連動させた要
約アプリケーション・インタフェースの構築なども、今
後の課題として挙げられる。
参考文献
[1] H. D. Wactlar, T. Kanade, M. A. Smith, and S. M.
Stevens: “Intelligent Access to Digital Video: The
Informedia Project,” IEEE Computer, Vol.29, No.5,
pp.46–52, May 1996.
[2] 金出武雄, 佐藤真一: “Informedia: CMU ディジタル
ビデオライブラリプロジェクト,” 情処論文誌, Vol.37,
No.9, pp.841–847, Sep. 1996.
[3] M. Smith and T. Kanade: “Video Skimming and
Characterization through the Combination of Image and Language Understanding,” Proc. ICCV98,
pp.61–70, Jan. 1998.
[4] M. Christel, M. Smith, C. Taylor, and D. Winkler:
“Evolving Video Skims into Useful Multimedia Abstractions,” Proc. CHI’98 Conf. Human Factors in
Computing Systems, pp.171–178, Apr. 1998.
[5] S. Pfeiffer, R. Lienhart, G. Kuhne, and W. Effelsberg:
“The MoCA Project - Movie Content Analysis Research at the University of Mannheim,” Informatik
’98, pp. 329–338, 1998.
[6] R. Lienhart, S. Pfeiffer, and W. Effelsberg: “Video
Abstracting,” Commun. ACM, Vol.40, No.12, pp.55–
62, Dec. 1997.
[7] 菅野 勝, 中島康之, 柳原広昌: “オーディオビデオの特
性を用いた自動要約抽出方式に関する検討,” 情処学研
報, AVM-32-1, pp.1–6, Mar. 2001.
[8] 菅野 勝, 中島康之, 柳原広昌: “映像の特徴に応じた
AV データからの自動要約抽出方式に関する検討,” 情処
学研報, AVM-35-5, pp.25–30, Dec. 2001.
[15] H. Sundaram, L. Xie, and S. Chang: “A Utility Framework for the Automatic Generation of
Audio-Visual Skims,” Proc. ACM Multimedia 2002,
pp.189–198, Dec. 2002.
[16] R. F. Karlin: “Defining the Semantics of Verbal Modifiers in the Domain of Cooking Tasks,” Proc. 26th
Annual Meeting of ACL, pp.61–67, 1988.
[17] 安達久博: “類推に基づく料理定義文の自動獲得,” 情報
学研報, NL-112-9, 1996.
[18] 林 絵梨, 東条 敏: “料理のレシピ文における時間的関
係構造の自動生成,” 言語処理学会第 8 回年次大会, Mar.
2002.
[19] M. Ozeki, Y. Nakamura, and Y. Ohta: “Camerawork
for Intelligent Video Production —Capturing Desktop Manipulations,” Proc. 2001 IEEE Intl. Conf. on
Multimedia and Expo (ICME2001), pp.41–44, Aug.
2001.
[20] 植松秀樹, 島津 明, 奥村 学: “レシピ文からの 3D
CG 調理画像生成,” 人工知能研資, SIG-SLUD-A102-2,
Nov. 2001.
[21] J. R. Quinlan: “C4.5: Programs for Machine Learning,” Morgan Kaufmann Publishers, 1993.
[22] J. R. Quinlan: “Improved Use of Continuous Attributes in C4.5,” Journal of Artificial Intelligence
Research, pp.77-90, Mar. 1996.
[23] Y. Chang, W. Zeng, I. Kamel, and R. Alonso: “Integrated Image and Speech Analysis for Content-Based
Video Indexing,” Proc. IEEE Intl. Conf. Multimedia
Computing and Systems, pp.306-313, June 1996.
[24] 岩成英一, 有木康雄: “DCT 成分を用いたシーンのク
ラスタリングとカット検出,” 信学技報, PRU93-119,
pp.23–30, Jan. 1994.
[25] H. Rowley, S. Baluja, and T. Kanade: “Neural
Network-Based Face Detection,” IEEE Trans. Pattern Anal. & Mach. Intell., Vol.20, No.1, pp.23–38,
Apr. 1998.
[9] 河合吉彦, 馬場口登, 北橋忠宏: “個人適応を指向したス
ポーツ要約映像の生成法,” 信学技報, PRMU2000-171,
pp.83–90, Jan. 2001.
[26] 有木康雄, 杉山善明, 石川則之, 寺西俊裕, 櫻井光康: “
ニュース映像中の記事に対する音声・文字・映像を用い
た索引付けと分類,” 信学技報, PRMU96-97, pp.31–38,
Nov. 1996.
[10] 益満 健, 越後富夫: “映像重要度を用いたパーソナラ
イズ要約映像作成手法,” 信学論 (D-II), Vol.J84-D-II,
No.8, pp.1848–1855, Aug. 2001.
敏: “顔領域抽出
[27] 松橋 聡, 藤本研司, 中村 納, 南
に有効な修正 HSV 表色系の提案,” テレビ誌, Vol.49,
No.6, pp.787–797, June 1995.
[11] 森山 剛, 坂内正夫: “ドラマ映像の心理的内容に基づい
た要約映像の生成,” 信学論 (D-II), Vol.J84-D-II, No.6,
pp.1122–1131, June 2001.
[28] S. S. Beauchemin and J. L. Barron: “The Computation of Optical Flow,” ACM Computing Surveys,
Vol.27, No.3, pp.433–467, Sep. 1995.
[12] Y. Ma, L. Liu, H. Zhang, and M. Li: “A User Attention Model for Video Summarization,” Proc. ACM
Multimedia 2002, pp.533–542, Dec. 2002.
[29] B.K.P. Horn and B. Schunck: “Determining Optical
Flow,” Artif. Intel., Vol.17, pp.185–203, Aug. 1981.
[13] 加藤和也, 吉高淳夫, 平川正人: “文脈を考慮に入れた
映画の要約作成,” 情処学研報, AVM-36-5, pp.25–30,
Mar. 2002.
[30] R. Lienhart and F. Stuber: “Automatic Text Recognition in Digital Videos,” Image and Video Processing IV 1996, Proc. SPIE 2666-20, pp.180–188, Jan.
1996.
[14] H. Sundaram and S. Chang: “Constrained Utility
Maximization for Generating Visual Skims,” Proc.
IEEE Workshop on CBAIVL 2001, pp.124–131, Dec.
2001.
[31] Y. Ariki and S. Takao: “Extraction and Recognition
of Open Captions Superimposed on TV News Articles,” Proc. Asian Conf. on Computer Vision 2000,
pp.675–680, Jan. 2000.
[32] 新居啓之, 桑野秀豪, 倉掛正治, 杉村利明: “映像中のテ
ロップ表示フレーム検出方法,” 信学論 (D-II), Vol.J83D-II, No.6, pp.1477–1486, June 2000.
[48] 三浦宏一, 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “
動き検出による料理映像の解析,” 第 64 回情処学全大,
No.6N-4, Vol.2, pp.165–166, Mar. 2002.
[33] C. Faloutsos, R. Barber, M. Flickner, J. Hafner,
W. Niblack, D. Petkovic, and W. Equitz: “Efficient and Effective Querying by Image Content,” Journal of Intelligent Information Systems, Vol.3, No.3/4,
pp.231–262, July 1994.
[49] 三浦宏一, 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “
料理映像の特徴を利用した要約手法の検討,” 信学技報,
PRMU2002-22, pp.15–20, Jun. 2002.
[34] 井上光平, 浦浜喜一: “低次元でのフィルタリングを利
用した画像検索,” 信学論 (D-II), Vol.J84-D-II, No.1,
pp.222–224, Jan. 2001.
[35] “Colour specification—CIE LAB and CIE Luv colour
spaces,” JIS Z 8729, 1994.
[36] 濱田 敬, 田口 亮, 木村誠聡: “ファジー推論を用い
た混合雑音が重畳したカラー画像の復元手法,” 信学論
(A), Vol.J83-A, No.1, pp.106–116, Jan. 2000.
[37] C. Connolly and T. Fliess: “A Study of Efficieny
and Accuracy in the Transformation from RGB to
CIELAB Color Space,” IEEE Trans. Image Processing, Vol.6, No.7, pp.1046–1048, July 1997.
[38] R. Hamada, I. Ide, S. Sakai, and H. Tanaka: “Associating Cooking Video with Related Textbook,” Proc.
ACM Multimedia 2000 Workshops, pp.237–241, Nov.
2000.
[39] 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “料理テキ
スト教材における調理手順の構造化,” 信学論 (D-II),
Vol.J85-D-II, No.1, pp.79–89, Jan. 2002.
[40] R. Hamada, S. Satoh, S. Sakai, and H. Tanaka: “Detection of Important Segments in Cooking Videos,”
Proc. IEEE Workshop on CBAIVL 2001, pp.118–
123, Dec. 2001.
[41] 下萩原勉, 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “
テンプレート切出しによる不特定話者対応のワードス
ポッティング,” 第 60 回情処学全大, No.2L-1, Vol.2,
pp.131–132, Mar. 2000.
[42] 須場康貴, 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “料
理映像の索引づけのための音響解析手法の検討,” 第 64
回情処学全大, No.2L-4, Vol.2, pp.17–18, Mar. 2002.
[43] 井手一郎, 山本晃司, 浜田玲子, 田中英彦: “ショット分類
に基づく映像への自動的索引付け手法,” 信学論 (D-II),
Vol.J82-D-II, No.10, pp.1543–1551, Oct. 1999.
[44] 浜田玲子: “索引付けのための映像とテキスト教材の対
応付けシステム,” 博士論文, 東京大学大学院工学系研究
科, 2003 予定.
[45] 高野 求: “テキストからの制約に基づく料理画像中の
物体検出,” 卒業論文, 東京大学工学部, 2003 予定.
発表文献
[46] 三浦宏一, 浜田玲子, 井手一郎, 坂井修一, 田中英彦: “
料理映像の構造解析による手順との対応付け,” 第 62 回
情処学全大, No.6R-9, Vol.3, pp.31–32, Mar. 2001.
[47] 三浦宏一, 浜田玲子, 坂井修一, 田中英彦: “料理映像の
要約のための動き検出,” 第 63 回情処学全大, No.6L-5,
Vol.2, pp.61–62, Sep. 2001.
[50] K. Miura, R. Hamada, I. Ide, S. Sakai, and H. Tanaka: “Motion Based Automatic Abstraction of Cooking Videos,” Proc. ACM Multimedia 2002 Workshop
on Multimedia Information Retrieval, pp.29–32, Dec.
2002.
[51] 浜田玲子, 三浦宏一, 井手一郎, 佐藤真一, 坂井修一, 田
中英彦: “動きに基づく料理映像の自動要約手法,” 画像
の認識・理解シンポジウム(MIRU2002)論文集, Vol.2,
pp.203-208, Aug. 2002.
[52] O. Utsumi, K. Miura, I. Ide, S. Sakai, and H. Tanaka:
“An Object Detection Method for Describing Soccer
Games from Video,” Proc. 2002 IEEE Intl. Conf. on
Multimedia and Expo (ICME2002), vol.1, pp.45–48,
Aug. 2002.
[53] 高野 求, 三浦宏一, 浜田玲子, 井手一郎, 坂井修一, 田
中英彦: “テキストからの制約に基づく料理画像中の物
体検出,” 第 65 回情処学全大, No.3R-2,(Mar. 2003 発
表予定).
[54] 高野 求, 三浦宏一, 浜田玲子, 井手一郎, 坂井修一, 田
中英彦: “テキスト情報からの制約に基づく料理画像中
の物体検出,” 第 17 回人工知能学全大,(June 2003 発
表予定).