マルチメディア情報の解析と統合 有木康雄 龍谷大学理工学部電子情報学科 〒520-2194 大津市瀬田大江町横谷 1-5 E-mail: [email protected] あらまし ディジタル化によって,膨大なマルチメディア情報が配信される.人間が知的活動を行うためには,こ のディジタル化されたマルチメディア情報に,高速にアクセスしたい.このためには,音声や音響信号,文字,映像 といったメディアを解析・統合する技術により,マルチメディア情報を構造化して,索引付けしておく必要がある. 本稿では,マルチメディア情報を解析・統合化する場合のアプローチについて述べた後,音声に対して自動書き起こ しを行い,トピックを検出する方法,話者や楽曲を検索する手法,音響信号を高速に検索する手法について述べる. また,映像に対して,カット検出やカメラワークにより構造化する手法,動作認識やイベント検出を行う方法,映像 を要約したりハンドリングする手法について述べる. キーワード 連続メディア,メディアの解析,構造化,検索,要約,情報統合 1 はじめに 近年,放送,出版,医療,教育,娯楽,通信分野をは じめとするさまざまな分野におけるディジタル化技術 の急速な発展により,複数のメディアが統合された高度 マルチメディア情報処理環境の構築に対する要望が強 い.先進的なマルチメディア情報処理環境を構築するに は,その核技術として,マルチメディア・コンテンツを 蓄積し,共用・再利用を可能とする大規模マルチメディ アデータベースシステムを構築する方法論の確立が急 務である.特に,真に有効なマルチメディアデータベー スを構築するには,ハードウェア,ソフトウェアだけで なく,デ−タベースに蓄積されるコンテンツをどのよう に獲得し,検索・加工・編集するかが重要な鍵となる. このためには,マルチメディア・コンテンツの獲得,編 集・構造化,時空間的な側面とコンテンツ構造の進化性 を中心に据えたマルチメディアデータの組織化機構,マ ルチメディア・コンテンツのアクセス管理・版権管理・配 送管理等を中心とするコンテンツアクセスアーキテク チャ,マルチメディア・コンテンツをもとに生成される 仮想空間や拡張現実空間での操作体系の確立が必須と なる. そこで,多様なユーザからの要求に応じることができ る柔軟なマルメディアデータモデルの設計と,そこに格 納されるマルチメディア・コンテンツの加工・編集処理 システムの開発を行い,実社会の使用に耐えうる大規模 マルチメディアデータベースのためのシステムアーキ テクチャの構築を目指すとともに,これらの諸技術を基 礎とした高度なマルチメディア処理技術の応用分野の 可能性を探ることを目的として,「マルチメディア・コ ンテンツの高次処理の研究」に取り組んでいる.本研究 は,日本学術振興会未来開拓学術研究推進事業の知能情 報・情報処理分野における研究プロジェクトであり,平 成9年度より研究を開始している. 本プロジェクトで推進している研究・開発における3 つの研究テーマは,次の通りである. (1) マルチメディア・コンテンツの知的構造化 (2) マルチメディア・コンテンツのアクセスアーキ テクチャ (3) マルチメディア・コンテンツのデータベースか らの仮想空間・拡張現実空間の生成と活用 第1テーマでは,プロトタイプ型オブジェクトモデル の拡張によるデータモデル,画像・音声認識技術にもと づくコンテンツベースの自己組織化方式,動画像のため の知識表現方式,マルチメディア・コンテンツからの知 識獲得方式等について研究を行っている.さらに,コン テンツを再利用するために素材コンテンツのデータベ ースの構造を如何に設計するかも重要であり,コンピュ ータグラフィックス(CG)素材や映像素材のデータベ ース構造やその検索方式についても研究している. 第2テーマでは,マルチメディア・コンテンツの流通・ 共有・再利用を実現する研究を行っている.そのために は,そのアクセス権管理や版権管理を十分に行う必要が あるが,マルチメディア・コンテンツはその内容がユー ザに見られて初めて利用したいかどうかが決定される という特質がある.このため,マルチメディア・コンテ ンツに関するさまざまなレベルの詳細度に応じたアク セス権管理や, 「電子透かし」や「決済手続き」などを カプセル化した版権管理システムなど,マルチメディ ア・コンテンツの扱いに適したアクセス方式の研究を行 っている.さらに,ネットワークやハードウェアの性能 に適応させた形でコンテンツを配送する方式(サービス 品質制御)についても研究をしている. 第3テーマでは,大量に蓄積されたマルチメディア・ コンテンツのデータベースから,必要な素材を検索・加 工し,各利用者の目的や資格に応じたさまざまな仮想空 間や拡張現実空間を生成する方式について研究してい る.また,生成された仮想空間や拡張現実空間上で,空 間的に情報検索を行う方式や,複数の利用者の間で協調 作業を行うためのデータモデルの研究を行っている.さ らに,拡張現実空間において,利用者が携帯型情報機器 を用いてマルチメディア・コンテンツを柔軟に活用でき るモーバイル・マルチメディアデータベースの研究も行 っている. 本稿では,このうち,第1テーマであるマルチメディ ア・コンテンツの知的構造化の点から,マルチメディア 情報の解析と統合について述べる. コンテンツ 概念 トピック・シソーラスの構築 トピック 時空間での記号の関連 記号 パターン トピック 検索 記号 検索 パターン 検索 分割と分類 データ 信号 信号 検索 メディアの解析 認識と索引付け 概念 検索 メディアの統合 2 マルチメディア・コンテンツの知的構造化 テレビを中心とする放送,新聞や書物のような出版, 映画やゲームのような娯楽がディジタル化され,通信の インフラであるインターネットと融合することにより マルチメディアの環境が構築されつつある.このマルチ メディア環境は,我々が知的活動を行なう情報空間であ るが,この空間には,未整理で構造化されていないデー タが溢れている.例えば,電子博物館や美術館,図書館 が保存するデータは,一般的に組織化されているが,テ レビで放映されているニュースやアニメ,ドラマ,映画 のようなビット情報は,検索の対象としにくい未整理で 構造化されていないデータである. 我々は知的活動を行なうために,この未整理の大量のデ ータの中から,興味ある情報を充分に,また高速に入手 したい.このためにはデータの表現形式にとらわれず, データの持つコンテンツ(情報内容)を引き出して記述 しておく必要がある.これは,図書館の本やビデオショ ップのビデオテープといった表現単位をバラバラにし, コンテンツ単位で情報検索できるようにすることを意 味する.本には,コンテンツをブラウジングし,アクセ スするための目次や索引がある.ニュースやアニメ,ド ラマ,映画のようなビデオにも,連続的なビット情報の 上に目次や索引,更に内容を表現する記述や要約を作成 しようというのがマルチメディア・コンテンツの知的構 造化の目的である. ニュースやアニメ,ドラマ,映画といったデータ(ビッ ト情報)からコンテンツを抽出するには,2つのアプロ ーチがある.一つは,信号をセグメンテーションしてパ ターンを形成し,このパターンを解析・認識して記号化 するアプローチである.これをメディア解析からのアプ ローチと呼ぶことにする.この例としては,映像中に誰 がいるのか(顔や音声) ,どういう動作をしているのか, どういう単語が現れているのか(音声,文字) ,何のス ポーツをしているのかといったオブジェクトを抽出す る処理が挙げられる.これは本で言えば,索引を抽出す ることに相当する.このパターンから記号へのアプロー チは,大量のビット情報を対象とするので,人手を介さ ず自己組織的に行うことが望まれる. 2つ目のアプローチは記号から出発し,データを意味的 にまとまった映像区間に分割することで,意味的構造を 抽出するアプローチである.これをメディア統合からの アプローチと呼ぶことにする.この例としては,映像か ら重要なショットを抽出して映像を要約することや,シ ーンとしてのまとまり(トピック)を抽出する処理が挙 げられる.これらは本で言えば,章や節と言った構造を 抽出することに相当する.この映像から意味的構造を抽 出することも,人手を介さず自動化することが望まれる. 図1にこれら2つのアプローチを示す. これらの処理を実現するためには,音声,文字,映像 の各メディアを解析し,単語(音声・文字)やショット (映像)といった部品に解体して,それらを意味的につ なぎあわせて,トピックという,より大きな構造を抽出 する必要がある.また,トピックの構造や,トピックを 構成する部品の重要度を求めることによって,トピック の連想や要約を実現することもできる.表1には,ニュ ース番組を構成する「メディア」 ,要求される「機能」 , 必要な「処理」をまとめている.必要な「処理」は,メ ディアを空間的・時間的に一様な区間に分割するセグメ ンテーション,一様な区間を認識するパターン認識,認 識された部品をもとにトピックやイベントを抽出する トピックセグメンテーションで構成されている.また, トピック抽出の精度を向上したり,高速化するために音 声・文字・映像メディアの処理結果を統合する処理が必 要である. 図1 マルチメディア・コンテンツの知的構造化におけ るアプローチ 表1 ニュース映像の構造化で必要なメディア処理 処理 映像 ・シーンの変化検出 ・動領域の抽出・追跡 ・静止領域の分割 文字 ・文字フレームの抽出 ・文字領域の抽出 ・文字抽出 音声 ・音声/音楽/雑音区間の検出 信号分割 ・話者区間の抽出 ・音声と(音楽/雑音)の重なり 区間検出 ・フレームの認識(スポーツ) ・文字認識 ・自動書き起こし パターン認識 ・動物体の認識・対応付け(人物) ・形態素解析 ・キーワード抽出 ・静止物体の認識(顔) ・キーワード抽出 ・話者認識 ・トピックセグメンテーション・トピックセグメンテーション トピック分割 ・イベント抽出(行動,動作) ・状況記述(空間記述) ・音声やテロップとの補完による ・関連トピックのリンク ・複数言語間のリンク 統合化 内容理解 ・音声との統合による ・話者区間と自動書き起こしの統合 ・シーンカットとテロップ検出の統合 クロスメディア検索 3 音声・音響メディアに対する構造化と検索の要求 前節では,マルチメディア・コンテンツの知的構造化 について,アプローチと処理,機能について述べた.こ の節と次節では,マルチメディア・コンテンツに対する 構造化や検索について,実際の処理要求と従来の処理方 法をサーベイする. 3.1 発話文書の検索 大量のニュースが,テレビのホームサーバに保存され ている場合を想定してみる.報道された時間順にニュー スを見ていたのでは,見たいニュースをなかなか見るこ とができない.そこで, 「アメリカの株式に関するニュ ースを見たい」というように,関心のある内容を先に言 ってニュースを見ることができれば,探す手間を省くこ とができて時間の節約になる.また,ニュースを見てい て,これに関連する報道すべてを見たい場合や,以前あ った同じようなニュースを見たいといった場合に,それ らを探してくれるシステムがあると,情報を整理するこ とができ,内容の理解を深めることができる.更に,日 本で放映されているニュースを,諸外国ではどのように 報道しているのかを見たい場合にも,言語の翻訳機能を 実装することができれば,関連するニュースの検索も可 能になる. ニュース番組は,意味を表現する音声,内容をまとめ る文字,情景や状況を伝える映像といった表現メディア を使って表現されている.従って,一番内容を伝えてい る音声を認識し,その内容に基づいてニュースを検索す る方法が有力である.ニュースの内容を文字で書き起こ せば文書となるので,ニュース音声は発話文書であると 考えられる.このような発話文書に対する検索要求は, ニュースに限ったことではない.国会中継や,座談会, 討論会で特定の内容について聞きたい場合もそうであ る.例えば,国会中継で介護保険に関してどのようなや りとりがあったのか,聞いてみたい場合にも,このよう な発話文書の検索が有効になる.発話文書の検索におけ る重要な技術としては,次のようなものがあげられる [1]-[4]. (1)音声ディクテーション 言語モデル:バイグラム,トライグラム 音響モデル:HMM,EMアルゴリズム 探索アルゴリズム:ビタビアルゴリズム 機能 検索 要約 分類 索引付け (2)重要語の抽出 相互情報量,カイ二乗値,tf-idf (3)発話文書の検索 ベクトル空間法,クエリ拡張 (4)より精度の高い発話文書の検索 LCA (Local Context Analysis), LSI (Latent Semantic Indexing) 3.2 発話文書の構造化とトピック検出 座談会や討論会では,大きなテーマがあっても,時間 と共に話題(トピック)が移り変わっていくため,トピ ックの切れ目が明確でないことが多い.例えば,倒産の 問題から始まり,銀行の貸し渋りに話が移り,銀行の体 質,金融不安や,アジアの経済不安,マクロ経済学と話 が移り変わって行くであろう.このような討論会や座談 会を音声ディクテーションして,発話文書にした場合, その内容に応じて,自動的にトピックを切り取ることが 問題となる.このための方法が,発話文書の話題抽出や, トピックセグメンテーションである.話題抽出では,連 続した発話文書を入力したとき,その文書の話題を索引 として出力する.上で述べた例では,「倒産」 , 「銀行の 貸し渋り」,「銀行の体質」,「金融不安」,「アジアの経 済不安」 , 「マクロ経済学」が話題語にあたる.一方,ト ピックセグメンテーションは,索引としてではなく,そ のトピックの始まりと終わりを出力する.発話文書の構 造化における重要なポイントとしては,次のようなもの があげられる[5]-[9]. (1)発話文書の話題抽出とセグメンテーション ベクトル空間法,HMM,DP (2)ディクテーションをしない発話文書の話題抽出 共通単語の検出(IRIFCDP) 3.3 話者の検索 ビデオデータベースの中から,特定の人がしゃべって いるシーンを検索したい場合には,この話者の検索が有 効である.例えば, 「クリントン大統領がしゃべってい る内容を聞きたい」とか, 「キムタクが出ている番組で, しゃべっているところが全部見たい」と言った要求であ る.さらに,3.1で述べた方法と併用することにより, 「クリントン大統領が,情報ハイウェイに関して述べて いるところを聞きたい」といった,話者と発話内容の同 時検索も行うことができる.ここでは,話者を検索する 場合の問題点について考えてみる.話者検索には,2つ のタイプがある.1つは,今見ているドラマに,ある俳 優が出演していて, 「この俳優のしゃべっているところ を全て見たい」と言う場合である.もう1つは,先ほど から例に出している「クリントン大統領のしゃべってい る内容を聞きたい」という場合である. 前者の場合は,今見ているドラマに,目当ての俳優の 声があるので,それによく似た声をドラマのデーベース から検索することになる.問題はどうやって検索するか である.俳優の声が手元にあっても,その声には,言語 的な内容を伝えている音韻情報と,誰であるかを伝えて いる話者情報が含まれている.従って,俳優の声で検索 すると,言語的な内容の検索と,話者の検索が混じって しまい,精度の良い話者検索を行うことができない.そ こで,できるだけ音韻情報を排除し,話者情報だけを表 現して,話者検索を行いたい.このために音声情報から, 話者の声質をよく表した話者モデルを作成する.この話 者モデルに合う声の持ち主を,データベースから探すこ とで話者を探索することができる. 後者の「クリントン大統領のしゃべっている内容を聞 きたい」場合は,予めクリントン大統領の話者モデルが 作成されていなければ,検索することができない.従っ て,話者検索の2つタイプの差は,話者モデルを予め作 っておくか,その場で作るかの違いである. この話者検索とは異なり,どこで話者が変わったかの 切れ目を検出したい場合がある.例えば,座談会で,誰 がどんな内容を発言したか,話者毎に聞いてみたい場合 である.あるいは,ニュース番組で,アナウンサーの発 話内容だけを聞いて,早く内容をつかみたい場合である. 話者の検索における重要な技術としては,次のようなも のがあげられる[10]-[14]. (1)話者の検索 話者照合:GMM(Gaussian Mixture Model), VQ(Vector Quantization),部分空間法,HMM (2)話者区間の検出 尤度比 (3)話者照合と話者適応 MLLR(Maximum Likelihood Linear Regression) 3.4 音声要約 「クリントン大統領が,情報ハイウェイに関して述べ ている演説を聞きたい」とか, 「それが含まれているニ ュースを見たい」といった検索要求については,音声デ ィクテーションや発話文書の検索,発話文書のセグメン テーション,話者区間の検出手法を用いれば実現できる. ここでの新たな要求は,検索されてきた演説やニュース 記事が長い場合である. 「全てを聞いている時間がない ので,大事なところだけ要約して聞きたい」という要求 にどう答えるかである.これには,重要な段落を検出す る,重要な文を検出する,重要な単語を検出するという 3つのアプローチから研究されている. 重要な単語の検出では,相互情報量やカイ2乗値, tf-idf 値を発話文書毎に求め,その値の大きな単語とし て重要語を取り出すことができる.一方,重要な文を検 出するには,無音区間で挟まれる区間を一つの文と考え, この文に含まれている重要語の tf-idf 値を加算すればよ い.これがその文の重要度を表す指標となる.一つの文 を更に短く要約するには,文の中で最重要な単語を動詞 と考え,この動詞を含む文節と,この動詞に係り受けす る文節のみを出力すればよい.しかし,音声ディクテー ションでは一般的に単語認識誤りが生じるため,文を更 に短くすることは難しい.また,重要な段落を検出する ことは最も困難な課題である.なぜなら,活字文書では, 字下げによる段落が存在するが,発話文書には,このよ うなマークが存在しないからである.そこで,段落の代 わりに,段落よりは短いが文よりは長い単位として,パ ッセージの検索が有力である. 重要なパッセージを検出するには次のようにして行 う.まず, 「クリントン大統領が,情報ハイウェイに関 して述べている演説を,要約して聞きたい」という検索 要求が入力されると,この検索要求から, 「クリントン」 , 「大統領」 , 「情報ハイウェイ」という重要語を取り出す. そして,この重要語を含む発話文書を LCA(Local Context Analysis)などを使って検索する.また, 「クリ ントン」 , 「大統領」 , 「情報ハイウェイ」といった重要単 語と共起する単語(共起単語)を,LCA などを使って, 予めデータベースより求めておく.検索された発話文書 中で,この共起単語が出現している場所を特定し,パッ セージとして検出する[15]-[17]. 3.5 音響信号・楽曲の検索 人間の声以外の情報として,音響信号や楽曲を対象に 検索方法を考えてみる.ラジオやテレビの音楽番組を聞 いていて,始めて耳にする曲の情報,例えば歌手だとか, 作曲家だとか,いつ頃発売になったとかをもっと知りた いと思うことがある.しかし,曲の名前は聞き漏らした という場合,検索のスイッチを入れるのである.この場 合,次の2つの方法が考えられる. (I)一つは,まだ曲がラジオやテレビから流れて入れ ば,それを入力として曲の名前を認識し,情報を取り出 す方法である.この場合には,音響信号の検索手法が有 力である. (II)もう一つは,曲が終わっているような場合に,記 憶に残っている曲の一部を口ずさむ方法である.この場 合は,歌声やハミングによる検索手法が有力である. これらの検索では,放送された楽曲のサンプルや,人 間によるハミングを入力として,音楽や信号を保存した データベース,例えばインターネットから情報を検索す ることも可能である. (I)で述べた検索方法では,こ れ以外にも,CMがどのくらい放送されたかとか,同じ 楽曲が異なるディスクジョッキーによって,どのように 説明されているかなどを知りたい場合にも使うことが できるであろう.また, (II)の検索方法は,該当する 曲だけでなく,その曲によく似た曲なども探し出すこと ができ,それらがどう違っているのかを分析することも 可能であろう.音響信号・楽曲の検索における重要な技 術としては,次のようなものがあげられる[18]-[22]. (1)音響信号の高速検索 ヒストグラム間の類似度 (2)楽曲の検索 音高:基本周波数,音長:継続時間 (3)音声/音楽/雑音/無音区間の検出 基本周波数の変化,スペクトルの変化 4 映像メディアに対する構造化と検索の要求 映像は,3次元空間を2次元に投影した画像とは異な り,時間軸を持った連続メディアである.従って,ある 内容を見たい場合には,映像の初めから時間軸に沿って 見ていくほかはない.これは,本に例えると,目次がな い本であって,初めから読んでいかないと,欲しい情報 にたどりつくことができない. この不便さをなくすた め,章や節といった目次を映像に付加したい.これが映 像の構造化の目的である.こうすることにより,時間的 な連続メディアである映像を,章や節毎に切り取り,そ れらを目次として,2次元に並べて見ることも可能とな る.また,映像は時間軸を持っていることから,移動物 体やカメラワーク,イベントといった時間とともに変化 する情報を含んでいる.これらに対する検索要求を実行 するためには,動物体やイベントの抽出,静止物体や場 所の抽出,重要なシーンの抽出が不可欠である.これら は,本に例えると,索引に対応し,索引のない本におい ては,目次を見て,それらしいところを探して,読んで いくほかはない.この不便さをなくすため,索引を映像 に付加したい.これが映像に対する索引付けの目的であ り,検索を実行する上で,不可欠な処理である. 4.1 映像の構造化 放送を録画したビデオ映像には,映画やドラマ,ニュ ース,ドキュメント,討論会,スポーツの実況中継,バ ラエティ番組など多彩なものがある.映画やドラマなど は,テープの初めから終わりまで,ゆっくりと見て鑑賞 するであろう.しかし,ドキュメントや討論会などには, 起承転結のようなものがあり,じっくり見ると言うより は,関心のあるところに限定して,とばし見をしたいこ とがある.これがスポーツの実況中継や,バラエティ番 組となると,長々したところはスキップして,おもしろ いところだけを見たいと思う.このように,大量の映像 の中から,興味のあるところだけを選択してみるために は,映像ブラウジングが有効である.映像ブラウジング では,1本のビデオを,本の目次のように章,節に分割 して表示し,好きなところをクリックして,映像のクリ ップをみれるようになっている.このように,映像の目 次作成を目指して,映像を内容的なまとまりに分割する ことを,映像の構造化と呼んでいる. 映像を内容的なまとまりに分割するといっても,意味 的に分割することは難しい.例えば,ブラウジングした 映像に対して,その内容を言語的に記述することは極め て難しい.なぜなら,映像には言語音声が伴っていない からである.これはニュースについて考えてみればすぐ にわかる.映像を,内容的に分割するといっても,意味 的と言うよりは表層的な分割になる.音声情報を併用す れば,言語的な内容を付記することも可能である.また, 音声情報を用いて,話題セグメンテーションを行うこと により,内容的にまとまりのある分割を行うことも可能 である.このように,映像の構造化には,映像だけでな く,音声情報など複数の情報を統合することが不可欠で ある. 映像を表層的に分割していく方法としては,映像のカ ットを検出する方法,映像の中で繰り返し現れる区間を 検出する方法,同じようなカメラワークをとり続ける区 間を検出する方法などがある.いずれも,映像のカラー 情報や,カメラワークなどが均質である区間に分割して いく方法である.映像の構造化における重要な技術とし ては,次のようなものがあげられる[23]-[30]. (1)カット検出 ヒストグラム距離,MPEG2,ワイプ,ディゾルブ (2)共通区間検出 平均特徴,ランレングス符号化 (3)カメラワーク抽出 投影,時空間投影画像,アフィンパラメータ 4.2 映像の検索 映像に対する検索要求は多様である.最もポピュラー な検索要求は,ホームランやヒット,キックやゴールな ど,野球やサッカーといった実況中継で生じるハイライ トシーン(イベント)の検索である.あるいは,テニス におけるスマッシュやボレーなどの技,相撲における決 まり手などを検索したいという要求もある.これらは, ハイライトシーンというよりは動作の検索である.これ を拡張することにより,ドラマ番組において,主人公が 家の中に入ってきたシーンを検索するということも,可 能になるかもしれない. また,ニュース番組では,今日のニュースの中で,自 分にとって一番関心のある出来事から先に見たいであ ろう.このためには,ニュース番組を記事毎に分割し, テロップを認識して,これを記事の見出しとして張り付 けておけばよい.こうすると,ニュース記事の一覧を見 たときに,どういう内容であるかの記述も見ることがで きるので,見たい内容にすぐにアクセスできる.また, 見たい内容を音声で指示すれば,テロップ認識と照合し て,関連するニュースを見ることもできるであろう. (テロップの代わりに,音声認識を用いることもでき る. ) 映画を見ていて,よく似たシーンを以前見たが,どこ で見たか思い出せないといった場合に,類似したシーン やショットを検索したい場合もある.少し内容に立ち入 って,人間が一人でいるシーンや,二人で対話している シーン,多くの人が集まっているシーン,ある場所のシ ーンなど,特定のシーンを検索したいといった要求もあ る.これができれば,飛行機が離陸するシーン,パリの エッフェル塔近辺のシーン,ルーブル美術館のシーンな どを検索してつないでいって,自分なりのドラマが作れ るかもしれない.さらに,映画やドキュメント番組の中 で, 「鳥が巣箱から飛び立つシーンを見たい」とか, 「カ ーチェイスをしているシーンを見たい」といった,内容 に基づく検索要求も生じて来るであろう.上に述べてき た検索要求をまとめると,次のようになる[31]-[45]. (1)関心のあるシーンやショット,フレームの検索 ショットの代表フレーム,カメラワーク,映像中の 物体認識(顔,建物,文字) (2)テロップの検出と内容検索 MPEG2 (3)特定の動作の検索 動物体の抽出:差分画像,オプティカルフロー, スネークス, DP による動作認識,HMM による動作認識,部分 空間法による動作認識 (4)サッカーのゴールシーンといったイベント検索 物体抽出,動作認識(単体) ,イベント認識(集合) , カメラワーク,テロップ,クローズドキャプション (5)複雑な状況に対する内容検索 映像部品,スクリプト 4.3 映像要約 長い映像を短くして見せる映像要約では,音声やクロ ーズドキャプションのような言語情報が存在する場合 としない場合とでは,処理が異なってくる.言語情報が 存在しない場合には,映像だけを用いて要約せざるを得 ない.このためには,重要な画像(キーフレーム)を抽 出する必要がある.キーフレームの抽出には,カット検 出の方法によりショットを検出し,そのショットの先頭 フレームをキーフレームとする方法が利用できる.カッ トがなく,パンやズームを中心とする長い映像に対して は,連続する2フレーム間のヒストグラムを求めると, 差が顕著に現れない.この場合には,ヒストグラムの重 なり(インターセクション)を累積する方法が有効であ る. 次に,言語情報がある場合に,映像を要約する方法を 考える.言語情報がある場合には,情報を最も多く担っ ているのは,重要なフレーズや文である.従って,これ をまず決定した後に,対応する映像を決定することにな る.すなわち,音声要約をした後で,映像要約を行うわ けである.音声要約では,まずキーワードを抽出する. キーワードの評価値(例えば tf-idf ではその値)に対す る閾値を変えると,抽出すべきキーワードの数を調節で きることから,要約の長さや詳しさを変えることもでき る.こうして,キーワードを抽出した後で,キーワード から次のキーワードまで,あるいは文の終わり(無音区 間)までを,1つのキーフレーズ(キー文)として切り 出しておく.すなわち,キーフレーズ以外の音声は,削 除するのである.これで,音声要約が完了する. 次に,映像要約であるが,キーフレーズに対応するふ さわしい映像が,キーフレーズと時間的に同期して現れ ないことがしばしばある.例えば,人物の顔写真は,そ の人物の業績を説明する映像と同時に現れない.また, アナウンサーが人物の名前を読み上げるのも,顔写真と 前後することが多い. このようなルールを実行するためには,これまでに述 べてきた,重要語の抽出,カット検出,カメラワークの 検出,シーンの検索,テロップ検索,動作検索,音声/ 音楽の識別などの技術が駆使される.こうして,重要な 映像が切り出された後,キーフレーズの長さに合わせて, 映像が編集される.例えば,キーフレーズに対して,1 秒程度の映像を張り付けるが,キーフレーズが2秒以上 長い場合には,対応する映像だけでなく,後に続くショ ットからも数フレーム切り取って張り付けられる.また, キーフレーズ対して映像を探す区間は,キーフレーズが 含まれている時間区間だけでなく,その後の5秒間も含 まれている.こうして,音声要約に対応する映像要約が 完成する. キーフレーズと映像との対応付けは,意味理解に深く 関わっているため,映像と音声の表層的な構造だけで解 決することは難しい.この点から,音声と映像を意味的 に結びつける研究が行われている.まず,音声(あるい はクローズドキャプション)からキーワードを抽出した ときに,そのキーワードの意味する場面(意味)が,発 言,会合,人の集合,訪問,風景(建物)のどれである かを決定しておく.同様にして,映像からも,クローズ アップされた顔,複数人物,屋外風景の3つを,キー画 像として抽出しておく.次に,言語情報から割り出され る5つの場面と,映像から割り出される3つのキー画像 の類似度を定義しておく.例えば,顔のクローズアップ は発言の場面として考えられるので,(クローズアップ, 発言)の組み合わせには,類似度1.0を与えておく. こうして5x3の類似性が定義できると,映像中のキー 画像の系列と,音声中のキーワードの系列に対して,ダ イナミックプログラミングを実行し,言語情報と映像情 報の対応付けを求めることができる[46]-[47],[30]. 4.4 映像ハンドリング 映像から,カット検出やカメラワークの抽出,動物体 の抽出,動き解析が行われると,どのように映像を可視 化したり,操作したりすることができるかを考えてみる. まず,カット検出により実現できる最も簡単なものは, ノンリニア編集であろう.これは,カット検出によって ショットを切り出しておき,後でショットを自由につな ぐことで,映像を編集するものである.次に,カメラワ ークが抽出できると,映像中の各フレーム画像を,カメ ラワークに従って空間上に並べていくことで,パノラマ 画像を作成することができる.また,カメラがある対象 に向かってズームした場合には,ズームされた対象の解 像度は高く,周辺の解像度は逆に低くしたような画像を 構成することができる. カメラワークとともに,物体が動いている場合の映像 からは,パノラマ画像を作成しておき,さらに,各フレ ームに映っている動物体の重心を求め,それを折れ線で つなだスライダーを表示することができる.これは折れ 線スライダーと呼ばれ,このスライダーに沿ってマウス を動かすと,動物体もそれにあわせて動くように,可視 化することができる.このように,カット検出やカメラ ワークの抽出,動物体の抽出や動き解析ができると,映 像を可視化したり,分かりやすく操作することが,簡単 に行えるようになる[29],[48]. 4.5 映像のパージング ニュース番組には,複数のニュースとCMが含まれて いる.ニュースのデータベースを構築して,見たいニュ ースを検索し,オンデマンドで視聴するためには,ニュ ース記事とCMを分離しておきたい.この目的のために, ニュース番組から,個々のニュースを自動的に切り出す システムが既に開発されている.このシステムでは,C NNのニュースを対象として,CMを取り除き,1つ1 つのニュース記事を切り出して,データベースを構築し ている. ニュース番組の構成は,有限状態オートマトンで表す ことができる.このオートマトンの各状態は,ニュース 番組の構成要素であり,状態遷移は,特定の特徴が検出 されたときに生じる.入力を幾つかの部分に分割するこ とを,言語処理ではパージングと呼ぶ.従って,このC NNニュース番組を,個々のニュース記事に分割するこ とは,正規文法を用いて,ニュース映像をパージングし ていることと同じであると考えてよい.用いている情報 は,無音区間やブラックフレームの検出, 話者交替の 検出,音声ディクテーション,CNNロゴマークの検出 などである.なお,クローズドキャプションが使える場 合には,話者交替や,音声ディクテーション,ブラック フレーム検出は,クローズドキャプションの中に書かれ ているので,音声・音響信号処理は行わなくても良い [49]-[50]. 4.6 相互検索 テレビドラマや映画にはシナリオがある.シナリオに 基づいて,俳優は台詞をしゃべり,行動して映画やドラ マができあがる.ここには,台詞というテキスト,俳優 の音声,フィルムに焼かれた映像がある.もしこれら3 種類のメディアを対応付けることができれば,台詞から 音声や映像を検索したり,台詞を編集すると,音声や映 像も自動的に編集することができるようになる.この目 的から,テキスト,音声,映像を対応付ける研究が行わ れている. この方法は,信号処理が中心であるが,もう少し音声 認識の技術を使うこともできる.まず,音声ディクテー ションを行って,俳優の発話を単語系列に変換しておく. 次に,音声ディクテーションされた単語系列と,台詞の 単語系列の対応付けを,ダイナミックプログラミングを 用いて行うのである.しかし,音声認識には認識誤りが あるため,ダイナミックプログラミングによる単語どう しの対応付けでは,十分な精度が得られない.そこで, 音声ディクテーションによって得られた単語系列と,台 詞から得られた単語系列を,音節系列に書き換えた上で, ダイナミックプログラミングを実行する.こうすること で,内容的に一致をとりながら,台詞と音声との対応付 けを得ることができる. 映像中に現れる人物の顔に対して,その名前を自動的 に獲得できる学習システムが,Name-It として提案さ れている.このシステムは,CNNニュースを対象とし ており,まず,クローズドキャプション(テキスト)か ら人名を抽出する.人物の名前は多数出てくるので,顔 写真の前にアナウンサーが紹介した名前に対しては,人 名として高い確率を与えておく.同じように,動作の主 語になっている人名や,president などの称号を伴う名 前には,高い確率を与えておく.次に,映像中から顔領 域を切り出して追跡する.複数の顔どうしの類似度は, 部分空間内での距離で評価する.最後に,テロップを抽 出し,このテロップを認識する.テロップが人名かどう かの類似性は,テロップの認識結果と人名との編集距離 をもとに計算する. こうして得られた人名N,顔領域F,テロップCを用 いて,人名Nと顔領域Fが共起して起こる確率を,類似 度として計算する.今,ニュース映像中に顔が出てくる と,この顔Fに対して,最も類似度の高い人名Nを出力 すれば,ニュース映像中の顔に,自動的に名前を付ける ことができる.同様にして,人名Nを与えると,類似度 の高い顔領域Fを複数個出力してくる.このシステムで は,顔と名前の対応付けを,人間が教えていないのにも かかわらず,その共起関係をもとに,自動的に対応付け て学習することができる[51]-[53]. 5 開発システム 前述したマルチメディアの構造化と検索に対する要 求,並びにそれを実現する従来手法をもとに,これまで 我々が研究してきたメディアの解析と統合によるマル チメディア・コンテンツの知的構造化のシステムについ て述べる. 5.1 音声ディクテーションによる構造化 ビデオ・オン・デマンドを目指したニュースデータベ ースを構築するには,ニュース記事を話題(トピック)毎 に分類する必要がある.ニュースは,内容を伝える音声, 内容をまとめる文字,状況を伝える映像といったメディ アで構成されているので,記事を分類するには,キーワ ードを抽出する処理が必要不可欠である.本研究では, 抽出したキーワードの存在確率と,トピックに対する寄 与率を基に記事分類を行なった.本研究でのニュース音 声記事の分類は,図2に示すように2段階に分かれている. (1)ニュース音声に対して,ディクテーションにより キーワードを抽出し,キーワード列とキーワードの存在 確率を求める. (2)次に,キーワードが記事の分類(トピック)に寄 与する割合と,求めたキーワードの存在確率をもとにニ ュース記事を分類する. 図2 ニュース記事分類の流れ 5.2 テロップ文字解析による構造化 ニュース映像のデータベースを構築するためには,ニ ュース映像が何を表しているかを示すための索引付けを 行なう必要がある.映像の作成者が索引情報を付与して, 映像と共に放送している場合や,クローズドキャプショ ンが付与されている場合には,それを索引として利用す ることができる.しかし,そうでない場合には,映像か ら索引を自動的に抽出する必要がある.ニュース映像中 のテロップはこのための情報として有効である. ニュース映像中のテロップ文字認識に基づいて索引 を付与し,記事を分類,検索する処理の流れを図3に示 す.まず,映像の時系列からテロップが出現したテロッ プフレームを検出する.次に,検出されたテロップフレ ームから文字領域を抽出し,個々の文字を切り出す.切 り出された文字を認識し,認識結果に対して形態素解析 を行ない単語を抽出する.抽出された単語から2文字以上 で構成される名詞を選び出し,これをキーワードとして 記事分類を行なう. る手法を提案した. ニュース映像はいくつかの記事から 構成されており,記事はいくつかのシーンから構成され ている.さらにシーンは何枚かのフレームから構成され ている.そのためシーンとシーンの変わり目であるカッ ト点の画像(カット点フレーム)は映像全体の概要を示 している.スポーツ・ニュース記事を分類するためには 全フレームを処理する必要はなく,カット点フレームの みを処理すれば十分である.この点から,本研究では, ニュース映像のカット点検出を先に行い,この結果をも とに記事切り出しを行って処理時間を短縮するとともに, 記事単位でスポーツ・ニュース映像を分類する. 検出されたカット点フレームを,スポーツ・ニュース の学習および分類に用いる.学習では,1つのスポーツ・ カテゴリに複数の代表的な画像集合(クラスタ)を設定 する.これは,カメラ位置の制約や演出意図などの点か ら,画像内に映る対象の大きさや位置に制約があるため である.カテゴリとクラスタの関係を図4に示す. 図4 カテゴリーとクラスタの関係 クラスタの生成では,カット点フレームの集合をベク トル量子化して自動生成する.すなわち,図5に示すよ うにスポーツ・カテゴリ毎に,ニュース映像のカット点 フレーム(集合)を求め,この画像1枚1枚をベクトル 表現する.こうして得られたベクトル集合に対して,ベ クトル量子化を行い代表ベクトルを求める.得られた代 表ベクトルは,一般に,ベクトル集合の分布を反映して いることから,代表的な画像として記憶しておき,映像 の分類に用いることができる. しかし,分類能力を高めるためには,分布の広がりも 考慮しておく必要がある.そこで,本研究では代表ベク トルに類似したカット点フレームを集め,これをもとに 部分空間を構成する.従って,1つのスポーツ・カテゴリ には,複数のクラスタに対応した複数の部分空間が構成 される.1つのカテゴリに複数の部分空間を設定して分 類または認識する手法は多重部分空間法と呼ばれている. 図3 テロップによる記事分類の流れ 5.3 フレーム特徴による映像の構造化 スポーツ・ニュースのような映像では,カメラ位置の 制約などから,画像内に映る対象の位置などに制約があ る.従って,特定のスポーツを特徴づける代表的な画像 が存在し,それをもとにスポーツ・ニュースの記事を, テニスや野球といったスポーツ・カテゴリに分類するこ とができる.本研究では,画像上の物理的なオブジェク トを明確に認識することなく,シーンの構図に関する全 体的な特徴をもとに,スポーツ・ニュース記事を分類す 図5 ベクトル量子化によるクラスタの生成 5.4 話者認識と音声認識の統合 本研究は,ニュース音声に対して自動書き起こしを行 ない,キーワードを抽出することにより,自動的に記事 分類を行なうことを目的としている.ニュース音声は, レポータあるいはインタビュアーの発話部分に比較的雑 音が重畳している場合が多いので,レポータあるいはイ ンタビュアーの発話を正しく自動書き起こしすることは 困難である.従って,比較的雑音が少ないアナウンサー の発話区間のみを自動書き起こしすることにより,記事 の分類に必要なキーワードを精度良く抽出できると考え られる.また,アナウンサーの発話のみを自動書き起こ しすることは,処理の短縮にもつながる.この点から, 本研究ではアナウンサーの発話区間を自動的にインデキ シングし,この区間のみを自動書き起こしするニュース 記事の自動分類方法を提案している. 話者インデキシングでは,話者モデルをあらかじめ学 習しておくことは,自動化の点から望ましくない.特に, ニュース番組では,アナウンサーが日によって替ること もあり,またあらかじめアナウンサーの話者モデルを学 習しておくと,時期差に対処しなくてはならなくなるか らである.そこで,本研究では,特定の話者をあらかじ め学習することなく,入力音声中から各話者の話者モデ ルを自動学習し,話者照合に基づいて自動的に話者区間 を切り出す方法を提案している.話者照合の方法として は,リアルタイム処理を目的として,部分空間法を用い ている.提案手法の有効性を示すために,NHK5分間の ニュース45日分に対して,アナウンサーの発話区間の切 り出し実験を行なった. ニュース記事を分類するには,記事中のキーワードを 抽出し,キーワードと分類分野との関係を用いるのが一 般的である.ここで問題となるのは,ニュース記事の分 類性能が,ニュース音声記事からキーワードを抽出する 精度だけではなく,キーワードと分類分野との関係をど のように設計するかに依存している点である.これに対 して,カイ二乗法を用いてキーワードの自動選択を行な い,選択されたキーワードと分類分野との関連度を計算 した.記事の分類は,単語bigramと不特定話者HMM (Hidden Markov Model: 隠れマルコフモデル)により, ニュース音声を自動書き起こしすることからはじまる. 自動書き起こしの結果得られたキーワードをもとに,分 類分野毎にその関連度を積算する.最後に,積算された 関連度が最大となる分野にニュース音声記事を分類する. 5.5 テロップと音声認識の統合 近年,ディジタル衛星放送やケーブルテレビの多チャ ンネル化等により,大量の映像情報が流通し始めている. しかし,これらの映像情報は内容の一覧性が悪く,視聴 者による効率的な利用が困難である.内容の一覧性を良 くするためには,次の三つの技術が必要である. (1)視聴者が理解しやすいように,ニュースの内容を 内容のまとまりごとに分割しておく技術. (2) 要求されたクエリーに対して,関連するニュース 記事の内容を視聴者に提示する技術. (3) ニュースの内容を要約して,視聴者に提示する技 術. 第 1 はトピックセグメンテーション,第 2 は検索, 第 3 はニュースの要約である.また,第 2 の技術は, その検索の仕方によって,次の 2 種類が考えられる. (1)視聴者が与える比較的短い文章をクエリーとして 検索を行う. (2)記事などをクエリーとして検索を行う(例示検索). 本研究では,ニュースの放送途中で,関連記事の検索 を行う二つ目の方法を提案する.これを実現するために は,ニュース記事の放送途中で記事概要をつかみ,それ をもとに検索を行う必要がある.ニュース記事の最初に 出てくるテロップ文字は,そのニュース記事の内容の概 要を反映しているといえる.本研究ではその点に着目し, ニュース記事の最初に出てくるテロップをクエリーとし て,関連記事の検索を行うことのできる,クロスメディ ア検索システムの構築を行った.このシステムによって, ニュース記事放送途中でも,視聴者に対する即時応答が でき,視聴者にとってより良い内容の一覧性を提示でき るニュースデータベースが構築できる. クロスメディア検索の手順を以下に示す. (1)ニュース音声に対して自動書き起こしを行う.こ れには,話者インデクシングと音声自動書き起こしの統 合で述べた方法を用いる. (2)ニュース記事映像中の最初に出てくるテロップを 自動的に抽出し,文字認識を行う. (3)文字認識されたテロップを使って,関連するニュ ース音声記事の検索を行う. 6 おわりに 本稿では,映像,音声,音響,文字といったメディア を解析する技術を用いて,音声と映像を含むマルチメデ ィア情報を構造化し,検索する方法について,マルチメ ディア情報の解析と統合の観点から述べた.この中で, 静止物体や動物体といったオブジェクトを抽出し認識 する研究,動きを認識して言語化する研究,情報を統合 する研究が,今後重要であると思われる. 7 参考文献 [1] 西崎博光,中川聖一:音声入力によるニュース音声検索システム, 音声言語情報処理26−3,pp.17-22, 1999. [2] 遠藤 隆,張 建新,中沢正幸,岡 隆一:音声データの自己組織 化と音声検索システム,音声言語情報処理25−4,pp.19-24, 1999. [3] J.Xu and W.B.Croft: Query Expansion using Local and Global Document Analysis,Proc. of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retreival, pp.4-11, 1996. [4] G.Salton and M.McGill: Introduction to Modern Information Retrieval, McGraw Hill, New York, 1983. [5] 大附克年,松尾達雄,松永昭一,古井 貞熙:ニュース音声を対 象とした大語彙連続音声認識と話題抽出,電子情報通信学会音声 研究会,SP97-27, pp.67-74, 1997. [6] 今井 亨,リチャード・シュワルツ,小林彰夫,安藤彰男:話題 混合モデルによる放送ニュースからの話題抽出,電子情報通信学 会論文誌,D-II, Vol.J81-D-II, No.9, pp.1955-1964, 1996. [7] 横井謙太朗、河原達也、堂下修司:単語の共起情報を用いたニュ ース朗読音声の話題同定機構,電子情報通信学会音声研究会, SP96-105, pp.71-78, 1997. [8] 西田昌史,緒方淳,有木康雄:アナウンサー発話の自動抽出とニ ュースディクテーションによる記事分類,情報処理学会論文誌, 第 40 巻, 第 4 号,pp.1482-1490, 1999. [9] 木 山 次 郎 , 伊 藤 慶 明 , 岡 隆 一 : Incremental reference interval-free 連続DPによる任意話題音声の要約と話題境界検 出 , 電 子 情 報 通 信 学 会 論 文 誌 , D-II, Vol.J79-D-II, No.9, pp.1464-1473, 1996. [10] 村井則之,小林哲則:統計的発話交代・話者モデルを用いた複数 話者対話音声の認識,電子情報通信学会音声研究会, SP99-68, pp.55-62, 1999. [11] 中川聖一,岩井直美,山本一公:話者の同定を組み込んだニュー ス音声の認識,電子情報通信学会音声研究会, SP99-33, pp.5562, 1999. [12] 大附克年,古井 貞熙,桜井直之,岩崎 淳,張 志鵬:ニュース 音声認識のための言語モデルと音響モデルの検討,電子情報通信 学会音声研究会, SP98-108, pp.1-7, 1998. [13] P.Delacourt, D.Kryze, C.J.Wellekens:Detection of speaker changes in an audio decument, Eurospeech99, pp.1195-1198, 1999. [14] 石井 純,外村政啓:重回帰写像モデルを用いた話者正規化と話 者適応化方式,電子情報通信学会音声研究会,SP96-91, pp.2935, 1997. [15] 赤松裕隆,西崎博光,三上 真,石ざこ友子,中川聖一,増山繁: ニュース音声の認識とその要約・検索による検討,音響学会講演 論文集,3-Q-28, pp.173-174, 1999. [16] 中沢正幸,遠藤 隆,古川 清,豊浦 潤,岡 隆一:音声波形から の音素片記号系列を用いた音声要約と話題要約の検討,電子情報 通信学会音声研究会,SP96-28, pp.61-68, 1996. [17] 望月 源,奥村 学:情報検索タスクに基づいた評価による要約手 法の比較,電子情報通信学会 NLC 研究会,NLC99-11, pp.41-48, 1999. [18] G.Smith, H.Murase, K.Kashino:Quick audo retrieval using active search, Proc. of ICASSP-98, Vol.6, pp.3777-3780, 1998. [19] 園田智也,後藤真孝,村岡洋一:WWW 上での歌声による曲検索シ ステム,電子情報通信学会論文誌,D-II, Vol.J82-D-II, No.4, pp.721-731, 1999. [20] 蔭山哲也,高島洋典:ハミング歌唱を手がかりとするメロディ検 索 , 電 子 情 報 通 信 学 会 論 文 誌 , D-II, Vol.J77-D-II, No.8, pp.1543-1551, 1994. [21] 南 憲一,阿久津秋人,浜田 洋,外村佳伸:音情報を用いた映像 インデキシングとその応用,電子情報通信学会論文誌,D-II, Vol.J81-D-II, No.3, pp.529-537, 1998. [22] 水野 理,高橋 敏,嵯峨山茂樹:スペクトルの動的及び性的特徴 量を用いた言語音声の検出,音響学会講演論文集,3-2-1, pp.107-108, 1995. [23] 大辻清太,外村佳伸,大庭有二:動画カット検出,電子情報通信 学会画像工学研究会,IE91-116,pp.25-31 1991. [24] 長坂晃朗,田中 譲:カラービデオ映像における自動索引付け法 と物体探索法,情報処理学会論文誌,Vol.33, No.4, pp.543-550, 1992. [25] 新倉康巨,阿久津明人,谷口行信,佐藤 隆,外村佳伸,浜田 洋: MPEG 符号化映像ショットチェンジ検出のための動き補償解析ハイ ブリッド法の提案, 電子情報通信学会論文誌, Vol.J81-D-II, No.8, pp.1838-1846, 1998. [26] 金子 敏充,堀 修:ゆう度比検定を用いた MPEG ビットストリー ムからの動画像カット検出手法,電子情報通信学会論文誌, Vol.J82-D-II, No.3, pp.361-370, 1999. [27] 中島康之,氏原清乃,米山暁夫:部分複合を用いた MPEG データ からのカット点検出,電子情報通信学会論文誌,Vol.J81-D--II, No.7, pp.1564-1575, 1998 [28] 長坂晃朗,宮武孝文:時系列フレーム特徴の圧縮符号化に基づく 映像シーンの高速分類手法,電子情報通信学会論文誌,Vol.J81D-II, No.8, pp.- 1998. [29] 阿久津明人,外村佳伸:投影法を用いた映像の解析方法と映像ハ ンドリングへの応用,電子情報通信学会論文誌,Vol.J79-D-II, No.5, pp.675-686, 1996. [30] M.A.Smith and T.Kanade: Video skimming and characterization through the combination of image and language understanding technique, CMU-CS-97-111, 1997. [31] 長坂晃朗,宮武孝文,上田博唯:カットの時系列コーディングに 基づく映像シーンの実時間識別法,電子情報通信学会論文誌, Vol.J78-D-II, No.4, pp.531-537, 1996. [32] 杉山善明,有木康雄:多重部分空間法に基づく TV スポーツ・ニ ュース映像の自動分類,電子情報通信学会論文誌,Vol.81J-D-II, No.9, pp.2112-2119, 1998. [33] 佐藤 隆,新倉康巨,谷口行信,阿久津明人,外村佳伸,浜田 洋: MPEG2 符号化映像からの高速テロップ領域検出法,電子情報通信 学会論文誌,Vol.81J-D-II, No.8, pp.1847-1855, 1998. [34] Y.Zhong, H-J.Zhang, A.K.Jain:Automatic Caption Localization in CompuressedVideo,ICIP99, 26AO2.3, 1999. [35] 大和淳司,大谷 淳,石井健一郎:隠れマルコフモデルを用いた 動画像からの人物の行動認識,電子情報通信学会論文誌, Vol.J76-D-II, No.12, pp.2556-2563, 1993. [36] 西村拓一,向井理朗,野崎俊輔,岡 隆一:低解像度特徴を用い た複数人物によるジェスチャの単一動画像からのスポッティング 認識,電子情報通信学会論文誌,Vol.J80-D-II, No.6, pp.15631570, 1997. [37] 前田潤治,越後富夫,宮森 恒,飯作俊一:連続状態を持つ隠れ マルコフモデルを用いた運動の推定と分離,MIRU98, pp.I-437I-442, 1998. [38] 藤本泰史,岩佐英彦,横や直和,竹村治雄:固有空間内の軌跡の 類似性に基づく動画像検索,電子情報通信学会 PRMU 研究会, PRMU96-110,pp.49-56, 1996. [39] 畠 直志,岩井儀雄,谷内田正彦:動き情報と情報圧縮を用いた ロバストなジェスチャ認識手法,電子情報通信学会論文誌, Vol.J81-D-II, No.9, pp.1983-1992, 1998. [40] 宮森 恒,越後富夫,飯作俊一:短時間動作記述を用いた映像の シーン表現と検索方式の検討,電子情報通信学会 PRMU 研究会, PRMU98-190,pp.107-114, 1999. [41] 丸尾二郎,岩井儀雄,谷内田正彦,越後富夫,飯作俊一:サッカ ー映像からの特定映像イベントの抽出,電子情報通信学会 PRMU 研 究会,PRMU99-41,pp.31-38, 1999. [42] 舘山公一,川嶋稔夫,青木由直:動作スポッティングによるシー ン検索,情報処理学会 CVIM, CVIM106-16, pp.115-122, 1997. [43] 笹森重和,馬場口 登,北橋忠宏:インターモーダル協調による 映像メディアからのイベント抽出,電子情報通信学会 PRMU 研究会, PRMU98-189,pp.99-106, 1999. [44] 瀧 剛志,長谷川純一:チームスポーツにおける集団行動解析の ための特徴量とその応用,電子情報通信学会論文誌,Vol.J81-DII, No.8, pp.1802-1811, 1998. [45] 柴田正啓:映像の内容記述モデルとその映像構造化への応用,電 子情報通信学会論文誌,Vol.J78-D-II, No.5, pp.754-764, 1995. [46] 中村裕一,金出武雄:ニュース映像からの重要セグメント抽出ー 画像特徴と言語特徴の相互関係を用いた映像要約ー,第3回知能 情報メディアシンポジュウム,pp.61-68, 1997. [47] E.K.Kang, S.J.Kim and J.S.Choi:Video Retrieval based on Key Frame Extraction in Compressed Domain,ICIP99, 27AP2.2, 1999. [48] 佐藤 隆,阿久津明人,南 憲一,外村佳伸:Coaster:映像の時 空間直感的操作による可変速再生方法とその応用,情報処理学会 論文誌,Vol.40, No.2, pp.529-536, 1999. [49] 上堀幸代,村田充弘,中村裕一,大田友一:画像特徴と音響特徴 を利用したCM映像の自動的構造化手法,電子情報通信学会 PRMU 研究会,PRMU95-159,pp.9-12, 1995. [50] A.Merlino, D.Morey, M.Maybury:Broadcast news navigation using story segmentation, (http://www.acm.org/sigmm/MM97/papers/morey/index.html) [ 5 1 ] 谷村正剛,中川裕志:テレビドラマのシナリオと音声トラックの 自動対応付け,自然言語処理,131-4, 1999. [ 5 2 ] 柳沼良知,和泉直樹,坂内正夫:同期されたシナリオ文書を用い た映像編集方式の一提案,電子情報通信学会論文誌,Vol.J79-DII, No.4, pp.547-558, 1996. [ 5 3 ] 佐藤真一,中村裕一,金出武雄:Name-It:動画像処理と自然言語 処理の統合による映像内容アクセス手法,第3回知能情報メディ アシンポジュウム,pp.187-194, 1997.
© Copyright 2026 Paperzz