物知りテレビについて

物知りテレビについて
有木康雄
龍谷大学理工学部電子情報学科
〒520-2194 大津市瀬田大江町横谷 1-5
E-mail: [email protected]
あらまし
テレビのディジタル化により,ニュースなどはホームサーバに蓄積されてから放映されるようにな
る.しかし,放映される内容は,あらゆる視聴者に対して同じであり,放送局から視聴者へ一方向的な同報通信
のままである.視聴者には,興味あるところをさらに深く知りたいとか,分からないところを分かりやすく知ら
せてほしいと言った個人化された放映の要求がある.この点から,放映されているニュース内容に関して,個人
の興味や知識レベルに応じて,その場で何でも聞くことができる「物知りテレビ」が望まれる.本研究では,こ
の「物知りテレビ」を実現するために,ニュースのアナウンサーや解説者,座談会の対談者と対話することので
きるマルチモーダルコミュニケーションの方法について研究することを目的としている.
キーワード
1
物知りテレビ,マルチメディア・コンテンツの構造化,メディア解析,検索,メディア統合
マルチメディア・コンテンツの組織化
テレビを中心とする放送,新聞や書物のような出版,
映画やゲームのような娯楽がディジタル化され,通信
のインフラであるインターネットと融合することに
よりマルチメディアの環境が構築されつつある.この
マルチメディア環境は,我々が知的活動を行なう情報
空間であるが,この空間には,未整理で構造化されて
いないデータが溢れている.例えば,電子博物館や美
術館,図書館が保存するデータは,一般的に組織化さ
れているが,テレビで放映されているニュースやアニ
メ,ドラマ,映画のようなビット情報は,検索の対象
としにくい未整理で構造化されていないデータであ
る.
我々は知的活動を行なうために,この未整理の大量
のデータの中から,興味ある情報を充分に,また高速
に入手したい.このためにはデータの表現形式にとら
われず,データの持つコンテンツ(情報内容)を引き
出して記述しておく必要がある.これは,図書館の本
やビデオショップのビデオテープといった表現単位
をバラバラにし,コンテンツ単位で情報検索できるよ
うにすることを意味する.本には,コンテンツをブラ
ウジングし,アクセスするための目次や索引がある.
ニュースやアニメ,ドラマ,映画のようなビデオにも,
連続的なビット情報の上に目次や索引,更に内容を表
現する記述や要約を作成しようというのがマルチメ
ディア・コンテンツの構造化である.
ニュースやアニメ,ドラマ,映画といったデータ(ビ
ット情報)からコンテンツを抽出するには,2つのア
プローチがある.一つは,信号をセグメンテーション
してパターンを形成し,このパターンを解析・認識し
て記号化するアプローチである.これをメディア解析
からのアプローチと呼ぶことにする.この例としては,
映像中に誰がいるのか(顔や音声),どういう動作を
しているのか,どういう単語が現れているのか(音声,
文字),何のスポーツをしているのかといったオブジ
ェクトを抽出する処理が挙げられる.これは本で言え
ば,索引を抽出することに相当する.このパターンか
ら記号へのアプローチは,大量のビット情報を対象と
するので,人手を介さず自己組織的に行うことが望ま
れる.
2つ目のアプローチは記号から出発し,データを意
味的にまとまった映像区間に分割することで,意味的
構造を抽出するアプローチである.これをメディア統
合からのアプローチと呼ぶことにする.この例として
は,映像から重要なショットを抽出して映像を要約す
ることや,シーンとしてのまとまり(トピック)を抽
出する処理が挙げられる.これらは本で言えば,章や
節と言った構造を抽出することに相当する.この映像
から意味的構造を抽出することも,人手を介さず自動
化することが望まれる.
を行い、その内容を索引として記述する処理である。
クローズドキャプションのようなテキストが放送映
像に付随している場合や、説明テキストがインターネ
ットに付随している場合には、そのような言語テキス
トから映像内容を表す索引を取り出すことができる。
このような音声、映像、言語処理により、映像内容を
記述する処理が映像の構造化であり、これにより、知
2 物知りテレビ
ディジタル化により放送と通信は融合しつつある。
放送の代表であるディジタルテレビでは、テレビに接
続された個人のホームサーバに、数ヶ月の映像が蓄え
られるであろう。また、通信の代表であるインターネ
ットには、ニュース映像をはじめとして数多くのディ
ジタル映像が既に蓄積されている。我々は、知りたい
情報や必要な情報を、テキストだけではなく、このよ
うなディジタル映像からも検索したいと思う。例えば、
図1のように,「ゴア副大統領は情報ハイウェーにつ
いてどのような演説を行ったのか、それが経済にどの
ような影響を与えたのか、今後,彼はどのような政策
を採る予定なのか」と言った疑問に対して情報検索を
行い、テキストとしてではなく、実際の映像を使って
テレビ放送を見ているように分かり易く解説してほ
しいと思う。このようなシステムがあれば、我々は、
疑問に思うことや必要な情報を、ディジタルホームサ
ーバやインターネットといった情報媒体の違いを意
識せずに検索することができ、しかも、その検索結果
を放送のような映像情報として分かりやすく見るこ
とができる。
メディア解析 ー 音声・
言語 ー
要約
これらの処理を実現するためには,音声,文字,映
像の各メディアを解析し,単語(音声・文字)やショ
ット(映像)といった部品に解体して,それらを意味
的につなぎあわせて,トピックという,より大きな構
造を抽出する必要がある.また,トピックの構造や,
トピックを構成する部品の重要度を求めることによ
って,トピックの連想や要約を実現することもできる.
……
……
トピック 話者イン
音声イン
抽出
デキシング デキシング
トピック1
……
….
…...
2
3
ハイパーリンク
入力音声
解説
話者 1
……
……
話者 2
話者 3
話者 4
……
….
……
……
…...
……
….
インターネット
音声トランスクリプション
図2 メディアの解析と構造化
メディア解析 ー 画像・
ビデオ −
キーフレーム
イベント要約
イベント抽出 イベント1
2 ハイパーリンク
解説
入力
ビデオクリップ
画像インデキシング
物知りテレビ
なぜ法科大学
院ができたの?
オブジェクト抽出
(テロップ文字と顔)
インターネット
彼の経歴は?
(顔を指し示して )
ニュース
データベース
このニュースを
詳しく説明して.
図3 メディアの解析と構造化
編集
変換
検索
統合
インターネット
解析
森首相がITについて述べ
ているビデオクリップを見
せて
今見ているニュースに関
連するニュースを見つけて
要約して.
図1 物知りテレビ
このような「疑問に対して映像を使って解説するシ
ステム」を構築するためには、映像検索だけでなく、
映像の構造化と自動編集が必要である。映像の構造化
とは、図2,図3に示すようにホームサーバやインタ
ーネット内の映像情報に対して、音声認識や映像処理
りたい情報や必要な情報を検索することができる(図
4,図5)。
映像の編集とは、素材映像を時間と空間において抽
象化する過程である。従って、検索された映像の時系
列をそのままの順序でつなぎ合わせて、放送用映像に
することはできない。編集作業は、検索された映像を
選択し接続する作業を含んでいる。映像の自動編集と
は、検索した映像から見やすく分かり易い映像を作り
出すために、映像文法に適合する映像を迅速に探しだ
し、次々とつないでいく処理である(図6∼図8)。
映像文法に合うか合わないかを判定するためには、映
像に索引を付与しておく必要がある。この索引は、知
りたい情報や必要な情報を検索するための索引とは
異なり、検索された映像を編集するために必要な索引
である。例えば、映像の文法では、全景を表すフルシ
ョットの次に、その詳細あるいは興味の中心を表すた
めにルーズショットが用いられる。また、あるショッ
トにおいて人が向いている方向と、次のショットにお
いてその人が向いている方向には、一定の関係が必ず
存在する。このように、自動編集では、映っている内
容に基づいて映画の文法を運用していく必要がある。
以上のように、映像情報を編集して放送型の情報提
供を行うためには、映像を検索するための構造化と、
映像を編集するための構造化が必要である。
編集された
ニュース
編集: オーバーラッ
プを除き,要約する.
ハイパーリンク
メディア編集 (現在)
ロケ
カメラマンは絵コンテにあ
う映像を撮影する
ニュース文章
カメラマン
絵
コ
ン
テ
絵コンテ
ビデオ資料
“ 中東和平は
・・・・”
クリントン
ビデオ
生成
検索質問
クリントン大統領が感覚に付いて述べて
いるところのビデオを見せて
•統合検索
話者の名前とトピックをあわせてビデオクリップを検索する
ディレクターは絵コンテ
を作成する
エディター
検索結果
クリントン
アナウンサー
類似トピックの
ニュースクリップ
図6 メディアの編集
•Name-It (顔と話者)
顔(話者)と名前の共起に関する自動学習
“クリントンは “ 中東和平は
・・・
”
述べました.” ・
ハイパーリンク
類似トピックの
ニュースクリップ
ディレクター
•アナウンサーの発話から
クリントンという単語を抽出
•話者モデルを構築
•クリントンという名前を
話者モデルにつける
トピック検索
インターネット
3
メディア統合
トピック検索
料
資
オ
デ
ビ
おわりに
本稿では,映像,音声,音響,文字といったメディ
アを解析する技術を用いて,音声と映像を含むマルチ
メディア情報を構造化し,検索することの必要性につ
いて述べた.また,検索質問の意図を理解し,検索結
果から映像を編集して個人向けに放送する(Narrow
casting)ことの可能性について論じた.
メディア編集
検索されたクリップを高品質に編集したビデオクリップ
の自動構築
情報の流れ
ビデオ
データベース
図7 メディアの編集(現在)
メディア編集 (今後)
話者: クリントン
トピック: 韓国
重要語:
韓国,平和・・
話者モデル :GMM1
ロケ
カメラマンは絵コンテにあ
う映像を撮影する
ニュース文章
絵
コ
ン
テ
カメラマン
テロップと音声書き起こしの変換
音声トランスクリプション
小渕総理大臣は,引き続き阪神
淡路大震災に対して,日本が継続
して援助することを約束しました.
記事検索
ニュース記事
データベース
図5 メディアの検索
インデキシング
ビデオ
生成
情報の流れ
検索
ビデオデータベース
図8 メディアの編集(今後)
ビデオ OCR
記事検索
ディレクターは絵コンテ
を作成する
エディター
検索
テロップの認識と音声自動書き起こし
テロップまたはニュース音声によるニュース記事の検索
結果
n
絵コンテ
ビデオ資料
n
ディレクター
料
資
オ
デ
ビ
図4 メディアの検索
検索結果