1996 年度 修士論文 自己組織化マップを用いた マルチメディア情報の組織化機構と その評価に関する研究 神戸大学大学院 自然科学研究科 情報知能工学専攻 波多野 賢治 指導教官 審査教官 主査 副査 田中 克己 田中 克己 北村 新三 上原 邦昭 1997 年 2 月 14 日 1996 年度 修士論文 題目 自己組織化マップを用いた マルチメディア情報の組織化機構と その評価に関する研究 神戸大学大学院自然科学研究科 情報知能工学専攻 951T688N 波多野 賢治 提出 1997 年 2 月 14 日 A SOM-Based Information Organizer for Multimedia Data and Its Assesment Kenji Hatano Abstract Now a days, hypertext has become a highly eective and ecient information browser for wide-spread distributed information over global network. The techniques become more and more crucial as the electronically stored documents and multimedia data increase explosively. The node-link network model of hypertext is a simple and comprehensive model for organizing distributed information. However, several fundamental problems of this simple model have been identied. An approach to overcome the problems is to use a search engine, which periodically visits URL sites and creates word indexes. Another approach is to introduce the concept of navigation by query, which can be implemented by connecting WWW and DBMSs. These approaches are useful to overcome the above problems to some extent. However, both of these approaches may often produce a vast of documents as a result of retrieval, and they do not provide any eective method for organizing the retrieval result. It is desirable to provide an eective way to organize and visualize the retrieval result information. Furthermore, conventional search engines are insucient for retrieving or organizing image or video data. In order to summarize or organize hypertext information in a visual manner, creating an overview map is a good approach. There are many researches on aggregating and generalizing hypertext information and on generating a structure from hypertext information. Also, some clustering algorithms have been developed for reducing the complexity and size of the information space. Designing good overview maps for complex structures and its dicluties have been also described in. In this paper, we introduce an information organizer for eective clustering and similarity-based retrieval of video data. Instead of giving keywords or authoring them, we use a vector space model and DCT image coding in order to extract characteristics of data. Data are clustered by Kohonen's self-organizing map, and the result is visualized in a 3D form. By this, similarity-based retrieval is achieved. We implemented a prototype system and report experimental results. We consider that our system eectively promotes reuse of distributed image data assets. 自己組織化マップを用いた マルチメディア情報の組織化機構と その評価に関する研究 波多野 賢治 要旨 WWW(World Wide Web) の最近の急速な普及と拡張と、計算機の高速化、2 次 記憶媒体の大容量化、そしてネットワーク技術の進歩により、文書、映像、音声な どのマルチメディアデータを計算機上で取り扱うことが可能になり、それらデータ のアーカイブ化、ディジタル化が進められてきている。しかし 、それら多種多様な マルチメディアデータはインターネットなどの通信ネットワーク上に分散し 、また 無造作に散在しているため、何らかの形で再利用するにはそれらデータを動的・自 己組織的に構造化することが必要となってくる。 本研究は、マルチメディアデータ、特に文書データと映像データに対して事前に キーワード 付与や内容記述といった作業を行なわずに、データのコンテンツ自身の みから効果的にクラスタリングを行い、類似検索を行うことによって、マルチメディ アデータベースの構築を手助けすることを目的としたものである。 これにより、文書および映像データのコンテンツ情報からデータを符号化し 、ま たその符号化されたデータをど う重みづけを行なうのかという方法を提案する。さ らに、その重みづけの方法が適当であるかど うか、文書および映像のカット、シーン (記事) について実験し 、その重みづけの正当性を確かめた。また、それらのための 文書および映像データの自動分類、ブラウジングツールおよび問い合わせインター フェースの構築も行なった。 目次 1 序論 1 2 基本的事項 4 2.1 自己組織化マップ (SOM) . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 離散コサイン変換 (DCT) . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 HTML(HyperText Markup Language) . . . . . . . . . . . . . . . . . 7 2.4 VRML 1.0(Virtual Reality Modeling Language 1.0) . . . . . . . . . . 8 3 10 3 次元自己組織化マップの生成 3.1 文書から 3 次元自己組織化マップの生成 . . . . . . . . . . . . . . . . 10 3.2 動画像から 3 次元自己組織化マップの生成 . . . . . . . . . . . . . . . 11 3.2.1 カットの特徴ベクトルの生成 . . . . . . . . . . . . . . . . . . 12 3.2.2 シーンの特徴ベクトルの生成 . . . . . . . . . . . . . . . . . . 14 4 システムの実現 19 4.1 文書分類システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.1.1 システム全体構成 . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.1.2 実行例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2 動画像分類システム . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.1 システムの全体構成 . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.2 実行例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 システムの評価 32 5.1 文書の分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.2 カットの分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 i 5.3 シーンの分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 6 結論 40 謝辞 41 参考文献 42 付録 45 第 1章 序論 WWW(World Wide Web) の最近の急速な普及と拡張と、計算機の高速化、2 次 記憶媒体の大容量化、そしてネットワーク技術の進歩により、文書、映像、音声な どのマルチメディアデータを計算機上で取り扱うことが可能になってきている。そ れに伴って、それらデータのアーカイブ化、ディジタル化する技術が進歩、発展し てきている。しかし 、それら多種多様なマルチメディアデータはインターネットな どの通信ネットワーク上に分散し 、また無造作に散在しているため、それらデータ を何らかの形で再利用するにはそれらデータを動的・自己組織的に構造化すること が必要となってくる。 さて、文書データベースに対して現在用いられている検索方式として用いられて いるのは、カテゴ リやキーワードなどあらかじめ文書に付加した 2 次情報を利用し ながら文字列の一致に基づく AND/OR 演算による対話型検索方式や SQL などによ る集合的問い合わせ言語を用いた検索などが挙げられる。しかし 、これらの方式で は、結果として検索を行なおうとするユーザーに検索用キーワードやシソーラス、文 書の分類体系に関するある程度の知識を要求する傾向がある。さらに、検索用キー ワード やシソーラス、文書の分類体系は事前に規定されていることが多いが 、進展 の激しい科学技術分野ではこれでは不十分である。 また、動画像は意味情報が複雑で、また内容や構成に関する情報が明示的には 含まれていないことから、動画像のデータベース化は非常に困難である。したがっ て、動画像データベースの構築には、多義な意味情報を同一の枠組で表現する方法 や、基情報にキーワード や説明文など 索引となる情報を付加し 、この 2 次情報を利 用して動画像の分類や検索を行なうといった方法が用いられてきた。しかし 、これ らの方法では、ユーザーに動画像の分類体系に関するある程度の知識を要求する傾 向がある。さらに動画像の分類体系が静的に規定されていることが多く、これらの 分類や 2 次情報の付加は手作業であるため、以下のような欠点を持っている。 データベースの構築と維持に巨大のコストがかかる 1 ユーザがデータベース全体を見渡せられない 曖昧な検索に十分に対処できない 分類作業の支援機能が不備である 我々は、従来より自己組織化マップ (Self Organizing Map, 以下 SOM) と呼ばれる ニューラルネットワークを用いて、文書群の動的な分類、分類地図の段階的詳細化や 曖昧検索が可能なブラウジング検索システムを開発してきている [4, 8, 11, 12, 13]。 また、同様な研究も他で始められており、津田ら [1] はマップの階層化の方法とその 初期値の設定法について提案している。 このような背景より、データベース全体の把握や曖昧検索および分類作業の支援 などの目的を達成するため、ニューラルネットワーク技術を用いたデータベースシ ステムの構築に関する研究が始まっている。自己組織化マップの根本的な考え方 [9] は、与えられたデータ集合に対して各データの特徴ベクトル (パターン ) を自己組織 化マップに繰り返し学習させることにより、データ集合に隠されている類似構造を 発見しそれを 2 次元自己組織化マップ上に反映し表示するというものである。そこ で本研究では、ハイパーテキスト文書およびニュース映像を題材として、文書中の 単語および各カット素材 (asset) を再利用の単位と見なして自己組織化マップを用い たクラスタリングについて検討を行なった。 本研究の研究課題は以下の通りである。 文書の自己組織化および文書の特性ベクトル生成のアルゴ リズム 映像カットの特徴ベクトルの生成方法の確立 その特徴ベクトルを用いた 3 次元自己組織化マップの生成と検索機構 カット分類の結果からニュース記事 (article) 分類への応用 ニュース映像を題材とした実験と特徴ベクトル生成方式の評価 以下、第 2 章では基本的事項である自己組織化マップと、動画像の特徴ベクト ル生成の際、重要な要素である離散コサイン変換 (Discrete Cosine Transform, 以下 DCT) およびマップの作成に利用したハイパーテキスト記述言語について、第 3 章で は文書およびニュース映像の自己組織化について、第 4 章では実際にマルチメディ アデータベースシステムを実現する際の仕様、すなわち文書および動画像の特徴ベ クトル生成、自己組織化マップによる学習、マップ表示の各処理のシステムの仕様 について、第 5 章では評価およびその問題点について述べ、第 6 章で結論および問 題点について述べる。 第 2.1 2章 基本的事項 自己組織化マップ (SOM) ニューラルネットワークの一種である SOM は、1990 年に T.Kohonen によって 提案された教師なし競合学習モデルである [9]。出力層の各ユニットが層の中で位置 を持つという点が他の学習モデルと異なる。このモデルの特徴はデータに隠されて いるトポロジカルな構造を学習アルゴ リズムにより発見し 、通常 2 次元空間で表示 するというものである。 具体的には、入力データを通常高次元の特徴 (feature) ベクトル x にパターン化 し 、出力層にある各ユニット i が入力パターン x と同次元のベクトル miを持ってお り、2 次元平面上に配置される。学習はこれらのユニットが入力パターンに選択的 に近付けることによって進行する。競合というのは SOM 法が入力パターンに一番 近いパターンを持つ出力ユニット c およびその近傍のユニットの集合 Ncのみが入力 パターンに近付けることができるようなアルゴ リズムをとっている。また、統計的 に正確な学習効果を得るため、一定の学習回数 T をとらなければならない。 SOM 法のアルゴ リズムを以下に示す。 1. 各入力データをパターン化する。 X = fx1 ; x2; 1 1 1 ; xk jxk 2 Rn g 2. 出力層にある各ユニット の持つパターンを初期化する。 M = fm1; m2 ; 1 1 1 ; mi jmi 2 Rn g 3. 入力パターン xkに一番近いパターンを持つ出力ユニット c を探す。 つまり、次式のような mc (t) を持つユニット c を求める。 k xk 0 mc(t) k= min fk xk 0 mi (t) kg for all i k 1 k は距離を表し 、ユークリッド ノルム等が用いられる。 4 4. 各出力ユニット c とその近傍のユニット の集合 Nc (t) を入力パターン xkに近付 ける。 mi (t + 1) = ( mi (t) + (t)[xk (t) 0 mi (t)] (i 2 Nc(t)) mi (t) (i 62 Nc (t)) (t) = 0 (t)exp(0krc 0 ri k2 =(t)2 ) k rc 0 r i k ここで (t) は学習率であり時間とともに 0 へと単調減少する。また、 c と i との距離であり、例えば Figure2.1 の様に取る。さらに 、 Nc (t) の大きさも時間とともに単調に減少する。0(t) 、(t) としては単調減少 が 、ユニット の一次関数や指数関数がよく用いられる。 U c(t) r=1 r=2 r =3 Figure 2.1: Examples of topological neighborhood 5. k = k + 1; k m とし、3∼4 を繰り返す 6. t = t + 1; t T (T はあらかじめ設定された学習回数) とし、Nc (t) と を次第 に小さくしながら 3∼5 を繰り返す まず、1 、2 によって自己組織化マップに入力できるようにテキストをパターン 化し 、出力層の初期化を行なっておく。 このもとで 、3 によって入力ベクトルに最も距離が近いユニット c が選ばれる。 さらに、4 によって、ユニット c のネットワーク上での近傍ユニットだけが、その内 部ベクトルを更新される。この結果、入力ベクトル空間で近くにあるものは、ネッ トワーク上でも互いに近傍のユニットへと射影されるような写像が完成することに なる。 ゆえにこのモデルは、 「特徴のよく似た2つのパターンを入力すると、マップ上 でも互いに近い位置にある出力ユニットがそれぞれ反応する」という性質を持つ。 この性質をトポロジカルマッピングと呼ぶ。これは 、自己組織化マップの特徴の 1 つである。 2.2 離散コサイン変換 (DCT) DCT とは、JPEG(Joint Photographic Expert Group) とよばれる静止画像圧縮 技術で用いられている画像の変換符合化方式である [6, 7]。1 枚の自然画像を N2N 画素の正方形の領域 (ブロック) に分割し 、各ブロックに対して変換処理を行うと、 領域内の平均的な画像 (領域全体が一様) に始まり、徐々に精細さを表現する画像へ と段階的な画像に分解することができる。この分解操作を直交変換といい、精細さ が高いことを別のいい方では、周波数が高いという。自然画像は、第 1 低周波項 (平 均値画像) から順に、高周波項へと分解した画像の重ね合わせの表現になる。 DCT のメリットは、変換前にランダムに分布していた画素値 (輝度など ) が 、変 換後には低周波項に大きな値が集中する性質がある。したがって、高周波項を落と す操作 (量子化) をすれば情報圧縮を行うことができる。 1 枚の画像から分割された画素ブロックの大きさが N × N 画素のとき、画素信 号を f (x; y ) 、変換によって得られる係数 (DCT 係数) を F (u; v ) とすると、F (u; v ) は次のように求まる。 01 NX 01 2 NX (2x + 1)u (2y + 1)v F (u; v) = C (u)C (v )f (x; y ) 1 cos cos N x=0 y=0 2N 2N ただし 、 8 1 > < p for u; v = 0 C (u); C (v) = > 2 : 1 otherwise このようにして得られた DCT 係数のうち F (0; 0) を DC(Direct Current 、直流) 係 数といい、それ以外の DCT 係数を AC(Alternate Current 、交流) 係数と呼ぶ。DCT 係数は、画素数と同じ N × N 個求まり、低周波成分に集中する。DC 係数はブロッ ク内の画素値の平均値を表し 、AC 係数はその周波数の活性度を示す。また次式に 示す逆変換でブロック画像の再生画素値が求まる。 01 NX 01 2 NX (2x + 1)u (2y + 1)v f (x; y) = C (u)C (v)F (u; v) 1 cos cos N u=0 v=0 2N 2N ただし 、 2.3 8 1 > < p for u; v = 0 C (u); C (v) = > 2 : 1 otherwise HTML(HyperText Markup Language) まず最初にハイパーテキストについて述べる。 ハイパーテキストという用語は、Xanadu システムの設計者 Ted Nelson によっ 「ハイパー」という接頭語は一 て 1965 年に提唱された呼び名であり、ここでいう、 般に「∼を超越したもの」という意味を持っていることから、 「ハイパーテキスト 」 とは「テキスト 」を超越したものという意味を含むとも考えられる。 近年、 「ハイパーメディア」という用語が、この「ハイパーテキスト 」に代わる 用語として用いられるようになってきた。これは、従来のデータがテキスト中心で あったのに対し 、最近では図形、静止画像、動画像、音声、などのマルチメディア 情報をハイパーテキスト上で取り扱おうとする動きから用いられるようになったも のである。つまり、 「ハイパーメディア」とは「ハイパーテキスト」の拡張概念とし て捉えられることができるが 、事実上は同じ意味の言葉として用いられている。 以上のことから、 「ハイパーテキスト」はをつぎのように定義される。 「コンピュー タの支援により、複数の断片的な情報をリンクによりネットワーク状に結合し 、そ れらを非線形情報として表示、構築、および管理するシステム」構造的には、 「ノー ド リンクモデル」と呼ばれるデータモデルによって実装されていることが多い。 ノード ノードはテキスト等の情報を含み、個々のノード 間、あるいは、ノード 中の部 分との間をリンクにより結び付けることができる。また、個々のノードはハイ パーネットワーク内で一意であり、それぞれにはユニークな識別子が付けられ ている。 リンク リンクは、ノード 間の関係を表現するためのものであり、この機能はハイパー テキストシステムを特徴付けている要素の一つである。このリンクをたどるこ とによりノードからノードへと移ることができ、このことをナビゲーションと 呼ぶ。 HTML(HyperText Markup Language) はこういったハイパーテキストを記述す るための言語で、文章のフォーマット情報、グラフィックや音声、テキストの一部 や他の文書などのリソースへのリンク情報や文の整形を SGML の DTD(Document Type Denition) によって定義されたタグを平文に挿入する構造化タグ言語である。 これは、SGML をネットワークワイドに発展、応用したものと言える。 HTML はタグを使ってテキストをどのように表示すれば良いかをブラウザに伝 える機能を持つ。通常、タグは <title>と</title>のように対になって範囲をする。 2.4 VRML 1.0(Virtual Reality Modeling Language 1.0) VRML(Virtual Reality Modeling Language) とは、分散型ハイパーメディアシス テム WWW を利用して 3 次元グラフィックス情報をハイパーテキスト化するための 言語である。具体的には、Open Inventer のファイルのフォーマットを基に開発され て、そのサブセットに対して、WWW-Inline 、WWW-Anchor の拡張機能を加えた ものである。VRML データの代表的なビュワーとしては Webspace がある。これを 用いることにより、3 次元グラフィックスオブジェクトの中からリンクによる情報参 照ができたり、また、従来の HTML 文書から 3 次元情報を参照することができる。 さらに、VRML 形式のデータを表示できる WWW ブラウザを用いることで、従 来のリンク参照による情報のブラウジング以外に、3 次元グラフィクス情報のウォー クスルーによる情報のブラウジングが可能になる。 VRML は 、既存の 3 次元グラフィクスデータフォーマットの拡張という形式で 定義されており、すでに DXF データフォーマットなどの既存の CAD ソフトウエア の出力形式のデータを VRML フォーマットに変換するソフトウエアも整備されてい る。建築設計、都市設計などで作成された CAD データを VRML 形式に変換し 、ブ ラウザで見ることで、情報発信や情報検索が可能となる。 VRML のデータ構造は、全てノードとフィールドからなる。フィールドは、ノー ド のためのパラメータである。ノードは大別すると 3 つ (Shape, Property, Group) に 分けられる。Shape ノードは実際に何かを描くだけのノード、Property ノードは形 を描く方法に影響し 、Group ノードは、前の 2 つのノードを複数個寄せ集めてノー ド の集合体を作り出すノードである。またその集合体を 1 つのオブジェクトとして みなすことができる。Group ノードはその子ノード を描くかど うかのコントロール ができる。代表的な Group ノード として Separator ノードがある。 Separator ノード の中に、Shape ノードや Property ノードが入れ子になっている のは、前述の通りである。中の子ノードの情報は順序付けられて記述され、この順序 が描画に影響する。Inventer の特徴を受け継いだ形ではあるが、1 つの VRML デー タは、シーングラフと呼ばれるノード の階層構造に配置される。シーンのはじめの 方のノードはあとの方のノードに影響を及ぼす。 第 3.1 3章 3 次元自己組織化マップの生成 文書から 3 次元自己組織化マップの生成 自己組織化マップを利用したテキストの自動分類を行なうために、本研究では以 下のような作業を行なった。 1. 文書群から単語を切り出す。この際、不必要な単語 (ストップワード ) 1 は除去 しておく。 2. 1 で抽出した単語から、その文書を特徴づけるような単語を抜き出す。この時、 抜き出す単語の個数は、ベクトルの次元内に収まるようにあらかじめ設定して おく。 3. それぞれの文書に対して、自己組織化マップの入力である文書特徴ベクトルを 生成する。本研究においては 2 通りの異なる方法により実験を行なっている。 4. 3 で生成した特徴ベクトルを用いて、自己組織化マップの学習を行なう。その 学習結果を用いて、VRML による 3 次元自己組織化マップの生成を行なう。 第 1 段階ではまず、ある出現頻度以上のキーワード 候補を選ぶように設定してい る。このとき選ばれたキーワード 候補群をあらかじめ用意しておいたストップワー ド 辞書によってキーワード 候補となり得ない単語を削除する。ここで、辞書に登録 されていない単語や熟語がキーワード 候補となる可能性があるが、あらかじめキー ワード 候補の数とその単語群を表示させることで、ユーザーによる判断でその中の 単語が不必要である場合はその単語を指定することで再度キーワード 候補を切りだ し直す作業を行なうようになっている。 第 2 段階においては抜き出す単語の個数を、ベクトルの次元内に収まるようにあ らかじめ設定しておき、その範囲内において単語の出現頻度に基づいた重要度が上 位にランクされた単語のみを文書群から抽出するようにしている。 1 数字や冠詞などのことを指す 10 第 3 段階では、2 つのアルゴ リズムを用いて特徴ベクトルを作っている。1 つは 「単純に単語の頻度」に基づいて作った特徴ベクトルで、文書の中に含まれている単 語の出現頻度をそのままベクトルとしている。もう 1 つは「 Salton's の尺度」[14] に 基づいて作った特徴ベクトルで、特定の文書にしか出てこないというような単語に 重みをおいて生成したベクトルである。これらを数式であらわすと、前者は重みを wik 、文書 diにおけるその単語の出現頻度を tkとすれば 、 wik = frequency of tk in di となり、文書 diにおける単語 tk の出現頻度を tfik 、N を文書の数、単語 tkが出現 する文書の数を nk とすれば 、後者は tfik 1 log(N=nk ) j =1 (tfij )2 1 (log (N=nj ))2 wik = qPt であらわされる。 3.2 動画像から 3 次元自己組織化マップの生成 ニュース映像というのはシーンと呼ばれるニュース映像を編成する 1 つ 1 つの記 事より構成されている。またシーンはカットと呼ばれるニュース映像の中でカメラ の切替えや素早いカメラワークなどによって分割される 1 つ 1 つの場面より構成さ れている。さらにカットは何枚かのフレームと呼ばれる動画像を構成する 1 枚 1 枚 の静止画像から構成されている。 このような構造をもつニュース映像に対し自己組織化マップを利用した自動分類 を行なうにはど う画像データを符号化しパターン化しなければならない。そのため には自己組織化マップの入力となる特徴ベクトル生成においてその次元を構成する 要素を選定する必要がある。しかしながら動画像の情報量は膨大でありまた動画像 に含まれる全てのフレームに対する特徴を得ることはベクトルの超高次元化、超量 化を招き、計算時間の増大につながり汎用性に欠ける。 動画像情報に対し自己組織化マップを利用した自動分類を行なうには、以下の課 題を克服する必要がある。 入力データの単位決定 時系列データである動画像データを再利用可能な素材として活用できる形に 断片化する必要がある。本稿では、カットをこのための単位とする。従って、 1 つのシーン (ニュース記事、article) は通常複数のカットに断片化される。 動画像からの特徴ベクト ルの生成 静止画フレームの時系列データであるカットに対する特徴ベクトルをいかに生 成するかという問題であり、本稿では各静止画フレームの DCT 表現を集約さ せる形で特徴ベクトルを生成する方式を提案する。 動画像の 3 次元自己組織化マップの生成と表示 SOM を用いたカットの分類結果を基に素材検索やブラウジングを効果的に 行なうための表示方式の開発が必要である。本稿では VRML(Virtual Reality Modeling Language) を用いた 3 次元ブラウザを開発した。 3.2.1 カット の特徴ベクト ルの生成 DCT 成分の抽出によるフレーム特徴ベクト ル生成 動画像を構成している各フレーム画像をいくつかのブロックに分割し 、そのブ ロックを前述の 2 次元 DCT により周波数成分に変換する。変換された成分は Figure3.1 のように左上を直流成分とし 、右下に向かって周波数が上がってい くように成分が並ぶ。このうちの第 1 成分 (直流)DC 、第 2 、3 成分 (水平、垂 直周波数成分、交流)AC1 、AC2の 3 つの成分を用いる。これから 1 つのフレー ムに対する DCT 成分を要素とするベクトル (DC (1); AC1 (1); AC2 (1); DC (2); AC1 (2); AC2 (2); 1 1 1 ; DC (n); AC1 (n); AC2 (n)) を構成し、これをフレーム特徴ベクトルと呼ぶ。ここで DC (k ); AC1 (k ); AC2 (k )(k = 1; 2; 1 1 1 ; n) は分割されたブロックにおける DC 成分と AC 成分である。 カット 検出 カット検出には 、有木ら [3] のカットの変わり目のフレーム (カット点フレー ム) を検出する手法を用いている。前項で述べた方式で生成したフレーム特徴 ベクトルは多次元空間の 1 点として表される。同じカット内の隣接したフレー ムのフレーム特徴ベクトルは、この多次元空間において近いところに存在し 、 クラスタを形成すると考えられる。ところがカットが変わると、多次元空間中 の点はこのクラスタから逸脱しはじめるので、この逸脱を持ってカット点検出 を行なうことができる。 time N N frame a1 a2 a3 DCT block Figure 3.1: DCT arrangement for frame images カット 特徴ベクト ル生成 カットの特徴ベクトルを生成するには、ベクトルの次元と要素を何にするかが 問題となる。文書の場合は含まれる単語の総数から次元数を決定し 、要素はそ の単語の文書中の出現頻度に比例した値が用いられたが、動画像には、単語の ような意味をなすキーワードが存在しない。そこで本研究では、カットの特徴 ベクトルの生成方法として、カット検出で分割された各カットに含まれる全て のフレームのフレーム特徴ベクトルの重みつき平均値を用いる方式を採用し た。この方法では、DCT を行なうと低い周波数にその画像のパワー (特長) が 集中するという特徴を利用することにより、情報が膨大な動画像の特徴をでき るだけ低次元のベクトルに反映させることができる。以下にカットの特徴ベク トル生成のアルゴ リズムを示す。 i m) と表現するものとする。 すると、動画像の各シーンを構成するカットは ff1 ; 1 1 1 ; fm g(m 1) のよ 1. 動画像を構成する各フレームを fi (1 うにあらわされる。 2. 動画像を構成するフレーム fiを n = L 2 M 個のブロックに分割し 、各 ブロックに対し 3 つの DCT 成分 (DC; AC1 ; AC2 ) を抽出することにより、 フレーム全体で 3 2 L 2 M 個の DCT 成分を得る。これをベクトル化し たものは以下ような形式をとる。 (DC i (1); AC1i (1); AC2i (1); 1 1 1 ; DC i (n); AC1i (n); AC2i (n)) 3. カット ff1 ; 1 1 1 ; fm g の特徴ベクトルには重みづけを行なう。先ほど 抽出 したフレーム特徴ベクトルの 3 つの成分、DC 成分、AC1 成分、AC2 成分 に、DC 成分には重み w1を、AC1 、AC2 成分にはそれぞれ重み w2と w3を かける。よって、抽出されたカットに含まれる全てのフレームの特徴ベ クトルの重みつき平均を求めると以下のようになる。 (w1 1 m X i=1 DC i (1); w2 1 m X i=1 AC1i (1); w3 1 m X i=1 AC2i (1); 111; m m m X X X w1 1 DC i (n); w2 1 AC1i (n); w3 1 AC2i (n)) i=1 i=1 i=1 これをカット特徴ベクトルとする。このときのフレームの範囲は、カッ ト点フレームから次のカット検出時のアウトフレームが生じる直前のフ レームまでとする (Figure3.2 参照)。これによりカットに含まれる全ての フレームの特徴を集約できる。 3.2.2 シーンの特徴ベクト ルの生成 3.2.1 節で生成されたカットの特徴ベクトルを入力ベクトルとして自己組織化マッ プで学習させると、マップ上の各出力ユニットにはそのベクトルと距離的に最も近 いベクトルを持つカットが対応づけられる。そこでこのことを利用して、ニュース 映像からシーンの切り出しを行ない、シーンに含まれるカットを選定し 、これと自 己組織化マップの学習結果を基にシーンの特徴ベクトル生成を行なった。 以下にシーンのベクトル化の手順を示す。 start of outframe cut frame group of frame for cutvector cut frame 10 frames Figure 3.2: Group of frame for Cutvector シーンの切り出し ニュース番組の構成は、スタジオにおいてニュースキャスターが記事内容を紹 介した後、いくつかの現場の場面を経てまたスタジオの場面に戻るという繰り 返しの構成をとっている。したがって、この構成を利用することによりスタジ オ場面を同定することができ、さらに同定したスタジオ場面を用いてニュース 記事のシーンを切り出すことが可能となる。スタジオ場面の同定では、Loop Point という概念を用いている。ニュース番組では繰り返し現れる場面と言う のはスタジオと特殊な記事のみである。この繰り返し現れる場面を Loop Point として抽出し 、スタジオ場面を同定する [5]。 シーン切り出しの処理は、ループ検出、スタジオ検出、シーン切り出しの3つ のステップから成る。以下に各処理過程のアルゴ リズムを示す。 1. ループ検出 ニュース映像を構成するカットの遷移をたど ると、類似したカットは近 くに集まるため、ニュース映像は何度もスタジオのカットに戻りループ を形成する。このループの始点となるカット点 (Loop Point) を検出する。 Figure3.3 に示すように、小さいループを形成するような場合もあるが 、 スタジオのシーンのように複数回ループを形成することはない。 2. スタジオ検出 ループ検出で求めた Loop Point をもとに、ニュースキャスターの映って いるスタジオカットを同定する。スタジオカット以外のループを形成する カットとの差別化をはかるため、Loop Point ごとに、ループ内平均フレー Loop Point Cut Point Figure 3.3: Loop Point and Cut Point ム数を定義する。この値が大きい Loop Point ほど 、スタジオカットであ る可能性が高い。同一 Loop Point に対するループ内平均フレーム数 d は N をループ数、niをループ内のフレーム数とすると次式で定義される。 d= N 1 X n N i=1 i 3. シーン切り出し スタジオ検出で求めたスタジオカットの先頭フレームを取り出し 、この フレームと全てのフレームとをそれぞれベクトル化しベクトル間の距離 を計算することにより比較を行なう。よく似たカット同士はベクトル間 の距離か小さいので、距離が小さくなるフレームをスタジオカットと判 定しシーンを切り出す。 シーンの特徴ベクト ル生成 シーンの切り出しができると各シーンに含まれるカットが選定できる。よっ て、カット特徴ベクトルを入力データとする自己組織化マップの学習結果、つ まり各カットが配置されたマップ上の出力ユニットの座標を基にしてシーン特 徴ベクトルを生成すれば 、カットの特徴をシーン特徴ベクトルに反映させるこ とが可能である。そこで本研究では、基本的にはマップ上の出力ユニットの配 置場所を次元とし 、各出力ユニットに対応しているカットの数を要素とし 、各 要素にはマップに対応させた重みをつけたベクトル、シーン特徴ベクトルを生 成した。この方法によって各カットの自己組織化マップによる分類情報がベク トル上に反映されることになる。 以下にシーンの特徴ベクトル生成のアルゴ リズムを示す。 1. カットの特徴ベクトルを入力ベクトルとした自己組織化マップによる学 習結果より、各々のカットが対応している出力ユニットにマップの大き さに依存した配列番号を付す。 2. 3.2.1 節のカット検出結果と、3.2.2 節のシーン切り出し結果より、各シー ンに含まれるカットを選定する。このときシーンに含まれるカットの中 から、キャスターが記事の内容を述べているカットを除外する。これは、 キャスターのカットがどのシーンにも含まれていることから、これをベ クトルの要素から省くことによりシーンの特徴をより正確に表すためで ある。 3. シーンごとに出力ユニットの配列番号を次元とし 、各要素が出力ユニッ トに対応しているカットの出現頻度に比例するようなベクトルを生成す る。以下、Table3.1 にこれらの処理により生成された特徴ベクトルの例 を示す。Table 中で M はカットの総数、N は出力ユニットの総数を表す。 4. さらに、Figure3.4 のように 3 で生成したシーン特徴ベクトルにシーンの 特徴をよりはっきりさせるよう重みづけを行なう。 ( Cut(1)! Unit(156), Cut(2)!Unit(38), Cut(3)! Unit(2 ), 1 1 1 1 1 1 , Cut(m)! Unit(212) ) + (m = 1; 2; 3; 1 1 1 ; M) Scenevector( Unit(1)!0, Unit(2)!1, Unit(3)!0, 1s 1 1 1 , Unit(38)!1, 1 1 1 , Unit(156)!0, 1 1 1 1 1 1 , Unit(212)!1, 1 1 1 , Unit(n)!0 ) (n = 1; 2; 3; 1 1 1 ; N) Table 3.1: A Basic of Scene Vector 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Normal Vector 0 0.5 0.5 0.5 0 0 0 1 0 0 0 0.5 0 0.5 0.5 0 0 0 0 0 0 Weight Vector Figure 3.4: A Weighted Scene Vector 第 4章 システムの実現 この 3D-SOM の試作システムの基幹部分は Silicon Graphics CRAY 社の Indigo21 お よび Indy 上において、3 次元環境を有するユーザインターフェースを容易に構築す ることが可能な Open Inventor および VRML 環境のもとで実現されている。 4.1 文書分類システム システム全体構成 4.1.1 このシステムは Figure4.1 の示すように、次の 4 つの部分から成り立っている。 ベクト ル生成部分 1. 入力として与えられるテキスト群を GetPaper 関数によりそれぞれの論 文をタイトルおよびアブストラクトごとに保存する。 2. ハイパーテキスト文書のアンカーを定義するタグを CutTag 関数により 取り除きリンク情報などを保存する。 3. 次に GetWord 関数によりそれぞれのテキストを単語単位に切り分ける が、この中で頻度数の少ない単語の除去、複数形の同一視、ストップワー ド の削除を行なっている。ここで残った単語がキーワード 候補となる。 4. キーワード 候補をユーザーが再検討し不必要ならキーワード 候補から除 去し 、最終的に残った単語をキーワード としこの単語をベクトルの次元 として MakeVector 関数によってテキストベクトルが生成される。 自己組織化マップ (SOM パッケージ ) による学習部分 得られたカット特徴ベクトル群を入力データとして自己組織化マップに学習さ せる。 1 MIPS R4400SC 25OMHz High IMPACT 19 Hyper Text document Generation of Vector Generation of basic vector analysis of Document remove stop word SOM Learning Process Generation of Weighted Vector Map Figure 4.1: Construction of System ここでは、フィンランド の T.Kohonen が率いるプログラム開発チームにより 開発された SOM パッケージ [10] を用いている。 3 次元文書マップの生成部 3 次元マップとユーザーインターフェース部分は VRML を用いて実現されて いる。 類似文書一覧表示部 検索のため HTML を用いてド キュメントリスト一覧表示用のリストファイル を生成した。 4.1.2 実行例 実際に 20 2 20 のマップを用いてマップ生成を行った。対象はオブジェクト指向 データベース関連の論文のタイトルおよびアブストラクト 200 本を 3.1 の方式に乗っ とってパターン化し 、入力とした。学習回数は 11,000 回、学習式には 2.1 のものを そのまま用いた。 このもとで学習させると Figure4.2 に示すように、ユニット数 400 のマップ (第 1 詳細度画面) が 2 分間で生成される。 Figure 4.2: A 3D-SOM 文書とマップとのナビゲーション 3D-SOM は 、文書がマップ上にマッピングされるとマップと文書間を相互に 行き来 (ナビゲーション ) できるようになっている。このナビゲーションには 2 種類の方法があり、1 つはマップ上の領域に張りつけられているキーワードを 選択したり (領域検索) 、マップを構成している各ユニット (円筒) を選択する (点検索) ことでナビゲーションを行なう方法である。この機能により、その領 域またはユニットにマッピングされた文書の情報がブラウジングできるように なっている。Figure4.3 は、あるユニットにマッピングされた文書をブラウジ ングしている画面を示している。 ここで点検索は 、例えば「 \model" というキーワード に関係あるが 、さらに \system" というキーワードにも関係のある文書が欲しい」などといった曖昧 Figure 4.3: A 3D-SOM and Associated Documents 検索に非常に有用であると考えられる。なぜなら、そういった検索は自己組織 化マップの特長を考えると、領域の境界線付近に配置されているユニットを 1 つ 1 つ検索していくことで、目的のデータを探すことができるからである。 もう 1 つは、前述の方法とは逆の方法で、文書のデータをブラウジングした画 面においてある単語を選択することで、その単語をキーワードとして持ってい る文書がマップ上のどのユニットに配置されているかを表示するものである。 この機能は、異なる領域に配置されているにも関わらず、ユーザが求めている 情報を検索できるという点で有用であると思われる。Figure4.4 をみれば分か るように、"Model" という単語をブラウジング画面で選択すると、3D-SOM 上 に "Model" という単語をキーワードとして持っている文書が少なくとも 1 つ含 んでいるユニットが反転表示される。 再計算なしの詳細度表示 Figure4.2 に示されるように、3D-SOM はまず最初に第 1 詳細度画面が表示さ れる。この画面で、各領域に張りつけられている第一キーワード (その文書中 で最も重みの高い単語) を選択すると、第 2 詳細度画面があらわれる。この機 能を詳細度表示機能といい、Figure4.5 に示されているように、第二キーワー ド によって領域分割された 3D-SOM が表示され、第 1 詳細度画面より細かい 情報を得ることができる。 Figure 4.4: Interactive Operations from Document to 3D-Map 3D-SOM におけるこの機能は、視覚的に文書群の分布状況を概覧でき、ユーザ にとって非常に有用である。なぜなら、情報検索の段階で、 「自分がど ういっ た情報を求めているのか」を見失わずに検索作業が行なえるからである。 再計算ありの詳細度表示 この機能は、前述の再計算なしの詳細度表示の付加機能である。つまり、ユー ザが選択した 3D-SOM のある領域を、その領域にだけ含まれている文書だけ で新たに自己組織化マップで再学習させ、3D-SOM を新しくつくり直すとい うものである。ただし 、この再計算によるマップ生成は、ユーザが選択した領 域内かつその場限りのものであるため、その後の検索作業には何ら影響は与え Figure 4.5: A Hierarchical 3D-SOM and Zoom-in Operation ない。 4.2 動画像分類システム 4.2.1 システムの全体構成 このシステムは Figure4.6 に示すように、次の 5 つの部分からなる。 カット 検出部分 この部分は龍谷大学の有木研究室で開発されたカット検出・シーン切り出しソ フト [3] を用いた。このソフトは Indy 上に実装されている Cosmo Compressor と呼ばれる画像圧縮・伸張ハード ウェア上で実現される。 動作手順は以下の通りである。 1. 動画像を入力として与えると、動画像の各フレームデータが 1 枚ごとに fremeOutput 関数に入力され、getdct 関数により各フレームの DCT 成分 が求められる。 2. 入力開始後 30 番目のフレームを最初のカット点フレームとする。 3. カット点フレームからアウトフレームが発生するまで各フレームの各 DCT 成分が dctadd 構造体に積算されながら保存される。 4. アウトフレームが発生するとアウトフレーム中の各 DCT 成分が dctaddtmp 構造体に積算されながら保存される。 Movie Picture (TV News) Generation of vector Generation of Cut vector Movie picture test Make output file SOM learning process Cut ditection Calculation of DCT Generation of Scene vector Scene ditection Map Figure 4.6: Construction of System 5. アウトフレームが連続して 10 フレームに達した場合、putdctvector 関数 により dctadd 構造体の各 DCT 成分をカット点フレームからアウトフレー ムが発生するまでのフレーム数で除した値を要素とするカットベクトル が生成される。 6. アウトフレーム発生後 10 番目のフレームをカット点フレームとする。 7. dctadd 構造体、dctaddtmp 構造体を 0 クリアし 、3 より処理を繰り返す。 8. アウトフレームが連続して 10 フレームに達しなかった場合、dctaddtmp 構造体の各 DCT 成分の値を dctadd 構造体に加えて、dctaddtmp 構造体 を 0 クリアする。そして再び 3 より処理を繰り返す。 カット 特徴ベクト ル生成部分 この部分は前述のカット検出プログラムに組み込まれており、カット検出と同 時に各フレームの画素ごとに DCT 成分が取り出されている。その取り出され た各フレームの画素ごとの DCT 成分の中から DC 成分、AC1 成分および AC2 成分の 3 つを取り出し 、これらからフレーム特徴ベクトルを生成する。さらに このフレーム特徴ベクトルから各要素の重み付き平均をとることでカット特徴 ベクトルを作っている。 自己組織化マップ (SOM パッケージ ) による学習部分 得られたカット特徴ベクトル群を入力データとして自己組織化マップに学習さ せる。 ここでは、フィンランド の T.Kohonen が率いるプログラム開発チームにより 開発された SOM パッケージ [10] を用いている。 シーンベクト ル生成部分 シーン特徴ベクトルはカット特徴ベクトルによる自己組織化マップの学習結果 およびシーン切り出しソフト [5] の出力データを基に生成されている。以下に 動作手順を以下に示す。 1. カットベクトルと SOM 法の学習結果を入力データとして、各々のカット が対応している出力ユニットのマップ上の配列番号を search0 units 関数 により求め、その結果を docIndex 構造体に保存する。 2. カット開始フレームを read0 frames 関数により document 構造体に保存 する。 3. シーン開始フレームを read0 sceneframes 関数により sceneDoc 構造体に保 存する。 4. make0 SceneVector 関数によりシーンの先頭フレームと、カット点フレー ムを比較し 、各シーンに含まれるカットを選定する。このときシーンの 先頭フレームとカット点フレームが同じ場合はこれをシーンを構成する カットから除外する。そして各々のカットが対応している出力ユニット の配列番号をシーン単位に集計し sceneData 構造体に保存する。 5. put0 SceneVector 関数により出力ユニットの配列番号を次元とし 、各出力 ユニットに対応するカットの数をカウントすることによってシーンベク トルが生成される。 VRML による 3 次元マップの生成 3 次元マップとユーザーインターフェース部分は VRML を用いて実現されて いる。 類似カット、類似シーン一覧表示部 検索のため HTML を用いてド キュメントリスト一覧表示用のリストファイル と、ユニット情報表示用のカットファイルを作成した。 実行例 4.2.2 実際にニュース映像 (10 分× 3 、56,392 フレーム) を用いて、以下の処理を行なった。 本システムでは、ベクトル化されたカットを SOM 法で学習させた後、その学習 結果を 3 次元マップに表示させ、各ユニットに張り付けられた画像により分布状況 を概覧することができる。さらに 3 次元マップ上で行なえる点検索機能や一覧リス ト表示機能をもたせている。 これらの諸機能によりデータの分布状況が容易に把握でき、また曖昧な検索にも 対応できることから、情報閲覧・検索システムとしての有効性が確かめられたと思 われる。 カット のマップ生成 3.1 節の方式により約 200 のカットが検出され、それぞれのカットを 144 次元 のカット特徴ベクトルに変換した。これに 15 × 15 の自己組織化マップを用い て学習させマップの生成を行なった。自己組織化マップの学習回数は初期学習 が 1,000 回、本学習を 10,000 回の計 11,000 回とした。この学習回数は経験則 に基づくものであり、一意には決まらないのが欠点である。なお、マップ生成 には 3 分2 を要した。 1. 3 次元マップ全体像 Figure4.7 はカット特徴ベクトルをを入力としたマップの実行結果が VRML Viewer 上に現れる。図中においてユニットの高さはそれらに写像された カットの数を表しており、またそれぞれに貼りつけられたカットは円筒 に分類されたカットの中でそのユニットの持つ特徴ベクトルの値に最も 近いカットが表示されている。 2. 分類結果 Figure4.7 上で任意のユニット (ノード ) を選択 (点検索) すると、Figure4.8 のようにそのユニットに写像されたカットのカット点におけるイメージ 2 SGI Indigo2 使用時、Indy の場合は 10 分 Figure 4.7: 3D-SOM for Video Cuts を含んだ HTML データが WWW ブラウザ上に表示される。データには カットの番号、カット点のフレームナンバー、およびそのカットの開始 フレーム終了フレームナンバーが表示される。なお、この開始フレーム と終了フレームから、そのシーンの映像を WWW ブラウザ上から呼び出 せるようにする予定であったが、現時点では実現できていない。 シーンのマップ生成 3.3 の方式により 11 のシーンが検出され、それぞれ 225 次元のベクトルに変換 された。これに 10 × 10 のマップを用いてマップ生成を行なった。学習回数は カットの場合と同じく 11,000 回 (初期学習 1,000 回、本学習 10,000 回) 、学習 式は 2.1 のものをそのまま利用した。このもとで学習させると出力層のユニッ Figure 4.8: Navigation from 3D-SOM to Video Cuts ト数が 100 のマップが 2 分3 で生成された。 1. 3 次元マップ全体像 Figure4.9 はシーン特徴ベクトルを入力とした自己組織化マップによる学 習結果が VRML Viewer 上に現れているものである。図においてユニッ トの高さはそれらに写像されたシーンの数を表しており、またマップ上 の数字はシーンの入力番号を表している。 2. 分類結果 カットの時と同じように Figure4.9 上で任意のユニット (ノード ) を選択 (点検索) すると、Figure4.10 のようにそのユニットに写像されたシーン に含まれる各カットのカット点におけるイメージを含んだ HTML データ が WWW ブラウザ上に現れる。 3 SGI Indigo2 使用時、Indy の場合は 7 分 Figure 4.9: 3D Self-Organizing Map for Scene Classication WWW ブラウザ上にはシーンの情報としてシーンの番号、そのシーンの 開始フレーム番号および終了フレームの番号が表示される。なお、この 開始フレームと終了フレームから、そのシーンの映像を WWW ブラウザ 上から呼び出せるようにする予定であったが 、現時点では実現できてい ない。 Figure 4.10: Unit Retrieval for Scene Document 第 5.1 5章 システムの評価 文書の分類 このシステムを評価するために、 「オブジェクト指向データベース」関連の論文 200 本を用いて、論文のタイトルのみ、アブストラクトのみそれぞれから文書の特 徴ベクトルを生成し 、それを入力として自己組織化マップに学習させ、いくつかの 3D-SOM を生成し実験を行なった。この実験では、生成した特徴ベクトルの生成ア ルゴ リズムが正しいかど うかを確かめている。しかし 、それを評価するための公式 な評価法がないため、我々は次のような形式で確かめた。つまり、3.1 節で説明した 「単純な単語の出現頻度」を基にしたベクトル生成アルゴ リズムと「 Salton の尺度」 を基にしたベクトル生成アルゴ リズムによって生成された特徴ベクトルを用いて、 生成された 3D-SOM から「分割された領域数」と「マップ上に表示されたキーワー ド 数」を調べることで、3D-SOM のクラスタリングの精度を検証した。 ここで注意すべきことは、マップ上の領域というのは隣接した同じキーワードを もったユニットにより構成されており、自己組織化マップの性質を考えれば 、隣接 した領域同士は何らかの関係があるということである。さらに言えば 、領域の数と マップ上に表示されているキーワード の数が同じであれば 、クラスタリングがうま く機能していると言えるのである。 以下に、この実験における調査した項目を挙げる。 「出現頻度」によるアルゴ リズムと「 Salton の尺度」によるアルゴ リズムによ る比較 論文のタイトルとアブストラクトに対して、上記 2 通りのアルゴリズムがうま く機能しているかど うか 分割された領域数とキーワード 数から、領域分割やキーワードの切り出しがう まくできているかど うか 32 Table5.1 は「出現頻度」に基づくベクトル生成のアルゴ リズムを用いたときの、 第一詳細度画面における分割された領域数と表示されたキーワード の数をあらわし ている。 # of Regions # of Rep.Words Title 25 25 Abstract 76 36 Table 5.1: Word-frequency based algorithm また、Table5.1 は、 「 Salton の尺度」に基づくベクトル生成のアルゴ リズムを用 いたときの、第一詳細度画面における分割された領域数と表示されたキーワード の 数をあらわしている。 # of Regions # of Rep.Words Title 39 39 Abstract 183 55 Table 5.2: Salton's measurement based algorithm Table5.1 は論文のタイトル部分のみのデータを用いた、 「出現頻度」に基づくベ クトル生成のアルゴ リズムを適用したときの、第一詳細度、第二詳細度、第三詳細 度における分割された領域数と表示されたキーワード の数をあらわしている。 # of Regions # of Rep.Words level1 25 25 level2 87 42 level3 254 51 Table 5.3: Word-frequency based algorithm Table5.1 は論文のタイトル部分のみのデータを用いた、 「出現頻度」に基づくベ クトル生成のアルゴ リズムを適用したときの、第一詳細度、第二詳細度、第三詳細 度における分割された領域数と表示されたキーワード の数をあらわしている。 これらの Table から、我々は以下の見解を得た。 # of Regions # of Rep.Words level1 39 39 level2 158 54 level3 328 56 Table 5.4: Salton's measurement based argorithm 論文のタイトルのみのデータで 3D-SOM を生成する場合は、 「出現頻度」によ り生成されたベクトルでも「 Salton の尺度」による方法でも良好な結果が得ら れている。なぜなら、Table5.1 や Table5.1 から見れば分かるように、分割さ れた領域数と切り出されたキーワード 数が一致しているからである。このこと はクラスタリングが完全に行なわれ 、タイトルに関してはこの方法でのアプ ローチが成功していることを示している。 論文のアブストラクトのみのデータで 3D-SOM を生成した場合は、切り出さ れたキーワードの数が分割された領域の数の 2∼3 倍になっている (Table5.1 と Table5.1 参照)。これは、これらデータが完全にはクラスタリングが行なわれ ておらず、同じキーワード をもつ違う領域ができたためである。 Table5.1 や Table5.1 を見れば 分かるように 、 「 出現頻度」による方法に比べ 「 Salton の尺度」による方法は、どの詳細度レベルにおいても領域が細かく分 割される。 「 Salton の尺度」による方法は概して明確な単語をキーワード としている場 合が多い。例えば 、第一詳細度画面において、 「 Salton の尺度」による方法は \VLSI\や \ODE"(OODBMS の名前) による特に明確な単語で領域分割がさ れている。それに対し 、 「 出現頻度」による方法では 、\generalization" とか \integration" など 一般的な単語によって分類されていることが多い。 以上のことから、 「出現頻度」によるベクトル化アルゴ リズムは、文書をクラス タリングし 、マップ全体を概覧するための 3D-SOM を生成する場合に適している方 法だといえる。他方「 Salton の尺度」によるベクトル化アルゴ リズムは、それぞれ の文書の相違をはっきりと極わだたせるため、情報検索に有用な方法であるといえ る。つまり検索の過程において、まず最初に「出現頻度」による方法で文書をクラ スタリングしておき、その上で「 Salton の尺度」による方法でユーザの欲しい情報 を獲得するようにすれば 、より効果的な検索が行なえるのではないかと思われる。 5.2 カット の分類 カットの分布状況を円筒に張りつけられた画像により一別すると、マップ全体に データが分散したという感を受ける。また、マップ上で集中している部分に注目し て見ると、特に雰囲気や明暗、背景、場面状況などといった視覚的に似通ったカッ トが近い所に配置されており、その中でも動作やカメラワークが比較的静かなカッ トは、ある程度同じところにまとまりやすいと考えてよいと思われる。 さて、実際構築した本システムがどれほどの情報を持っているかを判断するため に、今回、 「精度 (適合率) 」と「再現率」を測定することで判断する。世に知られて いる「精度 (適合率) 」と「再現率」は、検索されなかった適合情報を A 、検索され た適合情報を B 、検索された不適合情報を C とした場合、精度は B=(B + C ) 、再現 率は B=(A + B ) で表されるものであるが、本研究で利用したものは少し定義が異な る。ここで用いた「精度」と「再現率」というのは次のように定義できる。 すべてのカットの中から、マップ上の円筒の上に張りつけられたあるカット v に 似ているカットの数を similar (v ) とし 、カット v が張りつけられている円筒付近に あるカットの数を neighbour(v ) で表わすとする。このもとで精度は、 jneighbour(v) \ similar(v)j jneighbour(v)j で表わされ、また再現率は、 jneighbour(v) \ similar(v)j jsimilar(v)j で表わされたものである。 Table5.5 は、測定範囲が中心の円筒から近傍距離 1 の場合の、Table5.6 は、近傍 距離 2 の場合の精度と再現率である。 Table5.5 と Table5.6 を見ると精度、再現率ともに 40∼60%前後と検索結果とし てはそう良いものではない。しかし 、似ているカットの分類方法や、分類した結果 似ているだろうと思われ処理されたカットが全体のだいたい半数 (その他は関係の ないカットとして処理) であることを考えれば 、この結果は十分に納得のいく結果 だろうと思われる。また、以上の結果からカットベクトルの生成には w1 < w2 < w3 という関係が満たされていればよいことが経験的に判明した。ただ、どれくらいの 大小関係が必要かなどの詳細な部分は、このシステムのパフォーマンスを引き上げ るには大変重要なものであると考えられ、さらに実験を行ないチューンする必要が あると考えられる。 w1 1 w2 w3 precision ratio(%) recall ratio(%) 1 1 1=DC 1 1 1=DC 10 20 1=DC 20 10 1 10 20 1 20 10 1 10 100 44.45 46.99 { { 53.71 52.66 40.22 36.08 50.50 { { 43.52 47.93 51.53 Table 5.5: Precision ratio and Recall ratio when the distance is 1 w1 1 w2 w3 precision ratio(%) recall ratio(%) 1 1 1=DC 1 1 1 10 20 1 20 10 1 10 100 47.42 48.32 52.17 52.87 47.28 45.75 53.55 54.73 53.26 52.64 Table 5.6: precision ratio and recall ratio when the distance is 2 以上より視覚的には成果が見られるが、画像を符合化するという点でカットの内 容に対する意味的なものをとらえられたかど うかは疑問であるといえる。この意味 的な部分を取り出すには、コンテンツベースのこの方法ではすでに限界の域に達し ており、映像の内容に対する断片的な記述、すなわち映像のそれぞれのカットに対 する印象や感想とそれらの関連性を基に映像のインデックスづけを行なう方法 [2] と のハイブリッド な構成によって行なって補えるものであると考えられる。 5.3 シーンの分類 カットの場合と同様に重みつけを行なったシーン特徴ベクトルにより分類され たマップを見てシーンの分布状況を見てみると、重みづけを行なわなかった場合の マップに比べデータのばらつきはなかったように思われる。これはマップの大きさ を小さくしても同様であり、シーン特徴ベクトル一つ一つが似たような値になって しまったことが分かる。また、その中で複数のシーンが集まっているユニットの中 をみてみると、重みづけを行なわなかった時は、全て政治家のインタビューのシー ンばかりで、またそれぞれに含まれるカット数が非常に少ないという共通点があっ たのだが、今回の場合は逆に雪の場面や大勢の人間が映っているなど 画像全体がこ まごまとした特徴のない画像、すなわち DCT では特徴を抽出しにくいカットを含ん でいるものが多いという共通点が見つかった。つまり、カットの分類の段階で、分 類がうまくいかず DCT で特徴をとりにくかったものが多いシーンは特徴ベクトル を生成する際に平均化されることでさらに特徴を失い、Figure5.1 を見ても分かるよ うに、そういったデータが一カ所に集中したものであると考えられる。 Figure 5.1: A bad example of clustering また、重みづけを行なわなかったときには、意味的に似たようなシーン同士や、 裁判と国会の違いといった、状況が似通ったシーンが同じユニットに対応している 例が見られ、コンテンツ情報のみで映像の意味的なクラスタリングも可能であるか と思われたが、今回の重みづけの結果からはそういったことは見られず、カットが 映像のコンテンツから抽出した情報から分類されたように、シーンの方もその抽出 された情報から分類されたように思われる。これは Figure5.2 が示すように、分類結 果が良好であったユニットを見れば明らかで、この場合は重みづけを行なわなかっ たときと同じように一つのシーンに含まれるカットの数が少ないという特徴を持っ ていた。 Figure 5.2: A good example of clustering よって全体としては、入力データの絶対量が少なくまたジャンルが限られている ため正確な判断はできないが、カットの場合と同様、特徴ベクトルの生成の過程で の重みづけは、シーンが映像のコンテンツ情報でマップ上に分類されたということ から必要であると思われる。しかし 、今回の重みづけの方法では似ているシーンが うまく分類できたのかど うかは判断しがたいため、シーン特徴ベクトルの生成法が 今回の方法で良いのかど うかは判断しがたい。ただ、ひとつ言えることはシーンの ベクトルはカットの学習結果、すなわちマップ上の分布状況に依存しており、カッ トの学習結果が不正確である限り、シーンの分類の有効性は保証されないため、今 後はカットの学習結果によらないシーン特徴ベクトルの生成方法を提案する必要が あるということである。 以上のことから 、カットおよびシーンの自動分類はそれぞれの特徴ベクトルの 生成過程において重みづけを行なうことで、ある程度良好な結果が得られることが 判明した。しかしその一方で、その精度および実用度のことを考えれば 、ここまで の分類が限界のように思われる。よって、重みづけパラメータなど 細かいシステム 的な修正よりも、従来から映像の分類に用いられてきた映像の内容記述によるイン デックスづけによる分類の方法との、何らかの形によるハイブリッド な形式で 2 つ のシステムの統合を図ることが必要になってきたと考えられる。 第 6章 結論 本研究では、ニューラルネットワークの一種である自己組織化マップをデータの ブラウジングツールおよびデータの問い合わせのインターフェースと見なしてハイ パーテキスト文書および動画像データを自動分類し 、3 次元自己組織化マップの形 で表示するというシステムの試作を行なった。その中で、これらのデータをどのよ うに符号化し 、また符号化されたデータをど う重みづけを行なうかその重みづけの 方法を提案し 、またその重みづけの方法が適当であるか実験を行なった。 今回、試作したシステムの特長として次のものが挙げられる。 大量のデータをコンテンツ情報のみから自動的に分類でき、そのマップは自己 組織的に生成される ユニットの高さをデータの数に対応させるなど 、マップを 3 次元で表現するこ とによるマップ全体の見通しの良さ 曖昧検索への柔軟な対応 VRML を利用にすることにより WWW base のアプリケーション開発を容易 にするための汎用性の確保 しかし 、今回の実験において文書の分類およびカットの分類はカット特徴ベク トルの重みづけにより、良好な結果を得ることができたのであるが、シーンの分類 においてはある程度の結果しか得ることができなかった。確かに、うまく分類でき なかったカットもあり、その影響を受けるシーンの分類ではそれも仕方ないことで ある。 逆に、映像のコンテンツ情報のみではここまでの分類が限界であり、映像の単 位、つまりフレーム→カット→シーンと素材が大きくなれば大きくなるほどそれは いえることであろう。よって、従来の映像の分類に用いられてきた映像の内容記述・ 検索システムとのハイブリッド な構成による映像分類検索システムの開発が今後の 研究テーマとなるだろうと思われる。さらに、本システムの細かい部分、つまり重 40 みづけパラメータ設定方法や自己組織化マップの学習パラメータの設定方法の検討 やより精錬されたシステムのインターフェースの開発、カットの学習結果によらな いシーン特徴ベクトルの生成方法の提案などが今後の課題としてあげられる。 謝辞 最初に、研究全般にわたって御指導賜りました田中克己教授に厚く御礼申し上げ ます。 また、日頃よりさまざまなご協力をいただきました大学院自然科学研究科情報知 能工学専攻の緒先生方に感謝の意をあらわします。 さらに、本研究について御助言を頂きました田中研究室の皆様方や諸先輩方、そ して本研究に限らずあらゆる分野にわたって御協力してしてくださった学生諸君に も感謝の意をあらわします。 なかでも、さまざまな面で多大な協力及びサポートをして頂いた田中研究室 104 号室の皆さんに深く感謝の意を表します。 なお本研究は一部文部省科学研究費重点領域研究 (課題番号 08244103) による。 42 参考文献 [1] 津田 宏治, 黒田 崇, 美濃 導彦 and 上林 彌彦. 文書検索のための自己組織化セマ ンティックマップの階層 化. In 情報処理学会第 52 回全国大会, number 4, pages 217{218, 1996. [2] 是津 耕司, 上原 邦昭, 田中 克己 and 木邑 信夫. 時刻印付ノード リンクグラ フによるビデオ映像のデータベー ス化. In 情報処理学会 DBS 研究会, number 44-33, pages 111{113, 1997. [3] 岩成 英一 and 有木 康雄. DCT 成分を用いた動画シーンのクラスタリングとカッ ト 検出. In 電子情報通信学会パターン認識と理解研究会, number PRU93-119, pages 23{30, 1994. [4] 仁木 和久 and 田中 克己. ニューラルネットワーク技術の情報検索への応用. 人 工知能学会誌, Volume 10, Number 1, pages 1{7, 1995. [5] 齊藤 陽子 and 有木 康雄. ニュース映像のデータベース化に向けて-ニュースス タジオの映像検出と記事切り出し -. In 画像電子学会研究会, pages 13{16, 1995. [6] 加藤 茂夫. 画像データ圧縮の基礎知識. インターフェース, Number 175, pages 132{159, 1991. [7] 藤原 洋. 最新 MPEG 教科書. 株式会社アスキー, 1994. [8] 笹尾 年男. 動画像情報の自己組織化に関する研究. Master's thesis, 神戸大学工 学部計測工学科卒業論文, Mar. 1996. [9] T. Kohonen. The self-organizing map. Number 9, pages 1464{1480, 1990. 43 , Volume 78, Proceedings Of The IEEE [10] T. Kohonen, J. Kangas and J. Laaksonen. SOM PAK: The self-organizing map program package ver.3.1, Apr. 1995. SOM Programming Team of the Helsinki Univ. of Technology. [11] Q. Qing. Study on Hypertext Database Systems and Incremental Data Organi- . Ph.D. thesis, Graduate School of Science and Technology, Kobe University, Jul. 1995. zation Mechanisms [12] Q. Qing, K. Hatano, T. Sasao and K. Tanaka. A VRML-based information organizer by 3D self organizing map. In Proc. of IEICE Data Engineering Workshop, pages 85{90. IEICE, Mar. 1996. [13] Q. Qing, X. Shi and K. Tanaka. Document browsing and retrieving based on 3D self-organizing map. In Proc. of Workshop on New Paradigms in Information Visualization and Manipulation in Conjunction with CIKM'95, Nov.-Dec. 1995. [14] G. Salton, J. Allan and C. Buckley. Automatic structuring and retrieval of large text les. CACM, Volume 37, Number 2, pages 97{108, Feb. 1994. 付録 本研究でプログラミングしたプログラムのリストは
© Copyright 2024 Paperzz