1996 年度 卒業論文 自己組織化マップを用いた 画像検索エンジンの構築に関する研究 亀井 俊之 指導教官 田中 克己 1997 年 2 月 21 日 神戸大学工学部情報知能工学科 1996 年度 卒業論文 自己組織化マップを用いた 画像検索エンジンの構築に関する研究 神戸大学工学部情報知能工学科 亀井 俊之 指導教官 田中 克己 1997 年 2 月 21 日 自己組織化マップを用いた 画像検索エンジンの構築に関する研究 亀井 俊之 要旨 現在、大変著しい発展を遂げている WWW(World Wide Web) により、文書デー タはもちろん、画像データや音声データなどのいわゆるマルチメディアデータに触れ る機会が日々多くなってきている。しかもこれらのデータの量は膨大であるため、こ れらの素材を有効に利用するためにも、何らかの検索機構が必要である。 ところが、従来の文書データの検索方法として用いられてきた、キーワード など の属性を手がかりとした検索方法のみを用いては、これらの膨大な数のマルチメディ アデータは扱いきれないと考えられる。従って、これらのデータをある程度自動的に 分類する機構が必要不可欠になってくる。そこで、本研究ではニューラルネットワー クの一種である自己組織化マップ (Self-Organizing-Map) を用いて画像のコンテンツ 情報から得られた特徴ベクトルをもとにして、画像データベースの自動分類を行っ た。ここでは、特に PostScript 形式の静止画像を対象として取り上げ、自己組織的に 画像データを分類した。これは近年、文献等の資料を第三者に流用されることを防ぐ ために PostScript 形式で載せる傾向が電子図書館などで強まってきており、このよう なデータを対象とできるように考慮してのことである。 また波多野 [6] によると、画像のコンテンツ情報のみを用いた自己組織化マップに よる分類にはある程度の限界が生じることがわかっている。従って、画像のコンテン ツ情報のみではなく、記述による二次情報を用いる必要があるものと考えられる。そ こで、この二次情報もまたコンテンツ情報と同様に、自己組織化マップによる学習時 における入力値として反映させる必要性が生じると考えられるが、このことについて の今後の課題も含めて論じる。 1 目次 1 序論 1 2 基本的事項 3 2.1 自己組織化マップ : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 3 : : :: : : : :: : : : :: : : : : :: : : : 3 : :: : : : :: : : : :: : : : : :: : : 4 2.2 DCT(Discrete Cosine Transform) : : : : : : : : : : : : : : : : : : : : 6 2.3 VRML1.0(Virtual Reality Modeling Language 1.0) : : : : : : : : : : : 7 2.4 PS(PostScript) ファイル : : : : : : : : : : : : : : : : : : : : : : : : : : 8 3 2.1.1 ネットワークの構成 2.1.2 自己組織化アルゴ リズム 静止画像の3次元自己組織化マップの生成 10 3.1 静止画像データの抽出 : : : : : : : : : : : : : : : : : : : : : : : : : : 10 3.2 画像の特徴ベクトルの生成 : : : : : : : : : : : : : : : : : : : : : : : : 11 3.2.1 DCT 成分について : : : : : : : : : : : : : : : : : : : : : : : : 11 3.2.2 DCT 成分の抽出による静止画像特徴ベクトルの生成 : : : : : : 12 3.3 SOM を用いた学習部 : : : : : : : : : : : : : : : : : : : : : : : : : : : 12 3.3.1 SOM による学習 : : : : : : : : : : : : : : : : : : : : : : : : : 12 3.4 インターフェイス部分 : : : : : : : : : : : : : : : : : : : : : : : : : : 4 システムの実現 13 14 4.1 システムの全体構成 : : : : : : : : : : : : : : : : : : : : : : : : : : : 14 4.1.1 プログラムの概要 : : : : : : : : : : : : : : : : : : : : : : : : : 14 4.2 実行例 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 16 4.3 評価および考察 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 16 4.3.1 画像の分布状況 : : : : : : : : : : : : : : : : : : : : : : : : : : 16 i : : : : : : : : : : : : : : : : : : : : : : : : : : : : 17 4.3.3 ハイブリッドなクラスタリング方式 : : : : : : : : : : : : : : : 18 4.3.2 5 分類の評価 21 結論 謝辞 22 参考文献 23 ii 第 1 章 序論 現在の情報化社会の著しい発達や、計算機・デバイス技術の進歩、さらにコンピュー タシステムやネットワークシステムにおけるヒューマンインターフェースの重要性 にともなって、文書データのみならず、映像や音声を主要素とするいわゆるマルチメ ディアデータを扱う機会が増えてきた。特に、WWW(World Wide Web) の著しい発 展に伴い、膨大な数のマルチメディアデータを利用する機会も増してきている。しか しこれらのマルチメディアデータは文書に比べてはるかにデータ量が大きく、かつそ の種類も多い。このようなマルチメディアデータを効率よく利用するために様々な データベースシステムおよび 、データの検索法が開発、提案されている。特に検索方 法においてはこれまでの文書データにおける検索法を流用するのは好ましくない。こ れは画像のようなマルチメディアデータに二次情報を属性として加え、この属性値の みで検索することがほぼ不可能に近いことによる。その主な要因として データが膨大な数になると二次情報を手作業で付加することは不可能 画像を客観的に記述することは非常に困難 一般に一つの画像に複数の属性値を与える必要があり、画像データ数がふくれ 上がった場合、実用的ではない データベースの更新、維持にコストがかかりすぎる 人間のもつ感性 (画像の色彩、明暗、模様などから受ける感覚) を生かした検索 には不向きである などが挙げられる。 このようなことから、マルチメディアデータを手作業ではなく、ある程度自動的 に分類しデータベース化することが望ましい。現在までに自己組織化マップ (Self- Organizing Map, 以下 SOM) と呼ばれているニューラルネットワークを用いた文書 の動的な分類や曖昧検索が可能なブラウジング検索システムが開発されてきており 1 [2, 3, 4, 5] 、データベースの自動分類および曖昧検索を可能にするためにニューラル ネットワーク技術が用いられてきている [1]。そこで本研究では、このニューラルネッ トワークの一種である SOM を用いて自己組織的な画像データの分類を行った。また 近年、ホームページ等に PostScript 形式 (以下、PS) で載せる論文等が増える傾向に ある。これは、LaTeX などの文書をそのまま掲載すると、第三者にこのデータをそ のまま利用されてしまう恐れがあるためによる。このようなことから PS ファイルに おける画像を検索する機構を将来的に実現させることが望まれる。そこで今回は将来 の拡張性を考慮し 、対象とする画像ファイルとして PS ファイルを取り上げた。 また、波多野 [6, 7] によると、画像のコンテンツ情報のみを用いた場合、ある程 度の限界が生じることが分かっている。よって、画像に対する記述を何らかの形で行 い、その記述を画像に対する二次情報として用いて、SOM への学習にも反映させて いく必要性があると考えられる。このことについては考察で述べる。 以下、2 章では SOM 、画像の特徴ベクトルを求める際に用いた離散コサイン変換、 VRML1.0 、および分類対象となる PS ファイルについて、第 3 章では実際にシステム を構成したときの仕様について、第 4 章ではシステムの実行例、評価および考察を述 べ、そして第 5 章では結論及び問題の整理を行う。 2 第 2 章 基本的事項 2.1 自己組織化マップ ニューラルネットワークの一種である自己組織化マップ (Self-Organizing Map) は、 T.Kohonen によって提案された教師なし競合学習モデルである。この学習モデルの 大きな特徴として挙げられるのは、出力層の各ユニットの2次元配列の層における距 離的な位置関係を利用しているという点が挙げられる。SOM 法の特徴は入力データ のトポロジカルな構造を学習アルゴリズムによって発見し 、これを2次元空間で表示 するというものである。 2.1.1 ネット ワークの構成 SOM 法で用いられるネットワークについてであるが、Figure2.1に示すように、各 x ユニットが2次元上に配置されている。ここで出力ユニット i は、入力ベクトル と 同次元の内部ベクトル mi(t) を持つ。入力ベクトルは一般に高次元であり、高次元空 間から 2 次元空間への射影をおこなうためにこのようなネットワークが用いられて いる。 x 時刻 t に、ネットワーク上のすべてのユニットに同じ入力ベクトル が入力され、 それに対するユニット i の出力 oi (t) は、次式で与えられる。 oi (t) = x 1 mi(t) 一般に、oi (t) をそのまま用いることはなく 「最も大きな出力を出したユニットが勝者となり、出力はそのユニットだけが出 せることになる」という winner-take-all の考えが用いられる。 3 m m m Figure 2.1: Network for SOM 2.1.2 自己組織化アルゴリズム 自己組織化とは、教師無しで入力ベクトル空間の確率密度を近似するようにネッ トワークを学習することを指す。2.1.1節で述べたネットワークに対して、以下のアル ゴ リズムを適用することで、自己組織的に高次元での距離関係を保存するようなネッ トワークが構成される。 x し 、出力層にある各ユニット i が入力パターン x と同次元のベクトル mi をもってお 具体的には、入力データを通常高次元の特徴 (feature) ベクトル にパターン化 り、2 次元平面上に配置される。学習はこれらのユニットを入力パターンに選択的に 近付けることによって進行する。ここで SOM 法は入力パターンに一番近いパターン を持つ出力ユニット c およびその近傍のユニットの集合 Nc のみが入力パターンに近 付けることができるようなアルゴ リズムをとっている。また、統計的に正確な学習効 果を得るため、一定の学習回数をとる必要がある。 自己組織化アルゴリズム (SOM 法) SOM 法のアルゴ リズムを以下に示す。 1. 各入力データをパターン化する X = f x1; x2; . . . ; xk j xk 2 Rn g 4 2. 出力層にある各ユニット の持つパターンを初期化する M = f m1 ; m2 ; . . . ; mi j mi 2 Rn g 3. 入力パターンに一番近いパターンを持つ出力ユニット c を探す。 mc(t) を持つユニット c を求める。 kx 0 mc(t)k = min fkx 0 mi (t)kg for all i つまり、次式のような k 1 k は距離を表し 、ユークリッド ノルム等が用いられる。 4. 各出力ユニット c とその近傍のユニット の集合 Nc (t) を入力パターン xk に近付 ける。 ( mi(t + 1) = mmii((tt)) + (t)[xk(t) 0 mi(t)] ((ii 622 NNcc((tt)))) (t) = (t)exp(0krc 0 r i k = (t) ) 2 0 2 k rc 0 ri k ここで (t) は学習率であり時間とともに 0 へと単調減少する。また、 が、ユニット c と i との距離であり、例えば Figure2.2 の様に取る。さらに、Nc (t) の大きさも時間とともに単調に減少する。0 (t) 、 (t) としては単調減少の一次 関数や指数関数がよく用いられる。 5. k = k + 1; k m とし 、3 ∼ 4 を繰り返す 6. t = t + 1; t T (T はあらかじめ設定された学習回数) とし 、Nc (t) と を次第 に小さくしながら 3 ∼ 5 を繰り返す まず、1 、2 によって SOM に入力できるようにテキストをパターン化し 、出力層 の初期化を行なっておく。 このもとで、3 によって入力ベクトルに最も距離が近いユニット c が選ばれる。さ らに、4 によって、ユニット c のネットワーク上での近傍ユニットだけが、その内部ベ クトルを更新される。この結果、入力ベクトル空間で近くにあるものは、ネットワー ク上でも互いに近傍のユニットへと射影されるような写像が完成することになる。 ゆえにこのモデルは、 「特徴のよく似た2つのパターンを入力すると、マップ上で も互いに近い位置にある出力ユニットがそれぞれ反応する」という性質を持つ。この 性質をトポロジカルマッピングと呼ぶ。これは、SOM の特徴の 1 つである。 5 c distance r=1 distance r=2 distance r=3 Figure 2.2: Examples of topological neighborhood 2.2 DCT(Discrete Cosine Transform) DCT(Discrete Cosine Transform 、離散コサイン変換) とは、JPEG(Joint Photographic Expert Group) 静止画像圧縮技術で用いられている画像の変換符合化方式で ある [8] 。 1 枚の静止画像を N 2 N 画素の正方形の領域 (ブロック) に分割し 、各ブロックに 対して変換処理を行うと、領域内の平均的な画像 (領域全体が一様) に始まり、徐々に 精細さを表現する画像へと段階的な画像に分解することができる。この分解操作を直 交変換といい、精細さが高いことを別のいい方では、周波数が高いという。静止画像 は、第 1 低周波項 (平均値画像) から順に、高周波項へと分解した画像の重ね合わせの 表現になる。 DCT の利点は、変換前にランダムに分布していた画素値 (輝度など ) が、変換後に は低周波項に大きな値が集中する性質があることである。したがって、高周波項を落 とす操作 (量子化) をすれば情報圧縮を行うことができる。 1 枚の画像から分割された画素ブロックの大きさが N 2 N 画素のとき、画素信号 を f (x; y ) 、変換によって得られる係数 (DCT 係数) を F (u; v ) とすると、F (u; v ) は次 のように求まる。 6 F (u; v ) = 01 NX 01 2 NX N x=0 y=0 C (u)C (v )f (x; y) 1 cos (2x + 1)u (2y + 1)v cos 2N 2N 8 1 > < p for u; v = 0 C (u); C (v ) = > 2 : 1 otherwise ただし 、 このようにして得られた DCT 係数のうち F (0; 0) を DC (Direct Current 、直流) 係 数といい、それ以外の DCT 係数を AC (Alternate Current 、交流) 係数と呼ぶ。DCT 係数は、画素数と同じ N 2 N 個求まり、低周波成分に集中する。DC 係数はブロック 内の画素値の平均値を表し 、AC 係数はその周波数の活性度を示す。また次式に示す 逆変換でブロック画像の再生画素値が求まる。 f (x; y) = ただし 、 2.3 01 NX 01 2 NX N u=0 v=0 C (u)C (v )F (u; v ) 1 cos (2x + 1)u (2y + 1)v cos 2N 2N 8 1 > < p for u; v = 0 C (u); C (v ) = > 2 : 1 otherwise VRML1.0(Virtual Reality Modeling Language 1.0) VRML(Virtual Reality Modeling Language) とは、分散型ハイパーメディアシス テム WWW を利用して 3 次元グラフィックス情報をハイパーテキスト化するための言 語である。具体的には、Open Inventer のファイルのフォーマットを基に開発されて、 そのサブセットに対して、WWW-Inline 、WWW-Anchor の拡張機能を加えたもので ある。VRML データの代表的なビュワーとしては Webspace がある。これを用いるこ とにより、3 次元グラフィックスオブジェクトの中からリンクによる情報参照ができ たり、また、従来の HTML 文書から 3 次元情報を参照することができる。 さらに 、VRML 形式のデータを表示できる WWW ブラウザを用いることで、従 来のリンク参照による情報のブラウジング以外に、3 次元グラフィクス情報のウォー クスルーによる情報のブラウジングが可能になる。 VRML は、既存の 3 次元グラフィクスデータフォーマットの拡張という形式で定 義されており、すでに DXF データフォーマットなどの既存の CAD ソフトウエアの出 7 力形式のデータを VRML フォーマットに変換するソフトウエアも整備されている。建 築設計、都市設計などで作成された CAD データを VRML 形式に変換し 、ブラウザで 見ることで、情報発信や情報検索が可能となる。 VRML のデータ構造は、全てノードとフィールドからなる。フィールドは、ノー ド のためのパラメータである。ノードは大別すると 3 つ (Shape, Property, Group) に 分けられる。Shape ノードは実際に何かを描くだけのノード、Property ノードは形を 描く方法に影響し 、Group ノードは、前の 2 つのノードを複数個寄せ集めてノード の 集合体を作り出すノードである。またその集合体を 1 つのオブジェクトとしてみなす ことができる。Group ノード はその子ノード を描くかど うかのコントロールができ る。代表的な Group ノード として Separator ノードがある。 Separator ノードの中に、Shape ノードや Property ノードが入れ子になっているの は 、前述の通りである。中の子ノード の情報は順序付けられて記述され 、この順序 が描画に影響する。Inventer の特徴を受け継いだ形ではあるが、1 つの VRML データ は、シーングラフと呼ばれるノード の階層構造に配置される。シーンのはじめの方の ノードはあとの方のノードに影響を及ぼす。 2.4 PS(PostScript) ファイル "PostScript(PS)" は、強力な図形処理やフォント処理を備えた完全なプログラミ ング言語である。主にプリンタやハイエンドグラフィックスシステムで広く用いられ ており、出版業界の" リング・フランカ"(汎用的な仲介言語) といえる。PS は、1984 年に Adobe Systems 社によって開発され、Apple コンピュータ社の LaserWriter プ リ ンタに急速に広まった。以降多数のプリンタメーカに採用されている。PS プログラ ムを手で書いている人もいるが、すべての PS の大部分はマシンによって生成される。 ワープロや DTP プログラムは普通、内部形式を PS プログラムに変換し 、それがプリ ンタへ中継される。プリンタはその場で PS ファイルを解釈し 、1 ページまたは複数 ページの図形イメージを生成する。PS ファイルはマシンによって作成され消費され ることが多いため、Adobe 社はファイルが PS ファイルかど うかを簡単に判別できる ように規則を定義した。 PS ファイルではコメントを表す記号は%である。どの PS ファイルも最初の行は、%! で始まるコメント行である。行の残りの部分はファイルの種類を識別していることが 多い。以下にファイルの例を示す。(Table2.1) ここで image と showend に挟まれた部 分に画像のピクセル情報が格納されている。 8 %!PS-Adobe-2.0 EPSF-2.0 %%Title: /tmp mnt/usr1/people/turtle/kamei/prog/sotu/hex2dec/input/d1.ps %%Creator: XV Version 3.10a+jp5.3.3 Rev: 12/29/94 - by John Bradley %%BoundingBox: 34 70 244 280 %%Pages: 1 1 1 1 image 0b0b0a0808080909090b0e0e0d0b0c0e0e0d0c0b0c0c0e0f0f0f0e0d0d0c0c0c0d0c0b0b 0a0908090d0906080f130e0a0c0c0d11121010130b120d15130f15100b080a0b36342910 1 1 1 070619110b0705110e0e0d0b0b0b0b0b0c0f0e0a09090a0b0e120d040f08060a160c0609 0e12100d0a0c0e0f0f0f11131717161415171a1b1b1b1c1c1c1c1b1b191b1d1d1b191716 15120f0d0b0b09090c0c0c0c0a0a090908080808090b0c0d0c0d0d0d0c0a0807090b0e10 100f0c0b18110b090a0c0f0f showpage % stop using temporary dictionary end % restore original state origstate restore %%Trailer Table 2.1: An example of PS le 9 第 3 章 静止画像の3次元自己組織化マップの 生成 SOM を利用し 、静止画像を自動的に分類 (クラスタリング ) するために、行った作 業について以下に順にしめす。 1. 静止画像データの抽出 一般に静止画像はあるファイル形式によって保存されている。この研究におい ては、まず jpeg,rgb,gif などの形式で保存された静止画像を PS 形式で保存しな おす。このとき、画像の大きさを一定の大きさにしておく。そしてこの画像ファ イルのヘッダなどのコメント部を取り除き、画像のピクセル情報のみを抽出す る。また、このピクセル情報は 16 進数であるので、DCT が施せるように、10 進数に変換させる。 2. 入力データから特徴ベクト ルの生成 各静止画データに対し DCT(離散コサイン変換) を施し 、それによって特徴ベク トルを得る。 3. SOM による特徴ベクト ルの学習 2 で得られた静止画像の特徴ベクトルを入力値として学習を行う。 4. 静止画像の3次元自己組織化マップの生成および表示 画像データを効率的に再利用し 、かつ自己組織的に分類された静止画像データを 閲覧しやすくするために、波多野 [6] によって開発された VRML(Virtual Reality Modeling Language) を用いたユーザインタフェース部を用いることにした。 3.1 静止画像データの抽出 本研究で対象とした PS 形式の画像ファイルの場合、画像のピクセル情報が "image" と "showpage" という二つの単語に区切られた部分に示されていることにより、この 10 2つの単語を手がかりとして、ピクセル情報だけを取り出すことにした。この取り 出したピクセル情報は 16 進数で表されているため、このままでは DCT を施すことが できない。従って、このデータを 10 進数に変換し 、この値をファイルに落すことに した。 3.2 3.2.1 画像の特徴ベクト ルの生成 DCT 成分について N N image file (hex) d1 d 2 d3 DC AC1 AC5 AC2 AC4 DCT AC3 dct elements block data (dec) Figure 3.1: DCT arrangement for frame images 静止画像をいくつかのブロックに分割し 、その各ブロックに前述の2次元 DCT を ほどこすことで周波数成分に変換する。その過程は Figure 3.1のようになる。この図 において、左上の成分を直流成分、そして右下の方向に向かって周波数が高くなる ように各成分が並ぶ。これから1つのフレームに対する DCT 成分を要素とするベク 11 トル (DC (1); AC1 (1); AC2 (1); DC (2); AC1 (2); AC2 (2); 1 1 1 ; DC (n); AC1 (n); AC2 (n)) を考え、静止画像の特徴ベクトルと呼ぶ。このうち、第1成分 (直流)DC 、第2、第3成 分 (水平、垂直周波数成分、交流) として AC1 、AC2 の成分を用いる。ここで DC (k ); AC1 (k ); AC2 (k )(k 1; 2; 1 1 1 ; n) は分割されたブロックにおける DC 成分と AC 成分である。 3.2.2 DCT 成分の抽出による静止画像特徴ベクト ルの生成 10 進数表現された画像データに対し 、DCT を施すことで 、静止画像の特徴ベク トルを生成する。ここでは各静止画像データ (120 × 120) に対して 15 × 15 のデータ を1ブロックとし 、1画像を 64 個のブロックに分割する。そして各ブロックのデー タに対して DCT 変換を施し 、その各ブロックの DCT 成分の中から、DC 成分、AC1 成分、AC2 成分を取り出す。従って、1つの静止画像からは 3 × 64 、つまり 192 個の 値が得られる。そしてこれらの値を要素とする特徴ベクトルを生成する。 3.3 SOM を用いた学習部 静止画像の特徴ベクトルを入力として、SOM に学習させると、このマップ上の各 出力ユニットにベクトルの値が近い静止画像が集まってくる。今回は画像の特徴ベク トルの各成分 DC; AC1 ; AC2 の値をそのまま用いて学習を行った。 3.3.1 SOM による学習 3.2.2 節でつくられた静止画像特徴ベクトルを SOM に学習させるが 、ここでは T.Kohonen のプログラム開発チームが開発した SOM パッケージ [9] を用い 、この パッケージのうち 初期化プログラム 出力空間に対応している各ベクトルを初期化する 学習プログラム 出力空間のユニットに対応するベクトルとその近傍に存在する各ベクトルを入 力ベクトルに近づけていく処理を行う。 のプログラムを利用した。この学習における手順について以下に示す。 12 1. 静止画像から生成された特徴ベクトルに最も近い内部ベクトルをもつ出力ユニッ トが探す ここでいう画像特徴ベクトルとマップ上の出力ユニットとの比較はマップの左 上から右側へ横一列を比較し 、つぎに一つ下の段に移動して横一列を比較し 、 というように行う。そして、比較の作業を行っている間、最も画像特徴ベクト ルと近い値をもっている出力ユニットを記憶していく。もし候補となる出力ユ ニットが複数はそれらの候補の中から任意の1つをランダムに取り出すことに する。 2. 1において探し出された出力ユニット の内部ベクト ルと、その近傍にある出力 ユニット の内部ベクト ルとを入力された静止画像特徴ベクト ルに近づけるよう に更新する 1と同様にしてマップの左上から順に出力ユニットの内部ベクトルを特徴ベク トルに近くなる方向に更新していく。まず1で探した出力ユニットと現在参照 している出力ユニットとのマップ上での距離を算出し 、Nc (t) 近傍の枠に入って いる場合は更新する。もし参照している出力ユニットが近傍でない場合は更新 しない。この作業を出力ユニット全てについて行う。 3. 1、2を全ての画像特徴ベクト ルについて実行する 4. 3をあらかじめ定めた回数分だけ繰り返し実行する 3.4 インターフェイス部分 波多野 [6] によって開発された VRML ベースのインターフェイスを用いた。画像 の分類されている状況が把握しやすいように結果は 3 次元表示される。ここでは、出 力ユニットが円柱型になっており、この円柱の高さはそのユニットに分類された画像 の数に比例している。また、ユニットを選択すると、そのユニットに分類された画像 の一覧表示ができるように画像の載った HTML ファイルが WWW ブラウザで参照で きるようになっている。 13 第 4 章 システムの実現 4.1 システムの全体構成 このシステムの全体構成を以下の Figure4.1に示す。 image file (PostScript) make feature vector pixel data SOM learning process Caluculation DCT elements Map Figure 4.1: System Construction 4.1.1 プログラムの概要 今回のシステムは以下の部分から構成されている。 ピクセルデータ抽出部 C コンパイラ環境で実現した。以下に手順を示す。 1. PS ファイルから fgets 関数を用いて読み込んで行くが 、"image" という文 字列を見つけるまでは読み飛ばす。 14 2. \image" という文字列を見つけた時点から、読み込んだ行を 16 進数から 10 進数へ変換させ、その値をファイルに落とす。 3. \showend" という文字列を見つけるまで、2 を繰り返す。 DCT 成分抽出部 C コンパイラ環境で実現させた。以下に手順を示す。 1. 1 画像分のデータを配列に読み込む。 2. DCT の変換公式における係数を配列に読み込んだコサインテーブル( N × N ) を作成する。 3. 読み込んだデータのうち、1ブロック( N × N ) のデータに対して、コサ インテーブルをかけ、DCT 係数を計算する。 4. 求められた DCT 係数のうち、DC ,AC1 ,AC2 だけをファイルに落とす。 5. 3 、4 を各ブロックに対して行う。 6. 全画像に対し 、1 から 5 の処理を行う。 学習部 ここでは、全画像の特徴ベクトルを含むファイルを SOM パッケージ [9] に読み 込ませ、学習を行った。 また、学習する際に設定すべきパラメータ値について示す。 { 学習率 学習回数は、画像特徴ベクトルがマップ上の出力ユニットに与える影響の 強さに密接に影響する (2.1.1 節参照)。今回の実装では、1 回目の学習では 0.05 、2 回目では 0.02 を用いた。ここで 2 回に分けて学習を行っているの は、よりよい結果を得るためである。 { 学習回数 t 2.1.2 の数学式から見てもわかるように、学習回数が少ないと個々の入力 パターンの出力ユニットに対する影響力において学習回数に依存した格差 が生じ 、学習の初期においてなされた最適でない学習の効果を補正しきれ ない危険が出てくる。そこで最適な学習回数を決める必要があるのだが、 マップの大きさ同様、何回繰り返せば信頼できるマップが作成できるかが 15 わからないため、マップの大きさと同様にユーザー側で調節できるように 設定し 、実験を行なって決めることにした。今回は 1 回目が 1,000 回、2 回 目が 10,000 回、合計 11,000 回の学習を行った。 { 出力ユニットの初期値 各出力ユニットの初期値は0とした。 表示部 波多野 [6] によって開発されたインターフェイスを用いた。 4.2 実行例 分類の対象とする静止画像データは 200 個とし 、画像のサイズは 120 × 120 ピク セルのものを用いた。学習回数は 11,000 回とし 、学習には 2.1.2 節に示した式を用い た。またマップの大きさは 15 × 15 のものを用いた。 1. 3 次元自己組織化マップの生成 また静止画像の特徴ベクトルを SOM で学習させ、Figure4.2に示すようにその 結果を 3 次元マップに表示させている。今回は、複数の静止画像データのから、 明らかにインデックスとなりうるデータを予め決めておいた (Figure4.2におい て円柱上に絵が張り付けているもの)。 2. 画像のブラウジング Figure4.2において、円柱で表示されている各出力ユニットを選択すると、その ユニットに分類された静止画像データを含む HTML 文書が Figure4.3のように WWW ブラウザに表示される。 4.3 4.3.1 評価および考察 画像の分布状況 用いた画像が少し偏った感じのものを用いてしまったので、かなり分布状況も偏っ た形になってしまったが、コンテンツ情報のみを用いた自動分類はできているように 思われる。 16 Figure 4.2: 3D-SOM 4.3.2 分類の評価 本システムの精度に対し評価する必要があるが 、ここでは 、 「適合率」と「再現 率」を用いて行うことにする。まずこれらの定義を示す。 すべての画像の中から、マップ上の円筒に分類された画像 v に似ている画像の数を similar(v) とし、画像 v が張りつけられている円筒付近にある画像の数を neighbour(v ) で表わすとする。このもとで適合率は、 jneighbour(v) \ similar(v)j jneighbour(v)j で表わされ、また再現率は、 jneighbour(v) \ similar(v)j jsimilar(v)j で表わされたものである。Table4.1は、測定範囲が中心の円筒から近傍距離 1 および 2 の場合の、適合率と再現率を示したものである。 Table4.1で示すように近傍距離 1 の場合の適合率以外の値が低くなってしまった。 この原因として考えられるのは、まず、データの選び方に偏りがあったことである。 17 Figure 4.3: Link from 3D-SOM to WWW Browser distance precision ratio(%) recall ratio(%) 1 2 47.33 36.02 36.45 31.35 Table 4.1: Precision ratio and Recall ratio つまり、似た画像の数が大きくなったため、similar (v ) の値も大きくなり、再現率が 小さくなったものと思われる。あと、似た画像の分け方や画像の模様の種類が多すぎ たことにも問題があったように思われる。しかし 、近傍距離 1 の結果をみても、それ ほど良いものではない。ただ、今回は特徴ベクトルの成分に重みづけなどの処理をほ どこさなかったことも影響しているように考えられるので、当然の結果ではあるよう に見受けられる。 4.3.3 ハイブリッド なクラスタリング方式 ここまでの段階においては画像のピクセルデータをもとにして、SOM を用いるこ とで画像のクラスタリングをおこなっている。しかし 、結果を見てみるとこのような 18 画像のコンテンツ情報のみを用いた分類はある程度の限度があり、しかも画像の色彩 や明暗に左右されやすく、見た目にはそれほど類似度が高くないデータが同じ出力ユ ニットに分類されてしまうケースも多々あるようである。このことは波多野 [6] によっ ても証明されている。そこでさらなる効率的なクラスタリングを実現するために、画 像に属性値を与え、再び SOM で学習させることが考えられる。こうすることで画像 のコンテンツ情報と属性情報によるハイブリッドなクラスタリング機構が構成される ものと考えられる。本稿では実際にこの手法を用いてはいないが、今後このような方 法が有効であると思われる。 ハイブリッド 的手法の概要 以下のようなコンテンツ情報と記述情報を取り入れた方法をとれば 、より良い結 果が得られるはずである。 1. この静止画像データのうちいくつかのデータをピックアップする 考えられる方法としては画像の一覧を表示させておき、検索したい画像、ある いは最も特徴的だと思われるものをユーザに選択させ、これらの画像に記述を 行えるようにする。 2. これらの選択されたデータのみを用いて、SOM に学習させる 3. 2 で得られた値を初期値として全データを学習させる 4. 3 で学習させた分類結果を表示し 、記述の対象となった画像に対応する出力ユ ニット には記述されたキーワード を表示する ここでキーワードを表示するのは他の画像への記述をできるだけ容易にするた めである。 5. この表示されたキーワード を手がかりにして、すべての画像データに対して記 述を行う 6. 記述がすべての画像に与えられた段階で、画像の特徴ベクト ルにキーワード に よって与えられた属性値を追加し 、再び SOM による学習を行う このような操作を実行させることで、より類似性の高いものが近くに分類される ものと考えられる。 19 属性値を追加した特徴ベクト ルについて インデックスを付与した後に再び SOM に再学習させるわけであるが 、その際に 特徴ベクトルの第4成分以降の部分に属性値を示す要素を付加する。例えば 、第4成 分は " まだら模様の度合" を示す成分、第5成分は " 日本的な模様の度合い" を示す成 分... などというように、有限個の成分を新たに設け、その各成分にはその画像に対す る評価の度合(例えば 5 段階のレベルをつけておき、その画像に対するレベルを示す など )を与え、その後、SOM に再学習させる。しかし 、画像に対する記述は数限り なくあるため、あらゆる表現をキーワードとして与えてしまうと、特徴ベクトル生成 が困難な状況になり兼ねない。従って、 記述には何らかの制限を設ける(付加するキーワードを予めリストアップして おく) 記述にそれほど 多様性を持たないような画像データを対象にする などの工夫が必要となってくるものと考えられるが、これについては今後の課題とし ておいておく。 20 第 5 章 結論 文書データベースとは性質の異なる画像データの特徴を活かし 、属性値などの二 次情報を付加せずにコンテンツ情報のみを用いるという立場のもとで、本研究では、 PS 形式の静止画像ファイルを対象とし 、SOM というニューラルネットワーク技術を 用いて画像ファイルの自動分類を試みた。この利点として言えることは次のようなこ とである。 キーワード 付与の必要性がない。 マップ上の画像の配置から、似通った画像データを検索すること、つまり類似 検索が可能である。 マップ上の3次元表示、つまり高さによって、データベースの全体のばらつき が見渡せる。 そして今回の結論として言えることは、画像のコンテンツ情報のみを用いたクラ スタリングは、画像の模様などよりは、むしろ明暗や色彩によって左右される傾向が あり、そのため、出力ユニットにはそれほど類似性の高くない画像データが含まれて しまうということである。このことからも、コンテンツ情報のみではなく、記述によ る二次情報の付与による新たなクラスタリング機構が必要である。今後はこのハイブ リッド なシステムを実際に作成していくつもりである。 また今回、対象とした画像データは一定の大きさのデータであり、WWW 上に散 在する画像データのように、大きさがそれぞれ異なるデータ群には本システムは対応 できない。WWW ベースに拡張しようとする場合には、このような状況に柔軟に対 応できる機構もまた必要になってくると思われるが、SOM による学習プログラムは、 すべての画像のブロック数が一定でないと動作しないため、これを実現させるのはか なり難しいのではないかと思われる。 今後の課題として 記述された情報を特徴ベクトルに反映させる方法の確立 21 記述の制限についての検討 インターフェイス部分の工夫 画像の分類精度の向上 (つまり、各パラメータの値の調整、SOM への学習回数 の模索による分類精度の向上など ) WWW から画像を含む PS ファイルを検索する検索エンジン機能の付加。 などを挙げておく。 22 謝辞 最初に、研究全般にわたって御指導賜りました田中克己教授に厚く御礼申し上げ ます。 また、日頃よりさまざまなご協力をいただきました工学部情報知能工学科の緒先 生方に感謝の意をあらわします。 特に、御指導、御支援いただきました、工学部情報知能工学科田島敬史助手、大 学院自然科学研究科波多野賢治氏に心から深く御礼を申し上げます。 さらに 、本研究について様々な面でサポートして頂きました田中研究室の皆様方 や諸先輩方に感謝の意をあらわします。 23 参考文献 [1] 仁木 和久, 田中 克己. ニューラルネットワーク技術の情報検索への応用. 人工知 能学会誌,Volume 10, Number 1, pages 1{7, 1995. [2] Q. Qing, X. Shi and K. Tanaka. Document browsing and retrieving based on 3D self-organizing map. In Proc. of Workshop on New Paradigms in Information , Nov.-Dec. 1995. Visualization and Manipulation in Conjunction with CIKM'95 [3] Q. Qing. Study on Hypertext Database Systems and Incremental Data Organi- zation Mechanisms . Ph.D. thesis, Graduate School of Science and Technology, Kobe University, Jul. 1995. [4] Q. Qing, K. Hatano, T. Sasao and K. Tanaka. A VRML-based information organizer by 3D self organizing map. In Proc. of IEICE Data Engineering Workshop, pages 85{90. IEICE, Mar. 1996. [5] 笹尾 年男. 動画像情報の自己組織化に関する研究. 神戸大学工学部計測工学科卒 業論文, Mar. 1996. [6] 波多野 賢治. 自己組織化マップを用いたマルチメディア情報の組織化機構とその 評価に関する研究. 神戸大学工学部自然科学研究科情報知能工学専攻修士論文, Mar. 1997. [7] K.Hatano,Q.Qing,K.Tanaka. A SOM-Based Information Organizer for Text and Video Data. Proceedings of the Fifth International Conference on Databese Systems for Advanced Applications (DASFAA'97), Apr. 1997. [8] 加藤 茂夫. 画像データ圧縮の基礎知識. インターフェース, Number 175, pages 132{159, 1991. 24 [9] T. Kohonen, J. Kangas and J. Laaksonen. SOM PAK: The self-organizing map program package ver.3.1, Apr. 1995. SOM Programming Team of the Helsinki Univ. of Technology. 25
© Copyright 2024 Paperzz