大規模Web画像のための画像アノテーション・リトリーバル

「画像の認識・理解シンポジウム (MIRU2009)」 2009 年 7 月
大規模 Web 画像のための画像アノテーション・リトリーバル手法
Web 集合知からの自律的画像知識獲得へ向けて
中山
英樹†
原田達也†
國吉康夫†
† 東京大学大学院情報理工学系研究科〒 113–8656 東京都文京区本郷 7–3–1
E-mail: †{nakayama,harada,kuniyosh}@isi.imi.i.u-tokyo.ac.jp
あらまし
汎用的な一般物体認識の実現のためには，膨大な数の対象と画像のアピアランスを学習する必要があり，
人手によって学習過程を管理することは難しい．このため，Web 上の大量の画像を用い自律的に画像知識の獲得を行
う方法が近年検討されている．本研究では，Web からの完全自律的な画像知識獲得へ向けた，高速画像アノテーショ
ン・リトリーバル手法を提案する．本手法は，複数ラベルによる画像のコンテキストを用い，高速に学習・認識を行
うことが可能である．実験では，まずベンチマークである Corel 画像セットにより比較実験を行い，本手法が既存手
法に比べ高性能であることを示す．次に，270 万枚の Flickr 画像から学習を行い，本手法の有効性を検証する．
キーワード
Web マイニング，一般物体認識，semantic-gap，確率的正準相関分析
Image Annotation and Retrieval for Large-Scale Web Images
Toward Autonomous Visual Knowledge Acquisition from WWW
Hideki NAKAYAMA† , Tatsuya HARADA† , and Yasuo KUNIYOSHI†
† Graduate School of Information Science and Technology, The University of Tokyo
Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8656 Japan
E-mail: †{nakayama,harada,kuniyosh}@isi.imi.i.u-tokyo.ac.jp
Abstract To realize generic object recognition, the system needs to learn an enormous amounts of targets and
their appearances. Therefore, visual knowledge acquisition using a massive amount of web images has been studied
recently. In this paper, we propose a new image annotation and retrieval method aiming for autonomous visual
knowledge acquisition from the World Wide Web. This method effectively uses contexts of images estimated from
multiple labels and performs learning and recognition quickly. In the experiment, we show that our method outperforms previous works in the standard Corel benchmark. Next, we verify our method by applying it to 2.7 million
web images.
Key words Web mining, generic object recognition, semantic-gap, probabilistic canonical correlation analysis
た比較的小規模な画像データセットにおいて，認識性能
1. はじめに
を競うものが主流である [2]．これは，手法の比較・改良
近年，画像認識技術の向上は目覚ましく，顔検出，人
を行う上で極めて重要な方法論であるが，各データセッ
検出などいくつかの特定物体認識技術は実用的なレベル
トにおいて閉じた知識に特化した認識器しか得られない
へ達している．しかしながら，認識対象を限定しない一
ため，そのまま実用的なシステムとはなり得ない．汎用
般物体認識 [1] は非常に難しい課題であり，未だ大部分は
的な認識システムの構築のためには学習データの構築が
小規模な実験レベルに留まっている [2] [3]．一般物体認
鍵となり，実世界のさまざまなアピアランスをカバーす
識の難しさはいくつかの理由に起因する．まず，扱う対
る必要がある．また，多数の人間が与える教師情報から
象の広範さや，環境を限定しないことによる，画像の膨
共通の構造を抽出することが重要である．
大なアピアランスの変化が挙げられる．また，一般的な
このような観点から，Web 上の集合知を応用するこ
画像は雑多で曖昧なものであり，望ましい認識結果は個
とで，汎用性の高い一般物体認識を実現することが検討
人の主観や知識に大きく依存することも問題となる．現
されている [4] [5] [6]．Web 上には，様々な環境・条件下
在，一般物体認識の研究は，各研究者がそれぞれ用意し
で取得された画像が無数に存在し，広範なアピアランス
OS2-4：55
を学習することが期待できる．また，付加されるセマン
る．semantic-gap を克服するには，機械学習の手法によ
ティックな情報も異なる多くの人間が用意したものであ
り意味的に有意な特徴を抽出することが不可欠となる．
るため，個人の主観に依存しない，万人に有意味な共通
しかし，現在の多くの学習手法はスケーラビリティを欠
構造を得られる可能性がある．しかしながら，Web 上の
いており，これらの研究が対象とする大規模なデータで
データは従来用いられてきた統制されたデータに比べ極
学習を行うことは非常に困難である．
めて膨大でありかつノイズが強いものであるため，学習
を行うことは容易ではない．
本研究では，人手の介入を可能な限り少なくし，Web
画像からの完全自律的な知識獲得を目指す．まず，確率
大量の Web 画像を用いた一般物体認識に関する初期
的正準相関分析を応用した画像アノテーション・リトリー
の研究として，AnnoSearch [7] が挙げられる．これは，
バル手法を開発し，ベンチマークにより先行研究と比較
未知画像と共にユーザーが最低一つのキーワードを入力
評価を行う．提案手法は，画像に与えられた複数ラベル
することで，半自動的にラべリングを行うシステムであ
が為すコンテキスト情報を用い，semantic-gap を是正し
る．しかし，人間が全ての未知画像にキーワードを与え
たサンプル間の similarity measure を効率よく学習する
ることは現実的でなく，有用となるタスクが限られるた
ことが可能である．次に，大規模な Flickr 画像を用いた
め，全自動のラべリングの実現が期待される．
学習を行い，クロスドメインな認識実験の基礎的な評価
Web からの画像知識獲得を目指す研究の多くは，既
存のテキストベース画像検索エンジンに立脚する．すな
わち，学習させたい単語を検索エンジンにかけることで
関連する大量の画像を取得し，これをもとに識別器を
構築する方法論である．この場合，システムに習得させ
る単語群をあらかじめ人間が設計する必要があり，従来
は比較的小規模な単語数での基礎的な実験が試みられ
てきた [4] [5]．しかしながら，近年では，WordNet [8] の
ように人手により設計された大規模なオントロジーを
用いることで，広範な知識の獲得を目指すものが増え
ている [9]．さらに，Normalized Google Distance [10] や
Flickr Distance [6] のように，自律的に Web から構築・
更新されるオントロジーを用いることで，完全自律的な
画像知識獲得を目指す研究もあらわれている [11]．
しかしながら，前述の方法論には主に 2 つの問題があ
る．まず第 1 に，既存のテキストベース画像検索エンジ
ンの性能がシステムのボトルネックとなり得る点である．
現在の検索エンジンでは，オントロジーを有効に活用し
た検索は難しく，各単語を単純にキーワードとして検索
する場合が多い．実際にはターゲットと関わりのない画
像も多くヒットするため，質の良いデータセットを得る
ことが難しい．このため従来研究では，検索上位画像の
利用など経験則の利用 [5] [11]，クラスタリングによるノ
イズ除去 [4]，画像類似度を用いた重みづけ [11] などによ
る質の向上が図られているが，本質的な問題は検索段階
の性能限界であるため，決定打に欠くと言える．第 2 の
問題は，しばしば議論される semantic-gap であり，低次
な画像特徴と画像の持つ意味情報の間には大きな隔たり
がある，という問題である．現在，大規模な Web 画像を
用いた画像認識では，本質的には画像特徴によるサンプ
ル間類似度評価を核として，近傍探索の後オントロジー
を利用して識別を行うものが多い [6] [9] [11]．しかしなが
ら，画像特徴のみによる類似度評価は必ずしも意味的な
違いを反映できず，システムのボトルネックとなる．さ
らに，タスクの規模が大きくなるほど，画像特徴空間に
おける重複が激しくなり，問題が深刻化すると予想され
を行う．Flickr は大規模な写真共有サイトであり，各写
真にユーザーが与える複数のタグが付けられている．一
般的な Web ページでは画像と HTML 中の単語の対応
関係が明らかではないが，Flickr の画像には明示的に単
語が結び付けられるため，比較的質の高い学習サンプル
を得ることが可能である．しかしながら，Flickr におい
てもタグは曖昧でノイズが強いものであり，単純なキー
ワード検索では充分に画像のコンテンツを反映した結果
が得られないことが指摘されており [12]，この点で一般
Web 画像と同様の問題を含んでいる．従って，Flickr の
画像データは一般の Web 画像データがもつ問題を一段
簡略化した内容になっていると言え，最初に取り組むべ
き課題として適した領域であると考えられる．
2. 関連研究
本章では，数理的な側面から，先行研究の考察を行う．
Web 上の膨大かつ不確実なデータから，semantic-gap を
乗り越えるためには，学習・認識手法に以下のような機
能が要求されると考えられる．
（ 1 ）学習サンプル数に対しスケーラブルである．
（ 2 ）複数ラベルから画像のコンテキストを扱える．
（ 3 ）弱ラべリング問題を扱える．
システムは Web 上の膨大な数のサンプルから学習を行
わなければならない．さらに，学習サンプルの増加・変
化に応じ再学習を行う必要も生じるであろう．このため，
認識と同様に学習手法のスケーラビリティが非常に重要
となる．また，Web 上の画像に与えられるラベルはノイ
ズを強く含む曖昧なものであるため，個々のラベルを独
立に扱うと画像情報との関連が得にくい．従って，複数
のラベルから総合的に画像のコンテキストを判断し，画
像情報との対応を推定することでロバストに学習が行え
ると考えられる．さらに，一般にラベルと画像の各領域
との対応関係は明示的に与えられない（弱ラべリング問
題）ことも難しい問題である．
マルチラべリング・弱ラべリング問題を扱う一般画像
認識としては，画像アノテーション・リトリーバルの分野
OS2-4：56
が挙げられる [13] [14] [15] [16]．この分野において，アノ
テーションとは，ある画像に対しそれを最もよく表現す
image
feature
る複数の単語ラベルをつけるプロセスを指す．また，リ
x
トリーバルとは，
（複数）単語入力に対し，それにふさわ
latent
しい画像を検索するプロセスである．Query-by-example
w
による画像検索ではない点に注意されたい．
word
class
最も単純なアプローチとして，図 1 (a) のように，各
ラベルについて独立に識別器を構築するアプローチが考
(a)
えられる．Support Vector Machine (SVM) [17]，Super-
vised Multiclass Labeling (SML) [13] などがこれに該当
する．しかしながら，クラス間の相関情報を活用するこ
とができないため，判別は冗長なものとなり効率が悪い．
また，一般にある単語に対応する画像特徴は冗長かつ複
雑な広がりを持つため，両者を直接的に結びつけようと
すると，学習・認識共に多くの時間を必要とする．
これに対し，画像と単語を間接的に結び付ける Relevance Model による学習が試みられてきた．Relevance
Model では，画像と単語の上位に潜在的な変数を仮定
する（図 1 (b)）．この潜在変数は，画像情報と複数ラ
ベルから推定される本質的な隠れ状態（トピック）を
表すものと言える．このモデルを用いることにより，
比較的低コストで学習・認識が行えることが知られ
ている．Translation-model [14]，Continuous Relevance
Model (CRM) [15]，Multiple Bernoulli Relevance Model
(MBRM) [16] などがこれを用いており，よい成績を挙げ
ている．また，近年良い成績を示している Dual CrossMedia Relevance Model (DCMRM) [11] や Joint Equal
Contribution (JEC) [18] もこの一群に含まれる．しかし
ながら，多くの場合潜在空間の学習は画像または単語の
いずれか一方のみから定義されている点が問題である．
画像情報・単語情報を両方用いた潜在空間学習を行
う手法としては，文書分類における確率的トピック抽
出の手法である probabilistic Latent Semantic Analysis
(pLSA) [19] や Latent Dirichlet Allocation (LDA) [20] の
画像認識への応用が近年盛んに研究されている [21] [22]．
これらの方法では，単語クラスを離散的なシンボル情報
として generative なモデルを推定するものであり，画像
と単語の関係性を扱う上で最適な定式化になっていると
言える．しかしながら，学習の際は EM アルゴリズムや
変分ベイズ法などの逐次計算による推定が必要であり，
局所的な最適解しか得られない．また，問題の規模につ
れて計算コストも大きく増大する．
そこで本研究では，図 1 (c) のように，あらかじめ複
数単語情報をラベル特徴として数量化し，確率的正準相
関分析 (PCCA) [23] を用い，画像特徴とラベル特徴の両
方を反映した潜在変数を高速に学習する．正準相関分析
(CCA) は，SVD をコアとする手法であり，pLSA の前
身である LSA [24] と密接な関係にある．画像と単語のモ
デル化の厳密さにおいては pLSA に比べ近似的なものと
なるが，その代わり，非常に高速に大域的最適解を求め
image
feature
image
feature
labels
feature
x
x
y
L
latent
L
w
w
word
class
word
class
(b)
(c)
図 1 Approaches to the annotation/retrieval problem.
ることが可能である．さらに，CCA から得られる潜在
空間の分布を活用するために，PCCA の構造を用い事例
ベースに Relevance Model の隠れ状態を定義する．各サ
ンプルは弱識別器として解釈でき，これらを寄与に応じ
て重みづけることでベイズの最適識別器を構築する．実
験により，従来手法に比べて本手法が高速・高精度であ
ることを実証する．
3. 提案手法
3. 1 確率的正準相関分析
p 次元の画像特徴 x = (x1 , · · · , xp )T , q 次元のラベル
特徴 y = (y1 , · · · , yq )T をデータセットから抽出するも
のとする. PCCA では，以下のような確率モデルを考え
る [23]（図 2）．
z ∼ N (0, Id ), min{p, q} >
=d>
= 1,
x | z ∼ N (Wx z + µx , Ψx ), Wx ∈ Rp×d , Ψx º 0,
y | z ∼ N (Wy z + µy , Ψy ), Wy ∈ Rq×d , Ψy º 0. (1)
このモデルの最尤推定解は解析的に得ることが可能であ
り，通常の CCA の解と一致することが知られている．
あるインスタンスの画像特徴 x のみが与えられた場
合，その潜在変数 z の条件付き事後確率 p(z|x) は正規
分布をなし，その中心と分散 Φx はそれぞれ
E(z | x) = MxT AT (x − x̄),
Φx = var(z | x) = I −
Mx MxT ,
(2)
(3)
と表される．同様に，画像特徴 x とラベル特徴 y の両方
が与えられた場合はそれぞれ次のようになる．
E(z | x, y) =
)
)(
( )T(
−(I −Λ2 )-1 Λ AT (x − x̄)
Mx (I −Λ2 )-1
, (4)
B T (y − ȳ)
My −(I −Λ2 )-1 Λ (I −Λ2 )-1
Φxy = var(z | x, y) = I−
( )T(
)( )
Mx
(I − Λ2 )-1
−(I − Λ2 )-1 Λ Mx
. (5)
My
−(I − Λ2 )-1 Λ (I − Λ2 )-1
My
OS2-4：57
以下，詳細を述べる．学習サンプルの分散共分散行列
(
)
Cxx Cxy
と書くことにする．画像特徴，ラベ
をC=
Cyx Cyy
P (w|xnew ) =
N
∑
P (w|li )P (li |xnew ),
(9)
i=1
ル特徴を潜在空間へマッピングする射影行列 A, B は，次
と表せる．一方，未知画像入力 xnew は，潜在空間上で
の一般化固有値問題の解として得られる．
p(z|xnew ) なる分布をなす．これは，中心 ẑ = E(z|xnew )，
分散 Φx なる正規分布である．この未知画像がなす分布
と，各学習サンプルのなす分布との同時確率分布から，
各仮説の事後確率 P (li |xnew ) を定義する．
∫√
p(z|xi , y i )p(z|xnew )dz
√
P (li |xnew ) = ∑
N ∫
p(z|xj , y j )p(z|xnew )dz
j=1
(
)
Φ +Φ
exp − 18 (ẑ new − ẑ i )T ( x 2 xy )−1 (ẑ new − ẑ i )
(
),
=∑
N
1
T ( Φx +Φxy )−1 (ẑ
exp
−
(ẑ
−
ẑ
)
−
ẑ
)
new
j
new
j
j=1
8
2
−1
Cxy Cyy
Cyx A = Cxx AΛ2
−1
Cyx Cxx
Cxy B
= Cyy BΛ
2
(AT Cxx A = Id ),
T
(B Cyy B = Id ),
(6)
(7)
ただし，Λ は大きい順に d 個の正準相関係数を並べた対
角行列であり，d は潜在空間の次元数である．
Mx , My ∈ Rd×d は，Mx MyT = Λ かつ spectral norm
がそれぞれ 1 未満という条件を満たす任意の行列である．
従って，Mx と My の設定には，回転とスケールの自由
度が存在する. ここでは，最も単純に次の対角行列でそ
れぞれ与えることにする．
Mx = Λβ , My = Λ1−β
(0 < β < 1).
(8)
(10)
ただし，分母は
∑N
j=1
P (li |xnew ) = 1 を満たすための規
格化定数である．式 10 は，潜在空間における未知画像
潜在空間の学習過程では，画像特徴・ラベル特徴が相補
的に教師として作用する．この結果，アピアランス・セ
マンティクスの両方において本質的な特徴をとらえた部
分空間が得られる．β は，潜在空間の学習において，画
像特徴とラベル特徴の寄与を調整するパラメータとなる．
なお，学習サンプルの数に比し特徴次元数が大きい場
合，共分散行列に正則化項（微小な単位行列）を加える
ことで，固有値問題の解が安定し，過学習を防ぐことが
できる．本稿では，5 章の実験において，画像特徴の共分
散行列に正則化項を加える．すなわち，Cxx → Cxx + αI
xnew と学習サンプル {xi , y i } の距離を表す項となる．す
なわち，サンプルのアピアランス・セマンティクスの両
方を反映した similarity measure であると言える．
各仮説に与える識別則は，先行研究である CRM [15]
のように言語モデルをトップダウンに設計することを考
える．提案手法は事例ベースな手法であるため，単純に
各サンプルのラベルを用いると識別結果がサンプルの頻
度に強く影響され，適切でない．このため，次のように
各サンプルの持つラベルと単語の逆頻度 (IDF) の重みづ
け和を用いる．
とする．α は汎化を決めるパラメータであり，クロスバ
P (w|li ) = µδw,li + (1 − µ)
リデーション等により実験的に決定する．
z
x
log (N/Nw )
,
log N
(11)
ただし，Nw は単語 w をラベルに持つ学習画像の数, δw,li
は，学習サンプル {xi , y i } に単語 w がラベル付されて
y
いれば 1，そうでなければ 0 をとる. µ は 0 から 1 まで
の値をとるパラメータであり，実験的に決定する．また，
図 2 Graphical model of PCCA.
3. 2 隠れ状態の定義
確率的正準相関分析の構造より，各学習サンプル
{xi , y i }N
i=1 は，潜在空間上で p(z|xi , y i ) なる正規分
布を構成する．分布の中心と分散は，それぞれ z i =
E(z|xi , y i )，Φxy となる．この分布の一つ一つを隠れ状
態として定義する．これらの分布は，画像とラベルの両
方の類似度を複合的に反映しており，互いに似た学習サ
ンプルのなす分布同士が近くに集まるように空間上で配
置される．これらをそれぞれ識別器と考え，各単語につ
いてベイズの最適識別器を構築する．
未知画像を xnew と表す. また，li を，分布 p(z|xi , y i )
が xnew の隠れ状態として選択される仮説を表すものと
する．この時，単語 w についてベイズの最適識別器によ
る事後確率は，
複数単語の事後確率 w は次のように定義する．
∏
P (w|li ) =
P (w|li ).
(12)
w∈w
3. 3 認識アルゴリズム
アノテーションでは，新規画像 xnew を入力したとき，
事後確率 P (w|xnew ) を各単語 w について求め，その値
の大きい順にラベル付を行う．リトリーバルは，最尤推
定によって行う．wnew を検索クエリとする．各候補画像
∑N
の尤度 P (wnew |x) =
i=1 P (w new |li )P (li |x) を求め，
この値の大きい順に検索結果として出力する．
3. 4 考
察
CCA を画像アノテーションに応用した先行研究例は
いくつか存在する [25]．しかしながら，CCA は基本的
には線形の近似手法にすぎず確率的な枠組みを提供し
OS2-4：58
表 1 Performance comparison on Corel5K.
ないため，潜在空間における非線形な分布情報を有効に
活用することができない．我々の手法は，PCCA によ
CRM [15]
MBRM [16]
SML [13]
DCMRM [11]
JEC [18]
CCAsim [26]
Proposed
り理論的に保証された similarity measure を用い，事例
ベースに非線形構造を活用するものである．これは基本
的には [26] に則るものであるが，本手法ではより厳密に
PCCA の枠組みを適用し，表現能力の高い潜在表現を得
ている．例えば，[26] では単純に画像側正準変量を潜在
変数として用い，全ての特徴次元を等価に扱っていたが，
提案手法では画像特徴とラベル特徴の寄与を調整するこ
とができる．また，より相関係数の大きい判別力のある
特徴次元に自動的に重みづけが行われる．
非線形構造を抽出する別のアプローチとしては，カー
ネル法の利用が考えられる [25] [27]．しかしながら，一
般にカーネル法では学習サンプル数次元の固有値問題を
解く必要があるため，スケーラビリティは皆無と言える．
また，汎化をコントロールすることも難しい．
MR
0.23
0.25
0.29
0.28
0.32
0.32
0.36
MP
0.22
0.24
0.23
0.23
0.27
0.30
0.32
F-m MAP MAP-RP
0.23 0.26
0.30
0.25 0.30
0.35
0.26 0.31
0.49
0.26
0.30 0.33
0.52
0.31 0.33
0.58
0.34 0.40
0.62
る．学習データ中には 371 単語が存在し，このうち 260
語がテストデータに出現する．
画像サイズは 768×512 とし，元画像と 1/2 スケールに
縮小した画像の両方から特徴抽出を行い，結合して用い
る．画像特徴は合計で 2956 次元となる．計算機の CPU
は，Dual Xeon (3.2GHz, 8 コア) である．
5. 1 評価プロトコル
4. 画像とラベルの特徴
画像特徴としては，カラー高次局所自己相関特徴
(Color-HLAC 特徴) [28] を用いる. これは，カラー画像
を対象とした強力な global feature の一つであり，非常
に高速に抽出可能である．このため，本研究で目的とす
る大規模なシステムにふさわしいものと言える．また，
特徴が位置不変性・加法性を有するため，画像中の物体
の位置・数が未知である弱ラべリング問題を扱うのに適
している．HLAC 特徴は，画像の局所的な自己相関を
全体で積分して得られる特徴である．本稿では，高々2
次までの自己相関を用いる．また，元画像の他に前処理
として Sobel フィルタによりエッジ抽出を行った画像か
らも特徴抽出を行い，結合して用いる．ラベル特徴とし
ては，各ラベルの単語ヒストグラムを考える．本研究で
は，各画像にいくつかの単語が結び付けられている単純
なセットアップであるため，単語ヒストグラムはバイナ
リの形となる．
評価は，先行研究のプロトコルに従う．アノテーショ
ンの評価方法は次の通りである．各テストサンプルにつ
いて，システムは 5 単語ずつアノテーションし，これを
実際の答と比較する．答の単語が，システムが出力した
5 単語に含まれていた場合，その単語について正解した
とする．評価は，全単語の Recall，Precision の平均値
(MR, MP) と，その調和平均である F-measure (F-m) に
よって行う．F-m = 2×MR×MP .
MR+MP
リトリーバルでは，テスト単語それぞれについて 500
テストサンプルのランク付けを行い，Mean Average Precision (MAP) を用いて評価する．この際，260 語全ての
単語における平均 (MAP)，recall が正であった単語につ
いてのみの平均 (MAP-RP) の 2 通りを用いる.
5. 2 実験結果
表 1 に実験結果を示す．提案手法は，先行研究をいず
れも上回るスコアを示している．提案手法は事例ベース
な確率密度推定手法であるため，アノテーションの計算
5. ベンチマークテスト
本章では，画像アノテーション・リトリーバルの標準
的なベンチマークである Corel5K [14] を用い評価実験を
行う．Corel5K は，画像数が 5,000 枚と比較的小規模な
こと，また商用の画像ライブラリであり画像が非常に統
制されていることなどから，タスクが容易すぎるとい
う批判も受けている．しかしながら，Corel5K は弱ラべ
リングされたデータセットであり，サンプルのバイアス
（単語ごとのサンプル数の差）が大きいことから，本研
究で目指す手法の評価に適している．また，現在でも最
コストは学習サンプル数に対し線形である．しかしなが
ら，PCCA を用いた学習により，意味的に有意な情報を
効率よく抽出し，大幅に次元圧縮を行うため，画像特徴
ベースに近傍探索を行う JEC よりも大幅に処理を高速
化している．また，学習も高速に行われ，2 分程度で終
了する．このように，提案手法は高い認識精度を持つと
共に，学習・認識両方において非常に高速な手法であり，
大規模データへの適用にふさわしいものになっていると
言える．
新の手法の多くが評価に用いている [11] [18] ため，定量
6. 大規模 Web 画像を用いた実験
的に比較を行うことが可能である．
6. 1 学習データ
データセット中の全ての画像は，あらかじめ人手によ
り 1∼5 個のラベルが付けられている．5,000 枚の画像の
うち 4,500 枚が学習画像であり，500 枚がテスト画像であ
本実験では，Flickr の画像を用い，大規模な学習実験
を行う．各画像に与えられたタグをラベル情報として用
OS2-4：59
いる．本来はランダムなクローリングによりサンプルを
テーションは非常に茫洋としたものになりやすく，定量
収集すべきであるが，Flickr では画像の検索にキーワー
的な評価が難しい．そこで，ここではリトリーバルの性
ドが必要となるため，”All time most popular tags” に
能評価を検討する．テストデータとして，5 章と同じ 500
リストされている単語をトリガーとして検索を行い，得
枚の Corel 画像を用いる．Corel のテスト画像セットは
263 単語を含み，このうち 224 単語が Flickr2.7M へ出現
する．この 224 単語の MAP は 0.12 となった．図 4 にい
本研究では合計 368 万枚の画像をダウンロードした．くつか例を示す．各クエリについて，左から順に 3 画像
ランキング結果を示した．
この画像セットには，計 48 万種類のタグが含まれてい
提案手法は，学習にも Corel5K を用いた場合は MAP
る．このうち，出現回数が 200 回未満のタグをノイズと
が 0.40 となっている．Corel5K では，学習データとテス
して削除し，１つもタグを持たない画像サンプルを除外
トデータの質が非常に似ているため，学習に Corel 画像
する．最終的に，273 万画像，10,057 単語からなるデー
を用いれば，一般的には抽象的と思われる単語であって
タセットを得た (Flickr 2.7M)．画像サイズは，おおよそ
も高いスコアを得やすいが，他データで学習を行った場
512×384 のサイズにそろえてある．画像特徴は，前章と
合は難しい．提案手法は，city，gardens など，ある程度
同様に 2 解像度から抽出する．計算環境も，前章のもの
一般的なシーンに関しては高い正答率を示している．さ
と同一である．
らに，festival や performance のように比較的抽象度が
6. 2 予備実験（定性的評価）
高い単語においても有望な結果を多く示しており，Web
まず，いくつかのクロスドメインな画像セットのア
の集合知を有効に活用していることが伺える．
ノテーションを行い，認識結果について定性的な考察
同様の結果は holiday データセットにおいても見られ
を行う．テスト画像は，前章で用いた Corel5K のテス
（図 5），例えば birthday，show などの抽象的なシーン
ト画像，INRIA holiday データセット [29]，Washington
を表すクエリに対し理解し得る結果を出力していると言
University (UW) データセット [30] を用いる．Corel 画
える．このように提案手法は，比較的具体的な単語は，
像は商用の非常に洗練された画像であるが，Flickr か
クロスドメインの評価であるにも関わらず高い正答率を
ら得られる画像と必ずしも性質は一致しない．INRIA
示していると言える．また，抽象的な単語についても興
holiday データセットは，研究者個人が用意したアルバ
味深い結果を示しており，これらを主観評価等により定
ム写真であり，Flickr の画像とは一番似た性質を有する
量的に評価することが必要であると考えられる．
と言える．UW データセットは比較的低解像度・低品質
6. 4 計算時間
のデータが多い．図 3 にアノテーションの例を示す．各
Flickr2.7M の特徴抽出は，合計で 40.2 時間を要した．
画像につき上位 5 単語を認識結果とした．ここでは，定
画像 1 枚あたりの計算時間は 53 ミリ秒であり，実用的
性的に良いと判断される結果，悪いと判断される結果を
な速度であると言える．また，正準相関分析の計算は，
それぞれ例示した．
220 分を要した．このように，Flickr2.7M の規模におい
全体として sunset，beach，night など，典型的なシー
ても，現実的な範囲で計算を行うことが可能である．な
ンを収めた画像は良い結果が得やすい傾向にあるが，個
お，計算時間の大半は共分散行列の計算で使われており，
別の環境への依存性が強い画像は認識が難しいことが分
固有値問題の所要時間は 12 分である．共分散行列は容
かる．これらの画像に対応するためには，さらに多様な
学習サンプルを収集する必要があると思われる．また，易に逐次計算が可能であるため，学習サンプルが増加し
た場合の再学習は実質的に固有値問題の計算のみでよく，
ここで行ったのは完全に制約条件なしのアノテーショ
非常に高速に実行可能である．
ンであるため，学習サンプルに含まれる数が多い単語
認識に関しては，2200 サンプルのアノテーションに
が上位に表れやすい．Flickr 画像の性質として，travel，
現在 90 分を用しており，画像一枚あたりの所要時間は
vacation，wedding，halloween などに関する画像が多く
2.5 秒である．提案手法は全学習サンプルとの類似度計
アップロードされているため，これらに関する単語のバ
イアスが大きい．例えば，欧州風の町並みの画像には，算を必要とするが，大規模な問題ではメモリ上に全ての
サンプルを展開することが不可能であるため，現在はス
italy，france，london，paris のように，ヨーロッパの都
トリーミングによる実装を行っている．このため，ディ
市名や国名を列挙するなど，茫洋とした認識結果となり
スクアクセスがボトルネックとなり，速度低下の大きな
やすい．このため，実用的には，あらかじめタスクに応
要因となっている．今後，近似最近傍探索の手法により
じて候補単語を限定しておくことが必要になると予想さ
学習サンプルへのアクセスを減らすこと，また並列計算
れる．
機のための効率の良い実装を検討する必要がある．
られた画像を全て用いる．これらの検索単語そのものは，
直接教師として用いないことに注意されたい．
6. 3 リトリーバル評価
前述のように，タスクに関する制約がない場合，アノ
OS2-4：60
7. 結
論
本研究では，Web からの自律的な画像知識獲得を目標
とする，画像アノテーション・リトリーバルの手法を開
発した．本手法は，確率的正準相関分析の構造を応用し，
画像に与えられた複数ラベルが為すコンテキスト情報を
用い，semantic-gap を是正した similarity measure を学
習できる．標準的なベンチマークより，本手法が先行研
究を上回る認識精度を有することが示された．また，270
万枚の Flickr 画像を用いた実験を用いた学習を行い，基
礎的な評価を行った．その結果，典型的なシーンについ
ては，ある程度汎用性を持った認識が行えることが示さ
れた．一方，個別の環境への依存性が高い画像の認識は
うまくいかない場合が多く，データの不足が考察される．
今後は，より厳密な評価のため，多数のユーザーによ
る主観評価などを行う予定である．また，今回は Flickr
画像を対象としたが，より一般的な HTML のデータを
利用できるように手法の拡張を検討する．
文
献
[1] 柳井啓司：“一般物体認識の現状と今後”, 情報処理学会
論文誌：コンピュータビジョン・イメージメディア, 48,
SIG16 (CVIM19), pp. 1–24 (2007).
[2] L. Fei-Fei, R. Fergus and P. Perona: “Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories”, IEEE CVPR 2004, Workshop on GenerativeModel Based Vision (2004).
[3] G. Griffin, A. Holub and P. Perona: “Caltech-256 object category dataset”, Technical Report 7694, California Institute of Technology (2007).
[4] 柳井啓司：“一般画像自動分類の実現へ向けた world wide
web からの画像知識の獲得”, 人工知能学会誌, 19, 5,
pp. 429–439 (2004).
[5] R. Fergus, L. Fei-Fei, P. Perona and A. Zisserman: “Learning object categories from google’s image search”, Proc. IEEE International Conference on
Computer Vision (2005).
[6] L. Wu, X. S. Hua, N. Yu, W. Y. Ma and S. Li: “Flickr
distance”, Proc. ACM Multimedia (2008).
[7] X. J. Wang, L. Zhang, F. Jing and W. Y. Ma: “Annosearch: Image auto-annotation by search”, Proc.
IEEE CVPR (2006).
[8] G. A. Miller: “Wordnet: A lexical database for english”, Communications of the ACM, 38, 11, pp. 39–
41 (1995).
[9] A. Torralba, R. Fergus and Y. Weiss: “80 million tiny
images: A large dataset for non-parametric object and
scene recognition”, IEEE Trans. Pattern Analysis and
Machine Intelligence, 30, 11, pp. 1958–1970 (2008).
[10] R. Cilibrasi and P. M. B. Vitanyi: “The google similarity distance”, IEEE Trans. Knowledge and Data
Engineering, 19, 3, pp. 370–383 (2007).
[11] J.Liu, B. Wang, M. Li, Z. Li, W. Y. Ma, H. Lu and
S. Ma: “Dual cross-media relevance model for image annotation”, Proc. ACM Multimedia, pp. 605–
614 (2007).
[12] E. Hörster, R. Lienhart and M. Slaney: “Image retrieval on large-scale image databases”, Proc. ACM
CIVR, pp. 17–24 (2007).
[13] G. Carneiro, A. B. Chan, P. J. Moreno and N. Vasconcelos: “Supervised learning of semantic classes for
image annotation and retrieval”, IEEE Trans. Pattern
Analysis and Machine Intelligence, 29, 3, pp. 394–410
(2007).
[14] P. Duygulu, K. Barnard and D. F. N. Freitas: “Object recognition as machine translation: Learning a
lexicon for a fixed image vocabulary”, Proc. ECCV,
pp. 349–354 (2002).
[15] V. Lavrenko, R. Manmatha and J. Jeon: “A model
for learning the semantics of pictures”, Proc. NIPS
(2003).
[16] S. Feng, R. Manmatha and V. Lavrenko: “Multiple
bernoulli relevance models for image and video annotation”, Proc. IEEE CVPR, Vol. 2, pp. 1002–1009
(2004).
[17] C. Cusano, G. Ciocca and R. Schettini: “Image annotation using svm”, Proceedings of Internet Imaging I
V, Vol. SPIE (2004).
[18] A. Makadia, V. Pavlovic and S. Kumar: “A new baseline for image annotation”, Proc. ECCV, pp. 316–329
(2008).
[19] T. Hofmann: “Unsupervised learning by probabilistic
latent semantic analysis”, Machine Learning, 41, 2,
pp. 177–196 (2001).
[20] D. Blei, A. Ng and M. Jordan: “Latent dirichlet allocation”, Journal of Machine Learning Research, 3,
pp. 993–1022 (2003).
[21] F. Monay and D. Gatica-Perez: “Modeling semantic
aspects for cross-media image indexing”, IEEE Trans.
Pattern Analysis and Machine Intelligence, pp. 1802–
1817 (2007).
[22] L. Fei-Fei and P. Perona: “A bayesian hierarchical
model for learning natural scene categories”, Proc.
IEEE CVPR, pp. 524–531 (2005).
[23] F. R. Bach and M. I. Jordan: “A probabilistic interpretation of canonical correlation analysis”, Technical
Report 688, Department of Statistics, University of
California, Berkeley (2005).
[24] S. Deerwester, G. W. Dumais, S. T. Furnas, T. K.
Landauer and R. Harshman: “Indexing by latent semantic analysis”, Journal of the American Society for
Information Science, 41, pp. 391–407 (1990).
[25] D. R. Hardoon, C. Saunders, S. Szedmak and
J. Shawe-Taylor: “A correlation approach for automatic image annotation”, Proc. ADMA (2006).
[26] 中山英樹, 原田達也, 國吉康夫, 大津展之：“画像・単語
間概念対応の確率構造学習を利用した超高速画像認識・
検索方法”, 電子情報通信学会技術研究報告, 第 107 巻,
pp. 65–70 (2007).
[27] D. R. Hardoon, S. Szedmak and J. Shawe-Taylor:
“Canonical correlation analysis; an overview with application to learning methods”, Neural Computation,
16, 12, pp. 2639–2664 (2004).
[28] T. Kato, T. Kurita, N. Otsu and K. Hirata: “A sketch
retrieval method for full color image database –query
by visual example–”, Proc. ICPR, Vol. 2, pp. 213–216
(1992).
[29] H. Jegou, M. Douze and C. Schmid: “Hamming embedding and weak geometric consistency for large
scale image search”, Proc. ECCV, Vol. I of LNCS,
Springer, pp. 304–317 (2008).
[30] Y. Li and L. G. Shapiro: “Consistent line clusters for
building recognition in CBIR”, Proc. ICPR (2002).
OS2-4：61
GOOD
BAD
Corel5K
travel
italy
europe
london
vacation
mountains
travel
vacation
snow
lake
night
fireworks
party
firework
fire
wedding
travel
italy
family
china
flower
red
nature
macro
plant
art
new
richard
serra
york
sky
travel
california
china
sunset
food
baby
cat
family
dog
INRIA
holiday
sunset
sunrise
sky
beach
clouds
scuba
australia
underwater
fish
coral
zoo
nature
animals
vacation
park
travel
newyork
usa
building
landscape
rocknroll
music
texas
austin
concert
bird
macro
food
baby
flower
UW
halloween
party
wedding
birthday
family
paris
street
art
footbridge
suspensionbridge
travel
italy
wedding
europe
vacation
city
quebec
travel
usa
newyork
図 3 Example of image annotation by the system trained on flickr2.7M.
Query
Retrieved Images
Query
city
skyline
garden
pets
festival
birthdays
perfor-
Retrieved Images
show
mance
図 4 Example of corel image retrieval
by the system trained on flickr2.7M.
図 5 Example of holiday image retrieval
by the system trained on flickr2.7M.
OS2-4：62

Download Report