表紙画像による書籍情報検索システムの試作 鈴木 亮詞*,平田 紀史,白松 俊,大囿 忠親,新谷 虎松(名古屋工業大学) A Book Search System Based on Image Search Using an OCR System Ryoji Suzuki,Norifumi Hirata,Shun Shiramatsu,Tadachika Ozono,Toramatsu Shintani (Nagoya Institute of Technology) 1.はじめに 画像から書籍の検索を行う場合,その書籍情報を人手で入 力すると多大な労力が必要である.バーコードリーダや ISBN リーダによって簡単に入力する方法も存在するが,書籍の画 像中にバーコードや ISBN 番号が含まれない場合もある.本 稿では,ISBN 番号を使わずに表紙画像から書籍情報を取得す る手法を提案する. 書籍などの複雑な背景上にある文字を OCR で読み取る場 合,画像を加工してから文字部分を抽出する手法(1)がある. しかし,文字の大きさが途中で変わる,縦書きと横書きが混 在している,文字が図形化されている場合,これらは OCR で は読む事ができない.また,ウェーブレット変換の多重解像 度解析を用いた類似画像検索 (2)や,事前知識を想定せずに特 徴ベクトルを自動生成し,それらをキーとして類似画像検索 を行うなどさまざまな類似画像検索(3)が行われているが,検 索質問と同じものが得られるわけではない. 本稿では OCR による文字列抽出と類似画像検索を複合的 図1 : システム構成図 に用い,得られた書籍情報に重み付けをすることで書籍の表 ページ情報から検索質問の生成を行う.ページ情報を解析す 紙画像から書籍情報の特定を行う. ることで新たな書籍検索におけるキーワードを生成する (4). 2.類似画像検索と OCR による書籍情報検索システム OCR による文字列抽出は入力の表紙画像のみだけでなく,検 図 1 にシステム構成図を示す.本システムは表紙画像から 索から得られた画像に対しても行う.また,類似画像検索, 書籍情報を特定する.入力は書籍の表紙画像を用いる.出力 書籍検索,OCR の結果を考慮して書籍の候補に重み付けをす は書籍情報とする.書籍検索システムは画像と OCR に基づく ることでランキングを生成する. 検索と書籍特定システムの 2 つから成り立っている.類似画 4.まとめ 像検索と OCR による検索の結果を書籍特定システムで処理 入力を表紙画像として書籍を特定し,書籍情報を出力する し,再び検索をする.この処理を複数回行い,書籍の特定を システムの提案を行った.OCR による文字列抽出と類似画像 試みる.類似画像検索,OCR には既存のシステムを用いる. 検索の結果を複合的に用い,書籍情報に対して重み付けを行 類似画像検索と OCR による検索では入力として与えられ うことで,片方の結果だけを用いる場合より頑健な書籍特定 た表紙画像に対して OCR による文字列抽出をする.抽出され が可能になると期待される. 文 た文字列を用いて書籍 DB に対して書籍検索を行い,得られ た書籍情報(画像,タイトル,著者名,ISBN, )を書籍特定 システムに渡す.書籍 DB には Amazon を用いる.また,表紙 画像を用いて類似画像検索を行い,結果を画像 DB に保存す る.得られた画像とページ情報を書籍特定システムに渡す. 3.書籍特定システム 画像と OCR に基づく検索によって得られた画像,書籍情報, 献 (1) 芦田 和毅, 他 : 電子情報通信 学会論文誌,J88-D-II(9),p . 1817-1824,2005. (2) 呉 君 錫 , 他 : 情 報 処 理 学 会 論 文 誌 . デ ー タ ベ ー ス , 42(SIG_1(TOD_8)) ,pp.1-11,2001. (3) 横井 一貴,他 : 電子情報通信学会技術研究報告.NC,ニュー ロコンピューティング,102(628), pp.91-96,2003. (4) 出原 博, 他 : 電子情報通信学会技術研究報告.DE,データ工学, 105(338),pp.19-24,2005.
© Copyright 2024 Paperzz