自己組織化マップを用いた絵画を想像する人工知能の

自己組織化マップを用いた絵画を想像する人工知能の
データベース部分の開発
迎山 和司
公立はこだて未来大学
1.
は じ めに
本研究では人間が イ メ ージ を理解 し 表象で き る 仕組みを プ ロ グ ラ ム に よ っ て実現す る 。 こ の研究
は 「 人工知能画家 ・ 静 」 と 名づけ たプ ロ グ ラ ム を作品 と し て発表す る ために 、 2000 年 よ り 続け
てい る 研究の一部であ る 。 こ れはプ ロ グ ラ ム に人間 よ り 上手な絵を描かせ る こ と を目的に し てい
る のではな く 、 人間が絵を描 く 手順を生徒の よ う にプ ロ グ ラ ム に教え てい く こ と に よ っ て 、 逆に
普段自分が意識 し ていなか っ た絵を描 く こ と の意義を発見す る こ と を目的 と し てい る 。 こ れ ま で
の研究に よ っ て 、 こ のプ ロ グ ラ ムは 、 経験 と し て学習 し た線描か ら 自律的に独創的な線描を描け
る よ う にな っ た 。 例えば 、 細か く プ ロ グ ラ ム を し たわけでないのに 、 単純な手描 き の円を与えれ
ばそ こ に目や鼻や口に当た る も の を描 き 加え る こ と が実現で き てい る 。 こ れは 、 獲得 し た過去の
イ メ ージか ら プ ロ グ ラ ム が自律的に選択 し た結果であ る 。 し か し 、 現在は こ のプ ロ グ ラ ムは不安
定な挙動が多 く 、 期待す る 鑑賞に堪え る だけの絵画を生成で き る ま でには至っ ていない 。 よ っ て
今後は学習す る イ メ ージの多様性を増やすために 、 膨大なデー タ ベー ス の自動作成 、 よ り 妥当 と
いえ る 選択をす る 決定ルールの検証 、 線描以上の よ り 鑑賞に堪え る 洗練 さ れた表現の実現を考え
てい る 。 こ の う ち今回の課題では 、 膨大なデー タ ベース の自動作成を中心にプ ロ グ ラ ム を開発す
る 。 すなわち 、 入力 と し ての 「 目 」 の部分を よ り 強化 し 、 それに よ っ て得 ら れた膨大な イ メ ージ
を処理す る 部分を深 く 考察 し て 、 期待す る 挙動を行 う よ う にす る 。 こ のプ ロ グ ラ ム の特徴は 、 人
間の幼児の よ う に周 り の情報を自 ら が経験 し て法則を作 り 出す こ と に注目 し てい る 。 以下に本研
究の概要 と 今回作成 し たデー タ ベース部分についての目的 と 結果を報告す る 。
2.
人工知能画家 ・ 静
美術 と は何であ ろ う か? と い う 疑問に決定的な答えはない 。 し か し 、 コ ン ピ ュ ー タ に絵を描かせ
る こ と は 、 こ の疑問に対す る 理解の一助 と し て非常に有意義であ る 。 なぜな ら 、 コ ン ピ ュ ー タ プ
ロ グ ラ ム に よ っ て絵を作 り 出す こ と は 、 何 も 知 ら ない生徒に一つ一つ絵の描 き 方を教え る こ と に
近いので 、 普段自分がなにげな く 行っ てい る 描画行為がいかに簡単ではないか を逆に知 る こ と が
出来 る か ら であ る 。 筆者はそのために 「 静 ( し ずか)」 と 名付け た絵を描 く コ ン ピ ュ ー タ プ ロ グ ラ
ム の制作を続け てい る 1 。 現状の静は人間の想像力に注目 し 、 ス マー ト ボー ド と 呼ばれ る 電子黒
板上に鑑賞者が何か を描 く と 、 それに関連 し た絵を描 き 加え る こ と がで き る 。 ( 図 1 、 2 ) こ の
仕組みの実現のために 、 静にあ ら か じ めい く つかの絵を読み込ませその絵をば ら ば ら のパーツ に
し て記憶 さ せてい る 。 こ のパーツ を Primitive と よ ぶ 。 各 Primitive はお互いに相手の
Primitive の位置関係を情報 と し て持っ てお り 、 関連す る Primitive を集合す る と 意味のわか る
絵にな る 。 こ の Primitive の集合を Figure と よ ぶ 。 ( 図 3 ) あ る Primitive に似た よ う な形が
描かれ る と その形に関連 し た Primitive の形を描 き 加え る 。 例えば 、 静は顔を多 く 覚え てい る の
で 、 円を描 く と その円の目や鼻や口にあ た る 位置に し か る べ き 形を描 き 加え る こ と が出来 る 。 こ
の仕組みの特徴 と す る と こ ろは 、 た く さ んの絵を憶え込ま せ る ほ ど豊かな絵を描け る こ と にあ る 。
こ の よ う な研究あ る いは作品制作には 、 他にはCohenの AARON 2 や Burton の Thoughtful
Drawings 3 な ど があ る 。
図1 スマートボードによるデモンストレーション
図2 静(しずか)と鑑賞者が共同で描いた絵
図3 Primitive と Figure
3.
絵画の原理
イ メ ージがで き あが る 様子を直接他人の脳か ら 観察す る 方法を 、 我々は ま だ知 ら ない 。 し たが っ
て 、 イ メ ージの生成を知 る には脳の機能を考え る のではな く 、 描かれた絵画の共通性を考え る ほ
う が妥当であ る 。 あ る 絵画を描 く と き 、 人間は平面空間上になん ら かの意味を付加 し てい る 。 あ
る 絵画を見た と き 、 人間は平面空間か ら なん ら かの意味を読み取 り 評価をす る 。 つま り 、 絵画を
作成 し 鑑賞す る と い う こ と は 、 意味の 「 記録 」 と 「 読取 」 の相互行為であ る 。 し か し 、 描 く 人間
の意図が見 る 人間に正確に伝わ る 保証は ど こ に も ない 。 なぜな ら 、 描 く 人間の意味は描 く 人間の
知識に よ り 描かれ る し 、 見 る 人間は自身の知識に基づいて意味を解釈す る 。 両者の知識は ま っ た
く 同 じ ではないか ら であ る 。 に も かかわ ら ず 、 顔の絵を描けばその絵は多 く の人間が 「 それは顔
であ る 」 と 読み取 る こ と が出来 る こ と は事実であ る 。 すなわち 、 平面空間上に記録 さ れた図形に
は多 く の人間に同 じ よ う な意味の喚起を促すパ タ ーン があ る と いえ る 。 こ れはおそ ら く 、 多 く の
人間は近 し い群集にい る ためにおお よ その知識を文化 と し て共有 し てい る か ら であ ろ う 。 た と え
ば 、 ネ イ テ ィ ブア メ リ カ ン の洞窟壁画は 1500 年前か ら 800 年前に描かれた も のであ る が 、 作者
は も はや存命 し ていな く て も 我々はその壁画に描かれた も のが人を意味 し てい る こ と が理解で き
る 。 こ の こ と に注目 し て 、 こ れ ま での研究で明 ら かにな っ た こ と は 、 意味を生成す る イ メ ージに
は
・ 意味を生成 し てい る のは形状ではな く 配置
・ 同 じ 意味を共有 し てい る 配置は似てい る
・ 配置を守れば図形を変え て も 意味は保持 さ れ る
と い う 原則があ る こ と であ る 。 た と えば人の顔の イ メ ージの配置は 、 おお よ そ似てい る 。 こ の配
置を く ず さ ないで目の部分の形を○か ら ×に変え た と し て も 、 それは顔であ る と い う 意味は保持
さ れてい る 。 さ ま ざ ま な組み合わせを瞬時に行 う こ と は 、 コ ン ピ ュ ー タ の得意 と す る と こ ろ であ
る 。 ( 図4 、 5 )
図4 顔のイメージの配置関係
4.
図5 配置が同じ状態での図形変更例
静の動作原理
静は鑑賞者が描いた線描な ど の任意の画像を取 り 込み 、 その任意の画像が意味を表現で き ない レ
ベルに ま で Primitive に分解 し てそれ ら をデー タ と し て記憶す る 。 任意の画像か ら デー タ は理論
上無限に獲得で き る が 、 デー タ が増え て選択肢が多 く な っ て も 、 も っ と も ら し い連想候補を自律
的に選び出すためにはなにか し ら 選択のためのルールが必要であ る 。 現在は 、 人間が長い紐を見
た と き に蛇を イ メ ージす る 、 と い っ た よ う な こ と を実現す る ために描かれた図形の形か ら 、 判断
し てい る 。 こ の実現のために SOM を採用 し てお り 、 こ れに よ っ て も っ と も ら し い連想候補が選
ばれやす く な っ てい る 。 先に述べた と お り 、 絵画において意味を生成 し てい る のは形状ではな く
配置なので 、 こ の規則を守っ ていれば 、 あ る 部品を構成す る 図形を別の図形に交換 し て も 、 意味
の表現は保持 さ れ る こ と がわか っ てい る 。 よ っ て 、 あ る 形が選択 さ れて連想候補が選ばれ る と 、
その連想候補が持つ Primitive デー タ をすでに描かれてい る 画像に付け加え る 。 こ の よ う なプ ロ
セ ス を知識 と し て与え る と 、 人の形を し た線描の中に顔をつけ た り 、 顔の周 り に花び ら をつけ た
り す る よ う にな っ た 。 静の持つ知識はデー タ の 「 取 り 扱い方法 」 のみであ る 。 顔は こ の よ う な形 、
花は こ の よ う な形 と い う 意味を辞書 と し ては持っ ていない 。 に も かかわ ら ず 、 教え てはいないの
に人面花の よ う な絵を描 く こ と がで き た 。 こ れは先に述べた絵画の原理を踏ま え た結果であ り 方
法 と し て有効であ る 。 し か し なが ら 、 実際は人面花の よ う な連想がでて く る こ と は ま れで 、 描 き
進め る う ちに意味のわか ら ない絵にな る こ と のほ う が多い 。 ま た 、 現段階では線描を誰かに描い
て も ら わなければいけ ないので 、 画像を収集す る のが大変であ る 。
5.
開発目的
我々が普段目にす る コ ン ピ ュ ー タ は 、 その ま ま では手 も 足 も 目 も ない 。 ま た 、 プ ロ グ ラ ム を与え
ない と 自分か ら は動かない 。 よ っ て 、 Primitive デー タ を蓄え る ための最大の問題点は 、 こ ち ら
か ら 画像を収集 し なければな ら ない こ と だ 。 現段階では人が描いた線描の画像に特化 し てい る た
めに 、 収集す る 画像が制限 さ れ る 。 そ こ で 、 カ メ ラ を使っ て撮影 さ れた実写画像で も 対応で き る
よ う にす る 。 さ ら に 、 集めた大量の画像を分類 し 共通す る 部分を求めて 、 あ る 任意の概念を代表
す る 画像テ ン プ レー ト が得 ら れ る よ う にす る 。 こ の と き 、 あ ら か じ め画像を こ ち ら で整理 し て 、
静に 「 顔 」 な ど の言語 と 連結 し た辞書のデー タ ベース を用意 し ないのには理由があ る 。 なぜな ら 、
言語は異な る 文化圏に よ っ て指 し 示す範囲が異な る ので 、 自律的にルールを決定す る モデル と し
て妥当ではない と 考え たか ら であ る 。 筆者は 、 意味は言語に よ っ て先天的に概念化 さ れてい る の
ではな く 、 何 ら かの試行の末に概念が生ま れそれが言語に よ っ て概念化 さ れ る と 仮定 し てい る 。
つま り 、 た く さ ん も の を見て 、 その中か ら 繰 り 返 し 見た も のは意味のあ る も ので 、 それがわか る
よ う に分類 し ク ラ ス タ リ ン グすれば概念の形成が自律的に さ れた と 思え る のだ 。 こ の仮定の成否
は と も か く 、 プ ロ グ ラ ム と し ては後者のほ う が柔軟なデー タ ベース モデルにな る 。 よ っ て今回開
発す る デー タ ベー ス の特徴はカ メ ラ を使っ て撮影 さ れた実写画像を分類 し 、 さ ら に こ の画像か ら
Primitive の集ま り であ る Figure デー タ を作成 し て テ ン プ レー ト す る 。
図6 SOM の仕組みの図解 [5]
6.
図7 SOM による色の認識例
自己組織化マ ッ プ
自己組織化マ ッ プ 4
(Self-Organized Map: 以下 SOM と 呼ぶ ) はフ ィ ン ラ ン ド 国立ア カデ ミ ー
の名誉教授であ る コ ホ ネ ン に よ っ て考え出 さ れたデー タ を分類す る アルゴ リ ズ ム で 、 いわゆ る ニ
ュ ー ラ ルネ ッ ト と 呼ばれ る 動物や 、 人間のニ ュ ー ロ ン と 呼ばれ る 脳 ( と く に大脳皮質 ) の神経細
胞網を参考に し た コ ン ピ ュ ー タ モデルであ る 。 SOM は網の よ う な状態で構成 さ れた 2 次元のマ
ッ プで 、 網の結び目一つ一つがニ ュ ー ロ ン に相当す る 。 結び目は 、 近傍の結び目のデー タ と 自分
のデー タ が均衡す る よ う に修正 し なが ら 学習 し てい く 。 学習に よ っ て網の均衡状態が収束す る と 、
結果は入力 さ れたデー タ の近似す る 分類マ ッ プにな っ てい る 。 図 6 の よ う に 、 SOM のデー タ は
数値の並びで構成 さ れた も ので 、 こ れをベ ク ト ルデー タ と い う 。 数値の個数は柔軟で理論上制限
はないが 、 こ こ では説明のために三つの数値の並びで表現で き る 「 色 」 を扱 う 。 初めに ラ ン ダ ム
なベ ク ト ルデー タ を持つ各 ノ ー ド は 、 学習回数を繰 り 返すご と にデー タ を修正 し て整理 し てい く 。
10000 回の学習の結果 、 それぞれの特徴に分類 さ れた SOM が出来上が る 。 学習 さ れた SOM
に新 し いベ ク ト ルデー タ を テ ス ト さ せ る と 、 すでに学習 さ れた ノ ー ド のなかか ら 一番近い ノ ー ド
が一致す る 。 こ のため 、 完全な正解ではな く 一致 し た ノ ー ド にあ る 程度近い も のであ る と い う 判
断をす る こ と に向いてい る 。 こ の特性を生か し て 、 SOM は文字認識 、 音声認識や指紋照合な ど
の分野で広 く 使われてい る 。 ま た SOM には 、 ベ ク ト ルデー タ であればど んなデー タ で も 柔軟に
扱え る と い う 特徴があ る 。 例えば図 7 は 5 色の色デー タ に対 し て 、 学習を行っ た結果であ る 。
20 × 15 の平面空間にあ る 結び目 ( ノ ー ド ) は 、 初めば ら ば ら のデー タ を持っ てい る ので ま っ
た く 異な る 色を し てい る 。 し か し 、 5 色のデー タ を与え る と ノ ー ド 間で学習が起 こ り 、 お よ そ五
つの領域が自己組織的に出来上が る 。
7.
デー タ ベー ス ・ プ ロ グ ラ ム の紹介
今回のデー タ ベー ス作成に当た り 4 つのプ ロ グ ラ ム を作成 し た 。 すべてのプ ロ グ ラ ムは Java
5
で作成 さ れてい る 。 以下にそれぞれのプ ロ グ ラ ム の説明をす る 。
7.1.
SOM Data File Manager
SOM Data File Manager は後に述べ る SOM Viewer で扱 う ためのデー タ を作成す る プ ロ グ ラ
ム であ る 。 JPEG 形式6 で保存 さ れた縦 256 ピ ク セル 、 横 256 ピ ク セルのカ ラ ー画像か ら 、
1024 の配列デー タ を特徴成分 と し て抽出す る 。 特徴成分は原画像を Wavelet 変換7 す る こ と
に よ っ て得 ら れ る 。 画像を Wavelet 変換す る と 、 LL 成分 、 HL 成分 、 LH 成分 、 HH 成分 と
い う 四つに 4 分割 さ れ る こ の う ち最 も 低周波であ る LL 成分について 3 回 Wavelet 変換を繰 り
返す と 、 最終的に 32x32 の矩形ピ ク セルが得 ら れ る 。 今回の画像の特徴 と し ては 、 こ の部分を
使っ てい る 。 デー タ は拡張子 .dat で任意の名前で保存で き る 。 こ れを サン プルデー タ と 呼ぶ 。
( 図 8 ) サ ン プルデー タ はテ キ ス ト フ ァ イ ルでで き てお り 、 一画像あ た り 一行で表現 さ れ る 。
画像か ら 取 り 出 し た特徴成分は配列数値ご と に スペース で区切 ら れ 、 行の最後にその画像の フ
ァ イ ル名を付加す る 。 ま た一行目には配列の次元数を表す数字が入 る 。 今回の場合は 1024 と
数字にな っ てい る 。 任意の指定 さ れたデ ィ レ ク ト リ にあ る すべての JPEG 形式画像を一度にサ
ン プルデー タ と し て ま と め る ため 、 サン プルデー タ の行数は ( デ ィ レ ク ト リ に入っ てい る
JPEG 形式画像数 +1 ) と な る 。 仕様上デー タ 数の制限はない 。
1024
0.24705882352941178 0.24705882352941178 0.25098039215686274 ...0.1843137254901961 015AD093
0.23529411764705882 0.23921568627450981 0.23921568627450981 ...0.17647058823529413 015AD218
…
図8 サンプルデータ
7.2.
SOM Viewer
SOM Viewer ( 図 10 ) は SOM Data File Manager で作 ら れたサ ン プルデー タ に よ っ て似て
い る 画像デー タ を分類す る プ ロ グ ラ ム であ る 。 基本的な機能は コ ホ ネ ン に よ っ て公開 さ れてい
る SOM_PAKに従っ てい る 。 特徴 と し てGUI ( グ ラ フ ィ カル ・ ユーザ ・ イ ン タ ーフ ェ ース ) に
よ っ てマ ウ ス で操作で き る よ う にな っ てお り 、 ただ結果を出力す る だけでな く その様子を視覚
的に確認 し なが ら 表示す る こ と がで き る 。 ま た 、 学習回数な ど も 任意に指定で き る ため 、 ど の
よ う なデー タ の時には学習が適当なのか を試行錯誤で き る 。 学習に よ っ て分類 さ れた結果は 、
保存 し 再度読み込む こ と がで き る 。 保存で き る 結果には 2 種類あ り 、 SOM が学習 し たマ ッ プ
デー タ と そのマ ッ プデー タ の ど の部分に実際のサン プルデー タ が属 し てい る のか を示 し た配置
デー タ があ る 。 マ ッ プデー タ は拡張子 .cod で任意の名前で保存で き る 。 デー タ の構造は基本的
にはサ ン プルデー タ と ほぼ同 じ であ る 。 一行あ た り サ ン プルデー タ と 同 じ 次元数の配列デー タ
が書かれてい る 。 サン プルデー タ の違いは SOM の学習結果を記録 し た も のなので 、 行の最後
には フ ァ イ ル名が付加 さ れていない 。 ま た 、 マ ッ プの縦横の次元数が一行目に付加 さ れてい る 。
た と えば例にあげたマ ッ プデー タ ( 図 9 ) では 1 ノ ー ド あ た り 1024 次元の配列デー タ があ り 、
ノ ー ド が縦 40 、 横 40 の 2 次元に配置 さ れてい る 。 こ の場合 、 全行数は40x40+1 と な る 。 配
置デー タ は拡張子 .vis で任意の名前で保存で き る 。 他の 2 つのデー タ と 違い一行あ た り 必ず 3
次元の配列デー タ で 、 左か ら 順にマ ッ プの x 座標 、 マ ッ プの y 座標 、 誤差であ る 。 こ れ ら はサ
ン プルデー タ の順に参照 し 、 マ ッ プデー タ か ら 最 も 近い ノ ー ド の座標を求め る 。 近 さ はユー ク
リ ッ ド 距離 と し て求め ら れ る ので 、 その差が最 も 小 さ い も のが求めてい る マ ッ プ上の ノ ー ド で
あ る 。 距離の差は誤差 と し て扱われ る 。 その求めた座標 と 誤差 、 さ ら に自分の フ ァ イ ル名を付
加 し て一行分 と す る 。 一行目にはかな ら ず 3 が付加 さ れてい る 。 構造はサ ン プルデー タ と 同 じ
であ る ので 、 こ れをサ ン プルデー タ と し て利用す る こ と も で き る 。
1024 40 40
0.24564926 0.24919987 0.24644664 ...0.20510937
0.25161803 0.2550185 0.2544072 ...0.20087527
…
図9 マップデータ
図 10 SOM Viewer 画面
7.3.
図 11 Cluster Viewer 画面
Cluster Viewer
Cluster Viewer ( 図 11 ) は SOM Viewer で得 ら れたマ ッ プデー タ を ク ラ ス タ リ ン グ し 、 得 ら
れた ク ラ ス タ に属す る 画像デー タ の表示や合成をす る プ ロ グ ラ ム であ る 。 上記二つのプ ロ グ ラ
ム に よ っ て得 ら れた各デー タ か ら 、 2 つの方法で実際の画像を合成す る 。 ク ラ ス タ リ ン グの方
法は田中 ら の方法8 に従っ た 。 こ の方法は 、 まず SOM のマ ッ プの各 ノ ー ド に近傍す る 4 つの
ノ ー ド か ら の 、 各ユー ク リ ッ ド 距離の平均を も と め る 。 こ れを距離マ ッ プ と し 、 さ ら に近傍の
距離の差が近い も の を 、 同 じ ク ラ ス タ に所属す る も の と し て番号をつけ てい く 。 番号がつけ ら
れた ク ラ ス タ の う ち 、 初めに ク ラ ス タ 番号がつけ ら れた も の を ク ラ ス タ の中心 と す る 。 中心 と
な っ た ノ ー ド がその ク ラ ス タ を代表す る デー タ と な る 。 ( 図 12 ) ク ラ ス タ を代表 と す る ノ ー
ド が得 ら れた と い う こ と は 、 それがあ る も の を た く さ ん見た場合のテ ン プ レー ト と 言え る 。 し
か し なが ら テ ン プ レー ト のデー タ を その ま ま 後に述べ る Primitive Maker を使っ て Figure を
作成す る には不都合があ る 。 ノ ー ド の次元数は 1024 であ り 、 画像 と し ては 32x32 の解像度の
低い画像であ る 。 こ れを 256x256 の画像 と し て拡大 し て Figure 作成を行っ て も 望ま し い結果
にはな ら ない 。 か と い っ て 256x256 の画像を直接 SOM で分類す る には膨大な計算時間がかか
る 。 そ こ でテ ン プ レー ト ノ ー ド のデー タ と サ ン プルデー タ か ら 誤差を再計算 し 、 誤差が少ない
順に ソ ー ト し た画像を 、 その誤差の量を透明度に し て合成 し た 。 全画像を合成す る こ と は 、 コ
ン ピ ュ ー タ の メ モ リ の限界 も あ り 、 ク ラ ス タ に属 さ ない画像 も 含め る のはあ ま り 有効ではない
ので 、 試行錯誤の結果 、 先頭か ら 5 個分を合成す る こ と に し た 。 合成に関 し て カ ラ ー画像を直
接合成す る 以外にグ レ イ ス ケール画像 も テ ス ト し た 。 なぜな ら Wavelet 変換をす る 際に 、 カ ラ
ー画像を グ レ イ ス ケール画像に し てい る ため 、 SOM の分類時には色情報は利用 さ れていない
ためであ る 。
図 12 クラスタリング表示
7.4.
図 13 画像から変換された Figure
Primitive Maker
Primitive Maker は画像か ら 第 2 章で説明 し た Figure を作成す る プ ロ グ ラ ム であ る 。 任意の
カ ラ ー画像が与え ら れ る と k-mean ク ラ ス タ リ ン グ 9 に よ っ て画像を Primitive と い う
Primitive の集合であ る Figure に変換す る 。 単独で も 動作す る が 、 今回はCluster Viewerの
なかに組み込んでい る 。 Cluster Viewerで表示 さ れてい る 画像を マ ウ ス ポ イ ン タ で ク リ ッ ク す
る と 、 画像デー タ が Primitive Maker に送 ら れ る 。 Primitive Maker は処理が終了す る と 、 結
果を新 し い ウ ィ ン ド ウ に表示す る 。 ウ ィ ン ド ウ 内では 、 作 ら れた Figure を自由に動かす こ と
がで き る 。 ( 図 13 )
8.
実験 と 結果
顔10 、 風景 、 花 、 動物な ど 11 様々な画像について 、 こ のプ ロ グ ラ ム を使っ て実験を行っ た 。 こ の
内 、 正面顔 、 横顔お よ び花の画像 300 枚 ( 図 14 ) について説明す る 。 ま ず用意 し た 256x256 の
JPEG 形式画像か ら 、 SOM Data File Manager に よ っ てサ ン プルデー タ を作成 し た 。 次に
SOM Viewer を用いて 、 得 ら れたサ ン プルデー タ に対 し て学習を 10000 回繰 り 返 し た結果 、 マ ッ
プデー タ と 配置デー タ を得た 。 図 15 は学習 し た後の各 ノ ー ド 間の距離マ ッ プであ る 。 花 と 顔で
大 き く 濃度が違い 、 こ こ で大局的に 2 つの領域に分かれてい る こ と がわか る 。 ま た ノ ー ド を画像
に復元 し てみ る と 、 顔部分の領域で も 正面顔 と 横顔で分かれてい る 。 さ ら に 、 こ の距離マ ッ プに
基づいて ク ラ ス タ リ ン グ を行っ た結果が図 16 であ る 。 ク ラ ス タ リ ン グ個数は 、 距離マ ッ プ を計
算す る ための近傍をい く つ と る かに よ っ て変わ る 。 あ る 程度離れた も の ま で と る と 大ま かな ク ラ
ス タ にな り 、 近い も のだけ と る と 細かい ク ラ ス タ にな る 。 図 16 は最 も 近い も のだけ を と っ た 4
近傍での ク ラ ス タ リ ン グ結果であ る 。 こ の場合 、 ク ラ ス タ 数は全部で 88 個 と な っ た 。 こ の結果
を Cluster Viewer を用いて 、 得 ら れた結果が図 17 であ る 。 右側の 5 個の画像が実際の画像にグ
レ イ ス ケール処理 と 透明度を施 し た も のであ る 。 画像の下にあ る 情報は上か ら 順に 、 フ ァ イ ル名 、
テ ン プ レー ト か ら の誤差 、 誤差に よ る 透明度であ る 。 透明度はテ ン プ レー ト を 1.0 ( 不透明 ) 6
番目に近い画像を 0.0 ( 透明 ) と し て 、 その範囲で画像の透明度を決めてい る 。 左側の 3 個の画
像が合成 し た結果であ る 。 それぞれの違いは左か ら 原画像の合成 、 原画像を グ レ イ ス ケール画像
に し てか ら の合成 、 原画像の合成の後のグ レ イ ス ケールであ る 。 印刷ではカ ラ ーではないのでわ
か り に く いか も し れないが 、 原画像の合成 と 原画像を グ レ イ ス ケール画像に し てか ら の合成 と で
は後者のほ う の濃度が高い 。 実験で用いた画像は大局的には正面顔 、 横顔お よ び花 と い う 3 つの
意味を持つ も のであ る が 、 最 も 細かい ク ラ ス タ リ ン グでは ク ラ ス タ 数は 88 個 と な っ てい る 。 こ
の こ と について各 ク ラ ス タ であげ ら れた 5 個の画像を調べてみ る と 、 さ ら に詳細に傾向が分類 さ
れてい る こ と がわか っ た 。 た と えば図 18 の よ う に顔に関 し ては正面 、 横 と い っ た向 き だけでは
な く 、 年齢や性別で も 分類 さ れてい る こ と がわか る 。 ただ し 、 特徴成分はあ く ま で も 画像のみで
年齢や性別を入れてい る わけではない 。 に も かかわ ら ず こ の結果が得 ら れ る のは 、 髪型や顔のつ
く り な ど が見た目において年齢や性別に無関係ではない こ と を表 し てい る と 思 う 。 得 ら れた合成
画像か ら Primitive Maker を使っ て Figure を作成す る と 、 図 19 の結果が得 ら れた 。 合成す る
こ と に よ っ て細部の情報がぼやけ て大局的な配置情報を得 る こ と がで き てい る 。
図 14 正面顔、横顔および花の画像 300 枚
図 16 クラスタリング結果
図 15 SOM 学習結果
図 17 クラスタリングの内容表示
図 18 各クラスタの分類傾向
9.
図 19 Figure 抽出結果
問題点 と 限界
正面顔 、 横顔お よ び花の画像 300 枚 ( 図 14 ) ではあ る 程度期待す る 結果が得 ら れた 。 し か し 、
さ ま ざ ま な要素を含む画像 5000 枚 ( 図 20 ) では期待で き る 効果が得 ら れなか っ た 。 と り わけ
問題だ っ たのが風景画像であ る 。 風景画像には複数の対象物が写っ てい る ために 、 も と も と 意味
をひ と つに特定 し に く い 。 その よ う な画像は単体の画像 と 比べて画像の特徴量を煩雑に含んで し
ま う 。 こ のおかげで無関係な意味同士を ク ラ ス タ リ ン グす る こ と が多 く な り 、 結果的に意味の読
み取れ る 画像でない も のが多 く な っ た 。 そ こ で 、 こ の 5000 枚の画像か ら 、 分類に問題 と 思われ
る 画像 、 つま り 風景画像や背景が一様ではない画像を除外 し た 1345 枚の画像について再度検討
し た結果 、 あ る 程度ま と ま っ た結果にな っ た 。 ま た意味 と し ては正面の顔画像だ と し て も 異な る
照明条件の画像が混在す る と 最終的な分類は う ま く いかない こ と がわか っ た 。 し たが っ て 、 う ま
く 分類 さ せ る ためにはあ ら か じ め入力す る 画像を考え なければな ら ない 。 それは均一照明で無背
景であ る こ と が条件であ る 。 ま た風景画像は Figure を作成す る 際にはふ さ わ し い画像でない こ
と がわか っ た 。 も と も と 複数の対象物が写っ てい る 風景画像では 、 輪郭を ト レー ス し て形を出す
際に非常に時間がかか り 、 得 ら れた画像 も 複雑すぎ て入力画像 と し てはふ さ わ し く なか っ た 。
( 図 21 ) こ れ ら の問題は画像認識で も 難解な問題で 、 ど の よ う な状況で も 対応す る 汎用的なモ
デルを作 る こ と は難 し い 。
図 20 様々な画像 5000 枚
図 21 Figure 化に向かない画像
10. 今後の展望
本研究の目的は 、 繰 り 返 し 見た も のは意味のあ る も のであ る と い う 仮定の下に 、 大量の画像デー
タ を自動的に分類に ク ラ ス タ に分け て 、 その代表デー タ ( テ ン プ レー ト ) を抽出す る デー タ ベー
ス の開発であ っ た 。 実際 、 開発 し たデー タ ベース を用い る 場合 、 物体を ス タ ジオ撮影に限定 し て 、
撮影条件を同 じ にすれば求め る 目的には近い も のは得 ら れ る 。 し か し なが ら 、 実の と こ ろ整然 と
し た画像か ら 分類す る な ら ば 、 初めか ら 顔な ら ば顔の画像一枚を元に 、 手作業でテ ン プ レー ト を
得れば よ い 。 今回の実験で SOM が柔軟に分類で き る と し て も 、 異な る 条件化で撮影 さ れた実写
画像か ら で も 分類がおおむね得 ら れ る 汎用性の高いシ ス テ ム を作成す る こ と は 、 困難を伴 う こ と
がわか っ た 。 以上か ら デー タ ベース開発は こ こ で区切 り と し て 、 今後は手本 Figure を写真画像
か ら 手作業で作成す る 。 ただ し 、 条件が限定 し ていれば う ま く い く と い う こ と は 、 分類プ ロ セ ス
その も のは間違い と はいえ ない と 考え てい る 。 よ っ て手作業で得た Figure があ る 程度多 く 集ま
っ た と き 、 さ ら に同 じ 分類プ ロ セ ス が適用で き る か ど う か を 、 試行錯誤で探 し てい く 予定であ る 。
同時に こ れ ら の手本デー タ を使い 、 絵画生成プ ロ グ ラ ム の開発を始め る 予定であ る 。
参考文献
迎山 和司 : “ 人工知能画家 静 第3 版 ” , 情報処理学会 , 東京 , 2004, 2004-HI-108
Vol.2004 No.51
2
Harold Cohen: http://crca.ucsd.edu/hcohen/, 人工知能画家 AARON の製作者
3
Ed Burton: “Thoughtful Drawings: A Computational Model of the Cognitive Nature of
Children's Drawing”, Computer Graphics Forum 14(3) Eurographics Association, 1995, p159-170
4
Timo Honkela: “Self-Organizing Maps in Natural Language Processing”, Helsinki University
of Technology, Espoo, 1997
5
Java テ ク ノ ロ ジ : http://jp.sun.com/java/, Java 言語の入手先
6
Joint Photographic Experts Group: http://www.jpeg.org/, 静止画像デー タ の圧縮方式の一つ
7
Yves Meyer: “Wavelets: Algorithms and Applications”, Society for Industrial and Applied
Mathematics, Philadelphia, 1993, pp. 13-31, 101-105.
8
田中 雅博 , 古河 靖之 , 谷野 哲三 , “ 自己組織化マ ッ プ を利用 し た ク ラ ス タ リ ン グ , ” 電
子情報通信学会論文誌 , vol.J79-D- Ⅱ, no.2, pp.301-304, Feb.1996
9
IJ Plugins: Clustering: http://ij-plugins.sourceforge.net/plugins/clustering/index.html, ImageJ
k-means clustering pluginの入手先
10
財団法人 ソ フ ト ピ ア ジ ャ パン IT 研究セ ン タ ー: "顔画像デー タ ベース ",
http://www.softopia.or.jp/rd/facedb/outline01.html
11 Datacraft: "素材辞典 " http://www.sozaijiten.com/
1