正準相関分析と注視特性による顔表情画像からの感情の測定法†

正準相関分析と注視特性による
顔表情画像からの感情の測定法†
谷卓哉‡*･長谷川浩司‡･坂本博康‡･坂田年男‡･廉田浩‡･福島重廣‡
本論文は正準相関分析を用いて顔表情画像から感情の程度を測定する手法を提案する．ここでは，
顔表情のグレースケール画像およびその表情・感情を主観評価した値（快-不快および覚醒-沈静）と
の２種類の変量間における正準相関を分析する．顔表情画像に対する人の視線の動きから求めた注視
特性を，本測定法の加重関数として組み込み，その有効性を述べる．また，画像のサンプル数の不足
から生じる非正則な共分散データの場合，その情報を効率的に分析するために，中間変数を導入した
正準相関分析の分解手法を提案する．また，ガウスカーネルによる非線形カーネル正準相関分析の効
果について，線形の正準相関分析と比較し，その有効性を示す．男性と女性に分けた顔表情画像デー
タベースに対して Leave-One-Out 法による数値実験を行った結果と動画像に対する測定実験を行っ
た結果を示すことにより，本提案法の有効性を示す．
キーワード：顔表情画像，感情，注視特性，正準相関分析，カーネル正準相関分析
在では心理学をはじめ社会科学，生理学，医学の分野
１．はじめに
人の表情や感情の認識および計測は幅広い応用分野
など多面的な観点から興味深い研究が進められている
を持つと期待され，その社会的な関心や需要は次第に
[2]．これらの研究と関連する顔情報処理の工学的研
大きくなっている．応用の例として，介護や福祉，医
究は，形状やテクスチャの計測，個人認識，表情認識，
療の分野における被介護者や患者の状態の推定（特に
顔画像の合成などに分類され，従来から多くの優れた
発声困難な場合），製品・商品の開発における使用感
研究が存在する [4]．中でも表情認識は多様な応用の
や印象の評価などを挙げることができる．人の顔表情
基礎として重要であるが，多くの研究は識別問題とし
と感情の間には強い関連が知られているが [1]，相反
ての表情認識に焦点を当てており [5-7]，回帰問題と
する複数の感情が入り混じるときは，人の目視によっ
しての表情や感情の強度に関する計測法の研究は比較
てさえ表情から感情を認識できないことが多い．しか
的少数である [8,9]．この研究法の相違は後述の表情
し，単純な感情が顔表情へ直接に現れる場合も多く，
認知の研究分野における感情の２大モデルとの関連も
この場合はコンピュータの画像処理により顔表情から
考えられるが，応用面から見れば回帰問題の有用性は
の感情の推定も可能であろう．
これまで以上に重視されるべきと思われる．
本論文は，単純な感情が直接的に顔表情へ表出され
顔表情に関する研究は古くは Darwin に始まり，現
る場合について，正準相関分析（ＣＣＡ）を用いて顔
-------------------------------------------------------------------------------†
A Method for Measuring Emotion of Facial
Expression Images by Using CCA and Gazing
Property
Takuya TANI, Kouji HASEGAWA, Hiroyasu
SAKAMOTO, Toshio SAKATA, Hirosi KADOTA
and Shigehiro FUKUSHIMA
‡
九州大学大学院芸術工学府
Graduate School of Design, Kyushu University
*
現在，東京エレクトロン九州 (株 )ソフト技術部ソ
フト設計グループ勤務
Currently, with Dept. of Software Technology, Tokyo Electron Kyushu Limited
‡ 九州大学大学院芸術工学研究院
Faculty of Design, Kyushu University
表情の濃淡画像から感情を計測する方法を提案し，そ
の有用性を調べる．そこでは，図１の Russel の感情
円環モデル [3]の座標軸である快 -不快および覚醒 -鎮
静を感情の評価量として利用する．また，人が顔画像
から表情を読み取ろうとするときの視線移動データか
ら求めた注視特性を加重関数として組み込むことによ
り，計測の信頼性の向上を試みる．次に，画像データ
のサンプル数の不足により生じる特異行列に対して，
効率的な分析を実行するために，中間変数を導入した
正準相関分析の分解手法を提案する．さらに，ガウス
1
タ行列を X, Y とする．また， {x h }と {y h }の分散共分散
行列をそれぞれ Sx, Sy，相互の共分散行列をそれぞれ
S xy , S yx とする．以下では， m x , m y をそれぞれ差し引い
た後の零平均データを {x h },{y h }および X, Y と記す．
X の主成分分析（ＰＣＡ）は， Sx の固有方程式
Sx W = WL
(1)
t
の解である M×M 正規直交行列 W の転置 W を用い
て，X から無相関の変量行列 U への変換 U = W t X と
して得られる．ここで， L は Sx の非負固有値による
対角行列であり， U の共分散行列 Su に等しい．
ＣＣＡの変換行列 A, B は，２データ X, Y の共分散
行列による一般固有方程式，
図１．ラッセルの感情円環モデル [3]．
横軸：快 -不快，縦軸：覚醒 -鎮静．
S xy S y - 1 S yx A = S x A G
S yx S x
カーネルによる非線形カーネル正準相関分析（ＫＣＣ
-1
2
(2)
,
S xy B = S y B G 2 .
(3)
から得られる．２式は共通の固有値 { g 1 2 ³ g 2 2 ³･･･³ g L 2
> 0, L = min(M, N) }を持ち，その平方根は正準相関と
Ａ） [10]の有用性について，線形の正準相関分析と比
較実験を行う．
呼ばれる． G は正準相関による L×L 対角行列である．
X, Y をそれぞれの L×H 正準変量行列，
ＣＣＡとＫＣＣＡは良く知られた統計解析手法であ
るが，本論文の著者らが調査した限りでは [6,11,12]，
U = A t X，
画像の特徴点ベースで表情のカテゴリー識別問題へ利
V = B t Y，
(4)
へ変換すれば， U, V は次の線形回帰性を持つ．
用する研究 [7] 以外に，ＣＣＡの顔表情画像への応用
U = G V，
は見られなかった．
V = G U.
(5)
ただし， U , V はそれぞれ U, V の予測値または推定
人間の表情認知の研究分野では，感情の次元モデル
とカテゴリーモデルという２大モデルが提唱され対立
値を表す．
的に議論されている [2]．前者の典型として Russel の
感情円環モデルがあり，このモデルの座標軸上で感情
３．ＣＣＡのカーネル非線形化
を測定する方法は合理的で有用と思われる．本研究で
ＣＣＡは線形な関係の計測に有効であるが，その
２変量間に非線形な関係が存在する場合はカーネル正
はこの測定の一手法を提案する．一方，図１の感情参
照点からの差異による感情の定量化も有用である．こ
準相関分析（ＫＣＣＡ）がしばしば利用される．カー
ネル法は既存の線形多変量解析モデルに関数の形で組
れはカテゴリーモデルに基づき，カテゴリーごとの強
込可能，等の利点をもつ方法である．ＣＣＡへのカー
ネルの導入には，２変量の両方に非線形変換を適用す
度またはカテゴリー間の混合度を測定する方法を与え
る．また両者を並列的にとらえ，３次元感情空間と表
る方法 [10]と，一方だけに適用する方法 [6]がある．
本研究では，画像から主観評価値の推定値を求めるた
情カテゴリーの関係を論じる重要な観点もある [8]．
以下本文では，２章において主成分分析と正準相関
めにカーネルの非線形変換の逆変換を必要とするので，
一変量のみへ適用する手法を用いる．
分析の概略を説明し，３章で正準相関分析のカーネル
化について述べる．４章では提案手法を解説する．５
X = [x 1 , x 2 , …, x H ] の各画像ベクトルへ非線形写像
φ： R M →R M ' を施した行列 Y (X) = [φ(x 1 ), φ(x 2 ),…, φ(x H )]
章で男性と女性の別々の顔表情画像データベースを用
いた実験，および動画像への適用例の結果を示し，最
後にまとめを述べる．
を作る．ここで， M' は M ～ ∞ の範囲のある値である．
対称行列 K = Y (X) t Y (X)とおけば， K の (i, j) 要素は
２．主成分分析と正準相関分析
空間 R M ' における内積の値 φ(x i ) t φ(x j ) であり，非線
形変換の次元 M' が非常に大きい場合，膨大な演算量
が必要となる．カーネル手法は，非線形変換による空
間 Y M' 上の内積を，これとは別に定義されたカーネ
本論文では，画素数 m 1 ´m 2 ( = M)の M 次元濃淡顔画
像ベクトル {x h | h = 1, ･･･, H}と，この各画像に対する
ル関数 k(x i , x j ) によって置き換え，行列 K を構成す
る．この関数には，ガウス関数を始めとして，マーサ
N 次元主観評価値のベクトル {y h }に対して，標題の２
つの多変量解析手法を用いる． {x h }と {y h }からそれぞ
ーの定理と呼ぶ条件を満たし，ベクトル間の類似度を
れの平均ベクトル mx, my を差し引いて列に並べたデー
2
表すさまざまな関数が利用されている．
ＫＣＣＡの変換行列 A, B は，画像データによるカ
ーネル関数の行列 K と主観評価値の行列 Y から，そ
れら自身とその相互間に対する共分散行列 S k , S y , S ky ,
S yk による次の一般固有方程式を解いて求められる．
S ky S y - 1 S yk A = S k A Q 2 ,
(6)
S ky B = S y B Q .
(7)
S yk S k
-1
2
ここで，両式は共通の非負の固有値を持ち，Q
2
はそ
の固有値の対角行列である．
図２．主観評価実験の画面（顔画像は JAFFE より）．
４．提案手法
ここで提案する手法では，２つの変量群として顔
表情の濃淡画像およびその各画像に対する主観評価実
験の評価値を準備し，顔表情画像に視線移動情報から
得た注視特性を組み込んだ後，この画像と主観評価値
をＣＣＡまたはＫＣＣＡにかけて学習させる．学習と
計測には Leave-One-Out 法を採用し，画像と主観評価
値から 1 画像分ずつを抜いたデータを使って学習させ，
抜かれた 1 画像分に対して計測を行う．
４ .１
顔表情画像データと主観評価値
(a)
成人男性の顔表情画像データには本学学生 19 名の
４表情（笑，怒，泣，驚）の 76 枚に加え，文献 [13]
などの複数の外部機関から収集した 41 名の４表情の
68 枚，合計 144 枚を用いた．女性の表情画像には
JAFFE データベース [14]から日本人女性 10 名の７表
情（笑，怒，泣，驚，恐怖，嫌悪，中立）の全画像
213 枚を準備した．これらを，それぞれに対応する表
情と感情の主観評価値と併せて DB1, DB2 と表記する．
DB1 の内，外部機関からの画像は白人や黒人の画像も
含むが，日本人には見られないような顔の選択を避け
た．また，外部からの画像は照明方向，明度とコント
ラスト，ノイズレベル，背景，被写体の顔面方向など
(b)
図３．主観評価の結果 . (a):DB1, (b):DB2.
の撮影条件は多様である．一方， DB2 は良く制御され
た撮影環境の下で，同種の表情内でも複数の強度をと
▽ :泣き顔， ◇ :笑い顔， ○ :驚き顔， ×:怒り顔，
＋ :恐怖顔， □ :嫌悪顔 , ・ :中立顔．
る表情画像から構成されている．また， DB2 はより少
数の人物という面でも，データの均質性が高い．この
主観評価実験において被験者が回答する評価値は，
DB1 と DB2 の撮影条件とデータ均質性の相違は，以降
の実験結果の違いとして表れる．画像データを男女に
各画像の人物が有すると考えられる [不快 -快 ]および
[鎮静 -覚醒 ]の程度を [-3 ～ +3]の整数７段階で評価し
分けた理由は，筆者らの従来のＰＣＡによる表情画像
の実験において，主成分ベクトルの極性の正負反対側
た２次元データである．被験者は，成人の男性女性が
約半数ずつで構成され， DB1 では 18 名の被験者， DB2
に男女の顔が特徴付けられた経験に基づく．
後述する画像のサイズや濃度に対する正規化前の，
では 16 名の被験者から得た主観評価値を，各画像ご
とに平均した値を用いた．図３ (a)に DB1 の，同図 (b)
各画像の顔面全体を切り出した画像に対して，男性顔
と女性顔を別々に主観評価の実験を行った．人物と表
に DB2 の分布図を示す．ただし，ＣＣＡとＫＣＣＡの
両方で入力変量の零平均値が要求されるので，この図
情の両者について，画像の提示順番をランダム化し，
実験の途中でも順番の後戻り /先送り /スキップおよび
は零平均化後のデータを示している．両図において，
笑顔 (◇ )は強い快と中程度の覚醒を中心に分布し，驚
再評価入力を自由に実行可能とした．図２に主観評価
実験中の画面を示す．
顔 (○ )は強い覚醒と快 -不快の両側に広がり分布する
3
など，全表情について合理的な分布が見られる．但し，
上の零平均化により図 (b)の中立顔の点 (･)は少し右側
へシフトした．平均評価値からの各被験者の絶対値誤
差 (快･不快，覚醒･鎮静，全体 )の平均値は， DB1 では
(0.604,0.864,1.164) ， DB2 で (0.506,0.837,1.081)
だった．この値の DB1 と DB2 間における相違は，上記
のデータの均質性における相違と矛盾しない．
４ .２
注視特性
図４．視線追跡実験提示用の平均表情画像．
人の顔表情画像に対する注視特性を次の方法で求
めた．まず， DB1 の全員分，および本学女子学生 12
名分（ DB2 とは別データ）について，それぞれの４表
情の平均画像と全表情の平均画像 (中立画像が得られ
る )の合計 10 枚を作成した（図４を参照）．これを被
験者 13 人のそれぞれに対して 19 インチ液晶ディスプ
レイ上に提示し， EyeTech Digital Systems 社製の視
線追跡装置 Quick Glance により視線移動データを得
た．各被験者に対して，実験に慣れるための２種類の
(a)
予備実験後に，画像のどの部分から表情を理解するか
を考えながら各画像を 10 秒間観察してもらい，その
(b)
図５．注視点移動データ． (a)被験者１名， (b)13 名分．
時の視線移動データを記録した．図５ (a)には，女性
の怒りの平均顔に対する 1 名分の結果を示し，図 (b)
には (a) を被験者全員分について重ね合わせた結果を
示す．
このようにして得られた視線移動データを被験者
全員と全提示画像について総合し，４通りの手法：
(i)単純加算法， (ⅱ )ガウス加算法， (ⅲ )矩形加算法，
(iv)閾値２値化法で処理する． (i) は単純に注視点を
(i)
(ii)
(iii)
(iv)
図６．注視特性 . (i)単純加算法 , (ii)n = 15 のガウス加算
法 , (iii)n = 29 の矩形加算法 , (iv)n = 20 の閾値２値化法 .
１点ごとに加算する方法， (ⅱ )は注視点座標を中心に，
n×n 画素領域に ± ３シグマ幅でピーク値１の２次元
左右両端と一致するように，中央から左右の両側で異
ガウス分布の形で加算する方法， (ⅲ )は注視点座標を
中心に n×n 領域に一定値で加算する方法， (ⅳ )は
なる倍率を設定して拡大縮小する．更に，画面上で左
右の目の平均的高さと口の平均的高さを指し示し，こ
(ⅱ )の結果の注視特性を閾値 30 で 0, 1 に２値化する
方法である．ここで n の値は， 15, 20, 29 の３通り
れらをそれぞれ画面上端から 19 画素 (30％ ), 51 画素
(80％ )の高さと一致するように縦方向全体で一定の縮
を用いた．なお，みけんから鼻にかかる部分は視線デ
ータが集中するが，表情によってほとんど変化しない
尺率を決めて位置合せする．この処理で必要な画素間
の補間のために，双３次補間を使用した．
ので，この部分の視線データを除去した．この加算処
理結果の提示画像全体の平均値を２へ正規化し，１を
以上の幾何的正規化による画像の切出しを行った後，
輝度の線形変換を行い，全画像の平均明度を 128 へ，
加えて注視特性とした．例えば加算処理結果が
（ 1+sin (x)）のように平均値の上下で同じ分布ならば，
コントラストを標準偏差 35 となるようにそろえた画
像ファイルを記録する．提案法の計算に際しては，平
注視特性の最小値は１，最大値は５となる．
図６には以上の４通りの注視特性を濃淡画像とし
均明度を零として，図６の注視特性を画素ごとに掛け，
最後に画像全体の標準偏差を１へ正規化する．
て示している．この注視特性は，４ .３節の画像サイ
ズの正規化法に従って整形後，利用される．
図７には，５章の実験で用いる画像の例から，以上
の正規化を行う前 (a)と後 (b)の画像を示す．図 (b)で
は注視特性の例として図６ (ii)を適用している．
４ .３
画像の正規化
ここでは，幾何的正規化と輝度の正規化を行う．前
者では次の２次元アフィン変換による処理で 64× 64
４ .４
ＣＣＡ計測処理と中間変数への分解
ここでは，学習用データとしての顔表情画像 X と
画素の画像へ正規化する．まず，みけんの中央と鼻の
頂点を画面上で指し示し，これらを結ぶ線分が正立し
主評価値 Y に対するＣＣＡの処理手順を説明する．
行列の各サイズは M = 64×64 = 4096, N = 2, K = 143
て画面の横方向の中央に位置するように画像を回転し
て平行移動させる．次に，両目の目尻の位置が画面の
（ DB1）又は 212（ DB2），Ｌ = 2 となる．
4
図８ : CCA の分解と中間変数の次元数の変化．
(a)
(b)
© Fuji Television Network (2004)[16]
y t est = (W x L x - 1/ 2 A G (W y L y - 1 / 2 B ) - 1 ) t x t est .
図７ . (a)正規化前の画像， (b)正規化後に注視特性
の重み (ii)を付けた画像．
また，中間変量を求める段階でＰＣＡの固有値の個
数を Sx の階数Ｍ 1 以下にすれば，学習のための計算量
学習データにより求めた２ .２節の変換行列 A, B お
をさらに減らすことができる．データの質が高い場合，
この操作によって推定値の精度は一般に低下するが，
よび G を用いて，テスト画像 x t est からの推定値 y t est は
次式で求められる．
y t est = ( A G B - 1 ) t x t est .
画像などのデータがノイズを多く含む場合，そのノイ
ズ成分を切り捨てることによって推定精度が向上する
(8)
ことも期待できる．図８には中間変数を含むデータ間
の関係を示している．固有値の個数を減らすと P の
このとき，画像 {x h }の零平均値化に伴う X の階数低下
のため，画像の枚数が 4096＋ 1 以上ないと， S x が特
次元は落ちるが U, V の次元は変化しない．
異行列となり (6) 式を適用できない問題が生じる．こ
の問題の解決には擬似逆行列や正則化項などの方法が
４ .５
知られているが，計算量や精度等の難点がある．また，
上記の枚数以上の画像の使用は不可能ではないが，膨
た変換行列 A, B および Q を使用して，テスト画像
x t est からの推定値 y t est が次式で求められる．
案する．まず， X, Y にそれぞれＰＣＡを用いて固有
値の降順に階数分だけ用いる．それぞれの固有ベクト
y t est = ( A Q B - 1 ) t k(X, x t est ).
関数を要素としたベクトルである．
ＫＣＣＡにおいては，式 (6,7)のように S x の代りに
M 1 , N 1 とする．中間変量 P, Q を次式で求める．
カーネル関数の行列 K の共分散行列 Sk を用いるので，
普通のＣＣＡに比べて階数低下の問題はあまり起こら
(9)
ない．しかし，前節のようなノイズ成分の切り捨てに
よる推定精度向上の効果などを期待して，ＫＣＣＡに
(10)
このように，非零の固有値に対応する固有ベクトルに
おける中間変数への分解手法を適用することも可能で
ある．このとき，テスト画像 x t est からの推定値 y t est は
より射影すれば， P, Q の共分散行列 S p , S q は正則行列
となり， P, Q に関してＣＣＡを適用可能になる．さ
次のように求められる．
らに，上式で L x - 1/ 2 と L y - 1/ 2 をそれぞれ掛けているから，
S p ， S q は共に単位行列となる．従って P， Q のＣＣＡ
y t est = (W k L k - 1/ 2 A Q (W y L y - 1/ 2 B) - 1 ) t k(X, x t est ).(17)
では逆行列の計算が不要である．以上から，中間変数
に対するＣＣＡの変換行列 A， B は，それぞれ
S pq S qp A = A G 2 ，
(11)
S qp S pq B = B G 2 ，
(12)
ここで， Wk は Sk の固有値の降順に従い，固有ベクト
ルを列方向に並べた行列である．
従来から様々なカーネル関数が考案されているが，
本論文ではガウスカーネル関数
k(x i , x j ) = exp(-||x i - x j || 2 / a 2 )
の解として得られることが分る．
(13)
V = B Q = (W y L y
(14)
t
- 1/ 2
t
B) Y，
(18)
を利用した．関数の広がりの程度を示す a の値を実験
中間変量 P， Q を経由すれば，正準変量 U， V は，
U = A t P = (W x L x - 1/ 2 A) t X，
(16)
ここで， k(X, x t est ) は X の各列と x t est によるカーネル
ルを列に並べた行列 Wx , Wy を作り，固有値の対角行
列を L x ， L y とおく．ここで， X, Y の階数をそれぞれ
Q = (W y L y - 1/ 2 ) t Y.
ＫＣＣＡによる計測と分解
ＫＣＣＡでは，学習データから式 (6,7)により求め
大な手間を必要とする難点がある．
そこで，本論文では正準相関分析の分解手法を提
P = (W x L x - 1/ 2 ) t X，
(15)
的に検討したところ， a = [学習データの個数 ]のとき
に最良の結果を得た．以下のＫＣＣＡの実験では，こ
のように設定したガウスカーネルを使用する．
により計算される．以上より，テスト画像 x t est から主
観評価量の推定値 y t est は次式で与えられる．
5
(a)
(a)
(b)
(b)
図 10． DB1 の各画像に対する推定値対主観評価値 .
図９．各画像に対する推定結果 , (a)DB1, (b)DB2.
▽ :泣き顔， ◇ :笑い顔， ○ :驚き顔， ×:怒り顔，
(a):快 -不快， (b):覚醒 -鎮静，記号は図９と同一．
＋ :恐怖顔， □ :嫌悪顔 , ・ :中立顔．
(Ｂ )データベースの均質性 (４ .１節 )の程度に違いが
あり， DB1 は均質性が低く， DB2 は高い．
５．実験結果
５ .１
各画像の測定結果
特に原因 (Ｂ )について述べると， DB2 は 10 人 ×７
表情＝ 70 組の中で，同一人の異なる強度の同種の表
図９ (a),(b) にはそれぞれＤＢ１とＤＢ２の各画像
を Leave-One-Out 法で測定した快･不快対覚醒･鎮静
の分散図を示す．ここで，ＤＢ１の注視特性には (ii)
情画像が２枚 (３組 )，３枚 (61 組 )，４枚 (６組 )ずつ
含まれ，しかも顔面方向や照明方向，背景等の撮影条
の n=15 ，ＤＢ２では注視特性 (iv) の n=29 を用い，
(a),(b) 共にＫＣＣＡ法によって推定した結果を示す．
件が良好に制御されている．従って Leave-One-Out 法
における学習画像の中には，測定対象として除外され
これは図３の主観評価値と対応した，提案法による測
定値のプロットである．図３と同様，図９の測定値の
た画像に類似度の高い画像が必ず残っている．図 11
の結果は，少数の大きな外れ値を含むものの，この高
位置と表情の関係も合理的な分布が得られている．
次に，図９の快･不快と覚醒･鎮静の測定値がそれぞ
い類似度の画像を手掛りに，かなり精度の高い測定が
可能になっていると考えられる．
れの主観評価値とどのような回帰関係にあるかを，図
10（ DB1 ）と図 11 （ DB2）に示す．これらの結果はい
他方， DB1 は複数の機関から顔表情画像を寄せ集め
たものであり，データの均質性が低く，人種や撮影条
ずれも傾き１の直線の近傍に分布する．従って，本方
法は，推定値に誤差（ばらつき）を含むものの，２つ
件，画質もまちまちである．また，表情画像というよ
り，顔面の表情筋の活動を解析するための画像も含ま
の感情の指標を概ね推定可能であることがわかる．
ここで DB1 の測定値の誤差は DB2 に比べ２倍近く大
れる．また，各人物毎に４表情の画像がそろうのは本
学学生 19 名分の 76 枚だけであり，この中には同一表
きい．これらの誤差の原因には次の２つが考えられる．
情で複数の強度をとる画像は存在しない．残りの 41
名分 68 枚の内訳 (人数 ×表情数 )は次の通り： (22×1)
(Ａ )横軸の主観評価値は多数の被験者の評価値の平均
であり，これ自身が被験者間の分散や，更に同一
被験者内の実験間の分散さえ持つ推定値である．
＋ (12×2)+(6×3)+(1×4)．最後の (１名 ×４表情 )は ,
（開口笑顔 +閉口笑顔 +驚顔 +怒顔）である．このうち，
6
(a)
(b)
図 11． DB2 の各画像に対する推定値対主観評価値 .
(a):快 -不快， (b):覚醒 -鎮静，記号は図９と同一．
１人当り２表情，３表情の画像の中に同種の異なる強
度の表情２枚を含むものが，それぞれ２名 ,１名分だ
２点間距離の平均値を表す．
以下では，表１の結果と主観評価の誤差との比較，
け存在する．以上のデータの不均質性にも関わらず，
図 10 の測定値はある程度良好な精度を示している．
データベースや解析手法の違い，注視特性の違いなど
による特性の変化などについて述べる．
５ .２
５ .２ .１
静止画像の実験結果のまとめ
主観評価値の平均誤差との比較
図３ (a)における DB1 の主観評価値 [快･不快，覚
表１は， DB1 ， DB2 に対して２種類の解析手法と４
種類の注視特性（ (i) ～ (iv)）を用いるとき， Leave-
醒･鎮静，全体] の平均誤差は
[0.604, 0.864,
One-Out 法による感情計測の絶対値誤差の平均値をま
とめている．この表で， [快･不快，覚醒･鎮静 ] の誤
1.164]である．これに比べ，表１のＣＣＡ（注視特性
差の平均値はそれぞれの測定値 (推定値 )と主観評価値
の差の絶対値をとった平均値を表し， [全体 ] の誤差
同じくＫＣＣＡ（注視特性 (ii)）の測定値は [1.38 ，
平均値は図９の２次元平面上で測定値と主観評価値の
評価と同程度の分散 (精度 )で測定できたことが分る．
(iii)）による測定値は [1.47 ， 1.04 ， 0.962] 倍の誤差，
0.881, 0.853]倍の誤差の特性を持ち，平均的に主観
表１．正準相関分析とカーネル正準相関分析による感情測定の平均誤差
注１： DB1 と DB2 における主観評価の平均値からの各評価値の平均誤差
[快･不快，覚醒･鎮静，全体 ]： DB1 = [0.604, 0.864, 1.164],
手法
注視特性
データ
(ii)ｶﾞｳｽ加算 n=15
(iv)閾値 2 値化 n=29
DB2 = [0.506, 0.837, 1.081].
(iii) 矩形加算 n=29
(i) 単純加算
DB1
DB2
DB1
DB2
DB1
DB2
DB1
DB2
0.894
0.500
0.922
0.488
0.887
0.491
0.900
0.512
Ｃ
覚醒･鎮静
Ｃ
0.895
0.534
0.928
0.520
0.900
0.524
0.947
0.574
Ａ
全体
1.125
0.627
1.169
0.611
1.120
0.615
1.166
0.661
Ｋ
Ｃ
快･不快
0.832
0.509
0.867
0.491
0.848
0.498
0.828
0.524
覚醒･鎮静
0.761
0.524
0.788
0.515
0.770
0.517
0.779
0.545
全体
0.993
0.621
1.039
0.600
1.009
0.608
1.001
0.645
測定項目
快･不快
Ｃ
Ａ
7
響の除去も効果を上げていると思われる．
1.5
1.4
５ .３
中間変量の次元数減少の効果
中間変量 P の次元を減少させる効果を図 12 に示す．
図の横軸は P の次元数，縦軸は DB1 に対するＣＣＡ
1.3
による主観評価値と測定値との絶対値誤差の平均値で
ある．横軸の右端は， DB1 の学習画像の枚数 143 から
1.2
1.1
142
141
140
130
120
110
100
90
80
70
60
50
40
30
20
10
X のゼロ平均化による階数 1 の低下を引いて 142 とな
る．次元数が 10 から 30 の範囲では，次元数の増加に
図 12．中間変数 P の次元低下による測定誤差
伴って推定誤差が大きく減少するが， 30 以上では減
少率は激減し，必ずしも単調な減少を示すとは限らな
一方， DB2 の図３ (b) の平均誤差は [0.506, 0.837,
1.081] である．表１のＣＣＡ（注視特性 (iv)）の測定
い．従って，高速な学習が要求されるときは，ある程
度次元数を減らして演算量を低減することが有効と考
値は [0.964 ， 0.621, 0.565]倍の誤差，ＫＣＣＡ（注
視特性 (iv)）は [0.970 ， 0.615, 0.555] 倍の誤差とな
えられる．本実験では演算の効率化を特に図っていな
いが，ＣＰＵに Pentium Core2Duo 2.8GHz を用い，
り，平均的に人の主観評価を上回る精度を得た．
表１のいずれの測定誤差も，人の主観評価におけ
Matlab v.14（インタプリタ言語，マルチコア未対応
版）上で， 142 次元と 30 次元の P によって学習・計
る平均の誤差に比べ，最大で 1.47 倍から最小で
0.506 倍の範囲となっている．特に，全体の測定項目
測を１通り計算するための平均時間はそれぞれ約 60
秒， 5 秒となり，若干の推定誤差の増加と引換えに 12
だけに着目すれば，人の主観評価より平均で 0.962 倍
以下のばらつきにより感情の測定が可能であることが
倍の高速化を得た．
図 12 の結果は従来の顔の研究における結果と概略
分った．
５ .２ .２
一致する．例えば，固有顔における非常に良好な顔画
像表現には 40 次元で十分なことが知られている [15]．
ＣＣＡとＫＣＣＡの比較
まず， DB2 では，ＫＣＣＡによるＣＣＡからの「全
本研究では頭上部の輪郭を除去するので， 40 以下の
次元で表現できていると思われる．
体」特性の改善は数％に留まっている．この原因は，
前述のように DB2 の撮影環境は整備され，少人数（ 10
なお，本論文の本節以外の実験では，すべて最大
階数の P を用いて結果を求めている．
名）からの同一表情で異なる強度の画像を含むことに
あると考えられる．特に異なる強度の画像同士は互い
に相関が強く，線形演算で表現可能な変化を含み，Ｃ
ＣＡで良好に分析できると期待される．
５ .４
上の静止画像の実験における同一人で同種の表情
他方， DB1 ではＫＣＣＡにより，ＣＣＡに比べて
５％～ 19 ％，平均 11％の誤差の低減が得られている．
画像の枚数は， DB1 で最大２枚（３名）， DB2 で最大４
枚（６名）と少数である．ここでは，提案手法が表
この結果は， DB1 における合計 60 人で４種類の表情
の画像データにおける均質性の低さにより説明可能で
情・感情の連続的な変化を有効に計測可能か否かを調
査する．映画 [16]から男性女性各１名の動画像２系列
あろう．つまり，半数以上の被験者について未整備の
多様な環境下で撮影されており，１ ,２種類の表情画
に対して提案法を適用し，数十段階にわたり次第に変
化して行く表情画像からの感情の推定を試み，その変
像のみの人物がそれぞれ 22， 12 名も存在している．
そのようなデータは，均質性の高いデータと比べて，
化をどの程度把握できるか調べた．男性の動画像は約
10 秒間，女性の動画像は約 30 秒間である．フレーム
顔画像の空間内で他のデータとの相関が低く，線形演
算による表現が困難と思われる．
５ .２ .３
動画像への適用
変換の際に次のようなフレームを取り除いた：大きく
下向きまたは横向きになり顔の自己遮へいが生じる部
分，顔表情にほとんど変化がない部分，インターレー
ス走査に関係したタイミングのずれによるノイズが発
注視特性の比較
表１のように注視特性の違いは感情の測定誤差に
大きな影響を与えなかったが， DB1 の実験の結果では
生した部分，障害物によって顔の相当部分が隠れる部
分．その結果，フレーム数はそれぞれ 119 枚と 149 枚
フィルタ範囲 n = 15 としたガウス加算法が， DB2 では
n = 29 画素とした閾値２値化法がより少ない推定誤差
となった． DB1, DB2 にそれぞれ同じ姓別の解析対象
人物の画像３枚を追加したデータベースを用いてＣＣ
を与えた．現在の段階では，全部の視点位置情報を総
和してフィルタリングのマスク形状だけを検討してい
Ａを実行した．この追加画像は上の解析対象の動画像
には含まれないが，比較的良く感情の特徴が表れた顔
るが，今後，表情ごとに分けた注視特性などを検討す
る必要がある．閾値２値化法 (iv)の効果も十分見られ
画像である．
図 13，図 14 のそれぞれにおいて図 (a)① ～ ⑧ は全
ることから，画面下部のあごの左右側に出る背景の影
8
(a)
①
②
③
④
⑤
⑥
⑦
⑧
(a)
© Fuji Television Network (2004)[16]
(b)
①
②
⑤
⑥
③
⑦
④
⑧
© Fuji Television Network (2004)[16]
(c)
(b)
(c)
図 14．女性の動画像の顔表情変化 (a)と測定結果 (b,c)
図 13．男性動画像の顔表情変化 (a)と測定結果 (b,c)
フレーム内から抽出した画像を示し，図 (b),(c) はそ
れぞれ快･不快，覚醒･鎮静の測定値の時間変化を示す．
図 14(a)の ① は驚きの表情が見られる．図 14(c)の
覚醒値は最高値を示している．①～②では，驚きの表
図 (a),(b),(c) の番号 ① ～ ⑧ はそれぞれ対応するフレ
ームの画像とその位置を示す．
情の強さが徐々に低下していると認識される．この間，
覚醒値も低下の傾向にある．③で驚きの表情は消え，
５ .４ .１
嫌悪の表情へと変化していく．④～⑤の嫌悪を示す表
情で快値は低下し，覚醒値は増加している．⑥で表情
男性動画像
ここで用いる男性の動画像は，権威者の前に立っ
の変化は収まり，⑦では喜びの表情が見られる．⑥～
⑦は快値，覚醒値ともに増加している．⑧は苦笑いの
た比較的小さいお辞儀の動作の中で，困惑･緊張した
表情から喜びの表情へと変化するものである．
表情であり，快値 ,覚醒値ともに低下している．これ
は苦笑いの表情があまり単純とは言えないことが原因
時間経過の前半において図 13(a)の ① ～ ④ は困惑･
緊張した表情の継続が見られ，図 (b)の同一区間では
と考えられる．
この女性動画像に対しても全体的に表情と感情の
多少の変動はあるものの快値の低下が見られる．④～
⑤で喜びへの表情の移行が見られ，快の値の増加も見
変化の動きをうまくとらえていると思われる．しかし，
男性の場合に比べ細かい変動成分が大きい．これは，
られる．⑥～⑦は喜びの表情に入るが表情の変化は少
なく，快・不快値と覚醒･鎮静値もあまり変化しない．
男性の動画像に比べると，この動画像は顔の向きや傾
きの変化が大きく，正規化の際の変形が大きくなった
⑧は，喜びのなかでも特に強い表情であると認識され
る．快値，覚醒値は共に最高値を示している．
ことが原因として挙げられる.
図 13(c) は図 (b)ほど大きい増加は見られない．し
かし全体を通して覚醒方向への増加が見られ，表情と
６．
感情の変化をうまくとらえているといえる．
５ .４ .２
おわりに
本論文では，正準相関分析法やカーネル正準相関
分析法，そして視線追跡データから得られた顔画像の
注視特性を用いて，顔表情画像から感情を計測・推定
女性動画像
この女性の動画像は，テレビのニュース番組を見
てその内容に関する電話を掛けながら，一喜一憂して
する方法を提案した．データの均質性の面でかなり特
性の異なる男女の顔表情画像データベースを利用し，
いる場面であり，多方向へのある程度大きい動きの中
で，驚きの表情から嫌悪の表情を経て，安堵感と苦笑
Russel の感情円環の２座標軸を感情の指標として，
人間の主観評価値がとる分散と同程度またはそれより
いの表情へと変化していくものである．
高い精度で計測をすることが可能となった．特に女性
9
参考文献
のデータベースは良質の顔表情データを備えており，
その測定誤差の平均値が 0.5 程度という実用的なレベ
[1] P.エクマン， W.V.フリーセン著，工藤訳 :"表情分
析入門 "，誠信書房 (1987).
ルでの計測が可能であることが分った．
４種類の注視特性による効果にはあまり大きな違
[2] 竹原卓真，野村理朗編著： "｢顔」研究の最前線 ",
北大路書房 (2005).
いはなかったが， DB1 ではフィルタ範囲 n = 15 とした
ガウス加算法， DB2 では n = 29 画素とした閾値２値化
[3]
法の有効性が実験的に示された．今回は，男女の５表
情の画像に対する注視点位置情報の総和をとって用い
J.A.Russell ： "A Circumplex Model of Affect”, J.
Personality and Social Psychology, 39, pp.11611178(1980).
[4] 金子正秀： "顔に対する工学的取扱い ", 日本顔学
会誌， 8, 1, pp.3-20(2008).
たが，今後，視線移動の時間的要因や移動速度の情報
など，生理的・心理的な知見を参考にして，より複雑
[5] 赤松茂： "人間とコンピュータによる顔表情の認
識 [I][II][III][IV]”，電子情報通信学会誌， Vol's.
85-86, No's.9,10,12,1 (2002, 2003).
な注視特性を組み込む必要があるだろう．具体的には，
表情ごとに異なる注視特性を切り替えること，視線移
動速度により注目度の強度を変化させ，注視点間の関
連性を重み係数として考慮に入れること等が考えられ
[6] M.Pantic
and
L.J.M.Rothkrantz ： "Automatic
Analysis of Facial Expressions : The State of the Art”,
IEEE Trans. PAMI, 22, 12, pp.1424-1445 (Dec.2000).
る．
正準相関分析の分解は学習時の計算量の低減に大き
[7] W.Zheng, X.Zhou, C.Zou and L.Zhao ： "Facial
Expression Recognition Using Kernel Canonical
Correlation Analysis (KCCA),” IEEE Trans. Neural
Network., 17, 1, pp.233-238 (2006).
く貢献できることが分った．主成分分析の過程におけ
る次元数の変化では，場合によっては次元を減らした
方が小さい誤差となることもあり，今後も次元数と注
[8] 坂口竜己，山田寛，森島繁生： "顔画像を基にし
た３次元感情モデルの構築とその評価”電子情報
通信学会論文誌， J80A, 8, pp.1279-1284 (1997).
視特性手法の関係について考察する必要があることが
分った．
[9] 永田明徳，金子正秀，原島博： "平均顔を用いた
顔印象分析 ”，電子情報通信学会論文誌， J80A, 8,
pp.1266-1272 (1997).
カーネルＣＣＡは通常のＣＣＡに比べて DB1 で平
均的に約 11％の誤差を低減させたが， DB2 ではほと
んど効果が見られなかった．この相違の原因について
[10] 赤穂昭太郎： "カーネル正準相関分析 "， 2000 年
情報論的学習理論ワークショップ (July 2000).
は，５ .２ .２で述べたような２つのデータベースの均
質性やデータ間の関連性の違いにより説明することが
[11] K.Delac and M.Grgic, eds. : Face Recognition, ITECH Education and Pub.(2007).
可能である．カーネルのパラメータは実験的に a =
[学習データの個数 ]のときに最も小さい誤差を得たが，
[12] Z.Zeng, M.Pantic, G.I.Roisman, and T.S.Huang : "A
Survey of Affect Recognition Methods: Audio, Visual,
and Spontaneous Expressions," IEEE Trans. PAMI, 31,
1,pp.39-58(2009).
カーネルパラメータの推測は困難なことが知られてお
り今後の検討が必要である．
本提案手法による更に正確な測定とその実用化の
[13] T.Kanade, J.F.Cohn and Y.Tian ： "Comprehensive
database for facial expression analysis", Proc. 4-th
IEEE Int. Conf. Automatic Face & Gesture Recog., pp.
46-53 (2000).
ためには，顔領域の抽出と顔の部分要素の正確な位置
推定による測定対象画像の正規化とその自動化が欠か
せない．顔追跡と部分要素の位置推定のためには様々
[14] M.J.Lyons, S.Akamatsu, M.Kamachi and J.Gyoba：
“Coding Facial Expressions with Gabor Wavelets,”
Proc. 3-rd Int. Conf. Automatic Face & Gesture
Recog. , pp.200- 205, (Apr.1998).
な手法が研究されているが，計算量や手法の複雑度が
本手法の２次元画像処理と適合するものを利用するこ
とが重要であろう．
[15] M.Kirby and L.Sirovich: "Application of the
Karhunen-Loeve Procedure for the Characterization of
Human Faces," IEEE Trans. PAMI, 12, 1, pp.103-108
(1990).
謝辞
本研究には科学研究費補助金（基盤研究 (C),
20500194) および九州大学ユーザーサイエンス機構
[16] Fuji Television Network et.al.：映画 "スウィングガ
ールズ " (2004).
（文部科学省平成１６年度科学技術振興調整費戦略的
拠点育成プログラム受託業務）の支援を戴いた．
10
たに
たくや
さかた
谷卓哉 [非会員 ]
2007年九州芸術工科大学画像設計
学科卒業． 2009年九州大学大学院芸
術工学府修士課程修了．同年東京エ
レクトロン九州 (株 )入社，ソフト技
術部勤務．在学中は，顔表情画像の
認識・計測処理に関する研究に従事．
はせがわ
[非会員 ]
2008年九州大学芸術工学部画像設
計学科卒業．現在同大学大学院芸術
工学府修士課程２年在学中．顔表情
画像の認識・計測処理に関する研究
に従事．
さかもと
かどた
廉田
ひろし
浩
[非会員 ]
1974 年京都大学大学院修士課程修了．
同年松下電器産業 ( 株 ) 入社． MPU,
連想メモリ，並列計算機の研究開発
に従事． 2002 年九州芸術工科大学教
授， 2003 年九州大学大学院芸術工学
研究院教授，現在に至る．京大工博．
画像処理，メディアプロセッサアー
キテクチャの研究に従事．電子情報
通信学会会員．
ひろやす
坂本博康
[非会員 ]
1977 年九州大学大学院博士課程中
途退学，同年九州大学理学部数学科
助手．熊本大学を経て， 2000 年九州
芸術工科大学教授， 2003 年九州大学
大学院芸術工学研究院教授，現在に
至る．理学博士．主として，多変量
解析，計算代数統計学の研究に従事．
日本統計学会，日本数学会，アメリ
カ数学会， IEEE，等の会員．
こうじ
長谷川浩司
としお
坂田年男
[非会員 ]
1975年九州工業大学電子工学科卒
業． 1977年同大学大学院修士課程修
了．同年同大学助手， 1986年九州芸
術工科大学講師， 2003年同教授．統
合により現在，九州大学大学院芸術
工学研究院教授．博士（工学）．計
算機視覚，顔画像処理，画像計測な
どの研究に従事．電子情報通信学会，
情報処理学会，映像情報メディア学
会，各会員．
ふくしま
しげひろ
福島重廣
[非会員 ]
1971年京都大学工学部卒業， 1973
年同大学院修士課程修了．運輸省電
子航法研究所，京都工芸繊維大学，
九州工業大学を経て， 1997年九州芸
術工科大学大学院教授． 2003年九州
大学大学院芸術工学研究院教授，現
在に至る．京大工博．画像処理と医
用画像工学を中心に多様な画像関連
技術に関する研究に従事． IEEE，電
子情報通信学会，医用画像工学会，
等の会員．
11
A Method for Measuring Emotion of Facial Expression Images
by Using CCA and Gazing Property
by
Takuya TANI, Kouji HASEGAWA, Hiroyasu SAKAMOTO,
Toshio SAKATA, Hirosi KADOTA and Shigehiro FUKUSHIMA
Abstract：
This paper proposes a method for measuring and estimating emotion level of a facial expression
image by using canonical correlation analysis (CCA) and Kernel CCA (KCCA). According to well
known circumplex model of emotion by J.A.Russel, we adopt a scheme of representing emotion by
two coordinate axes of valence and arousal. Our CCA and KCCA analyze two groups of variables :
1) gray scale images of facial expressions, and 2) their subjectively evaluated values of emotion in
the two coordinate axes. In order to reduce error or uncertainty of estimation for emotion level,
several weighting functions for reading facial expression are assembled from human gazing property
of eye tracking data. Due to insufficient number of training image samples, CCA method often gets
into difficulty of singular covariance matrices. A solution for the difficulty is proposed in this
paper by introducing intermediate variables via principal component analysis (PCA). Property of
nonlinear KCCA method with Gaussian kernel is compared to that of CCA method. The method is
applied to databases of still images and movie images of facial expressions. The experimental
results show that the proposed method is effective in the sense that it can estimate the level of
emotion from facial expression images with comparable estimation uncertainty to human observers.
Keywords :
Facial expression image, Emotion, Gazing property, Canonical Correlation Analysis,
Kernel CCA.
Contact Address : Hiroyasu SAKAMOTO
Faculty of Design, Kyushu University
4-9-1 Shiobaru, Minami-ku, Fukuoka 815-8540, Japan
Tel&Fax : 092-553-4506
E-mail : [email protected]
12

Download Report