k˙ı¸s˙ıl˙ık ˙ızlen˙ımler˙ın˙ın sürekl˙ı kest˙ır˙ım˙ı contınuous predıctıon

˙ IK
˙ IZLEN
˙
˙
˙ IN
˙ SÜREKLI˙ KESTIR
˙ IM
˙ I˙
KI˙S¸ IL
IMLER
IN
CONTINUOUS PREDICTION OF TRAIT IMPRESSIONS
Oya Çeliktutan ve Hatice Gunes
School of Electronic Engineering and Computer Science
Queen Mary University of London, United Kingdom
{o.celiktutandikici,h.gunes}@qmul.ac.uk
Özetçe —Bu bildiride, ki¸silik izlenimlerinin kestirimi problemi
˙
yeni bir bakı¸s açısıyla ele alınmı¸stır. Ilkin,
referans de˘geri
olu¸sturulurken, harici gözlemciler sürekli olarak, 0-100 arası
puan vererek de˘gerlendirme yapmı¸slar, böylece uzam ve zamanda
˙
sürekli de˘gerleme grafikleri elde edilmi¸stir. Ikinci
olarak, Be¸s
Faktör Ki¸silik Kuramına ilaveten de˘gerleyicilerin güvenirlili˘gini
ölçmek amacıyla dört özellik daha göz önünde bulundurulmu¸stur.
Öncül deneysel sonuçlar insan-sanal karakter etkile¸simi kapsamında önerilen yakla¸sımların ba¸sarımını göstermektedir.
Anahtar Kelimeler—Ki¸silik, Be¸s Faktör Ki¸silik Kuramı, veri
de˘gerleme, sürekli kestirim
Abstract—In this paper, we address perceived personality
trait prediction problem from a novel perspective. First, in the
course of generating ground-truth, we ask external observers to
continuously provide ratings along multiple dimensions ranging
from 0 to 100 along time, and we generate continuous annotations
in space and time. Secondly, in addition to the widely used Big
Five personality dimensions, we introduce four more dimensions
which has the potential to gauge the reliability of the perceived
social and trait judgements. Preliminary results demonstrate the
viability of the proposed approach in the context of interactions
between a human subject and virtual characters.
Keywords—Personality, Big Five Factor Model of Personality,
data annotation, continuous prediction
I. G ˙IR ˙I S¸
Ki¸silik özelliklerinin analizi üzerine psikoloji alanında
yıllardır çalı¸sılmaktadır. Yapılan ara¸stırmalar insanın ki¸silik
özelliklerinin arkada¸slık ili¸skileri, akademik kariyerde ba¸sarı,
ilaç kullanımına e˘gilim gibi günlük hayattaki davranı¸sları,
yetenekleri ve tercihlerine büyük etkisi oldu˘gunu göstermi¸stir.
Bu öneminden ötürü, son yıllarda video görüntülerinden ki¸silik özelliklerini kestirme bilgisayarla görü ve psikolojinin
kesi¸sti˘gi, kritik uygulama alanları bakımından önemli bir
ara¸stırma konusu olmu¸stur. Örne˘gin, insan-makine etkile¸simi
ba˘glamında, insanların ihtiyaçlarına daha iyi kar¸sılık veren
akıllı sistemler geli¸stirmek için ki¸silik özelliklerini kestirmek
s¸arttır. Bu tür akıllı sistemler sanal gerçeklik, robotik, çevresel
zeka alanında ve e˘glence-oyun sektöründe gittikçe yaygınla¸smaktadır.
En sık kullanılan Be¸s Faktör Ki¸silik Kuramı insan ki¸sili˘ginin be¸s ana özellikte kendini gösterdi˘gini savunmaktadır.
Bu be¸s özellik s¸öyle sıralanabilir: (i) Sorumluluk (öz disiplin,
düzenli, dikkatli, itaatkar); (ii) Uyumluluk (güvenilir, yumu¸sak
ba¸slı, fedakar, alçak gönüllü); (iii) Duygusal Dengesizlik (kendisine güvenmeyen, olumsuz duygulanımlara yatkın, endi¸seli,
gergin, sinirli); (iv) Yeniliklere açıklık (hayal kuran, maceracı,
c
978-1-4799-4874-1/14/$31.00 2014
IEEE
yaratıcı, meraklı); (v) Dı¸sadönüklülük (arkada¸s canlısı, sosyal,
pozitif, enerjik, ne¸seli).
Bu be¸s özelli˘gi kestirmek amacıyla, Batrinca ve ark.
[1] deneklerin kendilerini tanıttıkları kısa sunumları ele
almı¸slardır. Her denek aynı zamanda bir anket doldurarak
ki¸sili˘gini özde˘gerlendirmi¸s, her özelli˘gin derecesi örne˘gin 17 arası bir puan ile ölçülmü¸stür. Deneklerin hal ve tavırları
perde, akustik ye˘ginlik, devinim genli˘gi, bakı¸s yönü, mimikler,
vücut duru¸su, el-ba¸s hareketleri gibi hem i¸sitsel hem de görselveriye dayalı öznitelikler ile betimlenmi¸stir. Elde edilen çokkipli öznitelikler ile anket sonuçları arasındaki ili¸ski destek
vektör makinaları kullanılarak modellenmi¸stir. Bunu takiben,
önerilen yöntem [2]’de farklı bir senaryoya uygulanmı¸stır. Her
denek uyumludan uyumsuza de˘gi¸sen karakterlere sahip sanal
etmenlerle i¸sbirli˘gi yaparak bilgisayar ekranında bir görevi
yerine getirmeyi amaçlamaktadır.
Bazı çalı¸smalar ise özde˘gerlendirme yerine harici gözlemciler tarafından yapılan ki¸silik de˘gerlendirmelerini kullanmı¸slardır. Bir ba¸ska deyi¸sle harici gözlemcilerin denek
ile ilgili izlenimleri baz alınmı¸s ve kitle kaynaklı çalı¸sma
yoluyla (örne˘gin, Amazon Mechanical Turk) referans de˘geri
olu¸sturulmu¸stur. Bu çalı¸smalar arasında, Biel ve ark. [3]
Youtube sosyal payla¸sım sitesine yüklenen videolar üzerine
yo˘gunla¸smı¸s, çerçeve ba¸sına duygulanımı (mutluluk, üzüntü,
kızgınlık vb.) saptamı¸s ve buradan çıkardıkları özniteliklere
destek vektör ba˘glanım (support vector regression) analizi
uygulamı¸slardır. Aran ve Gaticia-Perez [4] ise grup toplantısı
senaryolarını göz önüne almı¸s ve devinim enerji imgeleri
(motion energy images), ba¸s-vücut hareketleri, konu¸sma etkinli˘gi, dene˘gin konu¸surken ne kadar ilgi topladı˘gı, di˘gerlerine
ne kadar ilgi gösterdi˘gi, kameraya uzaklı˘gı gibi zengin bir
öznitelik kümesini hesaba katmı¸slardır. Aynı do˘grultuda, Subramanian ve ark. [5] denek ile di˘gerleri arasındaki mesafe,
belirli bir zaman aralı˘gında dene˘gin hızı, ba¸s pozuna dayalı bir
takım öznitelikleri kokteyl partisi kapsamında ele almı¸slardır.
Bu çalı¸smanın amacı benzer s¸ekilde video görüntüsünden
bir insanla ilgili izlenimlerin kestirilmesidir; gradyan ve optik
akı¸s histogramları do˘grusal ba˘glanım analizi ile birlikte insansanal etmen etkile¸simi kapsamında kullanılmı¸stır. Bu çalı¸sma
ancak izlenimlerin tanımlanması, elde edilmesi ve kestirilmesi
problemine farklı bir açıdan bakmaktadır. Yapılan çalı¸smanın
katkısı iki madde altında özetlenebilir:
Önceki çalı¸smalarda [3], [4], de˘gerleyiciler (harici gözlemciler) bütün klibi izledikten sonra her özellik için genel
bir puan vermi¸slerdir. Aksine, bu çalı¸smanın odak noktası
de˘gerleyicilerin izlenimlerinin zamanda de˘gi¸simini gözlemlemek, hangi ki¸silik özelli˘ginin dinamik ya da statik olarak
algılandı˘gını irdelemek ve bu izlenimleri uzam ve zamanda
Tablo I: Her bir klip toplamda 9 özellik bakımından iki farklı
düzenekte de˘gerlendirilmi¸stir.
Kod adı
SO
UY
DE
AÇ
DI
IL
YÇ
SÇ
BE
Sekil
¸
1: SEMAINE veritabanından örnek çerçeveler [8].
sürekli olarak kestirmektir. Bilgisayarla görü camiasında,
duygulanımın sürekli kestirimi [6] oldukça ara¸stırılan bir problem olmasına ra˘gmen, bildi˘gimiz kadarı ile ki¸silik izlenimlerinin sürekli kestirimi s¸u ana kadar ele alınmamı¸stır. Bu
amaçla, de˘gerleyiciler klibi izlerken aynı zamanda bir arayüz
aracılı˘gıyla sürekli olarak, örne˘gin, bir dakika boyunca sürekli,
0-100 arası puan vermi¸slerdir.
Çalı¸smanın di˘ger bir katkısı ise izlenimleri betimlemek
amacıyla ilave dört özelli˘gin daha dikkate alınmı¸s olmasıdır.
Bu sosyal özellikler s¸öyle sıralanabilir: (i) ˙Ilgili olma (dene˘gin
sanal-etmen ile konu¸surken ne kadar hevesli oldu˘gu); (ii)
Yüzün çekicili˘gi (yüzün çekici olarak algılanıp algılanmaması); (iii) Sesin çekicili˘gi (sesin çekici olarak algılanıp
algılanmaması); (iv) Be˘genilebilirlik (dene˘gin genel olarak
sevilip sevilmedi˘gi). Biz insanlar do˘gamız gere˘gi bir ki¸siyi
güzel ya da çekici bulmamız, sevmemiz o ki¸si hakkındaki genel görü¸sümüzü veya di˘ger özellikleri hakkındaki
yargılarımızı yönlendirir (bkz. Halo etkisi [7]). Bu nedenle,
bu özellikler ile Be¸s Faktör Ki¸silik Kuramı arasındaki ili¸skiyi incelemek bireysel yargıların ne kadar güvenilir oldu˘gu
konusunda ipucu verecektir.
˙Izlenimlerin yukarıda tanımlanan dokuz özellik bakımından (Be¸s Faktör Ki¸silik Kuramı ve 4 sosyal özellik) kestirilmesi amacıyla uzamda ve zamanda sürekli olarak elde
edilen de˘gerlendirmeler iki farklı yakla¸sımda kullanılmı¸stır: (i)
Uzamda sürekli kestirim (USK) ve (ii) Uzam-zamanda sürekli
kestirim (UZSK). Önerilen yakla¸sımların ba¸sarımı insan-sanal
etmen etkile¸simi kapsamında test edilmi¸stir.
˘
II. VER ˙I VE DE GERLEME
Veri. SEMAINE veritabanı [8] bir insan ile farklı sanal
karakterler arasındaki etkile¸simi içeren do˘gal video kayıtlarından olu¸smaktadır. Bu çalı¸smada SEMAINE veritabanından her
biri 3 farklı yarı-otomatik karakter (Poppy, Obadiah, Spike) ile
sohbet eden 10 denek, toplamda 30 video kaydı kullanılmı¸stır.
De˘gerleyicilerin i¸s yükünü hafifletmek amacıyla sanal karakterlerden biri (Prudence) göz ardı edilmi¸stir ve her bir video kaydı
kırpılarak 60 sn.’lik klipler olu¸sturulmu¸stur. Örnek çerçeveler
Sekil
¸
1’de gösterilmi¸stir.
De˘gerleme. Klipler ya¸sları 23 ile 53 arasında de˘gi¸sen,
ço˘gunlukla doktora ö˘grencilerinden olu¸san 21 ücretli katılımcı
tarafından de˘gerlendirilmi¸stir. Katılımcılar her bir klibi 4 ya da
5 özellik bakımından de˘gerlemi¸stir ve her bir seans ortalama
olarak 4.5 saat sürmü¸stür.
De˘gerleme i¸slemi iki haftada iki ayrı düzenekte tamamlanmı¸stır: (i) görsel ve (ii) i¸sitsel-görsel. Görsel de˘gerleyiciler
klibi izlerken herhangi bir ses duymamı¸slar, sadece görsel
ipuçlarına (dene˘gin mimikleri, el-ba¸s hareketleri, duru¸su vb.)
dayanarak karara varmı¸slardır. Toplamda 16 de˘gerleyici (9
kadın, 7 erkek) 8 özellikten (Be¸s Faktör Ki¸silik Kuramı ve
ilgili olma, yüz çekicili˘gi, be˘genilebilirlik) 4 ya da 5’i bakımından puan vermi¸s, böylece her bir klip için toplamda 32-40
Özellik
Sorumluluk
Uyumluluk
Duygusal dengesizlik
Yeniliklere açıklık
Dı¸sadönüklülük
˙Ilgili olma
Yüzün çekicili˘gi
Sesin çekiçili˘gi
Be˘genilebilirlik
100
100
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
˙sitsel-görsel
I¸
√
Görsel
√
√
√
√
√
√
√
√
√
√
√
√
10
0
0
100
200
300
400
500
600
700
800
900
100
200
300
400
500
600
700
800
900 1000 1100 1200
Sekil
¸
2: ˙Ilgili olma için farklı katılımcılar tarafından sa˘glanan
örnek de˘gerleme verisi. Sa˘gdaki s¸ekil görsel-de˘gerlemeye, soldaki ise i¸sitsel-görsel-de˘gerlemeye kar¸sılık gelmektedir. Kırmızı tireli çizgi ortalama de˘gerleme grafi˘gini temsil etmektedir.
de˘gerleme elde edilmi¸stir. ˙I¸sitsel-görsel de˘gerleyiciler ise aynı
zamanda dene˘gin sanal karakter ile sohbetini de dinlemi¸slerdir.
Görsel de˘gerleyicilere hangi özelli˘gi ses olmadan ölçmenin zor
oldu˘gunu sorduk, aldı˘gımız geri bildirime göre sorumluluk,
uyumluluk, açıklık ve ilgili olma özelliklerini i¸sitsel-görsel
de˘gerleme için seçtik, ayrıca yüz çekicili˘ginin kar¸sılı˘gı olarak
ses çekicili˘gini de hesaba kattık. ˙Ilk katılımcılardan farklı 5
de˘gerleyici (2 kadın, 3 erkek) seçilen 5 özellik bakımından
izlenimlerini sa˘glamı¸slardır, böylece her bir klip için toplamda
25 de˘gerleme elde edilmi¸stir. De˘gerlenen özellikler Tablo I’de
özetlenmi¸stir.
De˘gerleme sırasında katılımcılar bir arayüz [9] kullanarak
hem klibi izlemi¸sler, hem de aynı zamanda bir çubu˘gu sa˘ga
sola kaydırarak bir dakika boyunca sürekli 0-100 arası puan
vermi¸slerdir. Arayüz çubu˘gun durdu˘gu yeri (puanı) belli zaman aralıklarında, örne˘gin her 50 msn.’de, kaydetmi¸stir. ˙Ilgili
olma için örnek görsel ve i¸sitsel-görsel de˘gerleme grafikleri
Sekil
¸
2’de sunulmu¸stur. Görüldü˘gü gibi de˘gerleyiciler çe¸sitli
ölçeklerde puan vermi¸s olmakla birlikte puan verme tarzları
benzerdir. Mesela bu durum i¸sitsel-görsel de˘gerlemede daha
belirgindir, biri hariç bütün de˘gerleyiciler gittikçe artan puan
vermi¸slerdir. Aynı s¸ekilde benzer davranı¸slar görsel de˘gerlemede de görülebilir.
De˘gerlemelerin analizi. Akıllı arayüzler geli¸stirirken en
büyük zorluklardan biri farklı de˘gerleyiciler tarafından verilen
puanlardan güvenilir referans de˘geri elde etmekdir. Özellikle,
sürekli kestirim söz konusu oldu˘gunda de˘gerleyicilerin stili,
zaman gecikmesi gibi faktörlerle problem daha karma¸sık
bir hal almaktadır. Ayrıca her bir de˘gerleyicinin öznel puan
ölçeklendirmesi birbirinden çok farklı olabilir. Bu nedenle
literatürdeki genel yakla¸sım [6] de˘gerleme grafiklerini mutlak
de˘gerler yerine ba˘gıl de˘gerler (grafikte artı¸s, dü¸sü¸s ya da düzlük) cinsinden kar¸sıla¸stırmaktır. Biz de aynı amaçla herhangi
bir analizden önce her bir de˘gerleme grafi˘gini ortalaması 0 ve
standart sapması 1 olacak s¸ekilde normalize ettik.
Tablo II: Seçilen de˘gerleyiciler arasındaki uyu¸sma Pearson’un
ilinti katsayısı ve Cronbach’ın alfa katsayısı ile ölçülmü¸stür.
Parantez içindeki de˘gerler bütün de˘gerleyiciler arasındaki
uyu¸sma derecesini vermektedir.
Pearson
SO
UY
DE
AÇ
DI
IL
YÇ
SÇ
BE
0.42
0.47
0.46
0.44
0.47
0.51
0.44
Görsel
Cronbach
(0.16)
(0.40)
(0.34)
(0.27)
(0.38)
(0.40)
(0.27)
0.47 (0.36)
0.80
0.84
0.88
0.82
0.85
0.87
0.80
(0.61)
(0.80)
(0.82)
(0.69)
(0.80)
(0.81)
(0.70)
0.84 (0.78)
˙I¸sitsel-görsel
Pearson
Cronbach
0.58 (0.35)
0.53 (0.29)
0.59 (0.21)
0.58 (0.41)
0.64 (0.36)
-
0.82 (0.47)
0.75 (0.47)
0.81 (0.09)
0.82 (0.58)
0.86 (0.55)
-
Literatürde de˘gerleyici güvenebilirli˘gini ya da de˘gerleyiciler arasındaki uyu¸smayı ölçmek için ilintiye dayalı yöntemler
oldukça yaygındır. Zamanla de˘gi¸sen veriler göz önünde bulunduruldu˘gunda bu tür yöntemlerin do˘grudan uygulanması iyi
sonuç vermemektedir. Di˘ger taraftan, dinamik zaman bükmesi
(dynamic time warping) bu tür zamanla de˘gi¸sen verilerin
hizalanması için oldukça etkin bir yöntemdir. Kısaca, dinamik
zaman bükmesi iki dizi arasındaki, örne˘gin, s ile t, en iyi
hizalamayı birikimli uzaklık toplamını minimize ederek bulur.
Deneylerimizde zamanda e¸sle¸stirme kısıtı 2 sn. olarak belirlenmi¸stir, bir ba¸ska deyi¸sle, s[i] ile t[j]’yi e¸sle¸stirirken, |i − j|
2 sn.’den büyük olamaz.
optik akı¸s histogramları hesaplanmı¸stır. Bu histogramlar ucuca
eklenerek ilgi noktası ba¸sına 162-uzunlu˘gunda bir öznitelik
vektörü elde edilmi¸stir. Bir klipteki dene˘gin hal ve tavırları
yerel betimleyicilerin (öznitelik vektörlerinin) birle¸simi s¸eklinde ifade edilmi¸s ve bu ba˘glamda yaygın olarak kullanılan
Görsel Kelime Torbası (Bag of Visual Words) modellerine
[11] ba¸svurulmu¸stur. Görsel Kelime Torbası (GKT) modelleri temel olarak K-ortalamalar topaklandırması ile bir kod
tablosu olu¸sturur, ve her klibi yerel betimleyicilere rastlama
olasılı˘gı cinsinden sayısal bir gösterime dönü¸stürür. Deneylerimizde topak sayısı K = 32 olarak belirlenmi¸s, ve klip
zaman boyunca 4 sn.’lik dilimlere bölünmü¸s ve her bir zaman
dilimi için ayrı GKT histogramı hesaplanmı¸stır. Tüm klibi
betimlemek için zamana-ba˘glı histogramlar üzerinden ortalama
alınmı¸stır.
˙Izlenimleri kestirmek amacıyla histogramlar ile de˘gerlemeler arasındaki ili¸ski do˘grusal ba˘glanım analizi, özellikle
Lasso ve Ridge ba˘glanım analizi kullanılarak, modellenmi¸stir. Ba˘glanım katsayıları her defasında bir denek e˘gitim
kümesinden harici tutularak (leave-one-subject-out) ö˘grenilmi¸s
ve hedef denek üzerinde test edilmi¸stir.
B. Uzam-Zamanda Sürekli Kestirim (UZSK)
UZSK durumunda her bir klip için referans de˘gerini iki
farklı strateji ile olu¸sturduk: (i) Seçilen de˘gerleme grafiklerinin
uzam boyunca ortalamasını aldık; (ii) Aslında var olmayan bir
de˘gerleme grafi˘gi yaratmak yerine di˘gerleri ile ilintisi en fazla
olan de˘gerleme grafi˘gini referans de˘geri olarak kabul ettik.
Her de˘gerleme çifti dinamik zaman bükmesi ile hizalandıktan sonra, de˘gerleyiciler arasındaki uyu¸smayı Pearson’un
ilinti katsayısı ve Cronbach’ın alfa katsayısı ile ölçtük. ˙Ilinti
de˘gerleri aynı zamanda aykırı de˘gerleyicileri elemek için de
kullanılmı¸stır. Bir klip için N tane de˘gerleyici oldu˘gunu
varsayalım. Her bir de˘gerleyicinin geri kalan N − 1 de˘gerleyici ile ilintisini hesapladık. E˘ger de˘gerleyicinin geri kalanlar
ile ortalama ilintisi belli bir e¸sik de˘gerinden yüksek ise,
söz konusu de˘gerleyici referans de˘geri olu¸stururken hesaba
katılmı¸stır, aksi takdirde göz ardı edilmi¸stir. Tablo II’de verildi˘gi gibi aykırı de˘gerleyicilerin elenmesinden sonra de˘gerleyicilerin güvenebilirli˘gi her iki durumda da artmı¸stır.
III. ˙IZLEN ˙IMLER ˙IN SÜREKL ˙I KEST ˙IR ˙IM ˙I
UZSK yakla¸sımında her bir çerçeveyi zamanda ba˘gımsız
olarak ele aldık ve çerçeve ba¸sına çıkarılan öznitelik vektöründen çerçeveye ili¸skin zaman anında örneklenen puan de˘gerini
kestirmeye çalı¸stık. USK’dan farklı olarak, ilk önce [12]’deki
yüz nirengileme algoritmasını kullanarak her bir çerçeve ba¸sına
49 yüz nirengi noktası saptadık. Daha sonra bu nirengi noktalarının yerel kom¸suluklarında gradyan ve optik akı¸s histogramlarını hesapladık, böylece 49 × 162 = 7938 boyutunda bir
öznitelik vektörü elde ettik. Son olarak Temel Bile¸senler Analizi kullanarak öznitelik uzayının boyutunu 100’e indirgedik.
Çerçeve öznitelikleri ve zamana-ba˘glı puanlamalar arasındaki
ili¸ski USK’da oldu˘gu gibi Lasso ve Ridge ba˘glanım analizi
yöntemleri ile modellenmi¸stir.
Önerilen yöntem iki farklı yakla¸sım ile test edilmi¸stir:
(i) Uzamda Sürekli Kestirim (USK) ve (ii) Uzam-Zamanda
Sürekli Kestirim (UZSK). Amacımız USK’da bütün klip için
genel bir puan elde etmek iken, UZSK yakla¸sımıyla zamanda
sürekli de˘gi¸sen puanlamaları kestirmektir.
IV. DENEYSEL SONUÇLAR VE TARTI SMA
¸
USK ve UZSK yakla¸sımları Tablo I’de verilen 9 ki¸siliksosyal özelli˘gine ili¸skin izlenimleri kestirmek amacıyla kullanılmı¸s, hem görsel de˘gerleme, hem de i¸sitsel-görsel de˘gerleme verileri ile e˘gitilerek ba¸sarımları kar¸sıla¸stırılmı¸stır. Tablo
III kestirim sonuçlarını özetlemektedir. Referans de˘geri ile kestirilen de˘gerler arasında en küçük kareler hatası (MSE: Meansquare Error) ve Pearson’s ilinti katsayısı (COR) hesaplanarak
önerilen yakla¸sımların ba¸sarımları ölçülmü¸stür. De˘gerleme
grafikleri normalize edildi˘ginden (ortalaması 0 ve standart
sapması 1) olabilecek en büyük MSE de˘geri 4’dür.
A. Uzamda Sürekli Kestirim (USK)
Bütün klip için toplam bir puan 60 sn. üzerinden de˘gerleme grafi˘ginin ortalaması alınarak belirlenmi¸stir. Bölüm II’de
önerilen yöntem kullanılarak seçilen de˘gerleyicilerin toplam
puanlarının ortalaması alınmı¸s ve referans de˘geri olu¸sturulmu¸stur. Böylece her klip için 0-100 arası toplam bir puan elde
edilmi¸stir.
Öznitelik çıkarmak amacıyla ilk önce uzam-zaman ilgi
noktalarını 3B Harris kö¸se dedektörü ile tespit ettik ve bu noktaların yerel kom¸suluklarını gradyan ve optik akı¸s histogramları [10] ile betimledik. ˙Ilgi noktalarının yerel kom¸sulu˘gu
M ×M ×N (örne˘gin, 3×3×2) uzam-zamansal bloklara bölünmü¸s ve her blok için sırasıyla 4-seleli ve 5-seleli gradyan ve
Tablo III-a USK durumunda en iyi sonuçların yüz çekicili˘gi ve be˘genilebilirlik için elde edildi˘gini göstermektedir
(COR>0.7). Bu sonuç beklentilerimiz ile de aynı do˘grultudadır,
çünkü de˘gerleyiciler bu boyutları de˘gerlendirmede en kolay
bulmu¸slardır. Önerilen yakla¸sım ile aynı zamanda uyumluluk,
dı¸sadönüklülük ve duygusal dengesizlik için de iyi ba¸sarım
elde edilmi¸s (COR>0.55), bu özellikleri ilgili olma ve açıklık
takip etmi¸stir. Bunun nedeni s¸öyle açıklanabilir: Bu boyutlar,
özellikle ilgili olma, di˘ger boyutlara nispeten daha dinamik
olarak algılanmaktadır, bu nedenle zamanda de˘gi¸sen de˘gerleme
grafi˘ginin ortalaması alınarak elde edilen toplam bir puan
iyi sonuç vermemektedir. ˙I¸sitsel-görsel de˘gerlemelerle e˘gitmek
en çok sorumluluk özelli˘ginin kestirim ba¸sarımını artırmı¸stır.
Di˘ger taraftan, di˘ger bütün özellikler için ba¸sarım oldukça
dü¸süktür. ˙I¸sitsel-görsel de˘gerleyiciler görsel ipuçlarından daha
çok sözel içeri˘ge göre dene˘gi yargılamı¸s olabilirler. Bu nedenle
önerilen yakla¸sımın sadece görsel öznitelikler ile i¸sitsel-görsel
de˘gerlemeler arasında bir ili¸ski kuramadı˘gı sonucuna vardık.
Aynı zamanda sözel içerikten de öznitelikler çıkarılarak bu
problem giderilebilir. Aynı s¸ekilde önerilen yakla¸sım görsel
öznitelikler ile ses çekicili˘gi arasında da bir ili¸ski bulamamı¸stır.
Literatürde ki¸silik özelliklerinin kestirilmesi üzerine birçok
yöntem olmakla birlikte kullanılan veritabanlarının içeri˘gi,
de˘gerleme yöntemi ve ba¸sarım hesaplama ölçütleri birbirinden
çok farklıdır. Biz yine de en yakın yöntemler [2]–[4] ile
önerilen yakla¸sımı kar¸sıla¸stırdık. Dı¸sadönüklülük sıklıkla en
kolay kestirilebilen özellik olarak rapor edilmi¸stir. Örne˘gin,
Aran ve Gaticia-Perez [4] görsel de˘gerleme verilerini grup
toplantısı senaryosunda kullanmı¸stır. En iyi sonucu devinim
enerji imgeleri ile dı¸sadönüklülük için elde etmi¸sler (R2 =
0.31), buna kar¸sın di˘ger özellikler için R2 de˘geri 0.1’den dü¸sük
bulunmu¸stur. Benzer sonuçlar duygulanım ve i¸sitsel-görsel
öznitelikler ile [3]’de de rapor edilmi¸stir. Batrinca ve ark.
[2] ise kestirim problemini bir sınıflandırma problemi olarak
formüle etmi¸s ve i¸sitsel-görsel öznitelikler ile dı¸sadönüklülük
ve duygusal dengesizlik için yüksek ba¸sarım elde etmi¸slerdir.
Aynı do˘grultuda, biz de dı¸sadönüklülük ve duygusal dengesizlik için yüksek ba¸sarım elde ettik, sırasıyla R2 = 0.311
ve R2 = 0.43. Aynı zamanda önerilen yakla¸sım uyumluluk
(R2 = 0.31) ve açıklık (R2 = 0.26) özelliklerini de ba¸sarılı
bir s¸ekilde kestirmektedir.
Tablo III-b UZSK yakla¸sımı için daha iyi sonuçlar verdi˘gi
gerekçesiyle sadece birinci strateji ile elde edilen kestirim
sonuçlarını sunmaktadır, yani referans de˘geri seçilen de˘gerlemelerin uzamda ortalaması alınarak olu¸sturulmu¸stur. ˙Ilk
bakı¸sta COR de˘gerlerinin USK’ya kıyasla daha dü¸sük oldu˘gu
s¸a¸sırtıcı gelebilir, ancak bu tür sonuçlar sürekli kestirim
alanında yaygındır. Örne˘gin, duygulanım alanında benzer bir
yakla¸sım [13] en iyi COR = 0.22 elde etmi¸stir. Önerilen
yöntem bütün özellikler için kabul edilebilir ba¸sarım verirken
(COR>0.1), USK yakla¸sımında oldu˘gu gibi ses çekicili˘gi için
herhangi bir ili¸ski bulamamı¸stır. Genel olarak, yine en iyi
sonuçlar algoritma görsel de˘gerlemeler ile e˘gitildi˘ginde elde
edilmi¸stir.
V. VARGILAR
Bu bildiride di˘ger insanlarla ilgili izlenimlerin kestirimi
problemine yeni bir bakı¸s açısından baktık, yani algılanan
ki¸silik-sosyal özelliklerin uzam ve zamanda sürekli kestirimini
ele aldık. USK yakla¸sımı görsel de˘gerlemeler referans olarak
alındı˘gında dı¸sadönüklülük, duysusal dengesizlik, uyumluluk
ve açıklık için yüksek ba¸sarım vermektedir. Öncül deneysel
sonuçlar aynı zamanda UZSK yakla¸sımını kavram olarak
kanıtlamı¸stır. UZSK yöntemi iki yönden geli¸stirilecektir: (i)
Çok kipli zengin bir öznitelik kümesi hesaba katılacaktır;
(ii) Her çerçeçeveyi birbirinden ba˘gımsız olarak ele almak
yerine çevçevelerin zamandaki ili¸skisi ardı¸sıl yöntemler ile
modellenecektir.
1 R2
Pearson ilinti katsayısının karesi alınarak hesaplanmı¸stır.
Tablo III: MSE ve COR cinsinden kestirim sonuçları. MSE
de˘gerleri parantez içinde verilmi¸stir. En iyi COR sonuçları her
satır (özellik) için koyu yazı karakteri ile belirtilmi¸stir. ˙Ihmal
edilebilir COR de˘gerleri * ile gösterilmi¸stir, yani p > 0.05.
SO
UY
DE
AÇ
DI
IL
YÇ
SÇ
BE
(a) USK
Lasso
Ridge
˙I¸sit.˙I¸sit.Gör.
Gör.
Gör.
Gör.
0.43
0.45
*
*
(0.03)
(0.02)
0.56
*
*
*
(0.03)
0.66
0.52
(0.07)
(0.05)
0.51
0.36
*
*
(0.03) (0.05)
0.56
*
(0.04)
0.42
*
*
(0.04)
0.77
0.85
(0.07)
(0.04)
*
0.53
0.75
(0.18)
(0.03)
(b) UZSK
Lasso
Ridge
˙I¸sit.˙I¸sit.Gör.
Gör.
Gör.
Gör.
0.11
0.10
*
*
(0.42)
(0.37)
0.16
0.24
*
*
(0.55)
(0.44)
0.13
0.18
(0.49)
(0.38)
0.10
0.14
*
(0.56)
(0.41)
0.17
0.19
(0.47)
(0.39)
0.15
0.12
0.19
0.12
(0.47) (0.80) (0.41) (0.65)
0.11
0.13
(0.55)
(0.40)
*
*
0.17
0.21
(0.54)
(0.41)
ACKNOWLEDGMENT
This work is supported by the EPSRC MAPTRAITS
Project (Grant Ref: EP/K017500/1).
K AYNAKÇA
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
L. M. Batrinca, N. Mana, B. Lepri, F. Pianesi, and N. Sebe, “Please,
tell me about yourself: Automatic personality assessment using short
self-presentations,” in Proc. of ICMI, 2011.
L. Batrinca, B. Lepri, N. Mana, and F. Pianesi, “Multimodal recognition
of personality traits in human-computer collaborative tasks,” in Proc.
of ACM ICMI, 2012.
J. I. Biel, V. Tsiminaki, J. Dines, and D. Gatica-Perez, “Hi youtube!:
Personality impressions and verbal content in social video,” in Proc. of
ACM ICMI, 2013.
O. Aran and D. Gatica-Perez, “One of a kind: Inferring personality
impressions in meetings,” in Proc. of ACM ICMI, 2013.
R. Subramanian, Y. Yan, J. Staiano, O. Lanz, and N. Sebe, “On
the relationship between head pose, social attention and personality
prediction for unstructured and dynamic group interactions,” in Proc.
of ACM ICMI, 2013.
A. Metallinou and S. S. Narayanan, “Annotation and processing of
continuous emotional attributes: Challenges and opportunities,” in Proc.
of Int. Workshop on Emotion Representation, Analysis and Synthesis in
Continuous Time and Space, 2013.
Wikipedia, “Halo effect,” http://en.wikipedia.org/wiki/Halo_effect, accessed at January 2014.
G. McKeown, M. Valstar, R. Cowie, M. Pantic, and M. Schroder, “The
semaine database: Annotated multimodal records of emotionally colored
conversations between a person and a limited agent,” IEEE TAC, vol.
3, no. 1, pp. 5–17, 2012.
B. P. Motichande, “A graphical user interface for continuous annotation
of non-verbal signals,” Final Project, BSc FT Computer Science, Queen
Mary University of London, UK, 2013.
I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld, “Learning
realistic human actions from movies,” in Proc. of IEEE CVPR, 2008.
J. Sivic and A. Zisserman, “Video google: a text retrieval approach to
object matching in videos,” in Proc. of IEEE ICCV, 2003, pp. 1470–
1477 vol.2.
X. Xiong and F. De la Torre, “Supervised descent method and its
application to face alignment,” in Proc. of IEEE CVPR, 2013.
E. Sariyanidi, H. Gunes, M. Gökmen, and A. Cavallaro, “Local Zernike
moment representations for facial affect recognition,” in Proc. of BMVC,
2013.