博士論文 印象に基づく楽曲検索システムの設計に関する研究

博士論文
印象に基づく楽曲検索システムの設計に関する研究
A Study on Constructing the Music Retrieval System Based on
Impressions of Musical Pieces
システム設計工学専攻
指導教員:山田 真司 教授
青木 茂明 教授
近江 政雄 教授
神宮 英夫 教授
岩宮 眞一郎 教授
3Y1-4 米田 涼
目次
第1章
序論 .......................................................................................................................... 1
1.1
研究の背景と目的 ..............................................................................................................1
1.2
本論文の構成 ......................................................................................................................2
第2章
ポピュラー音楽の印象空間を構成する次元 ..................................................................4
2.1
はじめに .................................................................................................................................4
2.2
実験 1 ......................................................................................................................................6
2.2.1
音楽刺激 ..........................................................................................................................6
2.2.2
実験方法 ..........................................................................................................................6
2.2.3
結果と考察 ......................................................................................................................8
2.3
実験 2 ....................................................................................................................................10
2.3.1
音楽刺激 ........................................................................................................................10
2.3.2
実験方法 ........................................................................................................................ 11
2.3.3
結果と考察 .................................................................................................................... 11
2.3.4
疲労が評定に与える影響について ............................................................................19
2.4
まとめ ...................................................................................................................................19
第3章
楽曲メタデータを用いた楽曲印象の推定 ....................................................................21
3.1
はじめに ...............................................................................................................................21
3.2
推定する楽曲印象について ...............................................................................................22
3.3
楽曲メタデータの作成と分析 ...........................................................................................23
3.3.1
楽曲メタデータの作成 ................................................................................................23
3.3.2
コレスポンデンス分析 ................................................................................................25
3.4
楽曲印象の推定 ...................................................................................................................26
3.4.1
比較対象とする音響特徴量 ........................................................................................26
3.4.2
特徴量からの楽曲印象の推定 ....................................................................................30
3.4.3
両特徴量を用いた楽曲印象の推定 ............................................................................32
3.5
まとめ ...................................................................................................................................33
楽曲全体の印象と経時的な印象及び音響特徴量との関係 ................................... 34
第4章
4.1
はじめに ...............................................................................................................................34
4.2
音楽の経時的な印象と全体を通しての印象の評定 .......................................................35
4.2.1
実験刺激 ........................................................................................................................35
4.2.2
実験システム ................................................................................................................38
4.2.3
実験方法 ........................................................................................................................38
4.3
結果と考察 ...........................................................................................................................40
4.3.1
楽曲における経時的な印象変化の違い ....................................................................40
4.3.2
経時的な印象変化と音響特徴量との関係 ............................................................... 45
4.3.3
経時的な印象変化と全体の印象との関係 ................................................................50
4.3.4
全体の印象と音響特徴量との関係 ........................................................................... 52
4.4
第5章
まとめ ...................................................................................................................................54
結論 ................................................................................................................................... 56
5.1
全体のまとめ .......................................................................................................................56
5.2
本研究が与える社会的インパクト ...................................................................................57
5.3
今後の課題 ...........................................................................................................................59
謝辞 ....................................................................................................................................... 61
関連論文 ............................................................................................................................... 63
文献 ....................................................................................................................................... 64
第1章
1.1
序論
研究の背景と目的
近年,インターネットを通じた音楽販売や音楽聴取が社会に浸透したことにより,携帯
端末上にて,過去に発売された楽曲の多くを月額定額でいくらでも聴ける「聴き放題」と
いうサービスが登場した。このような音楽配信サービスでは少なくとも 100 万曲以上の楽
曲が扱われ,我々は以前よりも簡単に膨大な数の楽曲に触れられるようになった。
現在,膨大な数の楽曲の中から聴きたい楽曲を検索する手法として,キーワード検索が
主な手法として用いられている。しかし,キーワード検索では,自分の知っている楽曲名
や音楽家,あるいは関連ドラマや CM の名前など,楽曲を検索するための何らかのキーワ
ードの入力を必要とすることから,既知の楽曲以外にはアクセスし難いという問題が起き
ている。他の検索手法として,検索したい楽曲を歌声として入力するハミング検索なども
存在するが,これもキーワード検索と同様に,既知の楽曲を検索するためのものである。
したがって,既知の楽曲以外からも聴きたい楽曲を適切に検索する技術が,音楽配信サー
ビスを運営する上での重要な要素として注目されている。このようなとき例えば,さわや
かで,やや静かな曲が聴きたいというように,楽曲の印象とその度合を手がかりとした楽
曲検索が行えるならば,既知の楽曲以外にも容易にアクセスできると考えられる。このよ
うに印象で検索するシステムは「感性検索システム」と呼ばれ(例えば,辻,星,大森,
1997; 杉原,森本,黒川,2003)
,楽曲の感性検索システムの構築を目的とした研究が過去
に数多く行われている(辻ら,1997; 杉原ら,2003; 杉原,森本,黒川,2005; 熊本,太田,
2006; McDorman, Ough, & Ho, 2007; 平江,西,2008; Kim et al., 2010; Eerola, 2011)
。
楽曲の感性検索システムを構築するためには,あらかじめ,データベースに膨大な数の
楽曲の印象を登録しておく必要がある。そのため,感性検索システムの構築に関する研究
では,楽曲印象の自動推定方法に焦点があてられている(辻ら,1997; 杉原ら,2005; 熊
1
本,太田,2006; McDorman et al, 2007; 平江,西,2008; Kim et al., 2010; Eerola, 2011)。過
去の研究では主に,音響特徴量を用いて楽曲印象の推定を行っている。しかし,音響特徴
量を用いた楽曲印象の推定では,十分な推定精度が得られないためか,音楽配信サービス
において感性検索システムは未だ実用化されていない。一方,楽曲に付随するタグ情報(メ
タデータ)から,楽曲印象の推定を行った研究も少数ではあるが行われている(Saari &
Eerola, 2013)。しかし,ここで用いられたメタデータは不特定多数のユーザによって登録
されたものであり,妥当性や表記揺れなどの問題を含んでいるため,メタデータを用いる
ことにより,楽曲印象をどの程度まで推定できるようになるかは不確かである。
そこで本研究では,音楽配信サービスを行っている会社から提供されたメタデータを基
にして,楽曲の持つメタデータから楽曲印象を推定する方法について提案し,音響特徴量
を用いた推定との精度比較を行い,その有効性について検証する。
本研究により,楽曲印象の推定においてメタデータを用いることの有効性が示されれば,
既存の音楽配信サービスで楽曲に付与されているメタデータを利用して,簡単に感性検索
システムを構築することができる。感性検索システムが構築されることによって,既知で
ない楽曲を容易に検索できるようになると,今後,我々の日々の生活の中での音楽の聴き
方が大きく変化する可能性がある。
1.2
本論文の構成
第 1 章では,ここまで本研究の背景と目的について述べてきた。第 2 章では,音楽の感
性検索システムの構築に際して,どのような尺度の印象を検索に用いるべきかについて検
討を行った。第 3 章では,第 2 章の結果から検索対象とした印象を,楽曲のメタデータか
ら推定する方法を提案し,提案方法と,過去の研究で用いられている音響特徴量を用いた
印象推定との精度比較を行うことで,提案方法の有効性について検討を行った。過去の音
響特徴量から楽曲印象を推定する際,慣例的に,経時的に算出された音響特徴量を平均し
2
た値が用いられているが,第 4 章では,単に平均する以外の処理を行うことで,より精度
高く印象を推定できるのかについて検討を行った。第 5 章では,第 2 章から第 4 章で得ら
れた知見をまとめ,感性検索システムの構築に関する全体的な考察を行った。
3
第2章
2.1
ポピュラー音楽の印象空間を構成する次元
はじめに
印象とその度合から楽曲を検索するためには,検索に用いる印象の尺度を事前に決めて
おく必要がある。例えば,熊本,太田(2006)は 10 の印象尺度に対し 7 段階評定したもの
を検索に用いている。また,杉原ら(2005)は 40 もの印象尺度に対し 7 段階評定したもの
を検索に用いている。一方,McDorman, Ough and Ho (2007) や Eerola (2011) の研究ではよ
り単純な,Valence(快さ)と Arousal(覚醒度)で構成される 2 次元平面の座標値を検索
に用いている。
以上のように,
検索対象として用いる印象は研究者によって大きく異なる。
多数の尺度を検索に用いる場合,楽曲検索の際にユーザにかなりの負担を掛けるため,あ
まり実用的とは言えない。利便性を考えると,検索に用いる印象の尺度は,楽曲印象を表
現するのに相応しいもので,かつ,できるだけ少なく単純であることが望ましい。そのた
め,音楽の印象空間が単純には何次元で表現できるのかについて知る必要がある。
音楽の印象を表現する場合,楽しい音楽,緊張する音楽,荘厳な音楽というように様々
な表現が用いられている。このことは,音楽の印象空間が多次元的であることを示唆する。
音楽の印象空間が何次元で構成されているのかについては,音楽心理学者らによる研究が
過去に行われている。
音楽の印象について初期に行われた研究として Hevner(1935a, 1935b, 1936, 1937)の一
連の研究が挙げられる。Hevner は,音楽を表現する際に用いられる多数の形容詞を 8 つの
群にまとめ,これら形容詞群を 2 次元平面上に円環状に配置した。そして,短いクラシッ
ク音楽素材の,調や旋律,ハーモニー,リズム,テンポ,音高といった音楽の構成要素を
それぞれ変化させた音楽刺激を実験参加者に提示し,各刺激の印象に当てはまる形容詞を
チェックで回答させることで,各要素が印象に与える影響を調べている。Hevner の用いた
形容詞群の円環モデルは実験によって得られたものではなかったが,その後,Russell (1980)
4
が一般的な感情の関係性について実験を行ったところ,感情空間は「快さ」と「覚醒度」
の二次元で構成されることが示された。この空間上での形容詞の配置は Hevner が実験で用
いたものとほぼ同じであった。このことは,音楽の印象を快さと覚醒度で張られた 2 次元
空間で説明することが妥当であることを示唆している。
一方,評定実験と多変量解析を用いて,音楽の印象を構成する次元について調べた研究
も行われている(例えば,Gabrielsson, 1973; Imberty, 1979; 谷口, 1998)。彼らは,クラシッ
ク音楽を用いて実験を行った。その結果,得られた次元数は研究者によって異なり,クラ
シック音楽の印象空間が 2~8 次元で表現されることを示している。
以上のように,音楽の印象について調べた過去の研究の多くは,クラシック音楽を対象
としていた。音楽配信サービスで扱われている楽曲の多くは,ポピュラー音楽であるため,
ポピュラー音楽の印象について調べる必要がある。ポピュラー音楽の印象について調べた
数少ない研究として,Iwamiya(1997)や Yamada, Fujisawa and Komori(2001)の研究が挙
げられる。彼らはいずれも評定実験と多変量解析を行い,ポピュラー音楽の印象空間が 3
次元であることを示している。また,彼らが示した印象空間は,SD 法の考案者である
Osgood et al.(Osgood, Suci & Tannenbaum, 1957) が様々な対象群に対して SD 法を用いた
評定実験を行い,因子分析を行なうことで得た,Evaluation,Potency,Activity の 3 次元空
間と同様の空間であった。しかしながら,彼らの研究で用いられたポピュラー音楽は 10
曲程度と非常に少ないものであったため,より多くのポピュラー音楽を用いて検証を行う
必要がある。
そこで本章では,楽曲の感性検索システムで用いる印象を決定することを目的として,
大規模な楽曲群を用いた印象評定実験を行い,ポピュラー音楽の印象空間が何次元で構成
されているのかを明らかにすることとした。また,聴取者が,どのような状況においてど
のような印象の楽曲が聴きたくなるのかについても調べた。
過去の研究において,多くの研究者が,音楽を構成する要素を操作し,構成要素と音楽
5
の聴取印象との関係について調べてきた。その結果,音楽の印象を左右する重要な要素と
してテンポを挙げられている(例えば,Gabrielsson & Lindstörm, 1995; Juslin, 2001)。しか
し,この結果は,短い音楽素材のテンポを操作し,聴き比べた結果でしかないため,市販
されている大規模な楽曲群においても,印象とテンポとの間に関係性がみられるのか検証
する必要がある。そこで,本章では大規模楽曲群のテンポと印象との関係についても調べ
ることとした。
大規模な楽曲群を用いて実験を行う場合,聴取者一人当たりが参加する実験時間は膨大
になる。そのため,ここでは聴取者の人数の多さよりも楽曲数の多さを重視して実験を行
った。
2.2
2.2.1
実験 1
音楽刺激
実験に用いるポピュラー音楽を以下の手順で選定した。まず,音楽配信サービス LISMO
のポピュラー音楽ジャンルにおけるアーティスト検索ランキングで上位(集計期間 2009
年 6 月~10 月)
かつ,ORICON STYLE に登録されているアーティスト(2010 年 12 月時点),
という条件を満たしたアーティストをランキング順位の高いものから順に 50 組抜き出し
た。その後,ORICON STYLE で,アーティスト 50 組それぞれの最大売り上げのシングル
曲を調べ(2010 年 12 月時点),計 50 曲のポピュラー音楽を音楽刺激として選定した。実
験に用いた音楽刺激を表 2.1 に示す。
2.2.2
実験方法
聴取者は 10 名(21~32 歳)である。聴取者の内,2 名は幼少の頃から音楽大学卒業ま
で音楽教育を受けた音楽専門家であり,残りの 8 名は特別な音楽教育を受けたことのない
非専門家である。音楽専門家 2 名は,1 日に少なくとも複数のジャンルの曲を数曲聴くよ
6
表 2.1
実験 1 に用いた楽曲
曲名
A・RA・SHI
キセキ
Good-bye days
ただ…逢いたくて
桜坂
ありがとう
世界に一つだけの花
Tomorrow never knows
4 hot wave (人魚姫)
BREAK OUT!(Bigeast盤)
本能
I LOVE YOU
オーダーメイド
愛をこめて花束を
A (monochrome)
明日がくるなら(feat JAYED)
嘘
ディア ロンリーガール
ひまわり
純恋歌
GOLDFINGER '99
会いたくて 会いたくて
愛のままにわがままに 僕は君だけを傷つけない
瞳をとじて
天体観測
全力少年
三日月
HONEY
make my day
STARS
Winter, again
蕾
リルラ リルハ
飛べない鳥
CAN YOU CELEBRATE?
Lovin’ Life
Addicted To You
ANOTHER WORLD
月光花
偶然の確率
SOS
White Love
love the world
TSUNAMI
ボーイフレンド
儚くも永久のカナシ
Real Face#1
Here We Go feat.VERBAL(m-flo)
Around The World
さくらんぼ
7
アーティスト名
嵐
GReeeeN
YUI
EXILE
福山雅治
いきものがかり
SMAP
Mr.Children
倖田來未
東方神起
椎名林檎
尾崎豊
RADWIMPS
Superfly
浜崎あゆみ
JUJU
シド
加藤ミリヤ
遊助
湘南乃風
郷ひろみ
西野カナ
B'z
平井堅
BUMP OF CHICKEN
スキマスイッチ
絢香
L'Arc~en~Ciel
新垣結衣
中島美嘉
GLAY
コブクロ
木村カエラ
ゆず
安室奈美恵
FUNKY MONKEY BABYS
宇多田ヒカル
GACKT
Janne Da Arc
girl next door
たむらぱん
SPEED
Perfume
サザンオールスターズ
aiko
UVERworld
KAT-TUN
May J
MONKEY MAJIK
大塚愛
うな生活を送っている。また,非専門家の 8 名は,日常的に音楽プレイヤーや TV,イン
ターネット,ラジオ等を通して少なくとも 1 日に 1 曲は J-POP 音楽を聴取する生活を送っ
ている。
実験 1 では,各音楽刺激を始めから終わりまで聴取者に聴取させ,各音楽刺激の聴取を
終える度に,その音楽刺激の印象を評定させた。印象の評定には表 2.2 に示す 17 対の評定
尺度を用い,それぞれ 7 段階で評定させた。
実験は防音室内で実施し,刺激は CD プレイヤー(SONY D-NE830)からヘッドフォン
(STAX SR-407)を通して提示した。
楽曲の提示レベルは,最も強い音を出す楽曲が LAeq=84 dB で出力されるようにプレイヤ
ーを設定し,その後,それぞれ CD に収録されている音の強さで楽曲を提示し,LAeq =74~84
dB の範囲で提示された。音楽刺激は,10 曲を 1 セットとして CD に記録し,各 CD を聴き
終える度に,聴取者に 10 分以上の休憩を取らせた。各聴取者は,各 CD をランダムな順序
で聴取した。また,実験に先立ち,音楽刺激の中から抽出した 5 曲を用い,印象評定の練
習を行わせた。各聴取者は,2 日から 3 日かけて実験を行った。
2.2.3
結果と考察
実験により得られた各音楽刺激の各評定尺度の評定値を聴取者にわたり平均し,得られ
た平均評定値を用いて因子分析(主因子法)を行った。固有値が 1 以上の因子を採用した
結果,3 因子解が得られた。その後,因子の解釈をしやすいように Varimax 回転を行った。
このとき,3 因子での累積寄与率は約 83 %であった。因子分析によって得られた因子負荷
量を表 2.2 に示す。
表 2.2 より,第 1 因子において,「快い-不快な」,「ごちゃごちゃした-すっきりした」
などの評定尺度の負荷量の絶対値が大きいことから,第 1 因子を「快さ」因子と名付けた。
同様に,第 2 因子では「迫力のある-もの足りない」,「たるんだ-ひきしまった」という
8
表 2.2
評定尺度と因子負荷量(実験 1)
因子
評定尺度
快さ
快い - 不快な
迫力
明るさ
-0.89
-0.24
-0.24
0.86
-0.38
-0.13
-0.83
0.14
0.14
かたい - やわらかい
0.78
-0.54
0.01
さわやかな - むさくるしい
-0.76
0.23
-0.29
落ち着きのない - 落ち着いた
0.71
-0.51
-0.32
-0.67
0.20
-0.48
のどかな - せかせかした
-0.63
0.60
0.25
迫力のある - もの足りない
0.32
-0.89
0.02
たるんだ - ひきしまった
-0.17
0.87
-0.21
弱々しい - 力強い
-0.24
0.86
0.04
単調な - 変化のある
0.04
0.61
-0.04
派手な - 地味な
0.54
-0.68
-0.29
暗い - 明るい
0.12
0.03
0.98
陽気な - 悲しい
0.13
-0.06
-0.98
楽しい - 寂しい
0.16
-0.11
-0.96
重い - 軽い
0.34
-0.35
0.76
0.32
0.26
0.24
ごちゃごちゃした - すっきりした
きれいな - きたない
温かい - 冷たい
寄与率
9
評定尺度において負荷量の絶対値が大きいことから,
「迫力」因子と名付けた。第 3 因子に
は,
「暗い-明るい」,
「陽気な-悲しい」などの評定尺度が関係していることから,「明る
さ」因子と名付けた。
以上のことから,ポピュラー音楽の印象空間は単純には「快さ」,「迫力」,「明るさ」の
3 次元で説明可能であることが明らかになった。ここで得られた「快さ」,「迫力」,「明る
さ」の 3 次元は,過去の Yamada et al.(2001) や Iwamiya(1997)の示した印象空間と同
様に,Osgood et al.(1957)の Evaluation,Potency,Activity にそれぞれ対応していること
から,3 次元解は妥当であると考えられる。
しかし実験 1 に用いた音楽刺激は,最近の日本で売り上げの多かった曲ということで,
ポピュラー音楽の中でも J-POP の曲しか用いられていない。したがって,売り上げの多い
J-POP 曲の印象空間が 3 次元であっただけで,ポピュラー音楽の印象空間とは異なるとい
うことが考えられる。そこで,実験 2 では,J-POP 以外の様々な音楽ジャンルのポピュラ
ー音楽も音楽刺激に含め,さらに大規模な聴取実験を行った。
2.3
2.3.1
実験 2
音楽刺激
音楽刺激には,著者と協力関係にある音楽配信サービス運営会社によって選定された,
実験 1 で用いた刺激とは異なる様々なポピュラー音楽 169 曲を用いた。これら音楽刺激は
J-POP 以外に,ロック,クラブミュージック,ヒップホップ,演歌などの音楽ジャンルを
含んでいる(クラシック音楽は含まない)。また,邦楽だけでなく洋楽も含んでいる。音楽
刺激における,各音楽ジャンルに属する楽曲数の比率は,日本人が聴取する比率を反映し
て選定した。
10
2.3.2
実験方法
大阪芸術大学の音楽学科を卒業した 3 名の 音楽専門家(31~50 歳)と,金沢工業大学生
8 名(20~23 歳)の計 11 名を聴取者とした。音楽専門家 3 名は,1 日に少なくとも複数の
ジャンルの曲を数曲聴くような生活を送り,非専門家の 8 名は。1 日に 1 曲は J-POP 音楽
を聴取する生活を送っている。
実験 2 では,169 曲の音楽刺激を用い,実験 1 と同じく,各音楽刺激を始めから終わり
まで聴取者に聴取させ,各音楽刺激聴取後に,その音楽刺激の印象を評定させた。印象の
評定には,実験 1 と同じ 17 対の評定尺度を用い,それぞれ 7 段階で評定させた。また聴取
後に,
「一人で聴きたい-一人で聞きたくない」,
「周りに人がいる状況で聴きたい-周りに
人がいる状況で聴きたくない」,
「集中して聴きたい-ぼんやり聴きたい」,「恋人と聴きた
い-恋人と聴きたくない」という 4 つのシチュエーションに関する評定尺度についても 7
段階で評定させた。
実験環境は実験 1 と同じである。楽曲の提示レベルは,実験 1 と同様に設定し,LAeq=70~84
dB の範囲で提示された。音楽刺激は,10 曲を 1 セットとして CD に記録し,各 CD を聴き
終える度に,聴取者に 10 分以上の休憩を取らせた。各聴取者は,各 CD をランダムな順序
で聴取した。また,実験に先立ち,音楽刺激の中から 5 曲を用い,印象評定の練習を行わ
せた。各聴取者は,約 1 週間かけて実験を行った。
2.3.3
結果と考察
まず,音楽経験による影響を調べるために,音楽専門家,非専門家に分けて各音楽刺激
の各評定尺度の平均評定値を算出した。その後,これら平均評定値を用いて因子分析(主
因子法)を行った。固有値が 1 以上の因子を採用した結果,音楽専門家,音楽専門家のい
ずれでも 3 因子解が得られた。その後,因子の解釈をしやすいように Varimax 回転を行っ
た。音楽専門家,非専門家分けて因子分析を行った際の,それぞれの因子負荷量を表 2.3
11
に示す。表 2.3 より,音楽専門家の因子 1 と非専門家の因子 1,音楽専門家の因子 2 と非
専門家の因子 3,音楽専門家の因子 3 と非専門家の因子 2 に共通した構造がみられた。こ
のように,音楽経験によらず共通した因子構造がみられたことから,全ての聴取者の結果
を合わせて再度因子分析(主因子法,バリマックス回転)を行った。固有値が 1 以上の因
子を採用した結果,3 因子解が得られた。この因子分析によって得られた因子負荷量を表
2.4 に示す。このとき,3 因子での累積寄与率は約 85 %であった。
表 2.4 より,各因子における負荷量の絶対値が大きい評定尺度が実験 1 とほぼ同様であ
ることから,各因子を「快さ」因子,「迫力」因子,「明るさ」因子と名付けた。したがっ
て,ポピュラー音楽の印象空間は単純には,
「快さ」,
「迫力」,
「明るさ」の 3 次元で説明で
きることが明らかになった。
表 2.3
評定尺度
きれいな
さわやかな
快い
かたい
ごちゃごちゃした
迫力のある
弱々しい
たるんだ
派手な
陽気な
楽しい
暗い
重い
落ち着きのない
のどかな
単調な
温かい
-
きたない
むさくるしい
不快な
やわらかい
すっきりした
もの足りない
力強い
ひきしまった
地味な
悲しい
寂しい
明るい
軽い
落ち着いた
せかせかした
変化のある
冷たい
音楽経験による因子負荷量の違い
非専門家
音楽専門家
因子1 因子2 因子3
.93 -.19
.00
因子1 因子2 因子3
.87
.11 -.06
.89
.88
-.76
-.14
.13
.55
.25
.28
-.07
.74
.69
-.74
.49
.31
.03
-.10
.34
.48
-.70
-.24
.28
.53
.92
-.84
.26
-.02
-.05
-.84
-.28
.23
-.04
-.09
.10
.28
.89
-.85
.14
-.22
-.02
-.77
.77
.09
.21
.48
.97
.12
-.41
.00
-.04
.37
.97
-.81
.66
.06
-.06
-.30
-.52
.20
-.17
.41
.94
-.92
-.70
-.02
-.11
-.29
.94
-.96
-.74
.15
-.08
.33
-.61
.58
-.12
.57
-.62
-.64
.47
-.35
-.19
-.79
.73
.00
.29
-.22
-.01
.39
-.51
-.45
.60
-.15
.56
.69
.41
-.26
負荷量の絶対値0.7 以上のものに色を塗った。
12
表 2.4
全聴取者を合わせた場合の因子負荷量(実験 2)
因子
評定尺度
快さ
きれいな - きたない
迫力
明るさ
-0.92
0.20
-0.02
-0.87
-0.12
-0.30
さわやかな - むさくるしい
-0.87
0.16
-0.31
かたい - やわらかい
0.77
-0.56
0.04
0.74
-0.52
-0.20
-0.65
0.20
-0.53
0.64
-0.57
-0.43
0.27
-0.92
0.06
弱々しい - 力強い
-0.30
0.85
0.00
たるんだ - ひきしまった
-0.15
0.80
-0.15
派手な - 地味な
0.27
-0.76
-0.46
単調な - 変化のある
0.09
0.63
0.15
のどかな - せかせかした
-0.61
0.62
0.32
陽気な - 悲しい
0.01
-0.08
-0.97
楽しい - 寂しい
0.04
-0.19
-0.95
暗い - 明るい
0.28
0.16
0.93
重い - 軽い
0.49
-0.38
0.74
0.31
0.29
0.26
快い - 不快な
ごちゃごちゃした - すっきりした
温かい - 冷たい
落ち着きのない - 落ち着いた
迫力のある - もの足りない
寄与率
13
表 2.5
音楽の印象空間と,各シチュエーションに対する評定及びテンポ[BPM]との関係
標準化偏回帰係数
従属変数
2
決定係数(R )
快さ
迫力
明るさ
周りに人がいる状況で聴きたい
0.58
-0.01
0.40
0.64
恋人と聴きたい
0.68
0.77
-0.02
0.28
集中して聴きたい
0.45
0.39
0.47
-0.28
一人で聴きたい
0.35
0.55
0.08
-0.20
テンポ[BPM]
0.43
-0.31
0.37
0.44
次に,どのようなシチュエーションで,どのような印象の音楽が聴きたくなるのかを調
べるために,因子分析によって得られた各音楽刺激の因子得点を独立変数,各音楽刺激の
4 つのシチュエーションに関する評定尺度の平均評定値をそれぞれ従属変数とした重回帰
分析を行った。重回帰分析の結果を表 2.5 に示す。表 2.5 より,決定係数 R2 が 0.5 以上の
ものを,標準化偏回帰係数の値を用いてベクトルとして図 2.1 に示す。図 2.1 より,快く,
明るい印象の音楽ほど,恋人と聴きたくなる傾向があることが分かった。また,迫力があ
り,明るい音楽ほど周りに人がいる状況で聴きたくなる傾向があることが分かった。
続いて,各音楽刺激のテンポ[BPM]を著者が測定し,各音楽刺激の因子得点を独立変数,
テンポ[BPM]を従属変数とした重回帰分析を行い,音楽の印象とテンポとの関係を調べた。
一般にテンポ測定に際しては,どの単位の音符の長さを 1 拍として扱うかによって,2 倍
の速さや,1/2 の速さに誤認される可能性がある。Yamada and Yonera(2001)は,1 つ
の音符の長さが 350 ms 以下の場合にはその倍の長さを 1 拍に統合して知覚し,1 つの音
符の長さが 700 ms 以上の場合にはその半分の長さに分割して 1 拍に知覚する傾向がある
ことを示した。そこで本研究では,1 拍の長さを 350 ms から 700 ms に設定することで,
知覚上の 1 拍に対応するテンポを測定した。重回帰分析の結果,決定係数 R2 が 0.43(相関
14
迫力
1
周りに人がいる状況で
聴きたい
恋人と聴きたい
0
-1
快さ
0
1
-1
(a) 快さ-迫力
平面
明るさ
1
周りに人がいる状況で
聴きたい
恋人と聴きたい
0
-1
快さ
0
1
-1
( b) 快さ-明るさ
図 2.1
平面
音楽の印象と音楽を聴くのに適したシチュエーションとの関係
15
係数で表すと 0.65)と,ある程度の値が得られた。これは,テンポから音楽の印象をある
程度推定できることを示している。分析によって得られた標準偏回帰係数を表 2.5 に示す。
表 2.5 より,テンポの速い曲ほど,不快で,迫力があり,明るい曲になる傾向があること
が分かった。この結果は,Gabrielsson and Lindstörm (1995)や Juslin(2001)の結果とも
一貫している。
また,実験 2 で得られた音楽専門家 3 名と非専門家 8 名の評定結果を用いて MDS
(Multi-Dimensional Scaling)を行い,音楽経験によって,音楽から受ける聴取印象に差が
あるのかについても調べた。まず,音楽刺激 A における評定尺度 i の評定値を SAi とおく。
このとき,任意の 2 曲 A,B の非類似度距離は以下の式で求められる。
17
d AB   S Ai  S Bi
[2.1]
i 1
[2.1]式を用い,聴取者毎の各音楽刺激間の非類似度距離を算出し,その値を用いて MDS
(Proxscal)を行った。その結果,3 次元解でストレス値が 0.06 となり,0.1 を下回ったこ
とから 3 次元解を採用した。次に,MDS で得られた 3 次元空間(以降,MDS 空間と記述
する)の各次元が持つ意味を調べるために,MDS 空間上の各音楽刺激の布置を独立変数,
因子分析によって得られた 3 因子の因子得点それぞれを従属変数とした重回帰分析を行っ
た。その結果,全ての分析において非常に高い値の決定係数が得られた(R2 > 0.9)。分析
によって得られた MDS 空間と,音楽の印象の 3 因子との関係を,図 2.2 にベクトルで示す。
図 2.2 より,音楽の印象の各ベクトルの向きが,MDS 空間の 1 から 3 次元にそれぞれ対応
していることが分かる。このことから,MDS 空間の各次元は,音楽の印象の「快さ」,
「迫
力」
,
「明るさ」を表していると考えられる。MDS の Proxscal では,楽曲間の関係を空間上
の布置として表すだけでなく,各聴取者が MDS 空間の各次元にどれだけの重みを置いて
16
1
Ⅱ
迫力
快さ
0
-1
Ⅰ
明るさ0
1
-1
(a) MDS 空間
I-II 軸平面
1
Ⅲ
明るさ
快さ
迫力
0
-1
0
Ⅰ
1
-1
(b) MDS 空間
図 2.2
I-III 軸平面
重回帰分析によって得られた MDS 空間の I ,II, III の各次元と,音楽の印象の 3
因子との関係
17
いるのかも算出される。MDS によって得られた,各聴取者の各次元に対する重みを図 2.3
に示す。図 2.3 より,各次元において,各聴取者の重みの違いをみたところ,音楽経験に
よる違いに傾向は見られなかった。この結果から,音楽の印象の受けとめ方は,音楽経験
によって変化しないことが示唆される。しかし今回,聴取者として参加した音楽専門家と
非専門家の数が少なかったことから,音楽経験による印象の受けとめ方の差異については,
今後,音楽経験の異なるより多くの聴取者を用いて実験を行い,詳細な比較を行う必要が
0.5
0.5
0.4
0.4
明るさの重み
迫力の重み
ある。
0.3
0.2
○:音楽専門家
×:非専門家
0.1
0.3
0.2
○:音楽専門家
×:非専門家
0.1
0.0
0.0
0.0
0.1
0.2
0.3
0.4
0.0
0.5
0.2
0.3
0.4
快さの重み
快さの重み
図 2.3
0.1
各聴取者の音楽の印象の各次元に対する重み
18
0.5
2.3.4
疲労が評定に与える影響について
実験 1,2 において,実験に先立ち,実験刺激の中から抜き出した 5 曲を用いて印象評
定の練習を行った。これら 5 曲において,印象評定に用いた 17 対の 7 段階尺度の練習時の
評定値と,実験時の評定値との比較を行った。その結果,各聴取者の 1 曲あたりの評定差
の累計は約 10 であった。これは,ひとつの尺度あたりの評定差が 0.6 とかなり小さいこと
を示す。練習と実験の期間は,少なくとも数日開いていることに対し,各聴取者の評定値
にあまり差がみられなかったことから,今回このような数多くの楽曲に対して評定を行な
う実験において,疲労が評定に与えた影響はほぼないものと考えられる。
2.4
まとめ
本章では,ポピュラー音楽の印象空間が何次元で構成されているのかについて調べた。
実験では,数多くの楽曲を用いることを重視し,少数の聴取者で実験を行った。その結果,
ポピュラー音楽の印象は単純には,
「快さ」,
「迫力」,
「明るさ」の 3 次元で説明できること
が明らかになった。そして,快く,明るい印象の音楽ほど,恋人と聴きたくなる傾向があ
り,また,迫力があり,明るい音楽ほど周りに人がいる状況で聴きたくなる傾向があるこ
とが分かった。さらに,音楽の印象はテンポからある程度推定することが可能であり,テ
ンポの速い曲ほど,不快で,迫力があり,明るい曲になる傾向があることが明らかになっ
た。
本章で得られた結果は,日本人が聴くポピュラー音楽に対し,日本人が評定した結果で
ある。したがって,異なる文化圏で聴かれるポピュラー音楽と,異なる文化圏の聴取者を
用いて同様の研究を行い,さらなる検討を行う必要がある。
次章では,本章で得られた 3 次元の印象空間を楽曲の感性検索システムの検索対象とし
て用いることを想定し,楽曲の持つ特徴量から,
楽曲の印象空間上の布置の推定を行った。
これら「快さ」
,「迫力」
,「明るさ」の 3 次元の印象が,ユーザにとって検索しやすい印象
19
であるかについては議論の余地がある。これら以外の尺度を検索に用いることも可能であ
る。例えば,実験に用いた各尺度については,各尺度の因子負荷量より,印象空間上の布
置から各尺度の度合いを知ることができる。このため,簡単な操作によってこれらの尺度
上の値を,
「快さ」
,
「迫力」,
「明るさ」の 3 次元の印象空間上の値から指定することが可能
である。
さらに,「快さ」,「迫力」,「明るさ」のうち,
「快さ」次元の負方向は不快な印象の楽曲
であることを表すため,この方向に布置した楽曲の制作者の気分を害する可能性がある。
本研究では,過去の研究で名付けられた因子名と一貫性を保つために「快さ」と名付けた
が,実際にサービスに用いる場合には,
「すっきり感」というように名称の変更を行なうな
どして,負方向に布置する楽曲に配慮した名称に変更する必要があると考える。
20
第3章
3.1
楽曲メタデータを用いた楽曲印象の推定
はじめに
第 1 章でも述べたように,未知の楽曲の検索を容易にするための,楽曲の感性検索シス
テムの構築を目的とした研究が,過去に数多くの研究者らによって行われてきた(辻ら,
1997; 杉原ら,2003, 2005; 熊本,太田,2006; McDorman et al., 2007; 平江,西,2008; Kim
et al., 2010; Eerola, 2011)。
楽曲の感性検索システムに関する過去の研究では,主に,音響特徴量を用いて楽曲印象
の推定が行われている(辻ら,1997; 杉原ら,2005; 熊本,太田,2006; McDorman et al, 2007;
平江,西,2008; Kim et al., 2010; Eerola, 2011)。これら音響特徴量は,様々な楽器音や歌声
の波形が重ね合わされた音響波形から,テンポ,リズム,メロディ,音色などに関係する
特徴を抽出することを目的として設計されている(山田,三浦,2014)。一般に,われわれ
がある楽曲に対して抱く印象は,テンポ,リズム,メロディ,調性,音色などの特徴以外
に,歌詞の内容やタイトルなどによっても大きく影響を受けると考えられる。しかしなが
ら,歌声の音響特徴量から歌声の音色に関する印象を推定する試みは一部行われているも
のの(金礪,中野,後藤,菊池,2013),歌声と様々な楽器音が重なり合った音響波形から
歌詞内容を捉えることは非常に困難であると考えられるし,実際に現段階ではこのような
技術は確立していない。したがって,音響波形から様々な音響特徴量を抽出し,この情報
だけで楽曲の印象を推定するには限界があると考えられる。
音響特徴量を用いる他に,楽曲の印象を精度高く推定しうる方法として,楽曲メタデー
タを用いる方法が考えられる。楽曲メタデータとは,曲名や歌手名,ジャンル情報,歌詞
内容,歌声の特徴,楽曲の感情的特徴など,楽曲に付随する情報のことを指す。楽曲メタ
データは一般に,楽曲を検索するための補助情報として,音楽配信サービスを運営する会
社の音楽専門家もしくはサービスを利用するユーザによって,楽曲に紐付けられて,サー
21
ビスのデータベースに登録されている(例えば,Sony Unlimited, Last.fm 等)。音楽専門家,
またはユーザは,楽曲メタデータの登録を行う際,タイトルや歌詞の内容,ミュージシャ
ンのイメージなども踏まえた総合的な情報をもとに判断を行うため,楽曲メタデータの中
には潜在的に,音響特徴量だけからでは抽出し難い情報が含まれていると考えられる。し
たがって,楽曲メタデータを用いた楽曲印象の推定は,音響特徴量だけによる推定に勝る
側面があると考えられる。
過去に,楽曲メタデータを用いて楽曲印象を推定した研究として,Saari and Eerola(2013)
の研究が挙げられる。彼らは,音楽コミュニティサービス Last.fm で公開されている楽曲
メタデータを用い,楽曲印象の推定を行っている。しかし,Last.fm で公開されている楽曲
メタデータは,サービスを利用する不特定多数の人々が楽曲に対して自由に登録したもの
であるため,楽曲メタデータの登録に統制がなく,妥当性や表記揺れなどの問題を含んで
いる。一方,音楽配信サービスを運営する会社の楽曲メタデータにおいては,特定の音楽
専門家によって統制された登録が行われているため,表記揺れなどの問題はない。このよ
うな統制された楽曲メタデータを用いて楽曲印象を推定した場合,音響特徴量を用いた場
合に比してどれだけの推定精度が得られるかは未だ明らかでない。
そこで本章では,楽曲の感性検索システムを構築するために,実際に音楽配信サービス
を行っている会社から提供された 19,099 曲分の統制された楽曲メタデータを基にして,楽
曲の持つメタデータから楽曲印象を自動推定する方法について提案する。また,楽曲メタ
データを用いて楽曲印象を推定することの有効性を検証するために,音響特徴量を用いた
場合との推定精度の比較を行った。
3.2
推定する楽曲印象について
第 2 章で,音楽配信サービスで数多く扱われているポピュラー音楽の印象について調べ
た結果,ポピュラー音楽の印象が単純には,
「快さ」,
「迫力」,
「明るさ」の 3 次元で説明で
22
きることが示された。そこで本章では,これら 3 次元の印象空間上の座標値を,楽曲の感
性検索システムの検索対象として用いることを想定し,楽曲メタデータからこれら印象空
間上の座標値を推定することとした。
3.3
3.3.1
楽曲メタデータの作成と分析
楽曲メタデータの作成
研究対象として用いた楽曲メタデータについて説明する。まず,ブレインストーミング
によって楽曲の持つ特徴を表すと思われる様々な用語(名詞および形容詞)を,数百挙げ,
これらを同様の側面を示すいくつかのアイテム(「音楽のジャンル」,
「演奏に用いられた楽
器」など)に分類した。次に再度ブレインストーミングを行い,それぞれのアイテム内で,
同様の内容を示す用語を統合し,判断が難解な用語を排除した。このようにして,精査さ
れた用語を,各アイテム内のカテゴリとした(アイテム,カテゴリの意味については,例
えば,内田, 2006 を参照)
。このようにして得られたアイテムとカテゴリで構成される楽曲
メタデータの概要を表 3.1 に示す。その後,日本人がよく聴取すると考えられる様々なジ
ャンルの楽曲,計 19,099 曲(邦楽 15,554 曲,洋楽 3,545 曲)の各楽曲が持つ楽曲メタデー
タの登録を行った。楽曲メタデータの登録は,各楽曲を聴取後,各アイテム内のカテゴリ
を列挙した一覧表にチェックを入れるという方法で行った。これらの作業は,音楽配信サ
ービスを運営する会社の音楽専門家チームによって実施された。
23
表 3.1
楽曲メタデータの概要
各アイテムにお
カテゴリの具体例
アイテム
けるカテゴリ数
楽曲のジャンル
17
ポップス,ロック,クラシック等
演奏に用いられた楽器
68
ピアノ,エレキギター,トランペット等
歌詞の特徴
143
歌詞に含まれる単語・歌詞のテーマに関係
(春,桜,卒業等)
歌手の声質
39
ハスキー,渋い,甘い,明るい等
楽曲の持つ感情
12
Russell (1980) の円環モデルの各象限から感情語を
3 つずつ抽出(嬉しい,穏やか,悲しい,怒った等)
24
3.3.2
コレスポンデンス分析
本章では,登録された楽曲メタデータからクロス集計表を作成し,このクロス集計表を
もとにコレスポンデンス分析を行う方法をとった(内田, 2006)。この際,一つのアイテム
のカテゴリを行,それ以外のアイテムのカテゴリを列としたクロス集計表を作成する必要
があるが,
「楽曲のジャンル」
,
「演奏に用いられた楽器」,「歌詞の特徴」,「歌手の声質」,
「楽曲の持つ感情」のそれぞれを行としたクロス集計表でコレスポンデンス分析を試した
結果,
「楽曲の持つ感情」を行にしたクロス集計表で分析を行った場合が最も少ない次元数
で累積寄与率が高かったため,
「楽曲の持つ感情」のカテゴリを行,その他のアイテムのカ
テゴリを列として用いた 12 行 267 列のクロス集計表を採用することにした。このクロス集
計表についてχ2 検定を行った。その結果,楽曲に登録された「楽曲の持つ感情」のカテ
ゴリによって,登録されたその他のアイテムのカテゴリの分布に違いがあることが示され
た(p < .05)
。このクロス集計表によるコレスポンデンス分析の結果,得られた累積寄与率
の次元数による変化は 38.6%,60.0%,69.8%,77.0%,…,であった。次元数の増加によ
る累積寄与率の増加は,3 次元以上では少なくなるが,2 次元解では累積寄与率が 60%と
十分ではなかったため,累積寄与率が約 70%に達した 3 次元解を採用することにした。以
上のようなコレスポンデンス分析によって得られた 3 次元空間を,以後,メタデータ統計
空間と呼ぶこととする。このメタデータ統計空間上には「楽曲の持つ感情」の各カテゴリ
だけでなく,他のアイテム内の各カテゴリも布置される。これで,ある楽曲を選定すると,
その楽曲に対して各アイテム内でチェックの入ったカテゴリのメタデータ統計空間上での
布置の情報を獲得でき,これらの布置から,音楽の印象空間上での布置を推定することが
可能となった。
しかしながら,例えば,ある楽曲の「演奏に用いられた楽器」のアイテムにおいて,
「ピ
アノ」
,
「エレキギター」
,
「ドラム」というふうに複数のカテゴリにチェックが入っている
場合があるため,このような場合には,アイテム内の各カテゴリが楽曲の印象に与える影
25
響は等価であると仮定し,アイテム内でチェックが入ったカテゴリの重心を求め,これを,
その楽曲のそのアイテムにおける 3 次元メタデータ統計空間上での布置と定義した。この
ようにして得られた,各楽曲に対する 15 特徴量(5 アイテム×3 次元)を,以後,メタデ
ータ特徴量と呼ぶ。
3.4
3.4.1
楽曲印象の推定
比較対象とする音響特徴量
メタデータ特徴量を用いて楽曲印象を推定することの有効性を示すために,音響特徴量
を用いた場合との比較を行う。比較対象とする音響特徴量には平江,西(2008)の研究で
用いられた 33 の音響特徴量に,音楽分類の分野でよく用いられている特徴量を Tzanetakis
and Cook(2002)を参考にして 7 つ加えた計 40 特徴量を用いた(表 3.2)。表 3.2 に示した
音響特徴量のうちいくつかは,音響信号を時間フレームで切り出し,フレームシフトしな
がら各フレームにおける音響特徴量を算出している。音響特徴量を算出する際に用いたパ
ラメータ値は平江,西(2008)と同一で,サンプリング周波数 22,050 Hz,フレーム長 50 ms,
フレームシフト長 25 ms とし,窓関数にはハミング窓を用いた。
用いた音響特徴量について以下に説明する。i~viii の特徴量では,各フレームで算出した
値の平均値と分散を特徴量として用いた。
i) フレーム内エネルギ
各フレームにおける時間信号の振幅の 2 乗値の総和の対数をとった値である。
 N

E t  10 log  xt [n] 2 
 n 1

[3.1]
xt[n]はフレーム t における信号の振幅を表し,n は時間を表す。
26
表 3.2
比較対象として用いた音響特徴量
音響特徴量
参考
フレーム内エネルギ
スペクトル重心
周波数帯域幅
各フレームで算出した値の
平均、分散
計36特徴量
低周波数成分の割合
メル周波数ケプストラム係数
(1~11次の値それぞれで算出)
ゼロクロス
スペクトルフラックス
スペクトルロールオフ
楽曲につき一つの値
計1特徴量
10 s当たりのピーク数の
平均のみ
計3特徴量
平江,西
(2008)
平均パワーを下回る時間の
割合
リズム特性 (低域、中域、高域)
27
Tzanetakis
& Cook
(2002)
Tzanetakis
& Cook
(2002)
平江,西
(2008)
ii) スペクトル重心
各フレーム内の周波数を振幅で重み付けし,中心周波数を求めた。
N
Ct 
 M [ n]  n
n 1
N
t
[3.2]
 M t [ n]
n 1
Mt[n]はフレーム t における振幅の周波数特性を表し,n は周波数を表す。
iii) 周波数帯域幅
[3.2]式で得られたスペクトル重心と,各フレームで得られた周波数それぞれとの差を 2
乗し,振幅の 2 乗で重み付けして周波数帯域幅を算出した。
N
Bt 
 M [ n]
n 1
t
2
 n  C t 
[3.3]
N

n 1
2
M t [ n]
2
iv) 低周波数成分の割合
各フレームが持つエネルギのうち,0~500 Hz(周波数点数 1~25)までの低域の周波数成
分が持つエネルギの割合を算出した。n は周波数点数を表す
 25
2
  M t [ n]
Lt  10 log nN1

2
  M t [ n]
 n 1






[3.4]
v) メル周波数ケプストラム係数(MFCC)
まず,時間信号の各フレームに対してフーリエ変換を行い,周波数軸をメル尺度に変換
する。その後,図 3.1 に示すメル尺度上で等間隔かつ,ハーフ・オーバーラップ(隣接す
るフィルタがメル尺度上で半分重なる状態)し,真数周波数上で面積が等価になるように
重みを設定した 40 個の三角窓のフィルタバンクを用い,パワースペクトルを 40 次元に圧
縮した。そして,圧縮されたパワースペクトルのパワーの対数とり,これに対し離散コサ
28
重み
メル尺度[mel]
図 3.1
メルフィルタバンク特性
イン変換することで,40 次の係数が MFCC(Mel-Frequency Cepstrum Coefficient)として算
出される。この係数の 1~11 次までの値を特徴量として用いた。
vi) ゼロクロス
時間信号の 0 点との交差回数を各フレームで算出した。
Zt 
1 N
 sign ( x[n])  sign ( x[n  1])
2 n1
[3.5]
sign 関数は正のとき 1,負のとき 0 の値をとる。x[n]は時間信号を表す。ゼロクロスは信
号音に含まれるノイズ度合いを表す。
vii) スペクトルフラックス
周波数変化量を表すスペクトルフラックスは,フレーム内の正規化パワースペクトルの
大きさと,前フレームの正規化パワースペクトルとの差の 2 乗で定義される。正規化では,
パワースペクトルの平均が 0,標準偏差が1になるように線形変換を行った。
N
Ft   N t [n]  N t 1[n]
2
[3.6]
n2
Nt,Nt-1 は,それぞれフレーム t,t-1 での正規化パワースペクトルの大きさを表す。
29
viii) スペクトルロールオフ
各フレームにおいて,
低周波数からパワースペクトル分布を積算した際に,全分布の 85%
に相当する周波数 Rt として定義される。
Rt
N
 M [n]  0.85   M [n]
n1
t
n1
[3.7]
t
Mt[n]はフレーム t におけるパワーの周波数特性を表し,n は周波数を表す。スペクトル
形状を表す指標のひとつとして用いられる。
ix) 平均パワーを下回る時間の割合(Low Energy)
時間信号全体の RMS(Root Mean Square)値に対し,各フレームで算出した RMS 値が下
回っている割合を算出し,特徴量として用いた。
x) リズム特性
時間信号のパワー包絡線のピーク数が楽曲のリズムと関係していると考えられる。そこ
で楽曲を,低域(0~500 Hz)
,中域(500 Hz~2 kHz),高域(2 kHz~8 kHz)の 3 つの帯域に
分割し,各帯域のパワー包絡線の 10 s あたりのピーク数の平均を特徴量として用いた。ピ
ークの算出方法として,まず各帯域において,各フレームにおける振幅の 2 乗積分値を算
出した。次に,フレームによる振幅の 2 乗積分値の変化を,ハーフハミング窓を用いて平
滑化した。その後,フレームによる振幅の 2 乗積分値の変化の極値を求め,極大値とそれ
に隣接する 2 つの極小値の平均との差が 6 dB 以上の極大値をピークとして採用した。
3.4.2
特徴量からの楽曲印象の推定
特徴量から印象を推定する方法として,線形推定と非線形推定の 2 つの方法が考えられ
る。本章では,線形推定として重回帰分析(ステップワイズ法,.05 ≦ F ≦ .10),非線
形推定としてニューラルネットワークを用い,各特徴量から楽曲印象の各因子について推
定を行った。
ニューラルネットワークは楽曲印象の各因子に対し一つずつ構築した。また,
30
表 3.3
楽曲印象の推定値と実測値との相関係数(表中の±記号の前の値は相関係数の平均
値,後の値は標準偏差を表す)
分析手法
重回帰
分析
ニューラル
ネットワーク
特徴量
快さ因子
迫力因子 明るさ因子
メタデータ
.70 ± .06
.36 ± .12
.72 ± .08
音響データ
.54 ± .07
.70 ± .06
.58 ± .10
メタデータ
.52 ± .09
.17 ± .11
.58 ± .10
音響データ
.38 ± .11
.59 ± .09
.48 ± .10
ニューラルネットワークの構造には 3 層構造(3 層パーセプトロン,入力層:各特徴量の数
のニューロン,中間層:5 ニューロン,出力層:1 ニューロン)を用いた。
推定に用いる検証楽曲には,2 章の実験によって,楽曲印象が印象空間上の布置として
得られているポピュラー音楽 150 曲を用いた。これら検証楽曲 150 曲の内,100 曲を用い
て重回帰式の算出もしくは学習を行い,残り 50 曲の印象空間上の各因子における座標値を
推定した。このとき,分析に用いる楽曲の組み合わせによる結果の偏りを無くすため,曲
の組み合わせをランダムに変更し,分析を 20 回繰り返した際の,実際の座標値と推定した
座標値との相関係数の平均とその標準偏差を表 3.3 に示す。
表 3.3 より,ニューラルネットワークよりも重回帰分析を用いた方が高い精度で推定で
きているが,両推定方法で同様の傾向の結果が得られた。どちらの推定方法においても,
快さ因子と明るさ因子に関しては音響特徴量を用いるよりもメタデータ特徴量を用いた方
が高い精度で推定できていることが示された。
迫力因子において,音響特徴量を用いた推定が高い精度を得られた理由については以下
のようなことが考えられる。過去の研究より(例えば,Juslin, 2001),楽曲のテンポや音圧
レベルが,楽曲の迫力に大きく関係することが明らかになっている。本章で用いた音響特
徴量において,
フレーム内エネルギは音の強さと関係し,
「平均パワーを下回る時間の割合」
は音の強さの変化に関係すると考えられる。また,リズム特性はテンポの速さに関係する
31
と考えられる(山田,三浦,2014)
。したがって,これらの音響特徴量によって迫力因子に
関連深い情報が抽出できたのだと考えられる。これに対し,快さ因子,明るさ因子に対応
する印象は,迫力因子より複雑な要因で決定され,タイトルや歌詞の内容から受けるイメ
ージによる影響も大きかったのではないかと考えられる。
本章では,音響特徴量から楽曲印象を推定する際,各楽曲から経時的に算出された値の
平均・分散を各楽曲の代表値として扱い,この代表値を用いて楽曲印象の推定を行った。
このように平均・分散を代表値として用いることは,音響特徴量を用いる研究において慣
例的に行われている。過去の難波と桑野(1980)の研究において,音全体の大きさを判断
する際,時々刻々の音のレベルの変化の中でレベルの小さな部分は無視され,あるレベル
以上の部分のみに着目して音の大きさの判断が行われることが示唆されていることから,
代表値算出の際,単に平均・分散を算出する以外の処理を行なうことで,迫力の推定精度
がより向上できるのではないかと考えられる。
3.4.3
両特徴量を用いた楽曲印象の推定
3.4.2 節では,メタデータ特徴量を用いた楽曲印象の推定の有効性を検証するために,メ
タデータ特徴量と音響特徴量の 2 つに分けて印象の推定を行った。しかし,実際に感性検
索システムを構築する際には,印象の推定精度は高ければ高いほど良いため,メタデータ
特徴量と音響特徴量の両特徴量を合わせて推定を行った方が良い。そこで,両特徴量を用
いた場合,どの程度の推定精度が得られるのかについても 3.4.2 節と同様に調べた。以前
の分析において,ニューラルネットワークよりも重回帰分析を用いた推定の方が推定精度
が高かったことから,この検証では重回帰分析を用いた推定のみ行った。その結果を表 3.4
に示す。表 3.4 より,片方の特徴量を用いた推定よりも,高い精度で推定できていること
が分かる。
32
表 3.4
両特徴量を用いて楽曲印象を推定した際の推定値と実測値との相関係数(表中の±
記号の前の値は相関係数の平均値,後の値は標準偏差を表す)
快さ因子
.73 ± .06
3.5
迫力因子 明るさ因子
.70 ± .04
.77 ± .04
まとめ
本章では,感性検索システムを構築するために,楽曲メタデータから楽曲印象を推定す
る方法を提案した。その結果,楽曲メタデータを用いて楽曲印象を推定した場合,過去の
音響特徴量を用いたものよりも,快さ因子と明るさ因子の次元においてより高い精度で楽
曲印象を推定できることが示された。本章で用いた音響特徴量は,音楽分類の分野などで
よく用いられているものをある程度網羅していることから,音響特徴量を用いた楽曲推定
に有利な条件が整っていると考えられる。このような条件に対し,メタデータ特徴量の方
が楽曲印象を精度高く推定できていたことから,今後この分野の研究を進める上で,楽曲
メタデータを考慮することが非常に有用であることが示唆される。
本章では,150 曲の楽曲を対象に,推定精度の検証を行ったが,実際の音楽配信サービ
スでは数百万曲という楽曲が扱われるため,より多くの楽曲を推定対象とした場合にどの
程度の推定精度が得られるのかについても今後検討を行う必要がある。
また,本章では,音響特徴量から楽曲印象を推定する際,各楽曲から経時的に算出され
た値の平均・分散を各楽曲の代表値として扱っていたが,この代表値を算出する際の処理
について検討を行なうことで,迫力因子の推定精度をさらに向上できる可能性が示唆され
た。そこで,次章では,迫力因子の推定精度向上を目的として,各楽曲の音響特徴量の代
表値算出の際の処理について検討を行った。
33
第4章
4.1
楽曲全体の印象と経時的な印象及び音響特徴量との関係
はじめに
第 3 章では,音響特徴量から楽曲印象を推定する際、各楽曲から経時的に算出された値
の平均・分散を各楽曲の代表値として扱っていた。この代表値を算出する際の処理につい
て検討を行なうことで、迫力因子の推定精度をさらに向上できる可能性が示唆された。経
時的に算出された値から、代表値を算出する際の処理の参考となる研究が、過去にいくつ
か行われている。
Shubert(1996, 1999)や Brittin and Duke(1997)が、楽曲の経時的な印象と、楽曲全体
を通しての印象との関係を調べた結果,楽曲全体を通しての印象は,経時的に測定した印
象の平均値よりも強調されることを示している。音の大きさに関しては,難波と桑野(1980)
によって,音全体の大きさと,経時的な音の大きさとの関係が調べられている。その中で
彼らは,音全体の大きさを判断する際,時々刻々の音のレベルの変化の中でレベルの小さ
な部分は無視され,あるレベル以上の部分のみに着目して音の大きさの判断が行われるこ
とを示唆している。以上のことから,音響特徴量から迫力因子を推定する際,経時的に算
出される値のうち,絶対値が小さな部分を除外してから平均した値を代表値として用いる
ことで,より精度高く推定できることが予想される。
そこで本章では,音響特徴量から迫力因子を推定する際、各楽曲から経時的に算出され
た値をどのように処理すると推定精度が向上するのかについて検証した。また,音楽の経
時的印象について調べた過去の研究(例えば,Shubert, 1996, 1999; Madsen, 1997)では,主
にクラシック音楽のみが刺激素材として用いられ,ポピュラー音楽やゲーム音楽,クラシ
ック音楽といった異なる音楽ジャンルにおける経時的な印象の変化の違いについては明ら
かにされていない。そこで,クラシック音楽,ポピュラー音楽,ゲーム音楽を用い,音楽
のジャンルによる聴取印象の変化の仕方の違いについても調べることとした。さらに,経
34
時的な印象の変化と音響特徴量との関係,楽曲の経時的な印象と楽曲全体の印象の関係に
ついても調べることとした。本章におけるクラシック音楽,ポピュラー音楽,ゲーム音楽
というジャンル分けは,実験方法で詳しく述べるように,ある音楽配信サービスを運営す
る会社がタグづけしたジャンルにしたがったものである。
経時的印象を測定する方法として,主に 2 つの方法が挙げられる。一つは,Namba,
Kuwano, Hato and Kato(1991)の用いた方法で,印象とその度合に対応したキーを,音楽
の聴取印象の変化に合わせて連続的に押させることで測定を行う方法である。もう一方は,
Shubert(1996)の用いた方法で,快さと覚醒度からなる 2 次元平面上にマウスカーソルを
置き,音楽の聴取印象の変化に合わせて,平面上のマウスカーソルを移動させることで,
連続的に印象を測定するという方法である。Namba et al.(1991)の方法では,複数の印象
を同時に評定できるが,複数のキー入力を同時に行う必要があり,評定を行うためにはあ
る程度の訓練を必要とする。一方,Shubert(1996)の方法では,評定可能な印象は 2 次元
と限られるものの,評定の操作が容易であるため評定者の負担が少ない。本章では評定者
が容易に評定を行えることを重視し,Shubert(1996)の方法を用いることとした。そして
評定対象とする 2 次元印象は、Shubert と同様に Valence(快さ)、Arousal(覚醒度)とした。
この「覚醒度」は迫力因子に対応する。
4.2
4.2.1
音楽の経時的な印象と全体を通しての印象の評定
実験刺激
実験には,クラシック音楽 16 曲,ポピュラー音楽 16 曲,ゲーム音楽 16 曲に,練習試
行のための楽曲 2 曲を加えた計 50 曲を刺激として用いた。実験に用いた刺激の詳細を表
4.1 に示す。これら実験刺激の選定方法について詳しく説明する。著者と協力関係にある,
ある音楽配信会社は,レコード会社によってタグづけられた情報を基に,各 CD,各楽曲
に音楽ジャンルの情報のタグ付けを行っている。本章では,このタグ情報にしたがって,
35
楽曲のジャンル分類を行った。
まずクラシック音楽は,EMI MUSIC JAPAN から発売された「Best Classics 100 Premium」
(2008) に含まれる 100 曲を対象に,金沢工業大学生 2 名が印象評定実験を行い,各楽曲を
「快さ」
,
「覚醒度」の 2 次元平面上に布置した。その後,各象限から 4 曲選定し,計 16
曲を選定した。この CD に含まれる楽曲は全て「クラシック音楽」のジャンルのものとし
てタグづけられていた。ポピュラー音楽については,2 章の印象評定実験によって,ポピ
ュラー音楽 219 曲の各楽曲の印象が 3 次元の印象空間上の布置として得られているため,
この各象限から 2 曲選定し,計 16 曲を選定した。これら 16 曲はいずれも「J-POP」また
は「ポピュラー」とタグづけられていた。ゲーム音楽については,Tsukamoto, Yamada and
Yoneda(2010) が CD 販売店でゲーム音楽として販売されている CD から 100 曲を用いて
印象評定実験を行い,各楽曲の印象を 2 次元平面に布置している。これら 100 曲は全てゲ
ーム音楽のジャンルとしてタグづけられていた。この各象限から 4 曲選定し,計 16 曲を選
定した。以上のようにして,各ジャンルから様々な印象の楽曲を刺激として選定した。
36
表 4.1
ジャンル
クラシック
音楽
ゲーム
音楽
ポピュラー
音楽
実験に用いた音楽刺激
略記
曲名/作曲家,ゲーム名もしくはアーティスト名
時間長[s]
用いられた
実験フェーズ
C1
C2
C3
C4
C5
C6
C7
C8
C9
C10
C11
C12
C13
C14
C15
C16
C17
G1
G2
G3
G4
G5
G6
G7
G8
G9
G10
G11
G12
G13
G14
G15
G16
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P13
P14
P15
P16
P17
春/ヴィヴァルディ
月光/ベートーヴェン
モンタギュー家とキャピュレット家/プロコフィエフ
威風堂々/エルガー
運命/ベートーヴェン
カルメン組曲/ビゼー
亜麻色の髪の乙女/ドビュッシー
天よ、高みの露のごとく/作者不詳
ジュピター/ホルスト
美しき夕暮れ/ドビュッシー
恋人たち/ブラームス
ジムノペディ/サティ
フィガロの結婚/モーツァルト
ラ・カンパネラ/リスト
トッカータとフーガ/バッハ
アダージョ/アルビノーニ作、ジャゾット編
カノン/パッヘルベル
序曲/ドラゴンクエストVIII
本能寺/戦国無双2
Prelude/Final Fantasy VII
ミカン爺登場/大神
礼拝堂Ⅲ/biohazard 0
試練の間/Final Fantasy X
零下の白騎士ベリオロス/モンスタハンター3
Executioner/biohazard 5
ボス/星のカービィ64
イダテンとの競争/大神
シオンタウン/ポケットモンスターHGSS
ピノンとナルシア/ポポロクロイス
対峙/Final Fantasy X
ED-ZOMBIE/biohazard 0
錯乱の旋律/Crono Trigger
かまいたちの夜/かまいたちの夜
ありがとう…/KOKIA
粉雪/レミオロメン
負けないで/ZARD
紅/X JAPAN
俺ら東京さ行ぐだ/吉幾三
Top of the World/カーペンターズ
Country Grammar/Nelly
Analyse/トム・ヨーク
Don't Stop Me Now/Queen
オーダーメイド/RADWIMPS
月光花/Janne Da Arc
Girlfriend/Avril Lavigne
People=Shit/Slipknot
Fantasista/Dragon Ash
Sing/カーペンターズ
楽園ベイベー/RIP SLYME
No More Pain/2Pac
196
375
244
206
431
134
133
306
289
139
424
213
236
273
149
163
298
113
127
172
68
74
213
220
116
143
71
67
64
127
70
100
215
250
327
225
418
177
185
287
242
215
360
299
217
215
272
197
280
374
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2の練習試行
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1の練習試行
2
2
2
2
2
2
2
2
37
4.2.2
実験システム
印象評定に用いたシステムについて説明する。図 4.1 に示すような横軸を快さ(快い-
不快)
,縦軸を覚醒度(覚醒-沈静)とした 2 次元平面をコンピュータ画面上に表示し,評
定者はマウスを動かすことによって,この平面上の点で音楽の印象を指し示すことを要求
された。各軸は-100~+100 の範囲の値を取り,座標値を 0.5 秒毎に小数点第 2 位まで記録し
た。各軸の目盛は,各印象を「やや」,「かなり」,「非常に」と感じる程度を表し,評定者
に評定の指標として用いるように教示した。
4.2.3
実験方法
多くの楽曲を実験刺激として用いる場合,実験規模が大きくなり,評定者 1 人当たりの
負担が大きくなると考えられる。そこで,評定者の負担を減らすために,実験を 2 つのフ
ェーズに分けて行った。各フェーズで用いた実験刺激について説明する。まず,各音楽ジ
ャンルの同一象限から選定した楽曲を,フェーズ 1 とフェーズ 2 で均等に振り分けた。各
フェーズで用いる楽曲は,このようにして振り分けられた各音楽ジャンルの 8 曲に,練習
曲 1 曲を加えた計 25 曲で構成した。各フェーズで用いた楽曲は異なり,どの楽曲がどのフ
ェーズで用いられたのかは表 4.1 に示す。フェーズ 1 では,金沢工業大学生 20 名(男性
16 名,女性 4 名)に各刺激の聴取印象を評定させた。フェーズ 2 では,フェーズ 1 とは異
なる金沢工業大学生 10 名(男性 8 名,女性 2 名)に各刺激の聴取印象を評定させた。
評定者には,2 つのセクションからなる印象評定を行わせた。セクション 1 では,評定
者は,楽曲を聴取しながら時々刻々,その時点での聴取印象をマウスを動かしながら指し
示すことを要求された。セクション 2 では,評定者はマウスを持たずに楽曲を最後まで聴
取し,楽曲終了後に,マウスクリックによって楽曲全体の印象を指し示すことを要求され
た。評定者の半数は,セクション 1 を先に実施し,残りの半数はセクション 2 を先に実施
することで,セクションによる順序効果をキャンセルした。また,各セクションにおいて,
38
刺激の提示順序は各評定者でランダムとした。実験は防音室内で実施し,刺激は PC から
ヘッドフォン(STAX SR-407)を通して提示した。楽曲の提示レベルは,最も強い音を出
す楽曲が LAeq =82 dB で出力されるようにプレイヤーを設定し,その後,それぞれ CD に収
録されている音の強さで楽曲を提示し,LAeq=76~82 dB の範囲で提示された。
図 4.1
実験に用いた印象評定システム
39
4.3
結果と考察
4.3.1
楽曲における経時的な印象変化の違い
まず,得られた「快さ」と「覚醒度」の経時的な印象評定値について,楽曲毎に評定者
にわたる平均値を算出した。このようにして得られた経時的な印象の平均評定値を観察し
た結果,各楽曲に共通して,楽曲の冒頭部と末尾部に向かうにつれて評定値が 0 に収束す
る傾向が見られた。この結果は,楽曲印象の変化に関係した値というよりもむしろ,評定
に用いたマウスカーソルの開始位置が 2 次元平面の中心に設定されていたことによって起
こったと考えられる。そこで,楽曲冒頭部と末尾部の経時的印象評定値をそれぞれ 3 秒間
除外した値を分析に用いることとした。その後,分析に用いる平均評定値の時間を横軸,
平均評定値を縦軸にした図を作成した。作成した図の内,代表的なものを図 4.2 に示す。
図 4.2 の左列にある 2 曲がゲーム音楽,中央列の 2 曲がポピュラー音楽,右列の 2 曲がク
ラシック音楽である。図中の破線の曲線は快さの経時的な評定値を表し,実線の曲線は覚
醒度の経時的な評定値を表す。快さについては,上に行くほど快く,下に行くほど不快で
あることを表す。覚醒度については,上に行くほど覚醒,下に行くほど沈静であることを
表す。
図 4.2 の快さを表す破線の曲線に注目すると,全ての楽曲において楽曲中の変化が小さ
く,ジャンル間での系統的な違いは見られない。次に覚醒度を表す実線の曲線に注目する
と,ゲーム音楽に比してポピュラー音楽やクラシック音楽の楽曲中の変化が大きいことが
見て取れる。そこで,音楽ジャンル間での変化の違いを詳しく調べるために,楽曲毎に,
楽曲中の快さと覚醒度それぞれの経時的な印象評定値の標準偏差を算出した。各楽曲の値
を表 4.2 に,音楽ジャンル毎に値をまとめたものを図 4.3 に示す。これらの値を用い,各
フェーズの各音楽ジャンルによる違いを一元配置の分散分析を用いて調べた。その結果,
覚醒度の標準偏差については,音楽ジャンルによる有意差が各フェーズでみられた(フェ
ーズ 1: F(2,22)=3.74, p<.05, フェーズ 2: F(2,22)=8.20, p<.01)
。その後,覚醒度の標準偏差に
40
41
50
62
-100
50
図 4.2
200
快さ(破線)
219
曲線:経時的な印象
250 266
200
0
0
100
150
時間[s]
100
C1_春
時間[s]
150
C13_フィガロの結婚
50
50
直線:楽曲全体の印象
-100
-50
平
均
評 0
定
値
50
100
-100
-50
横軸を時間,縦軸を評定値とした楽曲の経時的な印象の評定結果
覚醒度(実線)
150
P14_Fantasista
100
G8_Executioner
50
時間[s]
0
時間[s]
-50
-100
-50
50
平
均
評 0
定
値
50
100 110
100
150
P3_負けないで
100
G4_ミカン爺登場
50
時間[s]
0
時間[s]
平
均
評 0
定
値
100
0
-100
0
-50
-100
-50
平
均
評 0
定
値
50
50
平
均
評 0
定
値
50
100
100
平
均
評 0
定
値
100
200
230
190
経
時
的
な
印
象
の
標
準
偏
差
ゲーム音楽,
ポピュラー音楽 ,
クラシック音楽
エラーバーは標準偏差を表す。 *p < .05
*
40
*
*
30
*
*
20
10
0
フェーズ1
フェーズ2
フェーズ1&2
快さ
図 4.3
フェーズ1
フェーズ2
覚醒度
音楽ジャンルによる経時的な印象の標準偏差の違い
42
フェーズ1&2
ついて Tukey の多重比較を行った結果を図 4.3 に示す。図 4.3 より,まず,フェーズ 1 と
フェーズ 2 に共通して,ゲーム音楽,ポピュラー音楽,クラシック音楽の順で楽曲中の覚
醒度の標準偏差が大きくなる傾向があることが分かる。このとき多重比較により,ゲーム
音楽に比べ,クラシック音楽の覚醒度の標準偏差は有意に大きいという結果が各フェーズ
で得られた。また,フェーズ 2 においては,ゲーム音楽とポピュラー音楽に有意差がみら
れた。以上のことから,フェーズ 1 とフェーズ 2 において,音楽ジャンルによる快さと覚
醒度の標準偏差の変化にほぼ共通した傾向がみられたため,以降の分析では 2 つのフェー
ズで得られた 50 曲の評定結果を併せて分析と考察を行った。まず,各フェーズの結果を合
わせて,一元配置の分散分析と多重比較を同様に行った。その結果,覚醒度の標準偏差に
ついては音楽ジャンルによる有意差がみられ(F(2,47)=9.89, p<.01),また,図 4.3 から分か
るように,ゲーム音楽とポピュラー音楽,ゲーム音楽とクラシック音楽に有意差がみられ
た。そして,ゲーム音楽,ポピュラー音楽,クラシック音楽の順で楽曲中の覚醒度の標準
偏差が大きくなる傾向があることが分かる。以上のことから,これら音楽ジャンルは,楽
曲中の覚醒度の変化の大きさ(覚醒度の標準偏差)において異なる傾向があることが明ら
かになった。
次に,楽曲中の快さと覚醒度それぞれの経時的な印象評定値の標準偏差を用い,クラ
スター分析(ユークリッド平方距離,Ward 法)を行った。分析によって得られた樹形図を
図 4.4 に示す。図 4.4 より,距離 5 の地点で 3 つのグループが得られた。各グループに属
する楽曲を表 4.2 に示す。
43
図 4.4
クラスター分析によって得られた樹形図
44
表 4.2 より,各グループの快さの標準偏差には特に差が見られないのに対し,覚醒度の
標準偏差はグループ 1,グループ 2,グループ 3 の順で大きくなっていることが分かる。こ
のことから各グループは,楽曲中の覚醒度の変化の大きさ(覚醒度の標準偏差)によって
分けられていることが分かる。次に,各音楽ジャンルが属するグループについて見ると,
ゲーム音楽がグループ 1 に多く属していることが分かる。また,ポピュラー音楽はグルー
プ 2 に多く属し,クラシック音楽はグループ 3 に多く属していることが分かる。以上のこ
とからも,これら音楽ジャンルは,覚醒度の変化の仕方において異なる傾向があることが
明らかになった。
今回,楽曲の経時的な印象変化について分析を行う際,標準偏差を用いて分析を行った。
標準偏差を用いた場合,経時的な印象変化の周期に関する情報が失われる。図 4.2 より,
音楽ジャンルによって,経時的な覚醒度の変化の周期にも違いがあるように見えるが,こ
のことに関する検証は今後の課題とする。
4.3.2
経時的な印象変化と音響特徴量との関係
次に,経時的な印象変化と音響特徴量との関係について調査を行った。音響特徴量には,
過去の研究で用いられた特徴量の内,快さと覚醒度と関係しそうなスペクトル重心,フレ
ーム内エネルギを用いることとした(難波, 桑野, 1980; Geringer, 1995; Shubert, 1996, 1999)
。
ここでは,まず音響信号を時間フレームに分割し,各フレームで音響特徴量を算出した値
を用いた。したがって,音響特徴量はフレームの関数となっている。音響特徴量算出の際
に用いたパラメータ値を表 4.3 に示す。また,用いた音響特徴量について以下に具体的に
説明する。
45
表 4.2 クラスター分析で分けられた各楽曲の快さと覚醒度の標準偏差
刺激
快さ
覚醒
SD
度 SD
刺激
グループ 1
快さ
覚醒
SD
度 SD
グループ 2
G2
2.6
5.7
G1
7.8
20.8
G4
6.6
5.8
G3
4.7
19.1
G5
5.4
7.5
G7
3.8
14.0
G6
11.2
8.5
P1
7.5
23.1
G8
7.8
7.9
P3
8.6
13.8
G9
9.8
9.3
P6
6.4
13.8
G10
4.0
4.4
P7
3.0
14.4
G11
18.8
8.1
P10
4.1
22.3
G12
7.2
6.5
P11
5.7
18.3
G13
4.7
9.3
P15
4.6
24.4
G14
6.4
3.0
P16
8.4
13.9
G15
6.9
4.4
C7
8.1
21.5
G16
9.9
4.2
C10
7.0
16.3
P5
7.5
6.7
C16
4.2
18.9
P8
4.6
8.8
P12
5.9
10.5
P2
6.2
28.7
P13
4.9
7.3
P4
8.2
45.0
P17
9.9
8.0
P9
4.8
27.0
C2
5.4
7.6
P14
5.7
28.0
グループ 3
C8
2.0
8.4
C1
15.2
28.9
C11
15.1
11.3
C3
18.6
39.2
C12
5.1
7.3
C4
6.8
25.5
C15
8.1
10.1
C5
19.9
34.0
C6
6.7
42.8
G:ゲーム音楽
C9
8.5
29.1
P:ポピュラー音楽
C13
9.3
29.1
C:クラシック音楽
C14
19.9
26.5
C17
7.4
31.0
46
表 4.3
音響特徴量算出の際に用いたパラメータ値
パラメータ値
サンプリング周波数[Hz]
44100
フレーム長[ms]
50
フレームシフト長[ms]
25
窓関数
ハミング窓
移動平均[ms]
3000
i) スペクトル重心
各フレーム内の周波数を振幅で重み付けし,中心周波数を求めた。
N
Ct 
 M [ n]  n
n 1
N
t
 M [ n]
n 1
[4.1]
t
Mt[n]はフレーム t における振幅の周波数特性を表し,n は周波数を表す。
ii) フレーム内エネルギ
各フレームにおける時間信号の振幅の 2 乗値の総和の対数をとった値である。
 N

E t  10 log  xt [n] 2 
 n 1

[4.2]
xt[n]はフレーム t における信号の振幅を表し,n は時間を表す。
[4.1]式と[4.2]式によって求められた音響特徴量を平滑化するために,3 秒の幅で移動平
均を行った。その後,音響特徴量と経時的な印象評定値との相互相関を調べるために,音
響特徴量のサンプリングが 0.5 秒毎になるようにリサンプリングを行った。このようにし
て得られた音響特徴量と,
「快さ」と「覚醒度」の経時的な印象評定値との相互相関を算出
した。その結果を表 4.4 に示す。表 4.4 より,スペクトル重心と経時的な印象の相関は得
47
られなかったが,フレーム内エネルギと経時的な覚醒度との間に正の相関が見られた。こ
れは,音の強弱が聴取印象の経時的な覚醒度に関係していることを意味している。また,
覚醒度において相互相関が最大となったのはフレーム内エネルギを 1.5 秒遅延させた時で
あったことから,刺激の提示から覚醒反応までにおよそ 1.5 秒の時間を要したことが分か
る。これらの結果は,Schubert(1999)の音の大きさは覚醒度と正の相関があるという結
果や,Geringer (1995) の音の大きさの反応には約 1.5 秒の遅延が発生するという結果と一
貫している。
表 4.4 に示すように,快さと音響特徴量に相関が見られなかったが,その理由について
は以下のようなことが考えられる。過去の研究より,覚醒度は比較的単純な要素である楽
曲のテンポや音圧レベルに関係することが明らかにされているが(Juslin, 2001),それに対
し,快さは覚醒度と比較して,音響特徴量群からの推定が困難であることが示されている
(McDorman, Ough, & Ho, 2007; Eerola, 2011)。そのため,単一の音響特徴量からの快さの
推定は困難であり,相関が得られなかったと考えられる。
次に,音楽ジャンル毎に経時的な覚醒度とフレーム内エネルギとの相互相関を算出して
みたが,音楽ジャンルによる差はみられなかった。一方,表 4.2 のグループ毎に相互相関
を算出した結果,グループによる差がみられたためその結果を表 4.5 に示す。表 4.5 より,
経時的な印象の覚醒度の変化が大きいグループほど高い相関を示していることが分かる。
このことから,楽曲によって,フレーム内エネルギから推定できる経時的な覚醒度にはあ
る程度の差があり,フレーム内エネルギからは楽曲の経時的な覚醒度を一概に説明するこ
とができないことが示唆される。
48
表 4.4
経時的な印象と音響特徴量との相互相関
フレーム内エネルギ
特徴量の
遅延時間[s]
スペクトル重心
快さ
覚醒度
快さ
覚醒度
3.0
0.13±0.44
0.61±0.24
0.06±0.28
0.26±0.33
2.5
0.13±0.44
0.62±0.22
0.06±0.28
0.27±0.34
2.0
0.12±0.43
0.64±0.21
0.06±0.28
0.27±0.34
1.5
0.11±0.41
0.65±0.21
0.05±0.27
0.27±0.34
1.0
0.10±0.39
0.65±0.21
0.05±0.27
0.26±0.34
0.5
0.08±0.37
0.63±0.21
0.05±0.26
0.24±0.35
0.0
0.07±0.35
0.61±0.22
0.05±0.25
0.21±0.35
*各楽曲で得られた相関の平均±標準偏差
表 4.5
各グループにおける経時的な覚醒度とフレーム内エネルギとの相互相関
覚醒度とフレーム内エネルギの相関
特徴量の
遅延時間[s]
グループ 1
グループ 2
グループ 3
3.0
0.45±0.25
0.67±0.14
0.80±0.09
2.5
0.48±0.23
0.67±0.14
0.82±0.08
2.0
0.52±0.21
0.67±0.14
0.83±0.08
1.5
0.54±0.21
0.66±0.14
0.84±0.08
1.0
0.54±0.22
0.64±0.15
0.84±0.08
0.5
0.53±0.23
0.61±0.16
0.83±0.09
0.0
0.51±0.23
0.58±0.17
0.80±0.10
*各楽曲で得られた相関の平均±標準偏差
49
4.3.3
経時的な印象変化と全体の印象との関係
実験のセクション 1,セクション 2 によって得られた,楽曲の経時的な印象と楽曲全体
の印象の関係について分析を行った。図 4.2 の各グラフの横軸に平行な直線(0 点に平行
な直線を除く)は,各楽曲における楽曲全体の快さと覚醒度のそれぞれを評定者にわたり
平均した値を表している。図 4.2 より,楽曲全体の評定値は,経時的な印象評定値の最大
(最少)値に近い値を持ち,経時的な印象評定値の平均値よりも強調された値を持つこと
が見て取れる。これは,楽曲全体の印象は,経時的な印象の平均よりも強調されたものに
なることを示した Brittin and Duke(1997)や Schubert(1999)の結果と一貫している。音
の大きさに関しては,難波と桑野(1980)によってこれらの関係性が詳しく報告されてい
る。その中で彼らは,音全体の大きさを判断する際,時々刻々の音のレベルの変化の中で
レベルの小さな部分は無視され,あるレベル以上の部分のみに着目して音の大きさの判断
が行われることを示唆している。また彼らは,時間率騒音レベルよりも等価騒音レベルの
方が大きさの知覚との対応が良いことを示している。
以上のことから,楽曲全体の印象は,経時的な印象評定値の内,絶対値が小さな部分を
除外してから平均した値と上手く対応することが予想される。そこで,経時的な印象評定
値の絶対値が小さな部分を楽曲中のサンプリングデータから一定の割合で除外してから平
均した値を各楽曲で算出した。これに加え,経時的な印象評定値を単に平均した値,経時
的な印象評定値の絶対値の最大値を各楽曲で算出し,これらパラメータを独立変数として
楽曲全体の印象を単回帰分析で推定した。音楽ジャンル毎に分析を行った結果,共通した
結果が得られたため,全ての楽曲を合わせて分析した結果を表 4.6 に示す。
表 4.6 より,全てのパラメータにおいて高い決定係数が得られていることが分かる。ま
た,
「単に平均」した場合の回帰係数が,快さと覚醒度のいずれにおいても 1 以上であるこ
とから,楽曲全体の印象は経時的な印象の平均よりも強調されているという結果が得られ
た。次に,覚醒度に注目すると,サンプリングデータを約半分除外した際の平均値におい
50
表 4.6 経時的な印象の各パラメータから楽曲全体の印象を単回帰分析で推定した結果
快さ
パラメータ
決定係数
覚醒度
回帰係数
決定係数
回帰係数
最大値
0.92
0.86
0.83
0.78
90%
0.93
0.89
0.85
0.88
80%
0.94
0.91
0.88
0.93
70%
0.95
0.93
0.88
0.96
60%
0.96
0.95
0.88
1.00
50%
0.97
0.96
0.90
1.07
40%
0.97
0.97
0.91
1.12
30%
0.97
0.99
0.90
1.17
20%
0.97
1.01
0.90
1.21
10%
0.98
1.03
0.89
1.27
単に平均
0.98
1.06
0.89
1.34
パラメータ欄の X%とは,サンプリングデータにおける印象評定値の絶対値が小さいものから
順に X%削除してから平均値を算出したことを示す。
51
て回帰係数が約 1 となり,楽曲全体の覚醒度に上手く対応していることが分かる。したが
って,楽曲全体の覚醒度は,覚醒度の絶対値が半分程度より大きい部分によって決定され
ていることを意味する。このことは楽曲全体の印象は,覚醒度が高くも低くもなく印象に
残りにくい部分からの影響は受けにくく,楽曲中の印象的な部分,すなわち覚醒度が高い
部分,
または低い部分の印象から大きく影響を受けていることを示唆する。以上の結果は,
難波と桑野の研究とも一貫している。一方,快さにおいては,全てのパラメータにおいて
回帰係数にほとんど差がなく,どのパラメータを用いても上手く楽曲全体の快さを推定で
きるという結果が得られた。この結果は,快さの経時的な印象が楽曲中にほとんど変化し
ないことに起因すると考えられる。同様の分析を、分散に対しても行ってみたが特に傾向
は見られなかった。
楽曲全体の覚醒度は、楽曲中の印象的な部分によって決定されることが示唆されたが、
これが楽曲のいわゆる「サビ」に対応しているかについては、今後さらなる検討を行う必
要がある。
4.3.4
全体の印象と音響特徴量との関係
経時的な印象変化と楽曲全体の印象との関係を調べた方法と同様の方法を用い,経時的
に算出された音響特徴量と全体の印象との関係についても調べた。具体的には,経時的に
算出された音響特徴量のうち,値が小さな部分を経時的に算出された音響特徴量のデータ
数から一定の割合で除外してから平均した値を楽曲毎に算出し,それら値と,楽曲全体の
印象の評定値との相関を調べた。その結果,楽曲全体の覚醒度とフレーム内エネルギから
算出した各値に有意な関係が得られた(p < .01)。楽曲全体の覚醒度とフレーム内エネルギ
から算出した各値との相関係数を表 4.7 に示す。
表 4.7 より,
「単に平均」の相関係数よりも,経時的に算出されたフレーム内エネルギの
値が小さい部分を除外してから平均した値において高い相関係数が得られていることが分
52
かる。これは,フレーム内エネルギから楽曲の覚醒度を推定する際,経時的に算出された
フレーム内エネルギの値の処理において,単に平均するよりも,値の小さいものから順に
データ数を約 70 %除外してから平均したものの方が覚醒度を精度高く推定できることを
示している。ここで得られた結果を基に、フレーム内エネルギに関してのみ音響特徴量を
再度算出し、3.4.3 節と同様の方法で推定精度を再度算出してみたが、特に推定精度の向上
はみられなかった。これは、3 章で分析に用いた音響特徴量全体が印象に与える影響にお
いて、フレーム内エネルギに対して本章で得られた処理を行ったことによる影響がごく小
さいものであったからではないかと考えられる。
表 4.7
経時的なフレーム内エネルギを処理した各パラメータから楽曲全体の覚醒度を単
回帰分析で推定した際の相関係数
フレーム内エネルギと
覚醒度との相関係数
パラメータ
90%
0.57
80%
0.58
70%
0.59
60%
0.58
50%
0.57
40%
0.56
30%
0.54
20%
0.53
10%
0.52
単に平均
0.53
パラメータ欄の X%とは,経時的に算出されたフレーム
内エネルギを,値が小さいものから順にデータ数の X%
削除し,その後,平均した値を示す。
53
これまで,楽曲印象の推定のために音響特徴量を用いる際,経時的に算出された音響特
徴量を単に平均した値が推定に用いられていた。しかし,以上の結果から,経時的に算出
された音響特徴量を処理する際,値の小さい部分を除外後に平均するという処理を行うこ
とで,音響特徴量から楽曲印象をより精度高く推定できる可能性が示唆された。
4.4
まとめ
経時的な印象変化において,楽曲のジャンルに関わらず「快さ」の変化は小さく,
「覚
醒度」の変化が大きいことが明らかになった。そして,覚醒度の変化はゲーム音楽,ポピ
ュラー音楽,クラシック音楽の順で大きくなる傾向があることが明らかになった。次に,
経時的な印象と音響特徴量との関係について調べた結果,経時的な覚醒度の変化とフレー
ム内エネルギとの間に正の相関があり,また,刺激の提示から覚醒反応までに約 1.5 秒の
遅延があることが分かった。このとき,覚醒度の変化が大きい楽曲ほど,フレーム内エネ
ルギと覚醒度の相関が高くなることが分かった。次に,楽曲全体の印象と経時的な印象と
の関係について調べた結果,楽曲全体の覚醒度は,経時的な覚醒度の変化の内,印象評定
値の小さい部分を除外してから平均した値と上手く対応することが示された。この関係は
音楽ジャンルに共通して得られた。また,楽曲全体の覚醒度は,経時的に算出されたフレ
ーム内エネルギを単に平均した値よりも,値の小さい部分を除外してから平均した値と上
手く対応する傾向がみられた。つまり、迫力因子をフレーム内エネルギから推定する際、
上記の処理を行うことで推定精度を上げられると言える。
音楽を聴取する際,われわれは,それぞれの楽曲に対しそれぞれの異なる印象を持つが,
同時に,例えば,クラシック音楽というジャンルの音楽全体に対して,われわれはポピュ
ラー音楽やゲーム音楽とは異なる印象を持つ。このような音楽ジャンルによる印象の違い
についてこれまで科学的に明らかにされてこなかったが,本章によって,異なる音楽ジャ
ンル間で,覚醒度の変化量に異なる傾向があることが示された。
54
さらに,楽曲全体の印象を理解する際には,楽曲全体を聴取せずとも,印象的な部分を
聴取するだけで把握できることが示唆された。また,音響特徴量を用いて楽曲印象を推定
する際は,経時的に算出された音響特徴量の平均を用いるのではなく,値の小さい部分を
除外後に平均するという処理を行うことで,楽曲印象をより精度高く推定できる可能性が
示唆された。
ただし本章では,快さに関しては対応する音響特徴量を明らかにすることができなかっ
たため,これに関しては今後さらなる調査が必要である。また,今回実験に用いた楽曲群
が,それぞれの音楽ジャンルを代表するものであったのかについては検討の余地があり,
今後楽曲数を増やすなどしてさらに実験を行う必要があると思われる。さらに,経時的に
算出される音響特徴量の処理については,より多くの種類の音響特徴量を用いた分析を行
い,その詳細を検討する必要がある。
55
第5章
結論
全体のまとめ
5.1
本研究では,印象に基づく楽曲検索システムの構築について検討を行った。
第 2 章では,どのような印象を検索対象とすべきかについて検討するために,ポピュ
ラー音楽 219 曲を用いて聴取印象を調べた。その結果,「快さ」,「迫力」,「明るさ」の 3
因子でポピュラー音楽の印象を十分に説明できることを明らかにした。
第 3 章では,第 2 章で明らかにした印象を,楽曲の持つメタデータから自動推定する方
法について提案し,その有効性を検証するために,音響特徴量を用いた自動推定との推定
精度の比較を行った。その結果,楽曲メタデータを用いて楽曲印象を推定した場合,過去
の研究の音響特徴量を用いた推定よりも,
「快さ」と「明るさ」の因子においてより高い精
度で楽曲印象を推定できることが示された。
第 4 章では,音響特徴量を用いた楽曲印象の推定精度を向上させるための方法について
検討を行った。その結果,楽曲全体の「迫力」は,経時的に算出されたフレーム内エネル
ギを単に平均した値よりも,値の小さい部分を除外してから平均した値と上手く対応する
ことが分かった。この結果より,音響特徴量を用いた楽曲印象の推定において,過去の研
究で慣例的に行われていたように,経時的に算出された音響特徴量の平均を用いるのでは
なく,平均する前に,値の小さい部分をある程度除外するという処理を行うことで,楽曲
印象をより精度高く推定できる可能性が示唆された。
以上の結果を統合的に用いることで,精度の高い印象に基づく楽曲検索システムを構築
することが可能である。本研究により設計された楽曲検索システムの概念図を図 5.1 に示
す。
56
図 5.1
5.2
設計された楽曲検索システムの概念図
本研究が与える社会的インパクト
第 3 章では,企業から提供された 19,099 曲の楽曲メタデータを用いて,各楽曲の持つメ
タデータから楽曲印象を推定する方法について提案した。したがって,これら 19,099 曲を
扱った感性検索システムの構築は既に可能である。ここでは,楽曲の感性検索システムの
構築が社会に与える影響について考える。
まず,楽曲を印象で検索できることによるメリットについて考えてみる。単純なものと
しては,楽曲を印象から検索するため,検索の際に楽曲の内容をある程度類推しながら検
索を行えるという点である。この点は非常に有用で,例えば,現在,未知の楽曲の中から
好みの楽曲を探すためには,音楽販売店の試聴端末等で楽曲を手当たり次第に試聴する必
要があるが,内容をある程度類推できることによって,自分好みの楽曲に辿り着くまでの
試聴曲数が省略できると考えられる。
近年,音楽 CD があまり売れなったことにより,オリコンチャートに登場するために必
要な CD 売上枚数が少なくても済むようになった。これにより,握手券やミュージックカ
57
ードなどの特典を CD に付け,一人に対して同じ CD を複数枚購入させるような「特典商
法」と呼ばれる商法を利用し,楽曲の良さを別として多大な枚数を売り上げる音楽アーテ
ィストがオリコンチャートの常連として登場するようになった。このことにより,音楽チ
ャートや,それを紹介する音楽番組から新しい音楽アーティストを知る機会が減少したよ
うに思える。このように,情報として入ってきやすい楽曲と楽曲の良さとの比例関係が弱
くなり,未知の音楽アーティストの楽曲を知ることが困難になったことが,音楽離れが起
きている一因となっているのではないかと考えられる。このような傾向は,日本レコード
協会が行ったアンケート調査でも報告されている(日本レコード協会, 2014)。そのため,
感性検索システムの構築によって,未知の音楽アーティスト及び楽曲を知るための敷居を
低くすることにより,音楽離れをした人達が再び音楽を楽しめるような環境が整い,新た
な音楽ブームが起こるなどし,
今後の音楽産業の発展に寄与できるのではないかと考える。
またさらに,楽曲を印象から検索可能であることは,映像作品制作の場においても役立
つと考えられる。一般に,映画や CM などの映像作品には,映像に併せて音楽が用いられ
ている。このような映像と音楽を組み合わせた作品を制作する際に,映像と調和した音楽
を組み合わせることで視聴者によりインパクトの強い印象を与えることができると言われ
ており,多くの映像作品に共通して,映像と音楽の調和を考慮した制作が行われている。
映像と音楽の調和は,映像と音楽の時間的な構造の同期によって調和が生じる構造的調和
と,映像と音楽のそれぞれが持つ印象及び意味の類似性によって調和が生じる意味的調和
の 2 つの側面があることが指摘されている(岩宮, 2011)。近年,Youtube や niconico とい
った動画共有サービスがインターネット上で人気を博し,素人が制作した数多くの映像作
品が投稿されている。このような映像作品の制作を行なう際,映像の印象に類似した音楽
を感性検索システムを用いて調べ,映像と組み合わせることにより,意味的調和の関係に
ついて考慮した映像作品を簡単に制作できると考える。このように本システムは,我々の
身の回りにある映像作品の制作支援にも有効に用いることができると考える。
58
ここまでで,
楽曲を印象から検索することによるメリットについて説明を行ってきたが,
楽曲印象を高い精度で自動推定できるだけでも十分なメリットが存在する。現在,音楽を
家や外出先などで楽しむためには,あらかじめ,用途に合わせた音楽プレイリストを手間
を掛けながら作成する必要がある。このとき,例えば,楽曲印象と,その楽曲が聴きたく
なる気分やシチュエーションといった要素との関係を調べておくことで,膨大な楽曲群の
中から,気分やシチュエーションといった用途に合わせた音楽プレイリストを自動生成し,
その音楽プレイリストを聴いて音楽を楽しむということが可能となる。
以上のように,本研究の成果は,我々の日々の中での音楽の聴き方を大きく変化させる
可能性があると考える。
5.3
今後の課題
各章の中で,それぞれ細かな問題点は指摘しているので,ここでは,本研究全体を通じ
て残されたいくつかの大きな問題点と今後の課題について述べる。
第 2 章では,ポピュラー音楽の聴取印象について調べたが,この結果は,日本人が聴く
ポピュラー音楽に対し,日本人が評定した結果である。したがって,異なる文化圏で聴か
れるポピュラー音楽と,異なる文化圏の聴取者を用いて同様の研究を行い,さらなる検討
を行う必要がある。また,検索対象として扱う「快さ」,「迫力」,「明るさ」の 3 次元の印
象が,ユーザにとって検索しやすい印象であるかについては議論の余地があり,今後の検
討を行う必要がある。
第 3 章では,19,099 曲の楽曲メタデータを基に,150 曲の楽曲印象を推定し,推定精度
の検証を行ったが,実際の音楽配信サービスでは数百万曲という楽曲が扱われるため,よ
り多くの楽曲を推定対象とした場合にどの程度の推定精度が得られるのかについて今後検
討を行う必要がある。
第 4 章では,快さに関しては対応する音響特徴量を明らかにすることができなかったた
59
め,これに関しては今後さらなる調査が必要である。さらに,経時的に算出される音響特
徴量の処理については,より多くの種類の音響特徴量を用いた分析を行い,その詳細を検
討する必要がある。
上述した検討を行うことで,感性検索システムを用いた音楽配信サービスを国際的に行
う場合にどのような印象を検索対象とする必要があり,また,楽曲印象の推定精度のさら
なる向上に向けてどのような方策をとる必要があるのかが明らかになると考えられる。
60
謝辞
本研究を遂行し学位論文をまとめるにあたって,多くのご支援とご指導を賜りました。
この場をお借りして感謝の意を述べさせて頂きたいと思います。
研究活動及び学生生活全般にわたり,終始ご指導ご鞭撻を頂きました山田真司教授に心
より感謝致します。また,本論文をまとめるにあたり,暖かいご指導,ご助言をいただい
た九州大学岩宮眞一郎教授,本学青木茂明教授,近江政雄教授,神宮英夫教授に深く感謝
いたします。
講義などでご指導をいただいた,本学中村純生准教授,桜井将人講師,高野佐代子講師
に厚くお礼申し上げます。
本研究にあたり,有益な御助言をいただいた大阪大学難波清一郎名誉教授,同志社大学
柳田益造教授,龍谷大学三浦雅展講師,本学江村伯夫講師に心から感謝いたします。
本論文の各部は日本音響学会,日本音楽知覚認知学会などで発表を行いましたが,これ
らの発表の場で有益なご議論,ご助言をいただいた京都市立芸術大学大串健吾名誉教授,
京都市立芸術大学津崎実教授,九州大学上田和夫准教授,大阪学院大学谷口高士教授,東
京藝術大学亀川徹教授,神奈川工科大学西口磯春教授,長野県看護大学松本じゅん子講師,
駿河台大学金基弘講師,上野学園大学星野悦子教授,大阪樟蔭女子大学山崎晃男教授,東
京情報大学西村明教授,岡山大学大学院小川容子教授,長崎県立大学藤沢望講師,松江工
業高等専門学校安井希子助教に感謝いたします。
4 章における,連続測定法を用いた音楽の印象評定実験の実施においてご協力頂いた,
本学沖将吾氏に感謝いたします。
また,学生生活を送るにあたり,研究室内の多くの方にご支援して頂きました。とても
全員の名前を挙げることはできませんが,学部生時代に熱心に研究について教えて頂くだ
さった庄子健太氏,企業との共同研究など研究室内の大仕事を行う際に共に取り組んでく
61
ださった塚本将成氏,大隈俊輔氏,戸田剛太氏,幅康介氏,朝日陽介氏,和田侑樹氏,研
究活動を勢力的に行うための環境作りを行ってくださった金森慎弥氏,船津如広氏に感謝
いたします。
最後に,博士課程に進学する機会を与えてくださり,温かく見守りそして辛抱強く支援
して下さった両親と祖父母,兄妹に対して深く感謝いたします。
62
関連論文
各章に直接関連する論文を以下に記す。
第2章
Yoneda, R. & Yamada, M. (2013). A multi-dimensional study of the emotion in current Japanese
popular music. Acoustical Science and Technology, 34, 166-175.
第3章
米田涼, 山田真司. (2014)
楽曲メタデータを用いた楽曲印象の推定. 音楽知覚認知研究,
20, 91-97.
第4章
米田涼, 沖将吾, 山田真司. 音楽ジャンルによる楽曲の経時的な印象変化の違いおよびこ
れらと楽曲全体の印象との関係. 音楽知覚認知研究, 21. (採録決定済).
63
文献
Best Classics 100 Premium [CD]. (2008). Tokyo, Japan: EMI Music Japan.
Brittin, R. V. & Duke, R. A. (1997). Continuous versus summative evaluations of musical intensity:
A comparison of two methods for measuring overall effect. Journal of Research in Music
Education, 45, 245-258.
Eerola, T. (2011). Are the emotions expressed in music genre-specific? An audio-based evaluation
of datasets spanning classical, film, pop and mixed genres. Journal of New Music Research,
40, 349-366.
Gabrielsson, A. & Lindstörm, E. (1995). Emotional expression in music performance: Between the
performer’s intention and the listener’s experience. Psychology of Music, 24, 8-91.
Gabrielsson, A. (1973). Adjective ratings and dimension analysis of auditory rhythm patterns.
Scandinavian Journal of Psychology, 14, 244-260.
Geringer, J. M. (1995). Continuous loudness judgments of dynamics in recorded music excerpts.
Journal of Research in Music Education, 43, 22-35.
Hevner, K. (1935a). The affective character of the major and minor modes in music. American
Journal of Psychology, 47, 103-118.
Hevner, K. (1935b). Expression in music: A discussion of experimental studies and theories.
Psychological Review, 42, 186-204.
Hevner, K. (1936). Experimental studies of the elements of expression in music. American Journal
of Psychology, 48, 246-268.
Hevner, K. (1937). The affective value of pitch and tempo in music. American Journal of
Psychology, 49, 621-630.
平 江 遼 , 西 隆 司 (2008). 感 性 に 基 づ く ク ラ シ ック 音 楽 の 分 類 . 日 本 音 響 学 会 誌 , 64,
64
607-615.
Imberty, M. (1979). Entendre la musique. Paris: Dunod.
Iwamiya, S. (1997). Interaction between auditory and visual processing in car audio: Simulation
experiment using video reproduction. Applied Human Science, 16, 115-119.
岩宮眞一郎 (2011). 音楽と映像のマルチモーダルコミュニケーション改訂版,九州大学出
版会.
Juslin, P. N. (2001). Communicating emotion in music performance: a review and theoretical
framework. In Juslin, P. N. & Sloboda, J. A. (Eds.), Music and emotion: theory and
research. (pp. 309-337). New York: Oxford University Press.
金礪愛,中野倫靖,後藤真孝,菊池英明 (2013). ポピュラー音楽における歌声の印象評価
語を自動推定するシステム. 情報処理学会研究報告. [音楽情報科学], 2013-MUS-100,
1-8.
Kim, Y.E., Schmidt, E., Migneco, R., Morton, B., Richardson, P., Scott, J., Speck, J. & Turnbull, D.
(2010). Music emotion recognition: A state of the art review. In Proceedings of the
International Society for Music Information, 255-266.
熊本忠彦, 太田公子 (2006). 印象に基づく楽曲検索システムの設計・構築・公開. 人工知能
学会論文誌, 21, 310-318.
MacDorman, K. F., Ough, S. & Ho, C. C. (2007). Automatic emotion prediction of song excerpts:
Index construction, algorithm design, and empirical comparison. Journal of New Music
Research, 36, 283-301.
Madsen, C. K. (1997). Emotional response to music as measured by the two-dimensional CRDI.
Journal of Music Therapy, 34, 187-199.
難波精一郎,桑野園子(1980)
.時々刻々の大きさを規定する時間範囲並びに全体評価との
関係‐カテゴリ連続判断法による実験‐.大阪大学教養部研究集録,28,1-13.
65
Namba, S., Kuwano, S., Hato, T. & Kato, M. (1991). Assessment of musical performance by using
the method of continuous judgment by selected description. Music Perception, 8, 251-276.
Osgood, C. E., Suci, G. L. & Tannenbaum, P. H. (1957). The measurement of meaning. Urbana, IL:
University of Illinois Press.
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology,
39, 1161-1178.
Saari, P. & Eerola, T. (2013). Semantic computing of moods based on tags in social media of music.
IEEE
Transactions
on
Knowledge
and
Data
Engineering,
pp.1,
http://dx.doi.org/10.1109/TKDE.2013.128
Schubert, E. (1996). Continuous response to music using a two dimensional emotion space. In
Proceedings of the 14th International Conference of Music Perception and Cognition, (ed.
Pennycook, B. & Costa-Giomi, E.), pp.263-268, Montreal, Canada: McGill University.
Schubert, E. (1999). Measuring emotion continuously: Validity and reliability of the two
dimensional emotion space. Australian Journal of Psychology, 51, 154-165.
杉原太郎,森本一成,黒川隆夫 (2003). ユーザの心理的距離を考慮した音楽感性検索シス
テムの開発. 電子情報通信学会技術研究報告. HIP, ヒューマン情報処理, 103, 45-50.
杉原太郎, 森本一成, 黒川隆夫 (2005). m-RIK: 個人の感性特性に対応可能な音楽検索シス
テム. 情報処理学会論文誌, 46, 1560-1570.
谷口高士(1998)
.音楽と感情.北大路書房.
Tsukamoto, M., Yamada, M. & Yoneda, R. (2010). A dimensional study on the emotion of musical
pieces composed for video games. In Proceedings of the 20th International Congress on
Acoustics, Sydney, Australia [CD].
辻康博, 星守, 大森匡 (1997). 曲の局所パターン特徴量を用いた類似曲検索・感性語による
検索. 電子情報通信学会技術研究報告. SP, 96, 17-24.
66
Tzanetakis, G. & Cook, P. (2002). Musical genre classification of audio signals. IEEE Transactions
on Speech and Audio Processing, 10, 293-302.
内田治 (2006). すぐわかる SPSS によるアンケートのコレスポンデンス分析. 東京図書.
Yamada, M., Fujisawa, N. & Komori, S. (2001). The effect of music on the performance and
impression in a video racing game. Journal of Music Perception and Cognition, 7, 65-76.
山田真司, 三浦雅展 (2014). 音楽情報処理で用いられる音響パラメータによる音楽理解の
可能性. 日本音響学会誌, 70, 440-446.
Yamada, M. & Yonera, S. (2001). Temporal control mechanism of repetitive tapping with simple
rhythmic patterns. Acoustical Science and Technology, 22, 245–252.
2013 年度「音楽メディアユーザー実態調査」クール・ジャパンに関する調査 – 日本レコー
ド 協 会 . (2014
年
3
月
17
日 ).
Retrieved 2015
http://www.riaj.or.jp/release/2014/140317_report.pdf.
67
年
1
月
20
日 ,