音楽の印象に合った映像を表現するソフトウェアの

論文
音楽の印象に合った映像を表現するソフトウェアの研究開発
合志
和洋*
清田
公保*
三好
正純**
古賀
広昭*
Software Development for Moving Picture Creation Based on Kansei Information of Music
Kazuhiro Koshi*, Kimiyasu Kiyota*, Masazumi Miyoshi**, Hiroaki Koga*
Abstract
This paper proposes a novel system to create the moving picture based on music physical parameters and its
Kansei factors. The moving picture is created to have equivalent Kansei with the music. The Kansei factors we derived are as
follows: rhythmical sensation, mellow sensation, brilliant sensation, and powerful sensation.
The system was evaluated by using fireworks picture. As a result, the proposed system can improve the Kansei compared with
the reference picture except for the mellow factor.
キーワード:映像,音楽,感性
Keywords:Moving Picture, Music, Kansei
1. まえがき
2. 本システムの概要
我々が PC を利用して音楽を聴く場合,Microsoft 社の
提案するシステムは,楽曲の音量や周波数などの物理量
Windows Media Player や Apple 社の iTunes などの音楽プレー
を抽出し,その物理量から音楽を聴いたときに感じる印象
ヤを利用する。これらの音楽プレーヤは,単に音楽を再生
を推定する。そして,それらの抽出量および推定値に基づ
するだけでなく,音楽に同期した映像を提示することも可
き,音楽から得られる感性と同じような感性を与えるよう
能である。例えば,Windows Media Player では複数の映像の
な映像を生成し,楽曲とともに提示するもものである。こ
中からお気に入りの映像を選択することで,音楽の周波数
こで,本システムの処理の流れを,図 1 に示す。
や音量の時間的変化などの物理量に応じて変化する映像が
まず,音楽信号に短時間フーリエ変換(STFT)を施すこ
提示される。ただし,映像の種類を固定すると,どのよう
とでスペクトログラムを得る。そして,音楽の物理量とし
な雰囲気の音楽をかけても常に同じ映像が表示されている
て,音楽の周波数,音量の時間変化,テンポ,高音域と低
ように感じられてしまう。
音域の音量比,音量の度数分布,および各フーリエ変換時
一方,音楽信号の理解については,推定した音楽信号の
特徴を利用して,感性語により所望の音楽を検索するシス
テムの研究(1)や,音楽と映像の 2 つのメディアに対して両者
の感性を結びつけて検索するシステムの研究(2)など,メディ
アの感性を用いて聴取者に快適な音楽環境を提示しようと
いう研究が進められている。
本稿では,音楽に合わせた映像表現に関する新しいシス
テムを提案する。従来の音楽プレーヤが音楽の物理量のみ
に合わせて映像を変化させるのに対し,提案するシステム
は,音楽から物理量と感性量を抽出し,それらの量に基づ
いて映像を表現する。
*
**
情報通信工学科
〒861-1102 熊本県合志市須屋 2659-2
Dept. of Information and Communication Engineering,
2659-2 Suya, Koshi-shi, Kumamoto 861-1102
電子工学科
〒861-1102 熊本県合志市須屋 2659-2
Dept. of Electronics,
2659-2 Suya, Koshi-shi, Kumamoto 861-1102
熊本電波工業高等専門学校
研究紀要
図1
Fig. 1.
第 34 号(2007)
- 1-
本システムの処理の流れ
Flow diagram of proposed system.
音楽の印象に合った映像を表現するソフトウェアの研究開発(合志)
に得られる周波数スペクトラム包絡線に対してその重心と
なる周波数(以下,重心周波数と呼ぶ)を求める。また,
音楽信号の時間波形に対するフィルタリングおよび包絡線
検波も別途実施する。
つぎに,物理量の各パラメータの値を用いて,図 1 に示
すような 2 つの方法を組み合わせて映像を表現する。
「方法
1」では,音楽の物理量から,音楽の感性量を算出する。そ
して,求めた感性量を用いて映像の中で時間的に変化しな
い要素を決める。例えば,花火映像の場合,感性量によっ
て,花火の色や形,効果などを決める。一方,
「方法 2」で
は,音楽の物理量から,映像が時間的にどのように変化す
るかを決める。例えば,花火映像の場合,音の周波数に応
図2
じて花火の発生位置を割り当て,各周波数の音量値が時間
Fig. 2.
音楽信号のスペクトログラムの例
Example of spectrogram of music signal.
的に変化するのに対応させて,花火の大きさが時間的に変
テンポ
化するようにしている。なお,この方法は従来のシステム
3.2
に用いられている映像表現方法と同等と考える。これら 2
本システムでは,楽曲中に一定の間隔で瞬間的に現われ
つの方法のうち,
「方法 1」に示した感性により映像を表現
る強い音量を検出することでテンポを推定する。図 2 に示
する方法は,従来の音楽プレーヤにはない新しい方法であ
すスペクトログラムにおいて,この音量の変化は,ほぼ一
る。この方法を確立するためには,以下に示す 2 つの技術
定間隔で現われる白い縦線として検出できる。これは,広
が必要となる。1 つは,音楽から音楽感性の値を自動的に推
帯域にわたる周波数の各音量が,一定の間隔で瞬間的に大
定する技術であり,3.で詳述する。もう 1 つは,音楽の感性
きくなっていることを示している。そこで,この白い縦線
パラメータの値に基づいて映像表現を行う技術であり,4.
の間隔を音楽のテンポの値として抽出する。まず,スペク
で具体的に説明する。
トログラムを 2 値化し,各時点での白の度数を求める。つ
ぎに,その度数の時間変化波形とパルス波形との相互相関
このような 2 つの方法を組み合わせて,音楽に合った映
を求める。このとき,パルス波形の周期,位相,デューテ
像表現を行う。
ィ比を変化させることで,最も相関の大きかったパルス周
期をテンポとして決定する。
3. 音楽から抽出した物理パラメータ
音楽信号に対して STFT を施すと,その周波数成分とそ
3.3
高音域と低音域の音量比
れらの振幅が得られる。しかしながら,これらの物理量の
低音域の範囲を 200 Hz から 400 Hz,高音域の範囲を 3
みで音楽の感性量を推定することは困難である。例えば,
kHz から 5 kHz として,スペクトログラムから各音域におけ
楽曲によって異なる音の分布や主旋律の変動,同時に演奏
る全演奏時間中の音量の平均値を計算する。そして,それ
される楽器数などは,聴いたときの印象への寄与が大きい
らの比より,低音および高音の含まれる割り合いを求める。
と思われるが,それらを周波数と音量のみから直接推定す
ることは難しい。そこで,本システムでは,STFT により得
3.4
られたスペクトログラムからさらにテンポ,高音域と低音
音量を 256 段階に離散化し,全演奏時間中の音量度数分
音量度数分布
域の音量比,音量度数分布,および重心周波数を推定する。
布を求める。そして,楽曲中の音量変化の度合いを求める。
また,時間波形に対するフィルタリングおよび包絡線検波
ここで,図 3 に,この音量度数分布の一例を示す。
処理をそれぞれ実行し,低音域および高音域の包絡線波形
の平均値を求める。以下,それらの方法について説明する。
3.1
音楽の周波数と音量
44.1 kHz でサンプリングされた wave ファイル形式の音楽
信号に対し,1024 点の STFT を施すことで,音楽の周波数
およびその音量を求めることができる。また,横軸に時間,
縦軸に周波数をとって図示したものが,スペクトログラム
である。図 2 は,その一例を示したものである。なお,図
では音量の大きさが大きいほど白色に近づくように表示し
ており,時間分解能は約 0.023 s,周波数分解能は約 43 Hz
図3
である。
Fig. 3.
音量度数分布の例
Example of histogram of sound level.
Research Reports of KNCT
- 2-
Vol.34(2007)
3.5
重心周波数
STFT の各フーリエ変換により得られたある時間におけ
る周波数スペクトルにおいて,図 4 に示すように,波形の
重心周波数を約 0.2 s ごとに抽出する。そして,この重心周
波数の時間的な変化を主旋律の変化とし,主旋律の変動幅
を求める。
(a) 音楽の時間波形
(b) 音楽信号から抽出された包絡線
図4
Fig. 4.
3.6
重心周波数の例
図5
Example of center of gravity of spectra wave form.
音楽の時間波形と抽出した包絡線の一例
Fig. 5.
Example of music signal and extracted envelope.
表1
音楽波形の包絡線
音楽の時間波形をフィルタリングし,500 Hz 以下の成分
Table 1.
因子名
軽快感
と 2 kHz 以上の成分とに分ける。そして,それぞれのフィル
タリングされた信号に包絡線検波処理を施すことで音量の
時間的変化の輪郭を取り出す。さらに,それらの包絡線信
号をふたたびカットオフ周波数が 0.1 Hz のローパスフィル
安らぎ感
タに通し,各包絡線波形を求める。また,全演奏時間中の
包絡線波形の平均値および標準偏差も求める。これにより,
同時に演奏される楽器数が異なることによる周波数帯ごと
華やか感
の音量変化の度合いの違いを求める。なお,ここで用いた
圧迫感
フィルタは,全て 2 次の IIR フィルタである。図 5 に,こ
表タイトル
Kansei factors of music.
感性語
軽快な
明るい
リズミカルな
派手な
面白い
安らぎのある
美しい
澄んだ
華やかな
快い
圧倒される
迫力がある
力強い
因子負荷量
0.96
0.90
0.81
0.76
0.72
0.91
0.88
0.79
0.88
0.72
0.89
0.88
0.85
のときの時間波形および包絡線検波後の波形の一例を示
す。
群の代表的な感性語とし,それぞれ軽快感因子,安らぎ感
4. 音楽感性の推定
因子,華やか感因子,圧迫感因子とした(3)。
音楽を聴いたときに受ける感性には,さまざまなものが
るために,これら 4 つの感性因子について,それぞれの値
音楽の感性を推定し,同様の感性を与える映像を生成す
ある。しかしながら,これらすべての感性を取り扱うと処
を音楽信号から推定する式を導出した。ここで,重回帰分
理に時間がかかり効率的でない。そこで,音楽にどのよう
析によって得られた軽快感因子 RC,安らぎ感因子 MC,華
な感性が含まれているかを 10∼20 代の男女 10 名の被験者
やか感因子 BC,および圧迫感因子 PC の推定式を次式に示
による聴取実験によって調査し,音楽について主要な感性
す(3)。
を明らかにした。
7 段階の SD 法によるアンケート調査により得られた結果
に対して因子分析を行った結果を表 1 に示す。
因子分析の結果より,傾向の似ている感性語を同じグル
MC = −0.05µ − 0.10σ + 14.6
(2)
− 0.18σ 0.011P + 3.8
た感性語を省いた。その結果,音楽の感性は,表 1 に示す 4
つの感性語群の値で表されることが分かった。各感性語群
において,最も因子負荷量の大きかったものをその感性語
研究紀要
(1)
BC = 1.10C 2 + 0.004 f g + 0.003T − 0.018 µ
ープにまとめ,また,どの音楽においても変化が少なかっ
熊本電波工業高等専門学校
RC = 0.009T + 5.1R − 0.1
第 34 号(2007)
- 3-
(3)
音楽の印象に合った映像を表現するソフトウェアの研究開発(合志)
表2
Table 2.
PC = 0.00005 Ea + 0.0005 Es + 0.002 f g
+ 0.0053T + 0.057µ + 0.12σ − 8.0
(4)
ここで, T は推定したテンポ,R は高音域と低音域の音量
比,µ,σ,および P は推定した音量度数分布の平均値,標
各感性を与える映像の特徴
Features of moving pictures for each Kansei.
因子名
色
最大値
安らぎ感
圧迫感
軽快感
華やか感
緑,黄,桃,紫
橙,黄,桃,紫
緑,黄,青,橙
緑,橙,青緑,紫
1/10
1/10
1/30
1/40
持続時間
6
1
2
2
s
s
s
s
特徴として,花火の色,画面に対する大きさの最大値,お
準偏差,およびピーク値, fg は重心周波数の平均値,C は
よび持続時間を表 2 に示す。
低音域および高音域の包楽線検波波形の相関係数,Ea およ
例として,安らぎ感のある花火映像と,圧迫感のある映
び Es は高音域包楽線検波波形の平均値および標準偏差であ
像について説明する。安らぎ感のある花火映像では,花火
る。
の安らかな色(4)にし,花火が消えるまでの時間(持続時間)
それぞれ,推定式とアンケート結果との相関係数は 0.61,
を長くすることで,安らぎ感を与えるように作成した。
0.69,0.64,および 0.63 であり,それぞれの印象をある程度
一方,圧迫感のある花火映像では,花火の色を活動的な
推定できることが確認された。
色(4)にし,花火の持続時間を短くした。また,花火の大きさ
の最大値を,他の花火映像に比べて大きくするなどして,
5. 感性に合わせた映像表現
迫力感を与えるような映像を作成した。
本システムでは,聴取する音楽の 4 つの感性因子を推定
5.2
して最も値が大きい因子を特定し,その感性因子と同じ感
本システムの有効性を確かめるため,従来のシステムに
性を与えるような映像を選択する。映像は,花火やオーケ
よって作られた映像と,本システムによって作られた映像
ストラなどを CG で作成し,それぞれの映像について音楽感
とを用い,20 代の男女 6 名の被験者による評価実験を行っ
性と同じ 4 つの感性を与えるような表現方法を準備してお
た。
く。そして,最終的に選んだ映像と音楽とを同期させて表
実験で用いる音楽は,各感性因子を代表する音楽を 2 曲
示する。
5.1
評価実験
ずつ選び,それに加えて,4 つの感性因子の値がどれも同じ
くらいの曲を 2 曲選んで,合計 10 曲の音楽を用いた。映像
各感性の映像
は,各感性因子を与えるような映像 4 種類と,従来のシス
本研究で用いる映像は,全て CG で作成した。本論文では,
テムに基づいて,音楽の物理パラメータのみで表現された
図 6 に示す花火映像を例に,音楽の 4 つの感性を与えるよ
映像(以後,基準映像と記す)1 種類の,合計 5 種類の映像
うな映像作成について説明する。
を用いた。本稿では,動画を掲載することはできないため,
花火映像の CG では,花火の色,大きさの最大値,最大表
基準映像と感性量を付加した映像との違いを直観的に表現
示数,消滅するまでの時間,花火の大きさおよび明るさの
することは困難である。両者の違いを簡単に述べると,基
時間変化の 6 つの要素を映像のパラメータとし,各映像に
準映像における映像の変化は音楽の周波数と振幅のみに依
感性的な違いを持たせた。ここで,各感性を与える映像の
存するのに対し,感性量を付加した映像では,前述の 6 つ
の要素も変化するという点で異なっている。
これらの音楽と映像をランダムに組み合わせて被験者に
提示し,
9 段階の SD 法によるアンケートに答えてもらった。
アンケートに用いた感性語対を表 3 に示す。
表3
(a) “安らぎ”のイメージ
Table 3.
(b) “華やか”のイメージ
軽快感因子
華やか感因子
安らぎ感因子
圧迫感因子
(c) “軽快”のイメージ
図6
Fig. 6.
評価実験にて用いた感性語
(d) “迫力感”のイメージ
その他
作成した各感性に対する花火映像
Produced fireworks image for four Kansei factors.
Kansei words for evaluation.
軽快な−重厚な
明るい−暗い
華やかな−華やかでない
快い−不快
安らぎのある−安らぎのない
美しい−美しくない
圧倒される−圧倒されない
迫力がある−迫力がない
映像が音楽に合う−映像が音楽に合わない
面白い−面白くない
好感が持てる−好感が持てない
感動する−感動しない
魅力的である−魅力的でない
Research Reports of KNCT
- 4-
Vol.34(2007)
図7
各映像を提示したときの感性向上値
Fig. 7.
Improvement of Kansei value by each picture.
図8
音楽再生ライブラリフォーム
Fig. 8.
Form for music library.
音楽の感性による変化を評価実験の結果より,基準映像
提示を零として各感性映像を提示したときの感性向上値を
左下のコントロールボックスにて再生などの操作を行う。
求めた。これを図 7 に示す。
また,音楽の選択の際には,音楽の曲名,歌手名,および
図 7 において,横軸が映像と音楽の種類,縦軸が基準映
アルバム名の 3 つの項目について任意の文字列で検索する
像提示時を零としたときの感性向上値であり,基準映像と
ことができる。例えば,音楽の曲名にチェックを入れて,
音楽を提示したときと比べて,各感性因子を与えるような
検索ボックス内のテキスト入力ボックスに「A」と打ち込み,
映像と音楽を提示したときの感性の向上した値を示してい
検索ボタンを押すと,頭文字に A のつく曲名が,再生ライ
る。これより,ほとんどの感性において基準映像提示時よ
ブラリリスト上に表示される。
りも感性の値が向上していることが分かる。したがって,
イメージ表示フォームでは,音楽を再生するとともに映
従来のシステムに対する本システムの有効性が確かめられ
像が表示される。表示される映像の色合いや動きなどは, 5.
た。ただし,安らぎ感については感性の値が向上していな
で説明したように再生する音楽によって異なる。ただし,
い。この原因としては,安らぎ感を与えるような映像とし
フォーム上部の映像の種類を選択すると,選んだ種類の映
て作成した映像が悪かったことや,安らぎ感のある音楽自
像が音楽に合わせて表現される。映像の種類は,“花火”,
体が,映像を付加しても感性の向上が得られ難い性質を持
“傘”,そして花火映像と傘映像のどちらかが表示される
っている可能性があることなどが考えられる。いずれにせ
“ランダム”の 3 種類から選ぶことができる。フォーム上
よ,今後更なる検討が必要と考える。
部の全画面表示ボタンを押すと,イメージ表示ボックスが
全画面で表示される(図 9 参照)
。図 9 の全画面表示時に画
面の左下にマウスカーソルを移動すると,コントロールボ
6. 映像表現ソフトウェア
ックスが現われる。画面を通常のサイズに戻すときは,元
上述の音楽感性推定技術および音楽感性からの映像表現
技術の 2 つを用いて,音楽に合わせた映像を表現するソフ
トウェアを作成した。本ソフトウェアは,主に,以下の 3
つのフォームから構成されている。
音楽再生ライブラリフォーム:音楽・映像の選択
イメージ表示フォーム:映像を表示
音楽解析フォーム:音楽の感性を推定
図 8 に,作成したソフトの起動画面を示す。
上記 3 つのフォームは,図 8 の画面上部に設置されてい
るフォーム切り替えボタンを押すことで切り替えることが
できる。
音楽再生ライブラリフォームを起動すると,ライブラリ
に登録されている音楽の曲名,歌手名,アルバム名,曲の
演奏時間,年代,およびジャンルなどの音楽情報がリスト
に表示される。この表示は,音楽の歌手名別などに曲名を
図9
並び替えることができる。視聴者は,任意の音楽を選択し,
熊本電波工業高等専門学校
研究紀要
全画面表示時のイメージ表示フォーム
Fig. 9.
第 34 号(2007)
- 5-
Form for image presentation.
音楽の印象に合った映像を表現するソフトウェアの研究開発(合志)
のサイズに戻すボタンを押す。
音楽解析フォームでは,まず,音楽参照ボックスでコン
ピュータ内にある音楽ファイルを選択することでその音楽
ファイルの情報が表示される。解析を始めるときは,フォ
ーム上部の解析開始ボタンを押す。解析ボタンを押すと,
解析中であることを示すダイアログが現われ,進行度合い
が表示される。解析が終わった音楽は,図 8 に示した音楽
再生ライブラリフォーム内の,再生ライブラリリスト上に
自動的に登録され,音楽情報が表示される。なお,本シス
テムでは,1 曲中を通じての音楽感性を推定して映像を作成
しているため,曲の途中におけるミクロなパラメータの変
化には対応していない。
7. むすび
本稿では,音楽に合わせて映像を提示するシステムにつ
いて,音楽の感性を推定し,その感性と一致する映像を表
現する新しい方法を組み込んだシステムについて述べた。
システム開発に必要な技術として,音楽から感性の値を自
動的に推定する技術,および感性の値に応じて映像を表現
する技術を確立し,従来のシステムに対する有効性を確か
めた。また,作成したソフトウェアの概要についても述べ
た。
(平成 19 年 9 月 1 日受付)
文
献
(1) 池添剛,梶川嘉延,野村康雄:
“音楽感性空間を用いた感性語による
音楽データベース検索システム,”情報処理学会論文誌,Vol.42,
No.12,pp.3201--3212 (2001)
(2) 池田徹志,室田健吾,石黒浩,“全方位映像から音楽情報へのメディ
ア変換に基づく視覚情報の伝達,”情報処理学会論文誌,Vol.48,No.1,
pp.274--283 (2007)
(3) 三上亜理沙,合志和洋,古賀広昭:
“音楽に合わせた映像表現システ
ムの検討,”ヒューマンライフ情報技術研究会報告書,HIT2006-8
(2006)
(4) 南雲治嘉:
“配色イメージチャート,”グラフィック社 (2000)
Research Reports of KNCT
- 6-
Vol.34(2007)