音楽ロボットのための複数のビートトラッキングの結合手法と その有効性

情報処理学会第 75 回全国大会
6ZA-4
音楽ロボットのための複数のビートトラッキングの結合手法と
その有効性の検証
糸原 達彦
水本 武志
奥乃 博
京都大学 大学院情報学研究科 知能情報学専攻
1. はじめに
2. ギター奏者との合奏での仮定と問題
合奏の構成は, メロディー担当ロボット 1 体と伴奏担
当の人のギター奏者 1 人とする. 以下に本稿で扱う合奏
の仮定を示す.
1. 4 分の 4 拍子
2. 伴奏は同じビートパターンの繰り返し
3. 人の演奏のビートパターンは未知
仮定 3 の理由は, インターネット上などで公開されてい
る多くの楽譜にビートパターンの記載がないためである.
ギター演奏者との合奏においては, ビートパターンの
複雑さの問題が発生する. これは裏拍音楽などにおける
シンコペーションなどによく見られる. ここで裏拍及び
表拍は, 一小節を偶数個に等分したときのそれぞれ偶数
番目, 奇数番目の拍のことを指し, シンコペーションと
は偶数番目のとその次の奇数番目の拍との連結のような
ビートパターンを指す. 図 2 に代表的なビートパターン
を示す. パターン 1,2,3 ではアクセントが全て表拍に置か
れる一方, それ以外のパターンは裏拍アクセントを含ん
でいる. パターン 4,5,6 がシンコペーションにあたる. パ
ターン 7,8 は裏拍演奏の代表例であり, のアクセントは
裏拍にのみ置かれている. 以上より, アクセント位置, ひ
いてはビートパターンに対する頑健性は重要である.
3. 信頼度
本手法では入力の音声信号をオンセットベクタに変換
して扱う. オンセットベクタとは入力信号のスペクトロ
グラムにメルスケールフィルタと Sobel フィルタをかけ
The bagging technique of multiple beat-tracking methods for music robots
and the validity verification: Tatsuhiko Itohara, Takeshi Mizumoto, and
Hiroshi G. Okuno (Kyoto Univ.)
ධຊಙྕ
䝔䞁䝫
ᢿ఩⨨
ಙ㢗ᗘ
䝡䞊䝖䝖䝷䝑䜻䞁䜾 N
䝔䞁䝫
ᢿ఩⨨
ಙ㢗ᗘ
䝣䜱䝹䝍(䝯䝹, Sobel)
䜸䞁䝉䝑䝖䝧䜽䝍
䝡䞊䝖䝖䝷䝑䜻䞁䜾 1
呍
呍
呍
㻌㻌
本稿では音楽ロボットのための複数のビートトラッキ
ングの結合手法とギター奏者との合奏への適用について
述べる. ギターは演奏が容易で伴奏楽器として一般的で
あるため, ロボットとの演奏機会の増加が期待できる. ギ
ター演奏の追従の難しさは, ビートパターンが多様なこ
と, 多くのギター譜にビートパターンの記載がないこと
の 2 つである. ビートトラッキングは音楽信号から各時
刻のテンポと拍位置を推定する手法で, 音楽ロボットの
合奏追従に必要不可欠な手法である. 従来手法ではビー
トパターンや使用楽器に仮定を設けることによって, 拍
検出精度を向上してきた. 一方で, 仮定にそわない状況下
では性能が下がるという問題があり, 合奏形態に応じて
適切なビートトラッキング手法を選択する必要が発生し
ていた. そこで本研究ではビートトラッキングの汎用的
な信頼度を設計し, 各時刻の拍検出に対し信頼度に基づ
いた拍の選択を行なうことで, 複数手法の統合を行なう
(図 1). 実験では, ビートパターンによる有利・不利のあ
る 2 手法の統合を行い, ビートパターン対する頑健性と
いう観点から, 拍検出精度の評価を行う.
㑅ᢥ
図 1: 結合されたビートトラッキングの概要図.
1.
5.
2.
6.
3.
7.
4.
8.
図 2: 代表的なギターのビートパターン. × は打撃音 (カッ
ティング) を, > はアクセントを, 矢印は手の運動方向を,
括弧つきの矢印は空振りを表す.
たものである. 各フィルタの目的は, 計算量の削減及び定
常ノイズの抑圧である. 以下で導出を説明する.
入力となる音楽信号を 44.1[kHz],16[bit] で同期して
サンプリングしたのち,窓長 4,096[pt],シフト長 512[pt]
で短時間フーリエ変換 (STFT) を用いた周波数解析を行
う. 得られたスペクトルにメルフィルタバンクを適用し,
周波数の次元数を削減した. 本稿では 15 次元にした. 得
られたメルスケールでのパワースペクトルを pmel (t, f )
とする. f はメル周波数軸での周波数インデックスを表
す. t フレーム目のスペクトログラムに対し,エッジ強
調をするために Sobel フィルタを適用し (psobel ), 負の部
分を 0 としたものをオンセットベクトル d(t, f ) と定義す
る. d(t, f ) は以下の式で導出される.
{
psobel (t, f ) if psobel (t, f ) > 0,
d(t, f ) =
(1)
0
otherwise
ここで, あるビートトラッキング X について, ビートベ
クタ qX (n, m, f ) を導入する (式 (2,3)).
(m+1)∆tX
1
∑ d(tX,n + i, f )
tX,n+1 − tX,n i=m∆t
X
/
∆tX = (tX,n+1 − tX,n ) mq
qX (n, m, f ) =
(2)
(3)
ビートベクタはオンセットベクタの検出拍の間のベク
タ数を mq 個に量子化したものである. n, m, f はそれぞれ
検出拍インデックス, 拍間インデックス, オンセットベク
タの周波数ビンである. 式中の tX,n はビートトラッキン
グ X が検出した n 個目の検出拍の時間フレームである.
信頼度はビートベクタの 2 つの正規化相互相関の和に
より計算される. ここで相関を用いるのは, 2 的であるた
め, ビートトラッキングが正しく行われた場合に一小節
4-119
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.
情報処理学会第 75 回全国大会
表 1: 各手法ごとの F 値 (%) の比較 (番号は楽譜パターン)
䝡䞊䝖䝖䝷䝑䜽1
1
2
3
Ours 94.3 91.8 91.8
SPTM 95.1 91.1 91.1
AVBT 85.9 85.9 86.9
⮬ᕫ┦㛵
䝡䞊䝖䝖䝷䝑䜽2
ᑐ㑅ᢥᢿ
㻌 㻌 ┦㛵
㑅ᢥᢿ
4
70.7
64.5
77.6
5
67.1
69.0
59.2
6
55.6
54.2
54.3
7
49.8
32.4
88.9
8
31.2
29.2
48.3
Ave.
69.1
65.9
73.4
100
80
長のスペクトログラムが最新のものと一小節前のものと
で同じとみなせるからである. 2 つの相関は自己相関と
対選択拍相関である (図 3). 対選択拍相関とは, 選択拍の
ビートベクタの後ろにビートトラック X の最新拍のビー
トベクタを結合したものの自己相関である. 自己相関は
各ビートトラッキングが単体で機能している場合に, 対
選択拍相関は複数のビートトラッキングが相互に補完し
合っている場合に各々高い値になることを意図している.
ビートベクタ qX の時刻 t における自己相関 SqX ,t を以
下に示す.
60
NF mq
∑ ∑
SqX ,t = √
n
∑ qX (k, i, j)qX (k − 4, i, j)
j=1 i=0 k=n−3
NF mq
∑ ∑
n
NF mq
∑ qX (k, i, j)2 ∑ ∑
j=1 i=0 k=n−3
(4)
n−4
∑ qX (k, i, j)2
j=1 i=0 k=n−7
ただし, n は時刻 t における拍の検出個数であるとする.
NF はビートベクタの次元数であり, 本稿では 15 次元す
べてを用いた. 自己相関と対選択拍相関の和の比は経験
的に 0.1:0.9 とした. 各ビートトラッキング結果に対し
信頼度を計算し, 各時間フレームにおいて最大の信頼度
を持つ推定結果を選択する.
4. 実験及び考察
4.1 実験条件
ヒューマノイド HRP-2 を用いて実験を行った. ギター
演奏の録音データは, 被験者 4 名でそれぞれテンポ 3 種
(BPM70, 90, 110), ビートパターンは図 2 に示された 8
種である. 数字が小さいほど表拍アクセントが, 大きく
なるほど裏拍アクセントが多くなるよう番号を付した.
カメラの fps は約 19 である. 人とロボットの距離は約
3[m] で, ギター全体が画面に含まれる. また, 推定がビー
ト位置誤差が ±150[msec] 以内であるときを推定成功と
し, それらの適合率, 再現率をそれぞれ (r prec = Ne /Nd ),
(rrecall = Ne /Nc ) で定義する. ただし, Ne , Nd , Nc はそれぞ
れ推定拍数, 推定成功拍数, 正解拍数を表す. ここで, そ
れらの調和平均である, F 値を導入する:
/
F-measure = 2 (1/r prec + 1/rrecall ) .
(5)
4.2 使用したビートトラッキング手法
本稿ではオンセットベクタと表拍検出ルールを用いた
手法 (STPM) [1] と, ギター演奏のための視聴覚統合を用
いた手法 (AVBT) [2] の統合を行う. STPM は表拍音楽
を仮定した拍探索ルールにより, 表拍音楽での追従性能
がよい反面, 裏拍音楽での追従性能が悪さが, 文献 [2] に
よって明らかになっている.
AVBT はギター演奏者に焦点を置いた視聴覚統合ビー
トトラッキングである. 画像情報である手の軌道がビー
トパターンによらず, 小節内の演奏位置との相関が強い
F-್ (%)
図 3: 自己相関と対選択拍相関の概要図.
Our method
STPM
AVBT
40
20
0
1 㻌 㻌 2㻌 㻌 3㻌 㻌 4㻌 㻌 5㻌 㻌 6㻌 㻌 7㻌 㻌 8㻌 ᖹᆒ
[䝡䞊䝖䝟䝍䞊䞁]
図 4: 各手法ごとの F 値 (%) の比較.
ことを利用し, 表拍音楽の制限のないビートトラッキン
グを報告した. 一方で, 表拍音楽では STPM の方が高い
精度を出しており, 裏拍音楽でも精度はロボットとの合
奏において十分であるとはいえない.
4.3 精度比較
各手法の推定精度の比較結果を図 4 に示す. STPM が
番号の小さい表拍のビートパターンでは高い精度を示す
一方, インデックスの増加, つまり裏拍ビートの増加に
伴って精度が極端に下がっている. AVBT では手の軌道
が 8 ビートモデル化であるため, それに合致するパター
ン 1,2,3,4,7 の精度は 80%に近い. しかし, パターン 5,6,8
は 16 ビートであるため推定精度は低い.
本結合手法は表拍音楽及び表拍と裏拍の混合音楽では
比較的よい結果を出している. 例えば, 表拍であるパター
ン 1 から 3 においては最も高い推定精度を出しており, 表
拍と裏拍の混合である残りパターンでも STPM と AVBT
の平均のような精度を得ることが確認できた. またわず
かではあるが, 拍の組み合わせにより結合前以上の精度
を出すパターンが存在することも確認できた. 一方でパ
ターン 7,8 で結合手法の精度が STPM に引きこまれてい
ることが確認できる. これは STPM が周期性を保ったま
ま誤拍検出をするため, スペクトルの相関つまり信頼度
が高くなることが原因と考えられる.
5. おわりに
本稿では, 音楽ロボットのための人のギタービートト
ラッキングの結合手法を報告した. 実験により, 2 つの
ビートトラッキングの結合により両者の中間程度の精度
がでることを確認した. 現在, 各フレームの情報のみを用
いて信頼度を計算し, 各フレームにおいて信頼度の高い
ものを常に選択している. 今後, 過去の結果を信頼度の計
算に取り入れることで, パターン 7,8 を含め両者の良い
結果を組み合わせた結果を得るための改善が必要である.
また主観評価などで, 合奏そのものの評価も行いたい.
謝辞 本研究の一部は科研費 No.24220006 の支援を受けた. ま
た, STPM の使用許可をいただいた HRI-JP に感謝する.
参考文献
[1] K. Murata et al. A beat-tracking robot for human-robot interaction and
its evaluation. In Proc. of Humanoids, pages 79–84. IEEE, 2008.
[2] T. Itohara et al. A multi-modal tempo and beat tracking system based
on audio-visual information from live guitar performances. EURASIP
J. on Audio, Speech, and Music Processing, 2012(1):6, 2012.
4-120
Copyright 2013 Information Processing Society of Japan.
All Rights Reserved.