情報処理学会第 75 回全国大会 6ZA-4 音楽ロボットのための複数のビートトラッキングの結合手法と その有効性の検証 糸原 達彦 水本 武志 奥乃 博 京都大学 大学院情報学研究科 知能情報学専攻 1. はじめに 2. ギター奏者との合奏での仮定と問題 合奏の構成は, メロディー担当ロボット 1 体と伴奏担 当の人のギター奏者 1 人とする. 以下に本稿で扱う合奏 の仮定を示す. 1. 4 分の 4 拍子 2. 伴奏は同じビートパターンの繰り返し 3. 人の演奏のビートパターンは未知 仮定 3 の理由は, インターネット上などで公開されてい る多くの楽譜にビートパターンの記載がないためである. ギター演奏者との合奏においては, ビートパターンの 複雑さの問題が発生する. これは裏拍音楽などにおける シンコペーションなどによく見られる. ここで裏拍及び 表拍は, 一小節を偶数個に等分したときのそれぞれ偶数 番目, 奇数番目の拍のことを指し, シンコペーションと は偶数番目のとその次の奇数番目の拍との連結のような ビートパターンを指す. 図 2 に代表的なビートパターン を示す. パターン 1,2,3 ではアクセントが全て表拍に置か れる一方, それ以外のパターンは裏拍アクセントを含ん でいる. パターン 4,5,6 がシンコペーションにあたる. パ ターン 7,8 は裏拍演奏の代表例であり, のアクセントは 裏拍にのみ置かれている. 以上より, アクセント位置, ひ いてはビートパターンに対する頑健性は重要である. 3. 信頼度 本手法では入力の音声信号をオンセットベクタに変換 して扱う. オンセットベクタとは入力信号のスペクトロ グラムにメルスケールフィルタと Sobel フィルタをかけ The bagging technique of multiple beat-tracking methods for music robots and the validity verification: Tatsuhiko Itohara, Takeshi Mizumoto, and Hiroshi G. Okuno (Kyoto Univ.) ධຊಙྕ 䝔䞁䝫 ᢿ⨨ ಙ㢗ᗘ 䝡䞊䝖䝖䝷䝑䜻䞁䜾 N 䝔䞁䝫 ᢿ⨨ ಙ㢗ᗘ 䝣䜱䝹䝍(䝯䝹, Sobel) 䜸䞁䝉䝑䝖䝧䜽䝍 䝡䞊䝖䝖䝷䝑䜻䞁䜾 1 呍 呍 呍 㻌㻌 本稿では音楽ロボットのための複数のビートトラッキ ングの結合手法とギター奏者との合奏への適用について 述べる. ギターは演奏が容易で伴奏楽器として一般的で あるため, ロボットとの演奏機会の増加が期待できる. ギ ター演奏の追従の難しさは, ビートパターンが多様なこ と, 多くのギター譜にビートパターンの記載がないこと の 2 つである. ビートトラッキングは音楽信号から各時 刻のテンポと拍位置を推定する手法で, 音楽ロボットの 合奏追従に必要不可欠な手法である. 従来手法ではビー トパターンや使用楽器に仮定を設けることによって, 拍 検出精度を向上してきた. 一方で, 仮定にそわない状況下 では性能が下がるという問題があり, 合奏形態に応じて 適切なビートトラッキング手法を選択する必要が発生し ていた. そこで本研究ではビートトラッキングの汎用的 な信頼度を設計し, 各時刻の拍検出に対し信頼度に基づ いた拍の選択を行なうことで, 複数手法の統合を行なう (図 1). 実験では, ビートパターンによる有利・不利のあ る 2 手法の統合を行い, ビートパターン対する頑健性と いう観点から, 拍検出精度の評価を行う. 㑅ᢥ 図 1: 結合されたビートトラッキングの概要図. 1. 5. 2. 6. 3. 7. 4. 8. 図 2: 代表的なギターのビートパターン. × は打撃音 (カッ ティング) を, > はアクセントを, 矢印は手の運動方向を, 括弧つきの矢印は空振りを表す. たものである. 各フィルタの目的は, 計算量の削減及び定 常ノイズの抑圧である. 以下で導出を説明する. 入力となる音楽信号を 44.1[kHz],16[bit] で同期して サンプリングしたのち,窓長 4,096[pt],シフト長 512[pt] で短時間フーリエ変換 (STFT) を用いた周波数解析を行 う. 得られたスペクトルにメルフィルタバンクを適用し, 周波数の次元数を削減した. 本稿では 15 次元にした. 得 られたメルスケールでのパワースペクトルを pmel (t, f ) とする. f はメル周波数軸での周波数インデックスを表 す. t フレーム目のスペクトログラムに対し,エッジ強 調をするために Sobel フィルタを適用し (psobel ), 負の部 分を 0 としたものをオンセットベクトル d(t, f ) と定義す る. d(t, f ) は以下の式で導出される. { psobel (t, f ) if psobel (t, f ) > 0, d(t, f ) = (1) 0 otherwise ここで, あるビートトラッキング X について, ビートベ クタ qX (n, m, f ) を導入する (式 (2,3)). (m+1)∆tX 1 ∑ d(tX,n + i, f ) tX,n+1 − tX,n i=m∆t X / ∆tX = (tX,n+1 − tX,n ) mq qX (n, m, f ) = (2) (3) ビートベクタはオンセットベクタの検出拍の間のベク タ数を mq 個に量子化したものである. n, m, f はそれぞれ 検出拍インデックス, 拍間インデックス, オンセットベク タの周波数ビンである. 式中の tX,n はビートトラッキン グ X が検出した n 個目の検出拍の時間フレームである. 信頼度はビートベクタの 2 つの正規化相互相関の和に より計算される. ここで相関を用いるのは, 2 的であるた め, ビートトラッキングが正しく行われた場合に一小節 4-119 Copyright 2013 Information Processing Society of Japan. All Rights Reserved. 情報処理学会第 75 回全国大会 表 1: 各手法ごとの F 値 (%) の比較 (番号は楽譜パターン) 䝡䞊䝖䝖䝷䝑䜽1 1 2 3 Ours 94.3 91.8 91.8 SPTM 95.1 91.1 91.1 AVBT 85.9 85.9 86.9 ⮬ᕫ┦㛵 䝡䞊䝖䝖䝷䝑䜽2 ᑐ㑅ᢥᢿ 㻌 㻌 ┦㛵 㑅ᢥᢿ 4 70.7 64.5 77.6 5 67.1 69.0 59.2 6 55.6 54.2 54.3 7 49.8 32.4 88.9 8 31.2 29.2 48.3 Ave. 69.1 65.9 73.4 100 80 長のスペクトログラムが最新のものと一小節前のものと で同じとみなせるからである. 2 つの相関は自己相関と 対選択拍相関である (図 3). 対選択拍相関とは, 選択拍の ビートベクタの後ろにビートトラック X の最新拍のビー トベクタを結合したものの自己相関である. 自己相関は 各ビートトラッキングが単体で機能している場合に, 対 選択拍相関は複数のビートトラッキングが相互に補完し 合っている場合に各々高い値になることを意図している. ビートベクタ qX の時刻 t における自己相関 SqX ,t を以 下に示す. 60 NF mq ∑ ∑ SqX ,t = √ n ∑ qX (k, i, j)qX (k − 4, i, j) j=1 i=0 k=n−3 NF mq ∑ ∑ n NF mq ∑ qX (k, i, j)2 ∑ ∑ j=1 i=0 k=n−3 (4) n−4 ∑ qX (k, i, j)2 j=1 i=0 k=n−7 ただし, n は時刻 t における拍の検出個数であるとする. NF はビートベクタの次元数であり, 本稿では 15 次元す べてを用いた. 自己相関と対選択拍相関の和の比は経験 的に 0.1:0.9 とした. 各ビートトラッキング結果に対し 信頼度を計算し, 各時間フレームにおいて最大の信頼度 を持つ推定結果を選択する. 4. 実験及び考察 4.1 実験条件 ヒューマノイド HRP-2 を用いて実験を行った. ギター 演奏の録音データは, 被験者 4 名でそれぞれテンポ 3 種 (BPM70, 90, 110), ビートパターンは図 2 に示された 8 種である. 数字が小さいほど表拍アクセントが, 大きく なるほど裏拍アクセントが多くなるよう番号を付した. カメラの fps は約 19 である. 人とロボットの距離は約 3[m] で, ギター全体が画面に含まれる. また, 推定がビー ト位置誤差が ±150[msec] 以内であるときを推定成功と し, それらの適合率, 再現率をそれぞれ (r prec = Ne /Nd ), (rrecall = Ne /Nc ) で定義する. ただし, Ne , Nd , Nc はそれぞ れ推定拍数, 推定成功拍数, 正解拍数を表す. ここで, そ れらの調和平均である, F 値を導入する: / F-measure = 2 (1/r prec + 1/rrecall ) . (5) 4.2 使用したビートトラッキング手法 本稿ではオンセットベクタと表拍検出ルールを用いた 手法 (STPM) [1] と, ギター演奏のための視聴覚統合を用 いた手法 (AVBT) [2] の統合を行う. STPM は表拍音楽 を仮定した拍探索ルールにより, 表拍音楽での追従性能 がよい反面, 裏拍音楽での追従性能が悪さが, 文献 [2] に よって明らかになっている. AVBT はギター演奏者に焦点を置いた視聴覚統合ビー トトラッキングである. 画像情報である手の軌道がビー トパターンによらず, 小節内の演奏位置との相関が強い F-್ (%) 図 3: 自己相関と対選択拍相関の概要図. Our method STPM AVBT 40 20 0 1 㻌 㻌 2㻌 㻌 3㻌 㻌 4㻌 㻌 5㻌 㻌 6㻌 㻌 7㻌 㻌 8㻌 ᖹᆒ [䝡䞊䝖䝟䝍䞊䞁] 図 4: 各手法ごとの F 値 (%) の比較. ことを利用し, 表拍音楽の制限のないビートトラッキン グを報告した. 一方で, 表拍音楽では STPM の方が高い 精度を出しており, 裏拍音楽でも精度はロボットとの合 奏において十分であるとはいえない. 4.3 精度比較 各手法の推定精度の比較結果を図 4 に示す. STPM が 番号の小さい表拍のビートパターンでは高い精度を示す 一方, インデックスの増加, つまり裏拍ビートの増加に 伴って精度が極端に下がっている. AVBT では手の軌道 が 8 ビートモデル化であるため, それに合致するパター ン 1,2,3,4,7 の精度は 80%に近い. しかし, パターン 5,6,8 は 16 ビートであるため推定精度は低い. 本結合手法は表拍音楽及び表拍と裏拍の混合音楽では 比較的よい結果を出している. 例えば, 表拍であるパター ン 1 から 3 においては最も高い推定精度を出しており, 表 拍と裏拍の混合である残りパターンでも STPM と AVBT の平均のような精度を得ることが確認できた. またわず かではあるが, 拍の組み合わせにより結合前以上の精度 を出すパターンが存在することも確認できた. 一方でパ ターン 7,8 で結合手法の精度が STPM に引きこまれてい ることが確認できる. これは STPM が周期性を保ったま ま誤拍検出をするため, スペクトルの相関つまり信頼度 が高くなることが原因と考えられる. 5. おわりに 本稿では, 音楽ロボットのための人のギタービートト ラッキングの結合手法を報告した. 実験により, 2 つの ビートトラッキングの結合により両者の中間程度の精度 がでることを確認した. 現在, 各フレームの情報のみを用 いて信頼度を計算し, 各フレームにおいて信頼度の高い ものを常に選択している. 今後, 過去の結果を信頼度の計 算に取り入れることで, パターン 7,8 を含め両者の良い 結果を組み合わせた結果を得るための改善が必要である. また主観評価などで, 合奏そのものの評価も行いたい. 謝辞 本研究の一部は科研費 No.24220006 の支援を受けた. ま た, STPM の使用許可をいただいた HRI-JP に感謝する. 参考文献 [1] K. Murata et al. A beat-tracking robot for human-robot interaction and its evaluation. In Proc. of Humanoids, pages 79–84. IEEE, 2008. [2] T. Itohara et al. A multi-modal tempo and beat tracking system based on audio-visual information from live guitar performances. EURASIP J. on Audio, Speech, and Music Processing, 2012(1):6, 2012. 4-120 Copyright 2013 Information Processing Society of Japan. All Rights Reserved.
© Copyright 2024 Paperzz