ベース音高と和音特徴の統合に基づく和音系列認識

情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
1. は じ め に
ベース音高と和音特徴の統合に基づく和音系列認識
近年,計算機による音楽音響信号の解析はますます重要になってきている.大容量デジタ
ルオーディオプレイヤの普及やそれにともなう音楽配信サービスの発展により,多様なユー
須
駒
見
谷
康 平†1,∗1 糸
和 範†1,∗3 尾
山
形
克
哲
寿†1
也†1
吉
奥
井 和 佳†1,∗2
乃
博†1
ザのニーズに合わせた楽曲検索や楽曲推薦が求められている.大量の音楽コンテンツから柔
軟な検索や推薦を行うためには,演奏者や曲名などの書誌情報に加えて,楽器構成や楽曲構
造,ジャンル,テンポ,雰囲気などの楽曲の内容に基づく情報が重要である.そのような情
本論文では,ベース音高と和音の関連を考慮した和音系列認識の手法を提案する.
和音系列はともに楽曲を構成する他の音楽的要素と深く関連しているため,それらの
関係性を考慮して認識を行うことで精度の向上が期待される.我々は,ベース音が構
成するメロディであるベースラインとの関係性に着目し,和音系列認識の重要な手が
かりとして使用する.和音特徴,和音遷移パターンに加え,ベース音高分布に基づく
和音系列の事後確率を定義し,事後確率が最大となる和音系列を Viterbi 探索するこ
とで求める.“The Beatles” の 12 アルバム中の,調を持ち転調を含まない 150 楽曲
に対して行った実験の結果,和音に関する特徴のみを用いる場合よりもベース音高情
報を付加した場合の方が精度は向上し,73.7%の平均認識率が得られた.
報の人手による抽出と記述は,大量の楽曲の網羅と均一な品質の確保に困難をともなう.そ
こで,こうした情報を計算機によって自動的に抽出するためには,音楽音響信号を解析し,
メロディやハーモニなどの様々な音楽的要素を認識する技術が不可欠である.
本研究の最終的な目的は,音楽音響信号を解析し,様々な音楽的要素の相互関連を考慮し
たうえでこれらの要素を同時に認識する,音楽解析システムの構築である.音楽の三大要素
とされるメロディ,ハーモニ,リズムに加えて,これらから派生する楽曲構造,音色,テン
ポ,さらに作風,奏法,作曲年代など,様々な音楽的要素があり,楽曲は複数の要素の関係
を吟味したうえで制作されることが多い.そのため,音楽的要素を推定・認識する際も,要
Automatic Chord Sequence Recognition Based on
Integration of Chord and Bass Pitch Features
Kouhei Sumi,†1,∗1 Katsutoshi Itoyama,†1
Kazuyoshi Yoshii,†1,∗2 Kazunori Komatani,†1,∗3
Tetsuya Ogata†1 and Hiroshi G. Okuno†1
This paper presents a method that identifies musical chords in polyphonic
musical signals. As musical chords mainly represent harmony of music and
are related to other musical elements such as melody and rhythm, performance of chord recognition should improve if this interrelationship is taken
into consideration. In this paper, bass lines are utilized as clues for improving chord recognition. Our chord recognition system is constructed based on
Viterbi-algorithm-based maximum a posteriori estimation which uses a posterior probability based on chord features, chord transition patterns, and bass
pitch distributions. Experimental results with 150 songs which have scales and
no modulation in twelve Beatles albums showed the recognition rate of 73.7%
on average.
1803
素の相互関係を考慮して解析することで,個々の要素の認識精度が向上すると期待される.
本論文での目的は,上記の音楽解析システム構築に向けた第一歩としての,ポピュラー楽
曲におけるベース音と和音との関係に基づく和音系列の認識である.本論文では音楽的要
素として,和音系列,調,和音を表す音響特徴である和音特徴,およびベース音を扱う.和
音は音楽の三大要素の 1 つであるハーモニから派生する音楽的要素である.和音の系列や
分布は楽曲の雰囲気に強く影響を及ぼし,楽曲構造の類似度を計算する手がかりであるこ
とから,雰囲気やスタイルの類似性に基づく楽曲検索1)–3) ,カバー曲の検索4) において重
要な役割を果たす.ベース音とは,楽曲中の各時刻で最も音高が低い楽器音であり,多くの
ポピュラー楽曲ではベースギターによって演奏される.ベース音は和音のルート音や構成音
†1 京都大学大学院情報学研究科
Graduate School of Informatics, Kyoto University
∗1 現在,ヤマハ株式会社
Presently with Yamaha Corporation
∗2 現在,産業技術総合研究所
Presently with National Institute of Advanced Industrial Science and Technology (AIST)
∗3 現在,名古屋大学大学院工学研究科
Presently with Graduate School of Engineering, Nagoya University
c 2011 Information Processing Society of Japan
1804
ベース音高と和音特徴の統合に基づく和音系列認識
であることが多く,またベース音の音高遷移パターンはそれ以降の和音遷移を暗に導く.し
本論文ではこれらの手法の問題点を解決した和音系列認識システムについて述べる.各時
たがって,ベース音の音高(ベース音高)を推定し,その結果を和音系列認識に用いること
刻の和音名を反映した和音特徴,メロディの一部であるベース音高,和音遷移の頻出パター
で,認識精度の向上が期待される.調は和音と同様にハーモニから派生する音楽的要素で,
ンに基づいて和音系列の事後確率を定義し,事後確率を最大化する和音系列を Viterbi 探索
楽曲全体で中心的な役割を持つ音および音階を表す.特に和音との関係では,和音の出現頻
で求める.以下,2 章ではベース音高を用いる動機を説明し,解決すべき課題とその解決法
度や遷移パターンに影響を及ぼす.クラシック楽曲に比べてポピュラー楽曲では楽譜などが
を述べる.3 章では和音系列認識システムの概要と問題設定,および和音系列事後確率につ
十分に整備されておらず,計算機による音響信号からの自動採譜などのニーズが高いこと,
いて述べる.4 章で評価実験の結果と本手法の有効性を示し,5 章で結論を述べる.
クラシック楽曲で重要な音楽的要素である主題がポピュラー楽曲では重視されず,和音系列
が楽曲の雰囲気などに相対的に大きな影響を与えることなどから,本論文ではポピュラー音
2. ベース音高を用いた和音系列認識
我々は,ハーモニを構成する和音とメロディの一部であるベース音高との関連に着目し,
楽を対象とする.
これまで和音系列認識に関する研究は多数行われている.近年主流となっているのは,和
音系列がマルコフ過程であると仮定し,様々な和音特徴量を観測データとして隠れマルコフ
モデル(Hidden Markov model: HMM)を用いた Viterbi 探索で最適な和音系列を求める
手法である.拡張した Pitch Class Profile 5) を和音特徴として用いた手法6) ,和音遷移確
この関連を考慮した和音系列認識手法を提案する.
2.1 ベース音の性質
本研究では,和音と関わりの深い要素として,ベース音に着目する.ベース音は楽曲中の
各時刻で最も音高が低い楽器音であり,以下のような和音に関係した性質を持つ.
率に音楽知識を取り入れた手法7) ,倍音の影響をモデル化した和音特徴を用いた手法8) ,音
• 和音の低音部を構成する.
程間の関係を格子状のダイアグラムで表現した Tonnetz に基づく Tonal Centroid を用いて
• ベース音のある種の音高遷移パターンと和音の遷移パターンとの対応が決まっており,
9)
和音境界を検出する手法 ,調ごとに異なる HMM を用いて各 HMM による認識結果から
和音系列を導く役割を担う.
最尤なものを選択する手法10) ,和音の持続調をモデル化することで和音系列の断片化に対
このため,ベース音が和音系列認識において有用な手がかりとなることが期待できる.
処した手法11),12) ,打楽器音などの非調波的な音を抑制し調波音が強調された音響信号から
2.2 解決すべき課題
などが提案されている.これらの手法では,使用する和
1 章で述べたように,従来の仮説探索手法14) における仮説信頼度ではベース音高の利用
音特徴や和音系列のモデル化などに工夫がみられるが,和音を表現する特徴のみを用いてお
方法に問題点が残されていた.そのほか,和音系列認識システムを構築するにあたり,以下
り,メロディやリズムなど,和音系列以外の音楽的要素との関連性は重視されていない.
の課題を解決する必要がある.
抽出した和音特徴を用いた手法
13)
これらに対して,ベースギターなどの楽器が演奏するメロディであるベースラインと和音
系列との関連性を考慮した和音系列認識手法
14)
が提案されている.この手法では,楽曲の
2.2.1 ベース音高推定誤りによる認識率低下
従来研究14) は,推定されたベース音高に応じて音楽的知識に基づくペナルティを与える
先頭からある時刻までの和音名と和音境界の時系列および楽曲全体の調からなる和音系列
ことでベース音高に基づく和音系列仮説の評価を行っていた.そのベース音高推定手法は,
仮説を,楽曲先頭から末尾まで探索することで和音系列を求める.和音区間から抽出した
入力されたパワースペクトルに対して各時刻でのベース音高候補の抽出とその候補の信頼
和音特徴の単一正規分布の尤度,音楽的知識に基づく和音遷移パターン,ベース音高に対
性の計算を同時に行い最も信頼性の高いベース音高候補を時間的に接続するものであった.
するペナルティを用いて仮説探索における評価関数を定義している.前述のとおり,本研究
すなわち,各時刻で最も優勢なベース音高のみを用いており,たとえば残響などである時刻
の最終的な目的は複数の音楽的要素を同時に認識する音楽解析システムの構築であるため,
に複数のベース音が存在する場合にはベース音高誤りが起こりやすい.このような誤りは和
認識のための目的関数が容易に拡張可能であり,かつその探索(最適化)手法が汎用的なも
音系列認識に悪影響を与える.
のであることが望ましいが,主観的なペナルティや和音進行認識に特化した特殊な仮説探索
2.2.2 汎化能力の低い確率モデルによる経路探索手法への制約
は目的関数や最適化手法の拡張性を妨げるため,本研究の目的にそぐわない.
従来手法14) では,和音特徴の長時間平均の分布が単一正規分布に従うと仮定し,和音区
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1805
ベース音高と和音特徴の統合に基づく和音系列認識
間内で平均した和音特徴に対する各和音名に対応させた単一正規分布パラメータの尤度で
2.3.2 混合正規分布による和音特徴のモデル化
和音特徴に基づく和音系列仮説の評価を行っていた.同じ和音名を持つ和音区間では和音特
和音特徴の時刻間での独立性を向上させるため,混合正規分布(Gaussian mixture model:
徴の平均がつねに同じ分布に従うと仮定していたため,楽器編成や演奏表情(分散和音な
GMM)を用いて和音特徴の生成過程をモデル化する.和音特徴には 12 次元クロマベクト
ど)の違いに起因する和音特徴のばらつきが和音系列認識に悪影響を与え,また Viterbi 探
ル21) を用いる.GMM は単一正規分布よりも広範な確率分布を表現できるため,和音特徴
索などの最適経路探索手法を活用できなかった.
の長時間平均をとらなくても各時刻の和音特徴の分布を十分にモデル化でき,和音系列認識
2.3 アプローチ
精度向上が期待される.また,3.1 節で述べるように,本研究では三和音のみを認識対象と
2.2 節の 2 つの課題を解決するために,ベース音高分布と時間独立性の高い確率モデルを
するが,実際の楽曲には四和音やテンションコードなども含まれており,これらを構成音に
導入する.以下にその詳細を述べる.
基づいて三和音のいずれかに分類する.したがって,それぞれの和音の種類に対して,単独
2.3.1 ベース音高分布の導入
分布よりも混合分布での表現が妥当であると考えられる.すべての和音に対する GMM 学
ベース音高推定誤りによる認識性能劣化を抑制するため,本研究ではベースラインの情報
習には多くの学習サンプルが必要となるが,3.2.1 項で説明するクロマベクトルの巡回シフ
としてベース音高分布を利用する.ベース音高分布とは,低周波数帯域の各音高における
ベース音の存在を確率的に表現したものである.
たとえば残響などによりある時刻に複数のベース音が存在した場合,本来その時刻に演奏
トを用いてルート音に依存しない和音の種類に関するモデル化を行うことで対処する.
3. 和音系列認識システム
している音高ではないベースラインが推定される場合がある.しかしながらこのような場合
本章では,市販音楽 CD などから抽出した混合音の音楽音響信号を入力として,和音名
でも,ベース音高分布を用いると,本来その時刻に演奏している音高のベース音高分布もあ
系列および調の認識を行う和音系列認識システムについて述べる.本システムは,ベース音
る程度大きい値を持つことが期待されるため,ベース音高推定誤りによる悪影響を緩和する
高推定で得られるベース音高分布を和音系列の事後確率計算に利用することで,従来の和音
ことが可能となる.
特徴と和音遷移パターンに基づく和音系列認識手法にベース音高推定を統合する.以下で
本研究でのベース音高の推定には,混合音中の優勢な調波構造の F0 を推定する手法である
PreFEst
15)
を用いる.PreFEst は調波構造を表現する制約付き混合正規分布を音モデルと
する.音源数を仮定せずにあらゆる音高に配置した音モデルの集合を混合分布と見なし,観
測パワースペクトルを表現する混合分布の最適な重みを EM(Expectation-Maximization)
は,問題の定式化,和音特徴・ベース音高分布・和音遷移パターンを用いた和音系列事後確
率の定義,および事後確率の計算方法について述べる.
3.1 問題の定式化
入力楽曲の音楽音響信号に対して,各時刻での和音特徴ベクトルの計算とベース音高分布
アルゴリズムで推定する.音高の存在する範囲を低域に限定することで,低域で最も優勢な
の推定を行う.解析時刻に番号を割り当て,順に [t1 , . . . , tN ] とする.この各解析時刻で求
調波構造を持つベース音が各音高に存在する確率を推定することができる.また,PreFEst
めた和音特徴ベクトル系列を X = [x1 , . . . , xN ],ベース音高分布系列を B = [b1 , . . . , bN ]
では任意の時刻でのベース音高分布を推定できるため,Viterbi 探索による和音系列推定を
とする.さらに,ビートトラッキング22) による八分音符時刻の推定を行う.この八分音符
行う本システムでの利用が容易である.時間構造のモデル化16) ,休符のモデル化17) ,正弦
時刻を和音区間の最小単位とし,八分音符区間系列を [e1 , . . . , eK ] とする.e1 の開始時刻
波重畳によるモデル化18),19) ,スペクトルのピーク追従20) など,より詳細なモデルを用い
は t1 ,eK の終了時刻は tN と一致し,また各八分音符区間は少なくとも 1 つの解析時刻を
た多重音解析手法が提案されており,これらの手法で得られたパラメータを適切に周辺化す
含むものとする.
ることで PreFEst と同等の音高分布を得ることは可能である.しかし,音符単位でベース
音を推定するため任意の 2 時刻間でのベース音高の独立性を必ずしも仮定できない,モデ
本システムの認識対象は,和音系列 c = [c1 , . . . , cK ](各八分音符区間の和音名)および
調 s で,それぞれ以下の値をとる変数である.
ルが複雑なため計算量が大きい,必ずしも PreFEst を大きく上回るベース音高の認識性能
ck ∈ R × {Major, Minor, Diminished, Sus4}
(1)
を持つわけではない,などの理由から本論文ではこれらの手法は採用しない.
s ∈ R × {Major, Minor}
(2)
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1806
ベース音高と和音特徴の統合に基づく和音系列認識
p(c, s|X , B ) =
p(c, s, X , B )
p(X , B )
(4)
ここで,p(X , B ) は MAP 推定には無関係なので,実際には p(c, s, X , B ) のみを考えればよ
い.本システムでは調の事前確率 p(s) はすべての調に関して一様であると仮定する.調に
は楽曲のジャンルや作曲者によって偏りがあるものの,一般には完全に未知であるためであ
る.さらに,第 1 八分音符区間和音名の事前確率 p(c1 ) も,すべての和音名に対して一様で
あると仮定する.これらをまとめると,以下が本システムで推定する和音系列と調となる.
Fig. 1
図 1 和音名,調,和音特徴,ベース音高分布のグラフィカルモデル
Graphical model of chord progression, scale, chord features, and bass pitch probabilities.
ただし,R = {C, C#, D, D#, E, F, F#, G, G#, A, A#, B} で,12 種類のルート音の集
arg max p(c, s|X , B ) ≡ arg max
c,s
c,s
K
p(Xk |ck ) p(Bk |ck )
k=1
K
p(ck |ck−1 , s)
(5)
k=2
合である.和音の種類はポピュラー音楽で頻繁に使用される,Major(ルート音・長三度・完
3.2.1 和音特徴に基づく尤度:p(Xk |ck )
全五度),Minor(ルート音・短三度・完全五度),Diminished(ルート音・短三度・減五度),
和音特徴として,2.3.2 項で述べたように 12 次元クロマベクトル21) を用いる.主に和音
Sus4(ルート音・完全四度・完全五度)の 4 種の三和音とした.その他の和音(Augmented
を表現する伴奏音からの特徴抽出を行うために,クロマベクトルを求める周波数の範囲は
などの三和音および 4 つ以上のピッチクラスからなる和音)は,構成音を考慮してこれら 4
55–1,000 Hz とした.
つの和音のいずれかに分類する.調は楽曲全体に対するものであり,楽曲中では転調しない
クロマベクトルは,音名ごとにパワースペクトルを足し合わせることでパワーの分布を表
現する音響特徴である.また,種類が同じでルート音だけが異なる和音は,それぞれがその
と仮定する.
和音系列と調に関する事後確率 p(c, s|X , B ) を考え,与えられた X および B に対する
構成音を周波数方向に平行移動した関係にある.そのため,ルート音だけが異なり種類が一
最大事後確率(Maximum A Posteriori: MAP)推定問題として和音系列認識を定義する.
致している和音区間から求めたクロマベクトルどうしは,ルート音に応じてベクトルを巡回
すなわち,arg maxc,s p(c, s|X , B ) が求めるべき和音系列と調である.
シフトさせるとその値の分布は類似していると考えられる.具体的なクロマベクトルの巡回
3.2 事後確率の計算
シフト処理の様子を図 2 に示す.すなわち,Major や Minor といった和音の種類ごとのク
MAP 推定のため,和音名と調,和音特徴,ベース音高分布の同時確率を以下で定義する.
p(c, s, X , B ) = p(s) p(c1 )
K
p(Xk |ck ) p(Bk |ck )
k=1
K
ロマベクトルの分布だけを考え必要に応じてクロマベクトルを巡回シフトさせることで,C
Major や A Minor といった和音名ごとのクロマベクトルの分布を仮想的に扱うことができ
p(ck |ck−1 , s)
(3)
k=2
Xk と Bk はそれぞれ八分音符区間 ek で求めた X と B の部分列である.このグラフ表現を
図 1 に示す.このモデルは以下の特徴を持つ.
る.これによって,実質的に扱うクロマベクトルの分布数は和音の種類の数と同数であれば
よいことになるため,分布あたりの学習サンプル数の増加が見込まれ,和音系列認識の頑健
性が向上する.
クロマベクトルの確率モデルとして GMM を用い,クロマベクトルは各時刻で独立に生
(1)
和音名 ck は,1 つ前の八分音符区間における和音名 ck−1 と調 s に依存する.
成されると仮定する.学習データから求め,巡回シフトさせたクロマベクトルを和音の種
(2)
和音特徴 X とベース音高分布 B は各八部音符区間で独立であり,その八分音符区間
類ごとにまとめ,GMM のパラメータを最尤推定に基づく EM アルゴリズムで推定する.
の和音名にのみ依存する.
GMM の混合数を M ,和音名 c のルート音に対応した GMM の混合係数,平均,共分散パ
Bayes の定理より,和音名系列 c と調 s の事後確率は以下の等式を満たす.
ラメータをそれぞれ {αc,1 , . . . , αc,M },{μc,1 , . . . , μc,M },{Σc,1 , . . . , Σc,M } とする.
各時刻で求めたクロマベクトルを和音名の対応するルート音に応じて巡回シフトさせク
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1807
ベース音高と和音特徴の統合に基づく和音系列認識
帯域に対応する要素を持つ M1 − M0 + 1 次元単体(simplex)上のベクトルで定義される.
⎡
⎢ bn = (bn,M0 , . . . , bn,M1 ) ;
n = 1, . . . , N : ⎣
M1
⎤
bn,m = 1; ⎥
m=M0
⎦
(8)
m = M0 , . . . , M1 : 0 ≤ bn,m ≤ 1
和音名 c の和音区間で平均的に得られるベース音高分布を βc = (βc,M0 , . . . , βc,M1 ) とし,
学習データから得られるベース音高分布と和音名の組を基に学習する.
ある和音名 c のもとで出現しやすい音高(多くの場合,和音構成音)のベース音がその和
音区間ではっきりと演奏されているとき,ベースラインから和音名を推定することは一般
的に容易になる.したがって,出現しやすいベース音がはっきりと演奏されているときに,
ベース音高分布に基づく和音名の尤度も大きな値をとるべきである.ベース音が特定の音高
ではっきりと演奏されているとき,ベース音高分布はその音高のみ大きい値を,それ以外の
音高では 0 に近い値となる.
図2
クロマベクトルの巡回シフト.抽出されたクロマベクトルをルート音の音名で正規化し,ルート音のインデック
スが等しくなるように並行移動し,あふれた要素を逆の端におくことで和音の種類ごとのベクトルが得られる
Fig. 2 Cycric shift of chroma vector. By normalizing the indices of vectors by the root, then
shifting and rotating the elements, the vectors for each code kind are obtained.
ベース音高分布に基づく尤度が上記の特徴を満たすよう,以下でこの尤度を定義する.
p(Bk |ck ) =
p(bn |ck )
(9)
n∈{n|tn ∈ek }
p(bn |ck ) = (M1 − M0 + 1)! bn , βck ロマベクトルに基づく尤度を計算する.この計算においては,ある時刻 tn のクロマベクト
ル xn は tn を含む八分音符区間 ek の和音名 ck にのみ依存することを仮定している.
p(Xk |ck ) =
p(xn |ck )
n∈{n|tn ∈ek }
p(xn |ck ) =
M
m=1
αck ,m
(6)
1
(2π)6 |Σck ,m |− 2
exp −
(yn − μck ,m )T Σ−1
ck ,m (yn − μck ,m )
2
(10)
·, · はベクトルの内積を表す演算子である.この確率密度関数のモードは
(bn,M0 , . . . , bn,m , . . . , bn,M1 ) = (0, . . . , 1, . . . , 0)
s.t. m = arg
max
m∈{M0 ,...,M1 }
{βck ,M0 , . . . , βck ,M1 }
(11)
であり,和音名 ck で出現しやすい音高のベース音がはっきり演奏されているとき,すなわ
(7)
ち βck で大きい値を持つ音高に関して bn も大きい値を持つときに大きい尤度を与える.付
録でこの確率密度関数の正規化項およびモードについて述べる.
yn は xn を含む和音区間の和音名 ck のルート音に応じて xn を巡回シフトさせたベクトル
3.2.3 調ごとの和音遷移パターンに基づく事後確率:p(ck |ck−1 , s)
である.
実楽曲ではジャンルやアーティストごとに,ある程度和音遷移のパターンが限定され,そ
3.2.2 ベース音高分布に基づく尤度:p(Bk |ck )
の遷移頻度には偏りがある.これは音楽理論に基づく制約であり,和音記号で与えられる頻
ベース音高分布系列 B は,各時刻で各音高にベースラインを演奏する楽器音が存在する
出な遷移パターンを調を用いることで,具体的な和音名に変換することができる.楽曲中で
確率を PreFEst
15)
で推定したものである.ベースラインは周波数 f0 (パワースペクトル
の和音名の出現頻度を近似することで,和音名の曖昧性を解消する.
における周波数インデックス M0 )から f1(周波数インデックス M1 )の間にあるものとす
和音遷移パターンに基づく事後確率 p(ck |ck−1 , s) を和音遷移 2-gram モデルを用いて計算
る.時刻 tn におけるベース音高分布 bn は,[f0 , f1 ] に含まれるパワースペクトルの周波数
する.また,最初の八分音符区間での和音名の条件付き確率 p(c1 |s) は 2-gram から 1-gram
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1808
ベース音高と和音特徴の統合に基づく和音系列認識
表 1 音楽的要素の組合せの変化による和音認識率 [%] の変化
Table 1 Recognition rates [%] for each combination of musical elements.
を求め,その 1-gram から計算する.学習時には,調に関してルート音を正規化した正解和
音名系列から調の種類ごとに前向き 2-gram 確率を求める.2-gram 確率 p(ck |ck−1 , s) は,
(1):和音特徴,(2):和音特徴+ベース音高分布,(3):和音特徴+和音遷移パターン,(4):本手法,(5):従来手法14)
それぞれの遷移が出現した回数を前の和音名の全個数で割ったものとして算出する.2-gram
手法
が出現しないパターンには,微少な確率(10−5 )の割当てと再度の確率正規化で確率の割
認識率
(1)
59.8
(2)
66.6
(3)
61.9
(4)
73.7
(5)
61.6
当てを行う.
表 2 GMM の混合数の違いによる和音認識率 [%] の変化
Table 2 Recognition rates [%] for each number of GMM components.
4. 評 価 実 験
混合数
本手法の有効性を検証するため 3 章で述べた和音系列認識システムおよびベース音高推
認識率
1
61.0
2
67.9
4
73.7
8
72.6
16
66.9
定のための PreFEst-core を実装し,評価実験を行った.
実験用データには,“The Beatles” の 12 枚の CD アルバムの全 180 曲中,調を持ち転調
(4)
本手法:和音特徴,ベース音高分布,和音遷移パターンを用いて事後確率計算
を含まない 150 曲を,サンプリング周波数 16 kHz のモノラル音響信号に変換したものを用
(5)
従来手法14) :単一正規分布でモデル化した和音特徴,ルールベースのベース音高と
いた.全楽曲を無作為に 36 曲ごとの 5 つの楽曲群に分け,5-fold Cross Validation を行っ
和音遷移によるペナルティを用いてビームサーチ(ビーム幅 25)で目的関数最大化
た.STFT による音響信号分析における窓幅とシフト幅はそれぞれ 8,192 サンプル,1,024
また,和音特徴を GMM でモデル化することの有効性を検証するため,GMM の混合数
サンプルとした.和音特徴 GMM の混合数は原則として M = 4,ベースラインの範囲は
を 1,2,4,8,16 に変化させて実験を行った.GMM の混合数を 1 とした場合は,和音特
[f0 , f1 ] = [29, 261] [Hz] とした.GMM の学習データとして,入力に用いない残りの 4 グ
徴を単一正規分布でモデル化した場合に相当する.それぞれの実験結果を表 1,表 2 に示す.
ループ 144 曲,および YAMAHA 社製 MIDI 音源 MU-2000 で作成した 1,248 個の和音の
表 1 より,本手法での平均和音認識率は 73.7%となり,和音特徴に基づく評価値を単独で
音響信号を用いた.ここでは,音色を 6 通り,音域を 2 オクターブ,音響信号の切り出し位
使用するよりも 13.9 ポイント高い結果を得た.また,ベース音高分布,和音遷移パターン
置を 3 通りに変化させて音響信号を作成した.また,ベース音高からのそれぞれの和音に対
をそれぞれ単独で付加することで 6.8 ポイント,2.1 ポイントの上昇が見られた.認識率が
する確率の取得にも残りの 144 曲を使用し,和音遷移 2-gram の学習データとして実験用
上がった要因として,和音特徴のみでは手がかりとして不十分であったが,和音に関連する
データ中の転調を含むものを除いた 137 曲を長調に,13 曲を短調に使用した.学習および
要素であるベース音高を用いることでその情報を和音系列に対する有用な情報として扱うこ
評価において,Harte らが作成した和音名ラベルデータ
23)
を正解データとして使用した.
認識結果を,入力音響信号のうち正しく和音名を求めることができた割合で評価した.
和音認識率 =
正解を出力した総区間長
× 100 [%]
入力楽曲長
(12)
とが可能となったためである.さらに,和音特徴のモデル化を単一正規分布から混合正規分
布に,ベース音高によるペナルティからベース音高分布による事後確率に,ルールベースの
和音遷移パターンによるペナルティから学習データに基づく 2-gram に,それぞれ改良する
ことで和音認識率は 12.1 ポイント向上した.ベース音高分布を利用する場合と音高そのも
以下ではそれぞれの実験の詳細な条件を述べ,実験結果について考察する.
のを利用する場合を直接比較するものではないが,ベース音高分布導入の有効性をある程度
4.1 有効性の検証
示すと考える.これらの結果から,和音系列認識におけるベース音高や和音遷移パターンの
本手法の有効性を検証するため,事後確率計算に用いる音楽的要素の組合せを次のように
利用,および本論文で着目した拡張性と汎用性に優れた最適化手法の有効性が検証された.
表 2 より,GMM の混合数を 2,4,8,16 としたいずれの場合にも,GMM の混合数を
変化させて実験を行った.
(1)
和音特徴のみを用いて事後確率計算
(2)
和音特徴とベース音高分布を用いて事後確率計算
ル化することの有効性が検証された.また,GMM の混合数を 4 とした場合に和音認識率
(3)
和音特徴と和音遷移パターンを用いて事後確率計算
は最も高くなったため,この結果に基づいて他の実験では GMM の混合数を 4 とした.
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
1 とした場合よりも和音認識率は高くなった.この結果により,和音特徴を GMM でモデ
c 2011 Information Processing Society of Japan
1809
ベース音高と和音特徴の統合に基づく和音系列認識
表 3 2 枚のアルバムにおける手法ごとの平均認識率
Table 3 Average rates on two Beatles albums.
Bello らの手法7)
68.6
81.5
75.0
手法
認識率
CD1
CD2
平均
Lee らの手法10)
64.0
84.8
74.4
表 4 調の認識結果
Table 4 Key recognition results.
本手法(転調曲を除く場合)
73.0(73.9)
82.5(82.5)
77.8(78.3)
分類
正解
楽曲数
107
平行調
3
不正解
属調
下属調
9
16
その他
15
4.2 他手法との比較
HMM を利用した既存の和音認識手法である Bello らの手法7) と Lee らの手法10) では,
今回使用した中の 2 枚のアルバム “Please Please Me”(CD1),“Beatles for Sale”(CD2)
の楽曲を,評価実験に用いていた.本手法の結果と比較を行うことで,これらの手法との相
違点を検証する.
表 3 に,各アルバムの平均認識率と 2 枚のアルバム全体の平均認識率を他手法の結果と
並べて示す.本手法の認識率は,CD1 では他の 2 手法と比べて高く,CD2 では Bello らの
手法より高く,Lee らの手法よりも低いものとなった.CD1 は “The Beatles” のファース
トアルバムであり,和音遷移はブルースで典型的に用いられるパターンが多く,リズムも単
純であったためであると考えられる.一方 CD2 では,14 楽曲のうち 2 曲に対して調の認
識が誤っていた.調の誤認識と和音認識率の関係は次節で考察する.
図3
和音認識率のヒストグラム.左側は 150 曲中で調を正しく認識できたもの(107 曲),右側は調を誤認識して
いたもの(43 曲)
Fig. 3 Accuracy Histograms. (Left) Histogram for the songs with correct key. (Right) Histogram
for the songs with incorrect key.
CD1 の認識率と CD2 の認識率の差は Bello らの手法では 12.9 ポイント,Lee らの手法で
は 20.8 ポイントであり,これらの手法では認識率に偏りが見られる.一方本手法では,認
ない.特に平行調への誤りでは,出現する和音が同じであるため,影響はほぼない.また下
識率の差は 9.5 ポイントでこれらより小さく,認識性能が安定していることを示している.
属調,属調への誤りでは,出現率の高い和音に関して同じものも多く,やや影響を緩和でき
4.3 調 の 認 識
る.また,出現する和音の種類が極端に少ない場合にも,調の認識が和音系列認識にあまり
本論文での目的は和音系列の認識であり,調は和音認識のために補助的に推定されるもの
影響しない.
であるが,本手法では和音系列と調は同時に推定するものであるため,和音と調の認識は
調を正しく認識できた楽曲と誤っていた楽曲に対するそれぞれの和音認識率のヒストグ
互いに影響を及ぼし,それぞれの認識精度に何らかの相関が現れると考えられる.そこで,
ラムを図 3 に示す.調を正しく認識できていた楽曲群ではおよそ 75%のあたりをピークに,
和音系列の認識結果と調の認識結果について考察する.
調を誤認識していた楽曲群に対してはおよそ 70%のあたりをピークに,いずれも山型のヒ
表 4 は,調の認識結果である.本手法の評価実験における調の正解楽曲数は 106,認識
ストグラムになっているが,調を誤認識したものの方がばらつきが大きく,55%のあたりに
率は 71.2%であった.調は和音遷移パターンをある程度限定するため,調が誤認識されてい
調を正しく認識したものには見られない第 2 のピークが見られる.このことから,調の認識
る楽曲では和音の認識結果にも誤りが多いと考えられたが,実際にはそのような楽曲でも
が和音の認識精度に二極化をもたらしていると考えられる.
調が正しく認識された楽曲と同程度に和音が認識される事例が確認された.調を誤認識し
和音遷移 2-gram が通常の 2 倍の重みを持つように確率を調整することで和音遷移パター
ていた場合でも,その認識結果が本来の調の近親調である平行調,下属調,属調であった場
ンを重視するような事後確率計算を実験的に行ったところ,調が誤っていた楽曲ではヒスト
合は,和音遷移パターンが類似したものとなることが多いため,和音認識率への影響が少
グラムがより広範囲に分布し,調を正しく認識できていた楽曲は全体的に和音認識率が上
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1810
ベース音高と和音特徴の統合に基づく和音系列認識
表 5 調の有無・転調の有無による和音認識率の違い
Table 5 Difference of recognition rates in scales and transitions.
分類
調あり,転調なし
調なしもしくは転調あり
認識率
73.7
60.6
一的に扱う確率的な枠組みは,和音系列だけでなく,メロディやリズム,またそこから派生
する要素など,様々な音楽的要素の解析においても重要な視点である.今後,他の要素の解
析においても音楽的要素間の関連を考慮した同時的な認識を確率的枠組みに基づいて設計
することが妥当であると考えられる.
昇する傾向が見られたが,全楽曲の平均和音認識率は低下した.また,認識率 55%未満の
謝辞 本研究の一部は,科研費基盤研究(S),JST CrestMuse の支援を受けた.また,
調を誤認識した 4 曲について,あらかじめ調を与えて和音系列認識を行ったところ,平均
仮説探索手法についてご討論いただいた吉岡拓也氏,“The Beatles” の和音系列正解データ
認識率が 44%から 68%に向上し,その全曲に対して和音遷移パターンによる向上が見られ
をご提供いただいた Christopher Harte 氏に感謝します.
た.したがって,調の認識精度は和音系列の認識精度に大きく影響するといえるため,高い
調の認識精度をともなう枠組みへ拡張することが理想的である.さらに転調に対処するため
には,調の変化を追従可能な探索方法を検討する必要がある.
また,実験的に転調を含む楽曲,調を持たない楽曲に対して本手法で和音認識を行った結
果を表 5 に示す.本手法では転調を含む楽曲や調なしの楽曲を想定しておらず,このような
楽曲に対しては和音遷移パターンの利用が適切に行えない,転調が起こる箇所からそこまで
の調との不一致が起こる,などの理由により,楽曲全体の認識率が低下したと考えられる.
5. お わ り に
本論文では,従来の研究で考慮されていなかった音楽的要素間の相互関連に着目して,和
音とベース音の関係に着目した認識手法を考案し,実楽曲の音楽音響信号を対象とした評価
実験によるその有効性の検証を行った.和音特徴,ベース音高分布,和音遷移パターンに基
づく和音系列の事後確率を定義し,事後確率を最大化する和音系列を Viterbi 探索で求めた.
評価実験により,和音特徴,ベース音高分布,和音遷移パターンの確率的統合に基づく事
後確率を用いた本手法では,“The Beatles” の 12 アルバム全 180 楽曲に対して 71.5%の平
均認識率を獲得した.また,和音特徴とベース音高分布を事後確率計算に用いた場合の方
が,和音特徴のみを事後確率として用いた場合と比較して認識率が 6.7 ポイント向上した.
これより,和音系列認識におけるベース音高分布利用の有効性が示され,音楽的要素の確率
的な統合に基づく手法の妥当性が示された.
本論文ではベース音を用いた和音系列認識を扱ったが,和音認識結果をベース音高推定に
用いることでベース音高の推定性能も和音同様に向上することが期待される.和音のベース
音高分布に対する尤度の定義と同様に,和音に対するベース音高分布の尤度を定義し,さら
に和音とベース音高を反復的に推定することで和音とベース音高の同時認識が可能となり,
今後の検証が期待される.本研究で着目した音楽的要素間の相互関連と,相異なる要素を統
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
参
考
文
献
1) Shan, M.-K., Kuo, F.-F. and Chen, M.-F.: Music Style Mining and Classification
by Melody, ICME2002, pp.97–100 (2002).
2) Cheng, H.-T., Yang, Y.-H., Lin, Y.-C., Liao, I.-B. and Chen, H.H.: Automatic
Chord Recognition for Music Classification and Retrieval, ICME2008, pp.1505–
1508 (2008).
3) Hanna, P., Rocher, T. and Robine, M.: A Robust Retrieval System of Polyphonic
Music Based on Chord Progression Similarity, SIGIR’09, pp.768–769 (2009).
4) Bello, J.P.: Audio-based Cover Song Retrieval Using Approximate Chord Sequences: Testing Shifts Gaps, Swaps and Beats, ISMIR2007, pp.239–244 (2007).
5) Fujishima, T.: Realtime Chord Recognition of Musical Sound: A System Using
Common Lisp Music, ICMC1999, pp.464–467 (1999).
6) Sheh, A. and Ellis, D.P.: Chord Segmentation and Recognition using EM-Trained
Hidden Markov Models, ICASSP2003, pp.183–189 (2003).
7) Bello, J.P. and Pickens, J.: A Robust Mid-level Representation for Harmonic Content in Music Signals, ISMIR2005, pp.304–311 (2005).
8) Papadopoulos, H. and Peeters, G.: Large-scale Study of Chord Estimation Algorithms Based on Chroma Representation and HMM, CBMI2007, pp.53–60 (2007).
9) Harte, C., Sandler, M. and Gasser, M.: Detecting Harmonic Change in Musical
Audio, AMCMM’06, pp.21–26 (2006).
10) Lee, K. and Slaney, M.: Acoustic Chord Transcription and Key Extraction from
Audio Using Key-dependent HMMs Trained on Synthesized Audio, IEEE Trans.
Audio, Speech and Lang. Process., Vol.16, No.2, pp.291–301 (2008).
11) Abdallah, S., Sandler, M., Rhodes, C. and Casey, M.: Using Duration Models to
Reduce Fragmentation in Audio Segmentation, Machine Learning, Vol.6, No.2-3,
pp.485–515 (2006).
12) Mauch, M. and Dixon, S.: A Discrete Mixture Model for Chord Labelling,
ISMIR2008, pp.45–50 (2008).
c 2011 Information Processing Society of Japan
1811
ベース音高と和音特徴の統合に基づく和音系列認識
13) 内山裕貴,宮本賢一,西本卓也,小野順貴,嵯峨山茂樹:調波音・打楽器音分離手法
を用いた音楽音響信号からの自動和音認識,情報処理学会研究報告,Vol.2008, No.78
(2008-MUS-76), pp.137–142 (2008).
14) 吉岡拓也,北原鉄朗,駒谷和範,尾形哲也,奥乃 博:和音区間検出と和音名同定の
相互依存性を解決する和音認識手法,情報処理学会研究報告,Vol.2004, No.84 (2004MUS-56), pp.33–40 (2004).
15) Goto, M.: A Real-time Music-scene-analysis System: Predominant-F0 Estimation
for Detecting Melody and Bass Lines in Real-world Audio Signals, Speech Communication, Vol.43, No.4, pp.311–329 (2004).
16) Kameoka, H., Nishimoto, T. and Sagayama, S.: A Multipitch Analyzer Based on
Harmonic Temporal Structured Clustering, IEEE Trans. Audio, Speech and Lang.
Process., Vol.15, No.3, pp.982–994 (2007).
17) Ryynänen, M. and Klapuri, A.: Automatic Bass Line Transcription from Streaming Polyphonic Audio, ICASSP2007, pp.1437–1440 (2007).
18) Davy, M., Godsill, S. and Idier, J.: Bayesian Analysis of Polyphonic Western Tonal
Music, J. Acoust. Soc. Am., Vol.119, No.4, pp.2498–2517 (2006).
19) Cemgil, A.T., Kappen, H.J. and Barver, D.: A Generative Model for Music Transcription, IEEE Trans. Audio, Speech and Lang. Process., Vol.14, No.2, pp.679–694
(2006).
20) Yeh, C. and Röbel, A.: A New Score Function for Joint Evaluation of Multiple F0
Hypothesis, DAFx-04 (2004).
21) Goto, M., Hashiguchi, H., Nishimura, T. and Oka, R.: RWC Music Database: Music
Genre Database and Musical Instrument Sound Database, ISMIR2003, pp.229–230
(2003).
22) Goto, M.: An Audio-based Real-time Beat Tracking System for Music with or
without Drum-sounds, J. New Music Res., Vol.30, No.2, pp.159–171 (2001).
23) Harte, C., Sandler, M., Abdallah, S. and Gómez, E.: Symbolic Representation of
Musical Chords: A Proposed Syntax for Text Annotations, ISMIR2005, pp.66–71
(2005).
付
N
wn xn dx
N
x ∀n=1,...,N :0≤xn ≤1;
xn =1 n=1
n=1
1−N −2 xn
N 1
(N − 1) 次元単体上にあるパラメータベクトル w と確率変数ベクトル x を考える.x は
n=1
1
1−
N −2
m=1
···
0
0
1
1−
xm
m=1
···
=
0
0
1
= ··· =
1−
n−2
m=1
···
=
n−1
m=1
xm
0
0
N −2
1−
wn xn
dxN −2 · · · dx1
xm
m=1
xm
wn
xn
(N − n − 1)!
0
1
1−
xm
···
0
wn xn dxN −1 · · · dx1
N −3
wn
(N − n + 1)!
1−
n−1
1−
n
N −n−1
dxn · · · dx1
xm
m=1
N −n+1
xm
dxn−1 · · · dx1
m=1
wn
N!
n = N のとき,
= ··· =
1
1−
(14)
N −2
m=1
···
0
0
1
1−
0
wN xN dxN −1 · · · dx1
N −2
m=1
···
=
xm
xm
0
wN
N −1
1−
xm
dxN −1 · · · dx1
m=1
wN
(15)
N!
N
w は N − 1 次元単体上のベクトルなので, n=1 wn = 1 を満たす.したがって,
= ··· =
wn /N ! = 1/N ! となり,正規化係数はこの逆数の N ! となる.これはパラメータ
w に依存しない定数である.
ベース音高分布確率密度関数の性質
0 ≤ xn ≤ 1(1 ≤ n ≤ N ),
(13)
この和を分解し,n = 1, . . . , N のそれぞれに対して計算する.n = 1, . . . , N − 1 のとき,
n=1
N
wn xn dxN −1 · · · dx1
0
0
n=1
N
録
m=1
···
=
xn = 1 を,w も x と同様の制約を満たす.正規化係数
を除き,x の確率密度関数を p(x|w) ∝ w, x で定義する.正規化係数は密度関数の積分
次に,この確率密度関数のモードが式 (11) で与えられることを示す.簡単のため w1 =
w2 = · · · = wM > wM +1 ≥ · · · ≥ wN であるとする.x̂ = (x̂1 , . . . , x̂M , 0, . . . , 0),x̂m ≥ 0
M
(m = 1, . . . , M ),
m=1
x̂m = 1 とすると,以下の不等式が成り立つ.
の逆数で与えられる.
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan
1812
ベース音高と和音特徴の統合に基づく和音系列認識
w, x̂ − w, x = w1 −
N
wn xn =
n=1
N
駒谷 和範(正会員)
(w1 − wn ) xn ≥ 0
(16)
n=1
1998 年京都大学工学部情報工学科卒業.2000 年同大学大学院情報学
研究科知能情報学専攻修士課程修了.2002 年同大学院博士後期課程修了.
したがって,x̂ は x, w の最大値を与える.不等式の等号が成立するのは (xM +1 , . . . , xN ) =
京都大学博士(情報学).同年京都大学大学院情報学研究科助手.2007 年
(0, . . . , 0) の場合に限られるので,x̂ 以外の x は x, w の最大値を与えない.特に w1 >
同助教.2010 年より名古屋大学大学院工学研究科准教授.主に音声対話
w2 ≥ · · · ≥ wN の場合,x̂ = (1, 0, . . . , 0) であり,これが x, w の最大値を与える唯一の
システムの研究に従事.2008 年から 2009 年まで米国カーネギーメロン大
x となる.
学客員研究員.情報処理学会平成 16 年度山下記念研究賞,FIT2002 ヤングリサーチャー賞
(平成 22 年 6 月 26 日受付)
等を受賞.電子情報通信学会,言語処理学会,人工知能学会,ACL,ISCA 各会員.
(平成 23 年 1 月 14 日採録)
尾形 哲也(正会員)
須見 康平(正会員)
2008 年京都大学工学部情報学科卒業.2010 年同大学大学院情報学研究
科知能情報学専攻修士課程修了.在学中は音楽情報処理,音響信号処理等
の研究に従事.現在,ヤマハ株式会社勤務.
1993 年早稲田大学理工学部機械工学科卒業.日本学術振興会特別研究
員,早稲田大学理工学部助手,理化学研究所脳科学総合研究センター研究
員,京都大学大学院情報学研究科講師を経て,2005 年より同助教授(現,
准教授).博士(工学).JST さきがけ研究「情報環境と人」領域研究員
(5 年).この間,早稲田大学ヒューマノイド研究所客員准教授,同大学理
工学研究所客員准教授,理化学研究所脳科学総合研究センター客員研究員等を兼務.研究分
野は人工神経回路モデルおよび人間とロボットのコミュニケーション発達を考えるインタラ
糸山 克寿(学生会員)
クション創発システム情報学.日本ロボット学会,日本機械学会,人工知能学会,計測自動
2006 年京都大学工学部情報学科卒業.2008 年同大学大学院情報学研究
制御学会,ヒューマンインタフェース学会,バイオメカニズム学会,IEEE 等各会員.
科知能情報学専攻修士課程修了.現在,同大学院博士後期課程に在学中.
2008 年より日本学術振興会特別研究員(DC1).音楽情報処理,音楽鑑賞
奥乃
インタフェース等の研究に従事.
1972 年東京大学教養学部基礎科学科卒業.日本電信電話公社,NTT,
博(正会員)
JST,東京理科大学を経て,2001 年より京都大学大学院情報学研究科知能
情報学専攻教授.博士(工学).この間,スタンフォード大学客員研究員,
吉井 和佳(正会員)
東京大学工学部客員助教授.人工知能,音環境理解,ロボット聴覚,音楽
2008 年 京都大学大学院情報学研究科知能情報学専攻博士後期課程修了.
情報処理の研究に従事.1990 年度人工知能学会論文賞,第 2 回船井情報科
博士(情報学).同年産業技術総合研究所に入所し,現在に至る.音楽推
学振興賞,IEEE/RSJ IROS-2010 NTF Award for Entertainment Robots and Systems
薦システムや複数基本周波数推定等,機械学習に基づく音楽情報処理の研
等受賞.本学会理事.
究に従事.山下記念研究賞,船井研究奨励賞等受賞.
情報処理学会論文誌
Vol. 52
No. 4
1803–1812 (Apr. 2011)
c 2011 Information Processing Society of Japan