平成 22 年度 日本大学理工学部 学術講演会論文集 G-25 データマイニングによる楽曲検索 Search for a musical piece using a Data mining 名倉 彩矢 Saya Nakura 1.概要 データマイニングの中心的な考え方の一つに,相関 ルール抽出[3]がある.相関ルール抽出は, データベー CD ショップ,音楽ダウンロードサイトの販売促進ツ スに蓄積された大量のデータから相関ルールを抽出す ールとして,WEB 購入ページや iTunes など,自らの検索 る技術である.相関ルール抽出の目的は,データベース した曲や本に関連した商品が表示されるシステムが広 の中から価値のある相関ルールを効率的に発見するこ く使われている. とである.例えば「スーパーでビデオを買った人のうち 本論文では,好みの曲を入力すると,検索した人へ勧め ガムテープを買う人が多い → 両者を同じ場所に置 られるような曲を選出することについて考察する.よ く」や,「本Aを買う人は、後に本Bを買うことが多い り具体的には,アンケート調査を行った結果をもとに, → 購入者に本Bを薦めるダイレクトメールを送る」と 個々の人の好みを解析・学習し,その情報を効率良く取 いったように,一例として,消費者の購買意欲をかきた り出すためには,どのようなアルゴリズムが必要かを てることに利用される. 以下,詳細な選出アルゴリズ 検討する. ムについて述べる. 2.データマイニング 本研究では,選ばれた楽曲をアイテムと呼び,対象者 が選んだアイテムリストをトランザクションと呼 データマイニングの定義としては,「明示されておら ぶ.N はアイテム数を表し,I=i1, i2, ..., iN をアイテム全 ず今まで知られていなかったが,役立つ可能性があり, 体の集合とする.また D をトランザクション集合デー かつ,自明でない情報をデータから抽出すること」[1], タベースとする.D 中の各トランザクション t は,t ⊆ また,「データの巨大集合やデータベースから有用な情 I となるアイテムの集合である.相関ルールとは,アイ 報を抽出する技術体系」[2]などがある.つまり大量に テムセット X(⊆ I) と Y (⊆ I) により,X → Y の形で 蓄積されるデータを解析し,その中に潜む項目間の相 記述される関係である.ここで X と Y は X∩Y = φ で 関関係やパターンなどを探し出す技術である.その解 ある.X → Y の関係は"トランザクションがアイテム 析法を応用して,例えば,スーパーの販売データをデー セット X を含むならば,アイテムセット Y も含む” タマイニングで分析することにより,「ビールを買う客 ということを表す.あるアイテムセット X について,D は一緒に紙オムツを買うことが多い」 「雨の日は肉の売 の内の s %のトランザクションが X を含むとき,アイテ 上が良い」など,項目間の相関関係を見つけることがで ムセット X は s のサポート値(support) を持つという. きる. また,相関ルール X → Y については,アイテムセット X∩Y のサポート値を相関ルール X → Y のサポート 2.1 データマイニングによる解析手法 一般に,データマイニングは統計処理や決定木,ニュ 値と定義する.また相関ルール X → Y について,X を ーラルネットワーク,相関規則などの機械学習や統計 が Y も含むとき,相関ルール X → Y は c の確信度 技術を利用して実用化されているが,本論文では,デー (confidence)を持つという.例えば,表 3.1 のようにト タマイニングで特に使われる手法として相関規則につ ランザクション毎に購入されたアイテムが記入された いて説明する. データベースから,表 3.2 のような相関を導き出すこ 含むトランザクションの内の c(%)のトランザクション とである. その相関を求めることにより,従来では分 2.2 相関ルールの抽出 からなかった楽曲間のルールが導き出せる. 3.実験 日大理工・学部・数学 491 平成 22 年度 日本大学理工学部 学術講演会論文集 4.終わりに 本論文では,実際に20代前半の男女38名から集計し たデータを対象にして選出を行った.そのデータ集計 本研究では、データマイニングによる解析を用いる に際しては、各個人に2000 年から2009年の楽曲オリコ ことによって, 20 代前半男女の曲の好みの特徴や傾向 ンヒットチャートをリストアップしたものから,好き をある程度見出すことができた.今回は選ばれた楽曲 な曲を選んでもらった. の上位5番目までを相関ルール抽出法を用いて解析し たが,今後は本研究で収集した楽曲を更に詳細に解析 Table 3.1: 楽曲の選択データ し,それらの楽曲においての相関関係を調べる必要が 番号 アイテム 101 TSUMANI(※1),桜坂(※2),アゲハ蝶(※3) 102 ある. 5.参考文献 TSUMANI,桜坂,世界に一つだけの花 (※5) 103 TSUMANI,キセキ(※4) [1] W. Frawley and G. Piatetsky-Shapiro and C. Matheus, 104 桜坂,アゲハ蝶 Knowledge Discovery in Databases: An Overview. AI 105 TSUMANI, 桜坂, アゲハ蝶,キセキ 106 キセキ 107 Magazine, pp. 213-228, Fall 1992. [2] D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. TSUMANI,桜坂,世界に一つだけの花, [3] 福田剛志,森本康彦,徳山豪”データマイニング” キセキ 共立出版,2, 2001 Table 3.2: ルールに対するサポートと確信度 サポート 確信度 ルール 37.50% 100.00% 37.50% 100.00% アゲハ蝶→桜坂 50.00% 80.00% TSUMANI→桜坂 50.00% 80.00% 桜坂→TSUMANI 37.50% 75.00% 世界に一つだけの花→桜坂 37.50% 75.00% TSUMANI,世界に一つだけの花 →桜坂 TSUMANI,桜坂 →世界に一つだけの花 例えば、Table 3.2に示されるように,3,4番目に確信度 が高い場合(80 %)は,TSUNAMI(※1)を選んだ対象者の 80 %が同時に桜坂(※2)を選んでいるということを意味 し,その逆のパターン(4番目の結果)でも同じ傾向が 見られるということである.また,「サポートが50 %」 とは,このルールに当てはまるケースが半数(19名)存 在する,ということを意味している. ※1:TSUNAMI(サザンオールスターズ) ※2:桜坂(福山雅治) ※3:キセキ(GReeeeN) ※4:アゲハ蝶(ポルノグラフィティ) ※5:世界に一つだけの花(SMAP) 日大理工・学部・数学 492
© Copyright 2024 Paperzz