データマイニング - 日本大学理工学部

平成 22 年度 日本大学理工学部 学術講演会論文集
G-25
データマイニングによる楽曲検索
Search for a musical piece using a Data mining
名倉 彩矢
Saya Nakura
1.概要
データマイニングの中心的な考え方の一つに,相関
ルール抽出[3]がある.相関ルール抽出は, データベー
CD ショップ,音楽ダウンロードサイトの販売促進ツ
スに蓄積された大量のデータから相関ルールを抽出す
ールとして,WEB 購入ページや iTunes など,自らの検索
る技術である.相関ルール抽出の目的は,データベース
した曲や本に関連した商品が表示されるシステムが広
の中から価値のある相関ルールを効率的に発見するこ
く使われている.
とである.例えば「スーパーでビデオを買った人のうち
本論文では,好みの曲を入力すると,検索した人へ勧め
ガムテープを買う人が多い → 両者を同じ場所に置
られるような曲を選出することについて考察する.よ
く」や,「本Aを買う人は、後に本Bを買うことが多い
り具体的には,アンケート調査を行った結果をもとに,
→ 購入者に本Bを薦めるダイレクトメールを送る」と
個々の人の好みを解析・学習し,その情報を効率良く取
いったように,一例として,消費者の購買意欲をかきた
り出すためには,どのようなアルゴリズムが必要かを
てることに利用される. 以下,詳細な選出アルゴリズ
検討する.
ムについて述べる.
2.データマイニング
本研究では,選ばれた楽曲をアイテムと呼び,対象者
が選んだアイテムリストをトランザクションと呼
データマイニングの定義としては,「明示されておら
ぶ.N はアイテム数を表し,I=i1, i2, ..., iN をアイテム全
ず今まで知られていなかったが,役立つ可能性があり,
体の集合とする.また D をトランザクション集合デー
かつ,自明でない情報をデータから抽出すること」[1],
タベースとする.D 中の各トランザクション t は,t ⊆
また,「データの巨大集合やデータベースから有用な情
I となるアイテムの集合である.相関ルールとは,アイ
報を抽出する技術体系」[2]などがある.つまり大量に
テムセット X(⊆ I) と Y (⊆ I) により,X → Y の形で
蓄積されるデータを解析し,その中に潜む項目間の相
記述される関係である.ここで X と Y は X∩Y = φ で
関関係やパターンなどを探し出す技術である.その解
ある.X → Y の関係は"トランザクションがアイテム
析法を応用して,例えば,スーパーの販売データをデー
セット X を含むならば,アイテムセット Y も含む”
タマイニングで分析することにより,「ビールを買う客
ということを表す.あるアイテムセット X について,D
は一緒に紙オムツを買うことが多い」
「雨の日は肉の売
の内の s %のトランザクションが X を含むとき,アイテ
上が良い」など,項目間の相関関係を見つけることがで
ムセット X は s のサポート値(support) を持つという.
きる.
また,相関ルール X → Y については,アイテムセット
X∩Y のサポート値を相関ルール X → Y のサポート
2.1 データマイニングによる解析手法
一般に,データマイニングは統計処理や決定木,ニュ
値と定義する.また相関ルール X → Y について,X を
ーラルネットワーク,相関規則などの機械学習や統計
が Y も含むとき,相関ルール X → Y は c の確信度
技術を利用して実用化されているが,本論文では,デー
(confidence)を持つという.例えば,表 3.1 のようにト
タマイニングで特に使われる手法として相関規則につ
ランザクション毎に購入されたアイテムが記入された
いて説明する.
データベースから,表 3.2 のような相関を導き出すこ
含むトランザクションの内の c(%)のトランザクション
とである. その相関を求めることにより,従来では分
2.2 相関ルールの抽出
からなかった楽曲間のルールが導き出せる.
3.実験
日大理工・学部・数学
491
平成 22 年度 日本大学理工学部 学術講演会論文集
4.終わりに
本論文では,実際に20代前半の男女38名から集計し
たデータを対象にして選出を行った.そのデータ集計
本研究では、データマイニングによる解析を用いる
に際しては、各個人に2000 年から2009年の楽曲オリコ
ことによって, 20 代前半男女の曲の好みの特徴や傾向
ンヒットチャートをリストアップしたものから,好き
をある程度見出すことができた.今回は選ばれた楽曲
な曲を選んでもらった.
の上位5番目までを相関ルール抽出法を用いて解析し
たが,今後は本研究で収集した楽曲を更に詳細に解析
Table 3.1: 楽曲の選択データ
し,それらの楽曲においての相関関係を調べる必要が
番号
アイテム
101
TSUMANI(※1),桜坂(※2),アゲハ蝶(※3)
102
ある.
5.参考文献
TSUMANI,桜坂,世界に一つだけの花
(※5)
103
TSUMANI,キセキ(※4)
[1] W. Frawley and G. Piatetsky-Shapiro and C. Matheus,
104
桜坂,アゲハ蝶
Knowledge Discovery in Databases: An Overview. AI
105
TSUMANI, 桜坂, アゲハ蝶,キセキ
106
キセキ
107
Magazine, pp. 213-228, Fall 1992.
[2] D. Hand, H. Mannila, P. Smyth: Principles of Data
Mining. MIT Press, Cambridge, MA, 2001.
TSUMANI,桜坂,世界に一つだけの花,
[3] 福田剛志,森本康彦,徳山豪”データマイニング”
キセキ
共立出版,2, 2001
Table 3.2: ルールに対するサポートと確信度
サポート
確信度
ルール
37.50%
100.00%
37.50%
100.00%
アゲハ蝶→桜坂
50.00%
80.00%
TSUMANI→桜坂
50.00%
80.00%
桜坂→TSUMANI
37.50%
75.00%
世界に一つだけの花→桜坂
37.50%
75.00%
TSUMANI,世界に一つだけの花
→桜坂
TSUMANI,桜坂
→世界に一つだけの花
例えば、Table 3.2に示されるように,3,4番目に確信度
が高い場合(80 %)は,TSUNAMI(※1)を選んだ対象者の
80 %が同時に桜坂(※2)を選んでいるということを意味
し,その逆のパターン(4番目の結果)でも同じ傾向が
見られるということである.また,「サポートが50 %」
とは,このルールに当てはまるケースが半数(19名)存
在する,ということを意味している.
※1:TSUNAMI(サザンオールスターズ)
※2:桜坂(福山雅治)
※3:キセキ(GReeeeN)
※4:アゲハ蝶(ポルノグラフィティ)
※5:世界に一つだけの花(SMAP)
日大理工・学部・数学
492