コメントを用いた映画の分類 - 中川研究室

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE
コメントを用いた映画の分類
阿部 倫子 1
1
中川 裕志 3
東京大学大学院学際情報学府 〒113-0033 東京都文京区本郷 7-3-1
2
東京大学大学院情報学環 〒113-8656 東京都文京区弥生 2-11-16
3
E-mail:
田中 久美子 2
東京大学情報基盤センター 〒113-0033 東京都文京区本郷 7-3-1
1
[email protected], [email protected] [email protected]
あらまし 映画情報サイトに集められたユーザからの映画に対するコメントを用いて,ナイーブ・ベイズ分類により個々の
映画を分類し,既存のジャンル分けと比較評価した.分類精度の客観的評価には平均適合率を用い,10 回の実験において
平均で約 0.7 程度の分類精度を示した.実験における個々の映画の分類を詳細に観察すると,既存の分類と機械による分
類が異なっている場合にも,機械による分類情報が有用な情報をもっている場合があることに気づく.今後の課題としてこれ
らの情報をいかに映画の探索システムの中にいかしていくかがある.このための予備データとしてナイーブ・ベイズ分類が既
存の分類とは異なるジャンルになった場合の例についても、その内容を分析した結果を報告する。
キーワード
自動分類,ナイーブ・ベイズ分類,映画探索システム
Classification of Films using Comments
Michiko ABE1
Kumiko TANAKA2
and Hiroshi NAKAGAWA3
1
Interfaculty Initiative in Information Studies Graduate School of the University of Tokyo 7-3-1 Hongo, Bunkyo-ku,
Tokyo, 113-0033 Japan
2
Interfaculty Initiative in Information Studies Graduate School of the University of Tokyo 2-11-6 Yayoi, Bunkyo-ku,
Tokyo, 113-8656 Japan
3
Information Technology Center, the University of Tokyo 7-3-1 Hongo, Bunkyo-ku, Tokyo, 113-0033 Japan
E-mail:
1
[email protected], [email protected] [email protected]
Abstract
Using users' comments from a movie information site, we develop a movie classification system based on Naive
Bayes method. We evaluate the classification results with the genre for each movie classified by IMDb. For the objective
evaluation of the classification precision, we employed the average precision. The average precision is about 0.7 in 1—fold
cross-validation. When we look into the movie classification from this experiment, we notice that even in the case in which the
existing genre classification and machine classification differ, the machine classifications are valuable or even more
persuasive.
Keyword Naive Bayes classifier, Automatic classification, Movie search system
1. は じ め に
現 在 ,インターネットでは様 々なデータベースが利 用 でき
ータベースの探 索 を可 能 にするには,ユーザから得 られた
情 報 を自 動 的 に処 理 できる機 能 が望 まれる.
る.また,ユーザからの 情 報 発 信 ,つまり 評 価 や 採 点 など を
本 研 究 では映 画 情 報 サイト CinemaScape[4]に集 められ
利 用 して,より充 実 した情 報 提 供 を行 うサイトが数 多 くあり,
た,ユーザの映 画 に対 するコメント情 報 を用 いて,映 画 の分
情 報 発 信 ・情 報 収 集 の場 として多 くのユーザを集 めている.
類 を行 った.映 画 そのものはテキストデータではないが,この
映 画 ,本 ,レストラン,電 気 製 品 などその分 野 は多 岐 にわた
ようにユーザの映 画 に対 するコメントに着 目 することで,映 画
る[1][2][3].
の 分 類 につ いても 自 然 言 語 処 理 技 術 で 扱 い う るもの とな る
現 状 ではこれらのサイトは人 手 による管 理 に依 存 する部
[5] . ま た , コ メ ン ト の 類 似 性 を 映 画 の 類 似 性 と と ら え れ ば ,
分 が大 きく,データ量 も膨 大 である.より柔 軟 で多 角 的 なデ
新 たな側 面 からの情 報 をユーザに提 供 することができると考
える.
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
実 験 では分 類 手 法 としてナイーブ・ベイズ分 類 を用 い,得
信学技報
TECHNICAL REPORT OF IEICE
の単 語 数 を平 均 すると約 10 語 程 度 であり(最 頻 も 10 語 ,
られた結 果 を評 価 ・考 察 した.ナイーブ・ ベイズ分 類 は確 率
最 大 は 3797 語 ),通 常 の文 書 分 類 にくらべ比 較 的 短 いテ
モデルに基 づく分 類 法 である[6].また,分 類 結 果 を詳 細 に
キストをもとにしているので,分 類 が難 しい場 合 もある.コメン
考 察 す る こ とで , 人 手 で 与 え ら れ た 分 類 と ナ イ ー ブ・ ベ イ ズ
トデータの概 要 を(表 1)に示 す.
分 類 による 自 動 分 類 で 相 違 がある 映 画 に 関 して, 必 ず し も
自 動 的 な分 類 が間 違 っているとはいえない映 画 が多 々ある
(表 1) コメントデータの概 要
映画数
コメント数
Total
7004
111301
1109877
55175
Action
Adventure
Animation
Comedy
Crime
Documentary
Drama
Family
Fantasy
Horror
Musical
Mystery
Romance
SciFi
Short
Thriller
War
Western
1443
439
297
1774
572
108
3442
136
206
440
188
393
902
561
79
860
271
148
28742
9929
5652
28018
10120
750
53751
1471
4076
7560
2483
6503
16078
14483
552
21072
5764
1410
293145
101459
57277
280043
102454
7982
565513
15282
42912
76203
26513
66604
165460
146445
4885
212217
61723
14229
27827
15487
10739
27690
15847
3272
39683
4719
9168
13053
6928
12602
20390
18987
2312
23013
11594
4655
ことに気 づく.
本 研 究 では,ナイーブ・ベイズ分 類 によりコメントから映 画
をある程 度 分 類 することができることを実 験 により検 証 した上
で,「分 類 」を 単 なる 参 考 情 報 としてユーザに 提 示 す るだ け
ではなく,映 画 をより多 角 的 に探 索 できるシステムを考 案 す
ることを目 指 している.
2. CinemaScape
インターネットで利 用 できる 映 画 データベースにも様 々な
も の が あ る . 中 で も 最 も 知 ら れ て い る の は The Internet
Movie Database (IMDb)[7]である.IMDb には 25 万 件 に及
ぶ 世 界 中 の 映 画 が 収 録 さ れ てい る. 日 本 語 で 利 用 可 能 な
データベースには,allcinema ONLINE[8] ,ぴあシネマクラ
ブ[9]などがある.allcinema ONLINE は,サイトを訪 れたユ
ーザ が 映 画 に 対 す る コ メ ン ト を 書 き 込 む こと がで き る の が 特
徴 である.ぴあシネマクラブでは,収 録 している 17000 件 の
映 画 すべてについて,あらすじを得 ることができる.
本 研 究 で利 用 したコメント情 報 は,すべて CinemaScape で
単語総数
異 なり数
(図 1) コメントの一 例
収 集 さ れ て い る も の で あ る . allcinema ONLINE 同 様 ,
CinemaScape においても,コメント情 報 が収 集 されているの
★5 親 父 は この 映 画 の 大 フ ァ ン .なの で ,ワ ケ もわ から なかっ
だが,allcinema ONLINE をはるかに上 回 るコメント情 報 が
た子 どもの頃 から ,無 心 の切 り 出 し口 上 は「ゴッドファーザー,
CinemaScape には蓄 積 されている.また CinemaScape では
お願 いがあるのですが…」だった.
コメントと同 時 に映 画 に対 する 5 段 階 の採 点 情 報 を収 集 し
★5 「ファミリー」に二 重 の含 みがあるように,「血 」という言 葉 に
ており,これを用 いて,協 調 フィルタリングによる映 画 推 薦 シ
も大 切 な意 味 二 つ.そして,そのうちの「ありきたりではない方 」
ステムが実 現 されている[10].
の 血 が ない こ と に は 成 立 し ない , こ の 家 族 の 歴 史 の 悲 哀 . 激
CinemaScape に収 録 されている映 画 に関 する基 本 情 報
は前 述 の IMDb が使 用 されている.映 画 は 18 のジャンルに
分 類 されており,この分 類 も IMDb による人 手 の分 類 に準 拠
したものである.(複 数 の分 類 が付 与 されている映 画 もあ
る.)
登 録 されている映 画 数 は 9413 件 (2002 年 1 月 現 在 )で
あるが,このうちどのジャンルも付 与 されていない映 画 と,ユ
ーザ から コ メン トが ひと つも 得 られて い な い 映 画 は, 本 研 究
情 .虚 しさ.寂 しさ.そしてイヤになるほど鮮 烈 な,美 .
★5 マイケルになりたかった大 学 生 の頃 ・・・
※(「ゴッドファーザー(1972/米 /Action・Crime・Drama)」より一
部抜粋)
3. ナ イ ー ブ ・ ベ イ ズ 分 類
3.1. ナイーブ・ベイズ分 類 の適 用
では処 理 の対 象 からはずした.これにより,実 際 に本 研 究 で
ナイーブ・ベイズ分 類 は文 書 の分 類 法 として,広 く知 られ
使 用 した映 画 の総 数 は 7003 件 となっている.コメントは,映
た 方 法 で あ る . 文 書 分 類 に つ い て は ほ か に も Support
画 ごとに形 態 素 解 析 をし,名 詞 ,動 詞 ,形 容 詞 ,形 容 動 詞 ,
Vector Machine[11]によるもの,決 定 木 による分 類 [12]など,
未 定 義 語 ,副 詞 ,連 体 詞 ,感 動 詞 をとりだした.また,半 角
様 々な 方 法 が 提 案 されてい る.しか し, 本 稿 の 目 的 は 分 類
文 字 はすべて 全 角 に,アルファベット 大 文 字 はすべて 小 文
精 度 をみ ることよりも,コメント を用 いて 映 画 や 商 品 を 扱 い う
字 に変 換 した.
るのか どうか,そ の 可 能 性 を 探 求 す ることを 第 一 の 目 的 と し
各 映 画 において,コメントから得 られる単 語 の数 にはばら
ている.したがって,分 類 結 果 が分 類 方 法 になるべく依 存 せ
つきがある.有 名 な作 品 には多 くのコメントが寄 せられるが,
ず,また,分 類 後 の解 析 が簡 単 に行 える単 純 なモデルを用
あまり知 られていない映 画 はコメントも少 ない.1 映 画 あたり
いたい.このため,ナイーブ・ベイズ分 類 を選 んだ.
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE
実 験 では,1 件 の映 画 を 1 件 の文 書 ととらえ,映 画 に対 す
るコメント中 に含 まれる単 語 を,その映 画 ( 文 書 ) に含 まれる
単 語 として扱 った.
{ci ; c1 ,K , c18 } , 各 映 画 を
{m j ; m1 , K , m7004 } とおき, m j に与 えられているコメントに
あ ら わ れ る 単 語 を {wk ; w1 , L , wn } と お く と , m j に 対 し て
のジャンルは,事 後 確 率 P ( c j | mi ) を最 大 化 するようなカテ
ゴリ ĉ 以 下 の式 で求 めることができる.
各 ジ ャ ン ル を
ci
ci
= arg max P ( w1 , L , wn |c i ) P (c i )
たとえば「Horror」というジャンルの中 に,単 語 {A,B,C,D,
E} が 出 現 す る と す る . こ れ ら の 単 語 の 「 Horror 」 に おけ る 出
現確率
P ( wk |c horror ) をそれぞれ{a , b , c , d , e}とする.さ
らに「God Father」という映 画 の中 に,単 語 {A,B,D,F}が 1
回 ず つ 出 現 す る と す れ ば , ジ ャ ン ル 「 Horror 」 の 「 God
Father」に対 するベイズ事 後 確 率 は以 下 の式 で求 められる.
・・・(7)
・・・(1)
ci
さらに,各 ジャンルのもとで単 語 は独 立 に生 起 すると仮 定
4. 実 験 と 評 価
まず,7004 件 の映 画 を,ランダムに 10 等 分 し,9:1 の訓
練 集 合 とテス ト 集 合 の ペ ア を つ くっ た( test1 ~10 ) .さ ら に ,
n
P ( w1 , L , wn |c i ) = ∏ P ( wk | c i )
訓 練 集 合 に 含 まれ る 映 画 で 分 類 の 学 習 を おこ な い,テス ト
k =1
とする.これにより,映 画 の分 類 は次 式 により行 うことができ
集 合 に含 まれる映 画 (それぞれ約 70 件 )を分 類 する実 験 を
それぞれのペアで行 う 10-fold 交 差 検 定 を行 った.
る.
n
cˆ = arg max P (c i )∏ P ( wk | ci )
ここでは,
ci
評 価 の尺 度 には平 均 適 合 率 (Average precision)を用 い
・・・(2)
た[14] . 平 均 適 合 率 を 用 い る こと で, 順 位 付 き 分 類 結 果 を
k =1
考 慮 し,また,再 現 率 と適 合 率 を総 合 的 な観 点 から 1 つの
P (c i ) = ci に含 まれる映 画 数 / 全 映 画 数 ・・・(3)
と し , ま た , ci に 出 現 す る 単 語 総 数 を N i , ci に お い て wk
が出 現 する回 数 を Fik とおくと,
P ( wk |c i ) = Fik / N i ・・・(4)
と定 義 する.
上 記 のように,個 々の映 画 においてすべてのジャンルに
対 し,その事 後 確 率 をもとめることで,各 映 画 に対 する適 切
なジャンルを順 位 付 けることができる.
3.2. ゼロ頻 度 問 題
ところで,式 (4)において,単 語 によっては,ジャンル ci に
おいて
として得 られる.
a * b * d * {0.5 /( N horror + 0.5 * Vall )}
= arg max P (c i | w1 , L , wn )
場合,
・・・(6)
P (c horror | God Father ) =
cˆ = arg max P (c i | m j )
し,
P ( wk | ci ) = 0.5 /( N i + 0.5Vall )
wk が出 現 する回 数 Fik が 0 となる場 合 がある.この
P ( wk |c i ) = 0 となり,出 現 回 数 0 の単 語 がひとつで
もあれば,そのジャンルの事 後 確 率 は 0 という結 果 になって
しまう.これを避 けるためには,単 語 の出 現 回 数 の補 正 (ディ
スカウンティング)を行 う必 要 がある.
デ ィスカ ウンテ ィン グ には 予 期 尤 度 推 定 法 ( ジ ェ フリ ース ・
パークス法 ) [13] を採 用 した. 予 期 尤 度 推 定 法 は単 語 の 頻
度 に 0.5 をあらかじめ足 しておく方 法 で,すべての映 画 に
ついての単 語 の異 なり総 数 を V all とおくと,
値 で評 価 することができる.
(表 4) ナイーブ・ベイズ分 類 による各 ジャンルの順 位
(例 :シックス・センス)
シックス・センス(1999/米 )
IMDb による分 類
Thriller/Drama/Horror
ナイーブ・ベイズ分 類 に
1 Drama
よる順 位
2 Thriller
3 Comedy
4 SciFi
5 Action
6 Romance
7 Crime
8 Mystery
9 Horror
10 Adventure
11 War
12 Fantasy
13 Animation
14 Musical
15
:
P ( wk |c i ) は以
下 の式 で表 される.
P ( wk | ci ) = ( Fik + 0.5) /( N i + 0.5Vall )
具 体 的 には,各 映 画 におけるナイーブ・ベイズ分 類 による
・・・(5)
ここで V all は,単 語 の出 現 確 率 の合 計 が 1 になるように導 入
された定 数 である.各 ジャンルにおいて一 度 も出 現 しない単
語 (0 頻 度 )の出 現 確 率 は
ジャンルの順 位 に対 し,IMDb で付 与 されているジャンルが
出 現 したそれぞれの時 点 での精 度 を計 算 し,それらの精 度
を平 均 したものが平 均 適 合 率 になる.
(表 4)にあらわした,映 画 「シックス・センス」の分 類 結 果
の場 合 ,精 度 は 1 位 Drama の時 点 で 1/1,2 位 Thriller の
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE
時 点 で 2/2,9 位 Horror の時 点 で 3/9,となり平 均 適 合 率 は
1/2 + 2/2 + 3/9 ≒ 0.778 となる.
とにはできない.
本 研 究 が,映 画 の「 あらすじ」 や「 せりふ」ではなく,「ユー
10 回 の実 験 それぞれにおける平 均 適 合 率 を(表 5)にし
めす.
ザからの コメント」 を 処 理 の 対 象 として 用 いたのは,“ コメント
を用 いることで,より多 くのユーザからの意 見 を反 映 した「再
分 類 」が行 えるのでは”,という仮 定 による.計 算 機 は人 々の
(表 5) 10 回 の実 験 における平 均 適 合 率
test1
test2
test3
test4
test5
test6
test7
test8
test9
test10
平均
0.706
0.710
0.698
0.697
0.709
0.721
0.696
0.694
0.690
0.692
0.701
コメントから素 直 にジャンルを予 想 したにすぎない.人 手 によ
る分 類 と機 械 による分 類 が異 なる結 果 を示 していても,それ
は単 に,IMDb における分 類 基 準 とユーザの意 見 が異 なっ
ているからであるともいえる.よって,多 くのユーザによって,
「 主 観 的 な評 価 ・ 感 想 」 として集 められたコメントに基 づいて
分 類 を 行 え ば ,ユ ー ザに と っ てはよ り 有 意 義 な 情 報 を 提 供
できる場 合 もあると考 える.人 手 による分 類 と,機 械 による分
類 の差 にこそ意 義 があるといえよう.
そこで,IMDb による分 類 と,ナイーブ・ベイズ分 類 の結 果
が 異 な って い る 映 画 に 関 し て , 具 体 的 に 観 察 ・ 分 析 を 行 っ
た.ナイーブ・ベイズ分 類 により,1 位 に順 位 付 けられたジャ
ンルにもかかわらず,IMDb ではそのジャンルに分 類 されて
5. 考 察
IMDb により付 与 されているジャンルを正 解 集 合 とし,平
いなかった映 画 の例 が(表 6)である.ここでは極 端 な例 を示
均 適 合 率 を用 いて分 類 精 度 の評 価 を行 った.これにより,コ
すため,「訓 練 集 合 (7004 件 の映 画 を含 む)=テスト集 合 」と
メントを利 用 して映 画 をある程 度 自 動 的 に分 類 できることが
して分 類 を行 った場 合 の結 果 を示 す.
わかった.しかし,本 研 究 が 最 終 的 に 目 指 してい るのは,こ
(表 6)にあげた映 画 の中 でも,ナイーブ・ベイズ分 類 が 1
(表 6) IMDb とベイズ分 類 で結 果 が異 なる映 画 の例
タイトル
タワーリング・インフェルノ
ダーティハリー4
ガメラ対 宇 宙 怪 獣 バイラス
空軍大戦略
うる星 やつら いつだってマイ・ダーリン
超 音 ジェット機
サーキットの狼
ルパン三 世 念 力 珍 作 戦
プラン9・フロム・アウタースペース
現 金 に手 を出 すな
ハバナ
山口組三代目
ブエナ・ビスタ・ソシアル・クラブ
あの夏 ,いちばん静 かな海 .
仕 立 て屋 の恋
ときめきメモリアル
小 人 の饗 宴
シャーロックホームズの冒 険
イン・ベッド・ウィズ・マドンナ
小 さな兵 隊
パリの恋 人
ネバーエンディング・ストーリー3
ドラえもん のび太 の創 世 日 記
アルカトラズからの脱 出
戦略空軍命令
ジャンヌ・ダーク
IMDb による分 類
Drama
Crime/Drama
Drama
War
Animation
Drama
Action
Comedy
SciFi/Horror
Thriller
Drama
Action/Drama
Documentary
Romance
Thriller/Crime
Drama/Romance
Drama
Drama
Documentary
War
Comedy/Musical
Fantasy
Animation
Drama
Drama
Drama
ベイズ分 類 1 位
Action
Action
Action
Action
Action
Adventure
Animation
Animation
Comedy
Crime
Crime
Crime
Drama
Drama
Drama
Horror
Musical
Mystery
Romance
Romance
Romance
SciFi
SciFi
Thriller
War
War
2位
Drama
Crime
SciFi
War
Comedy
Drama
Action
Action
SciFi
Thriller
Thriller
Action
Romance
Romance
Romance
Animation
Drama
Adventure
Drama
Drama
Comedy
Comedy
Drama
Drama
Drama
Drama
3位
Thriller
Drama
Drama
Drama
Animation
War
Adventure
Comedy
Drama
Romance
Drama
Drama
Comedy
Crime
Crime
Thriller
Animation
Action
Comedy
Comedy
Musical
Action
Animation
Action
Action
Romance
のような 評 価 尺 度 に 基 づ いた 映 画 の 分 類 精 度 を あげること
位 にあげているジャンルが,あながち間 違 ってはいない印 象
ではない.人 手 による分 類 は,あくまで「どこかでだれかが」と
をうける映 画 がある.たとえば,IMDb によれば「タワーリング・
りきめた分 類 基 準 に 基 づいており,そこに主 観 性 が入 ること
イン フ ェ ル ノ」 と い う 映 画 の ジ ャン ルは「 Drama 」 と な って い る
は否 めない.その 分 類 を 唯 一 無 二 の 正 解 とし, 評 価 を 行 っ
が,こ の 映 画 は , 高 層 ビ ルで の 火 災 を も とに し た パ ニッ ク 映
たところで,ユーザにとって本 当 に有 意 なものなのかを測 るこ
画 であり,ナイーブ・ベイズ分 類 による 1 位 「Action」,3 位
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
「Thriller」はこの映 画 のジャンルとしてもっともらしい.ほかに
信学技報
TECHNICAL REPORT OF IEICE
順 位 に影 響 しているのではと仮 定 される.
も,「仕 立 て屋 の恋 」はその名 のとおり,仕 立 て屋 が,ある女
性 に恋 をしてしまい,悲 劇 に いたる映 画 である.この映 画 は
ナ イ ー ブ ・ ベ イ ズ 分 類 に よ る と , 「 Drama 」 , 「 Romance 」 で あ
る.
これら の 映 画 の , コメン ト に 出 現 す る 単 語 に 注 目 す るこ と
で,ナイーブ・ベイズ分 類 がなぜ IMDb で付 与 されているジ
ャンルと異 なる答 えを出 しているのかがわかる.
例 として,「タワーリング・インフェルノ」によせられているユ
ーザのコメントの一 部 を(図 2)に示 す.
(図 2) 「タワーリング・インフェルノ(1974/米 /Drama)」の
コメントの一 部
★ 4 パニ ッ ク も の は ど ん なに 役 者 を 出 し た って , 災 害 現 場 が
主 役 なんだ よ ・ ・ ・ と んで も ない ! 豪 華 競 演 が 面 白 い んで す
よ,この映 画 は.
★5 まったくもってその通 りです.
★ 4 7 0 年 代 に ブ ー ム と なった オ ー ル ス タ ー に よ る パ ニ ッ ク 映
画 の 中 でも ,群 を抜 い て面 白 い 作 品 .ポ ール・ニュ ーマン と ス
ティ ー ブ・ マ ッ ク イ ー ン が 同 じ 画 面 の 中 に 収 ま ってる だ け で 興
奮 してしまう
★5 結 構 今 見 る と 安 っぽい 部 分 も ある し 大 味 な作 りなんだ け
ど,それでも十 分 楽 しめます.往 年 の大 スター競 演 もいい感 じ
です.初 見 時 にTVに釘 付 けになった記 憶 がありますね.
★5 25 年 も前 の作 品 だと思 うとすごい.よくできてる.いい男 2
(表 7) 「タワーリング・インフェルノ(1974/米 /Drama)」
コメント中 に出 現 する単 語 (数 字 は出 現 回 数 )
映画
見る
作品
する
パニック映 画
ある
頃
思う
ない
の
ビル
マックイーン
観る
いい
いう
できる
やる
人
大作
面白い
いる
なる
もの
パニック
今
良い
こと
よい
わかる
15
12
12
11
9
8
7
7
6
6
6
6
6
5
5
5
5
5
5
5
4
4
4
4
4
4
3
3
3
ニューマン
マックィーン
何
火
汗
高層
作る
子供
初 めて
大 スター
知る
怖い
おもしろい
これ
すごい
とき
はしご
ほど
まする
もう
もる
アステア
アドベンチャー
インフェルノ
オールスター
スター
スティーブ
テレビ
ドラマ
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
フレッド
ポセイドン
リメイク
印象的だ
演技
於
価値
階
感
記憶
技術
詰込む
競演
恐怖
激突
見 せ場
減 らす
言う
娯楽
後
豪華
最近
最高だ
災害
時代
車
手
出来る
上
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
人 も良 い.「お父 さんは心 配 症 」でこの映 画 のネタあったな
ぁ・・・
★3 「コストを減 らしたければ階 数 を減 らせ」
(表 8)「パニック映 画 」「汗 」「災 害 」「高 層 」が各 ジャンルに出
現 する回 数
★5 この映 画 のせいで,随 分 長 いこと「フレッド・アステア=上
手 い脇 役 」と思 ってました.すんません.
★4 初 め てみた パニ ック 映 画 っ てこれだ ったよ うな・・ ・だいぶ
記 憶 が飛 んでるけど
★4 パニック映 画 として,ひさしぶりに考 えさせられる良 作
★4 あの状 態 で,イスで窓 を破 っちゃいけない…初 めて知 りま
した.ありえるからホラーより怖 い.
★5 パニ ック 映 画 の 代 表 作 こ れと『 ポセ イ ドン・ ア ドベン チャ
ー』が双 璧 .でもね...
★5 子 どもの 頃 見 て, 火 災 と 高 さに 恐 怖 した .高 層 ビ ル はは
しご車 が届 かないとこの映 画 で納 得 .以 後 ,はしご車 の届 く階
にしか上 らない・・つもりだったが,無 理 .
★4 夏 休 みの工 作 に「動 くタワーリングインフェルノ」の巨 大 模
型 をつくって,デカすぎて持 ってけなかったのは,私 です.
コメントを単 語 ごとに切 り出 すと(表 7)のようになる.「タワ
ーリング・インフェルノ」では,ナイーブ・ベイズ分 類 によると 1
位 に「Action」,2 位 に「Drama」,3 位 に「Thriller」である.こ
の映 画 に 対 する コメントをみ て,直 感 的 に,「 パニック 映 画 」
「汗 」「災 害 」「 高 層 ( ビル)」という単 語 がそれらのジャンルの
Drama
Action
Thriller
Comedy
SciFi
Adventure
Crime
War
Mystery
Romance
Animation
Horror
Documentary
Fantasy
Musical
Western
Family
Short
パニック映 画
26
37
17
1
8
13
0
0
1
8
0
15
0
0
0
0
0
0
汗
79
69
58
35
22
20
19
16
13
9
3
3
2
2
2
2
0
0
災害
11
21
19
0
5
5
2
0
1
0
0
1
0
0
0
0
0
0
高層
3
3
2
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
そこでこれらの単 語 が各 ジャンルに含 まれる映 画 にどの程
度 出 現 しているかを確 認 した ( 表 8).これにより,すべての
単 語 について,「 Action」,「Drama」 ,「 Thriller」 がほかのジ
ャンルと比 較 して出 現 回 数 が多 いことがわかった.
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
こういった単 語 が,「Action」的 ,「Thriller」的 であるとされ
信学技報
TECHNICAL REPORT OF IEICE
らい,それに基 づき各 映 画 でジャンルの順 位 付 けをおこなう.
るならば,「タワーリング・インフェルノ」は「Drama」のみならず,
このアンケートによる順 位 とナイーブ・ベイズ分 類 による順 位
「 Action」,「Thriller」というジャンルに属 する映 画 として,ユ
を比 較 し,評 価 する.
ーザに提 示 されることは有 意 義 なことだといえる.
さら に ,ナ イ ーブ ・ ベ イズ 分 類 によ る ジ ャンル の 順 位 情 報
次 に「ときめきメモリアル」をとりあげる.これはアイドル女 優
をユーザに提 示 するシステムを開 発 する.IMDb による分 類
たちが出 演 する,いわゆる学 園 ものの映 画 である.IMDb に
とナイーブ・ ベイズ分 類 による 上 位 ジャンルに大 きな相 違 が
よる と,「 Drama 」,「 Romance 」となって い るが,ナ イー ブ・ ベ
あれば,影 響 している単 語 を抽 出 し,その単 語 を含 むコメン
イズ分 類 は 1 位 に「Horror」,2 位 に「Thriller」とまったく趣 き
トをユーザに提 示 する.こうすることで,ユーザは映 画 につい
の異 なるジャンルに分 類 している.
てより多 角 的 な情 報 を得 ることができると考 える.
実 際 の コ メン トを 見 る と, なぜ このよ うなジ ャンル に 分 類 さ
れるのかをうかがい知 ることができる.「ときめきメモリアル」に
よせられたコメントを(図 3)にしめす.
(図 3) 「ときめきメモリアル(1997/日 /Drama・
Romance)」のコメント
★4 このカメラワークと作 品 の爽 やかさは『ダンサー・イン・ザ・
ダーク』と対 局 を成 す.
★3 ヤング ジャンプ見 てる と 思 え ばそれほど気 に なら ない .ゲ
ームと全 然 別 物 だった.
みてみると,
★3 これに3点 (笑 )!アイドル映 画 の醍 醐 味 はあまりの寒 気
『ある意
味 ホラーよりたちが悪
い.』
に背
筋 がゾクゾクっとする所
.これはけっこう来
ます.
『アイドル映
の醍
醐しいものじゃなかった.
味 はあまりの寒 気 に背 筋 がゾクゾク
★2
やっぱり女画
が見
て楽
.』
★2っとする所
アイドル好
きの自 分 でも,目 を覆 いたくなるようなシーンが
という記
述 がある.
続 出 .ある意
味 ホラーよりたちが悪 い.
この映 画 は,ストーリーから考 えれば,正 しいジャンルとして
「 Horror 」 や 「 Thriller 」 で あ る と は い え そ う に も な い . し か し
(図 3)にも掲 げた,『寒 気 に背 筋 がゾクゾク』,『ある意 味 ホラ
ー』など,これらのコメントが「 Horror」,「Thriller」という分 類
に影 響 を与 えていることはあきらかである.したがって,一 般
的 に は 「 Horror 」 , 「 Thriller 」 に は 属 さ な い 映 画 で も ,
「Horror」 的 ,「 Thriller」 的 と の 印 象 を う け たユ ー ザが い る と
いう情 報 を他 のユーザに提 供 することができる.また,この例
は,コメントを 基 に したナイ ー ブ・ ベイズ 分 類 が, 客 観 的 ・ 一
般 的 な分 類 を行 っているのではなく,よりユーザの主 観 性 に
近 い分 類 を行 っているということを示 唆 している.
6. ま と め
ナイーブ・ベイズ分 類 により, ユーザからのコメントに 基 づ
いた映 画 の分 類 が可 能 であることがわかった.さらに,IMDb
による分 類 とナイーブ・ベイズ分 類 との間 で結 果 が異 なる映
画 に関 しても,ユーザにとって有 意 義 な情 報 を提 示 できる可
能 性 を見 出 した.
し か し , ナ イ ー ブ・ ベ イ ズ 分 類 に よ る 各 ジ ャ ン ル の 順 位 が
「あながち間 違 ってはいな い」と言 い切 るにはそ の 裏 づけが
必 要 である.そのために,今 後 ,映 画 を分 類 するユーザアン
ケートを実 施 する.多 くのユーザに実 際 に映 画 を分 類 しても
文
献
[1] Amazon.co.jp
http://www.amazon.co.jp
[2] アスクユー・レストランガイド
http://www.asku.com/rgj/
[3] PTP -Power to The Peoplehttp://www.ptp.co.jp/
[4] CinemaScape
http://cinema.media.iis.u-tokyo.ac.jp/
[5] 木 本 晴 夫 , 特 集 : 情 報 検 索 の新 潮 流 マルチメディア
検 索 技 術 , 情 報 の 科 学 と 技 術 , Vol.50, No.1,
pp.14-21, 2000.
[6] A. McCallum, K. Nigam, A comparison of event
models for naive bayes text classification, Proc. of
the AAAI-98 Workshop on Learning for Text
Categolization, pp.41-48, 1998.
[7] The Internet Movie Database (IMDb)
http://www.imdb.com/
[8] allcinema ONLINE
http://www.stingray-jp.com/allcinema/
[9] ぴあシネマクラブ
http://www.pia.co.jp/cinemaclub/main.jsp
[10] 舘 村 純 一 ,“ 協 調 型 情 報 探 索 を 支 援 する 仮 想 評 者 と
その視 覚 化 ”,インタラクティブシステムとソフトウェアⅦ,
日 本 ソフトウェア科 学 会 , pp. 147-152,近 代 科 学 社 ,
東 京 ,1999.
[11] T. Joachims, Text categorization
[12] R. L. Rivest, Learning decision lists, Machine
Learning, Vol.2, No.3, pp.229-246, 1987.
[13] I. J. Good, The Estimation of Probabilities, MIT
Press Cambridge, MA, 1965
[14] H. Schuetze, C. Manning, "Foundations of Statistical
Natural
Language
Processing".
MIT
Press,
Cambridge MA, p.534-536, 1999.