興味推定を利用した音声情報提示システム Audio Information

興味推定を利用した音声情報提示システム
Audio Information Providing System Using User’s Interest Estimation
感性情報学講座 0312013024 大木拓也
指導教員:伊藤慶明 小嶋和徳
1. はじめに
長距離の自動車運転時,特に高速道路での運転
の処理で生成される.
(1) 全ての単語について最も尤度が高いトピッ
時は刺激が少ないことからくる退屈感により集
クを求め,各単語のトピックとする
中力が途切れ安全な運転が脅かされることがあ
(2) トピックごとの頻度を求める
る.特に,集中力が落ちると居眠りの危険が増え
(3) トピック数を次元数として,各トピックの頻
1)
,死亡重傷事故につながりかねない.先行研究
度を値としたベクトルとする
では,個々のドライバーにとって有用なニュース
ユーザごとに,過去の興味のあるニュース群か
を運転中に提供することによって退屈感を払拭
らユーザの興味の傾向を示すトピックベクトル
する音声対話システムが提案された.先行研究で
を生成する.
提示したニュースはある程度ユーザの満足する
2.4. 興味のあるニュースを推定
レベルであったが,より高い精度が望まれる.
ユーザのトピックベクトルと各ニュースのト
本稿ではユーザの興味があるニュース選出の
ピックベクトルとの cos 類似度を求める.この類
精度を先行研究より向上する手法を検討する.ユ
似度を興味のある(好きな)ニュースとの類似度
ーザの興味のないニュースの特徴を分析・プロフ
とする.これを Like 類似度とする.各最新ニュ
ァイリングし,ユーザの興味のないニュースを排
ースを Like 類似度の高い順に興味のあるニュー
除することにより,ユーザのより興味のあるニュ
スとしてユーザに提示する.
ースの選出を行う.
3. 提案手法
2. 先行研究 2)
2.1. 概要
先行研究では,ユーザの興味のあるニュースを
インターネット上のニュースから推定して,音声
3.1. 概要
本論文では先行研究の,興味のあるニュースの
絞り込みの精度を上げることを目的とする.
先行研究ではユーザの興味のあるニュースの
対話を用いて読み上げるシステムが提案された.
プロファイリングのみを行っていたが,本論文で
まず,ユーザごとに既に読み上げた興味のある
はユーザの興味のないニュースのプロファイリ
ニュース群からユーザの興味の傾向を分析し,ユ
ングも同様に行うことで,興味のないトピックベ
ーザの興味の傾向をトピックベクトルとしてプ
クトルを生成し,各ニュースのトピックベクトル
ロファイリングする.ユーザの興味のトピックベ
との cos 類似度を求める.これを Dislike 類似度
クトルと最新ニュースのトピックベクトルを比
とする.この Dislike 類似度に基づいてユーザの
較し,ユーザの興味に合ったニュースを提供する.
興味のないニュースを排除することで,よりユー
2.2. プロファイリング
ザの望むニュースに絞り込む手法として以下の
プロファイリングとは,ユーザが過去に提示さ
二つを提案する.
れたニュースの情報を蓄積し,分析することであ
3.2. 閾値削除手法
る.この分析結果をもとにユーザの興味の傾向を
先行研究の Like 類似度から生成されたニュー
推測する.プロファイリングには Latent Dirichlet
ス群から,Dislike 類似度が設定された閾値以上の
Allocation (LDA) 4) を用いたトピック分類による
ニュースを除外する.
推定を用いる.
3.3. 正負減算手法
2.3. トピックベクトル
トピックベクトルとは,あるテキストまたはあ
Like 類似度Slike が大きく,Dislike 類似度Sdislike
るテキスト群ごとの特徴などをベクトルとして
が小さいニュースが,ユーザがより興味を持つニ
ュースであると考え,Slike とSdislike の差S (n)をス
表現したもので,トピック数を次元数として以下
コアとする.これを正負減算手法と呼ぶ.
表 1.実験使用ニュース件数
85
ジャンル
プロファイル
システム実験
エンタメ
242
281
国内
453
443
国際
239
245
スポーツ
515
397
(
経済
189
190
)
地域
438
456
合計
2076
2012
80
80
適
合
率
%
75
71
72
70
65
従来手法
閾値削除
減算
図 1.各手法の正解上位 10 件までの平均適合率
n 番目のニュースのスコアS (n)は以下の式(1)か
ら求める.α は Dislike 類似度に乗ずる重みを表
す.
S (n) = Slike (n) − Sdislike (n)×α
4.2. 実験結果
(1)
図 1 は各手法の正解ニュース上位 10 件までの
平均適合率を示す.従来手法と比べて平均適合率
4. 実験
が閾値削除手法は 1.0 ポイント,正負減算手法は
4.1. 実験条件
9.0 ポイント上昇した.これにより,正負減算手
実験に使用したニュースの件数を表 1 に示す.
法の有効性を確認できた.
LDA モデルは 2014/01/01-2016/07/31 の Yahoo!ニ
ュース 3)43,773 件を使用して作成した.トピック
数は先行研究で結果が優れていた 128 を使用し
5. おわりに
本稿では,Like 類似度と Dislike 類似度を用い
た.まず,被験者に 2016/8/01-2016/8/31 の科学,
てユーザの興味のある,興味のないニュースを定
IT 以外の Yahoo!ニュース 2,076 件から好きなジ
量化し,興味のないニュースを排除し,ニュース
ャンルを選んでもらい,その中から興味のあるニ
を提示する手法として閾値削除手法と正負減算
ュース,興味のないニュースを各 30 件選んでも
手法の二つ提案した.実験の結果,正負減算手法
らう.選ばれたニュースをプロファイリングし,
は従来手法と比べて正解ニュース上位 10 件まで
ユーザの興味のあるトピックベクトル,興味のな
の平均適合率が 9.0 ポイント向上し,正負減算手
いトピックベクトルを作成する.評価時には,被
法の有効性を確認できた.今後は被験者を増やし
験者に 2016/9/1-2016/9/27 の Yahoo!ニュース 2,012
正負減算手法の頑健性を検証するとともにユー
件から,被験者の興味のあると判断したニュース
ザの利用満足度についての評価も行う.
を提示し,被験者の興味のあるニュースが 10 件
出るまで聞いてもらう.実際に被験者の興味があ
6. 参考文献
ったニュースを正解とする.式(2)に示すように,
1)村崎慎一:“高速道路での居眠り運転防止に向
Precision(i)とする.正解ニュースが上位 10 件ま
けた効果的な対策に関する調査研究”,公益財
団法人高速道路調査会, (2015)
で出現したときの適合率の平均を平均適合率と
2)橋本 拓観:
“音声対話に基づくユーザの興味推
i個目の正解が出現したときの適合率を
し,式(3)で求め性能を評価する.
定を利用した音声対話情報提示システム”,岩
今回の実験は,それぞれ 2 ジャンルずつ三つの
手法を 1 回ずつ,合計 6 回の実験を 5 名に対して
行った.
Precision(i)=
i
提供したニュース数
10
1
平均適合率 =
∑ Precision(i)
10 i=1
手県立大学ソフトウェア研究科,2015年度博士
前期課程(ソフトウェア情報学)論文,(2016)
3 )Yahoo! ニ ュ ー ス , http://news.yahoo.co.jp ,
(2)
(2017/1/11)
4)David M. Blei: Andrew Y. Ng, Michael I. Jordan,
(3)
"Latent Dirichlet Allocation", Journal of Machine
Learning Research 3,(2003)