テキストマイニングと ソーシャルメディアアナリシス技術

ソーシャルメディアアナリティクス(2)
-笑いのツボを分析する-
2015年11月27日
ニフティ株式会社
松井くにお
Copyright © NIFTY Corporation All Rights Reserved 2015.
1
宿題(おさらい)
• 自由課題(7チームに分けます)
– 各チームそれぞれが,仮説作成,データの選択,
仮説検証までの一連の分析を行なう
– 分析の結果を通して知見をまとめ、発表資料を
作成
• データセットは二種類用意:開発用で仮説検証・検
証のための手法開発を行って,検証用データを用い
て再検証
– 開発用データ(11月6日公開)
• 2008年から2015年分
– 検証用データ(11月23日公開)
• 2014年,2015年分
Copyright © NIFTY Corporation All Rights Reserved 2015.
2
今回の発表
• 自由課題のプレゼンテーション
– データ・サイエンティストのつもりで
– 5分間+3分間(質問・議論)
• 内容
– 仮説
• 仮説立案
• 仮説の検証方法
– 分析手法
• 対象とするデータ決め
• 集計・分析・可視化
– 比較・深掘り
• いくつかの分析の比較、工夫点
– 結果
• できたこと、できなかったことの考察・検証
• 優秀賞
– 優秀な発表を行なったグループに景品を差し上げます
Copyright © NIFTY Corporation All Rights Reserved 2015.
3
チーム分け
• Team 1
– 光メディアインタフェース、知能システム制御
• Team 2
– 生体医用画像
• Team 3
– 数理情報学、モバイルコンピューティング
• Team 4
– 視覚情報メディア、ディペンダブルシステム学
• Team 5
– 自然言語処理学
• Team 6
– 奈良女子大学、知能コミュニケーション
• Team 7
– 知能コミュニケーション、計算システムズ生物学、インターネッ
ト工学
Copyright © NIFTY Corporation All Rights Reserved 2015.
4
評価の観点
• 仮説の有用性
– サービスなどでの有用性があるか,もしくは認知科学,心理学
などの科学的な価値があるか
– 利用したデータおよび分析手法は妥当か
• 結果
– 導かれる結論は論理的か
– チーム内での分担はできたか
• プレゼンテーション
– 必要な項目が入っているか
– 内容がわかりやすいか
• 質問に対する回答
– 適切な回答を行なったか
• 評価点
– 先生:とても良い:4点、良い:3点、まあまあ:2点、うーん:1点
– 学生:一番良かったチーム各自1点(自チーム以外)
Copyright © NIFTY Corporation All Rights Reserved 2015.
5
デイリーポータルZ
編集長 林雄司
Copyright © NIFTY Corporation All Rights Reserved 2015.
6
Copyright © NIFTY Corporation All Rights Reserved 2015.
7
と、いうわけで、今日のみなさんの発表
の総評を松井から
Copyright © NIFTY Corporation All Rights Reserved 2015.
8
全体を通して
• 仮説は大変面白い
• PVに縛られてしまった
• 発見的な結果がいろいろあった
Copyright © NIFTY Corporation All Rights Reserved 2015.
9
総評
• Team 3
– ごはん記事は人気があるか
• ごはんを連想させる記事
• ⇒ごはん記事を書けば人気が出るか
– ごはん記事の判定を自動化したかった
• Team 5
– PVのクラス分け
• 様々な手法によってPV予測
• 人間も入れて予測
– 分類数を割合別にした方が良かったのではないか
Copyright © NIFTY Corporation All Rights Reserved 2015.
10
総評
• Team 1
– 言葉遣いにフォーカス
• くせの相関を対応分析で
• 筆者の特徴が見える
– 言葉遣いと筆者の関係の掘り下げがほしかった
• Team 4
– 楽してPV稼ぎたい
• 質より量はあるか⇒相関はない
• 曜日によってどうか⇒週末は少ない(木曜が多い)
– 曜日にフォーカスしたのは新鮮な視点
Copyright © NIFTY Corporation All Rights Reserved 2015.
11
総評
• Team 8
– 記事の面白さとPVに相関はない
• 別指標の「はてブ」を用いる
• 面白い記事を分析
– ページ数を考慮した分析が必要だった
• Team 2
– デイリーとニフティの株価は関連があるか
• 提供、家電、ストアの単語で手がかりを発見
• ビジネスに誘導する証拠はあったか
– 景気との関連はありそう・・・
Copyright © NIFTY Corporation All Rights Reserved 2015.
12
総評
• Team 7
– 機械学習を用いて予測
• 人気度予測⇒69.3%
• 著者予測⇒時間変化もありそう49.8%
– 予測の素性の深堀がほしかった
Copyright © NIFTY Corporation All Rights Reserved 2015.
13
優秀賞の発表
Copyright © NIFTY Corporation All Rights Reserved 2015.
14
優秀賞は
Copyright © NIFTY Corporation All Rights Reserved 2015.
15