あなたの心の隙間、 「えごったー」でお埋めします…!

『可視化するだけ』でも面白い
テキストマイニング最初の一歩
@ts_3156
篠原照樹
1
今回伝えたいこと
タイトル:
『可視化するだけ』でも面白い
テキストマイニング最初の一歩
伝えたい内容:
• 専門的な知識が
なくてもなんとかなる
• 可視化してみると
案外面白いことも多い
• とりあえず作ってみよう!
2
自己紹介
篠原照樹(しのはらてるき)
筑波大学大学院 コンピュータサイエンス専攻 修士2年
卒論: 共感覚、修論: ロボットあれこれ(予定)
えごったー : http://www.egotter.com
共感覚 : http://www.synaesthesia.jp
ツイッター : @ts_3156
面白い人常に探してます!
せっかく会ったからには何か話しましょう!
3
作ったもの
えごったー
4
えごったーって何?
・ツイッターのフォロー情報を可視化
・アカウント名を入力するだけで使える
・認証情報は不要です →誰の情報でも見れます
約5000回/日くらい
使われてます!
5
えごったーで分かることの一部
•
•
•
•
•
•
フォローしている/されているだけの人一覧
口ぐせ分析
よくツイートする時間帯
リプライを見られている人一覧
入っているクラスタ分析
リムーブした/された人一覧
6
えごったーで何が分かる? 1/2
・リムーブされたことが分かります(クリック率1位!)
・あなたをリムった人が、他にどんな人を
りむったのか分かります
7
えごったーで何が分かる? 2/2
・プロフィールに載っていない情報を推測
・同じクラスタに属するユーザを推測
8
実際に使ってみましょう
えごったーの被験者いませんか?
・フォロー/フォロワーの合計が
2000人以内
・できればたくさんリストに
入っている人がよい
9
なんでこんなの作ったの?
人は誰だって、自分の社会的な評判が知りた
いですよね…? しかもこっそりと…
たとえどんなに
やましいものでも、
人に使ってもらう
のって楽しいですよ!
10
クラスタ分析の実装解説の前に
ちなみに、皆さんでしたらどのよう
に実装しますか??
11
クラスタ分析の実装解説
仕組みはたったこれだけ!
1. 同じリストに入っているユーザを見つける
2. そのユーザのプロフィールを連結し、形態素
解析する
3. 出現頻度が高い単語が、
そのユーザの関連語
12
開発を通して思ったこと 1/3
高度な知識は必ずしも必要ない
• 今回利用したのは、形態素解析だけ
• 簡単な解法で解ける問題もたくさんある
13
開発を通して思ったこと 2/3
可視化するだけでも良い
面白さは、人間が勝手に見つける
• えごったー側で行うのは簡単な情報の提示のみ
• 意味を汲み取るのは人間の役目
• 面白い可視化の例
– ツイッターの可視化
http://20kaido.com/archives/2861874.html
– 放射線量可視化
http://microsievert.net/
14
テキストマイニングを使う技術/作る技術
より引用
テキストマイニングは魔法の玉手箱ではない。
膨大な量の文書データの内容をコンピュータが勝手に理
解して適宜報告してくれるというようなことは、現在の技
術のレベルではあり得ないことである。
したがって、分析者を機械化するのがテキストマイニング
ではない。
あくまでも、人間が膨大な文書データを有効活用するた
めのツールの一つにすぎない
データの内容を解釈して判断を下すのは人間である
15
開発を通して思ったこと 3/3
見切り発車でも大丈夫!
とりあえず作ってみよう
• テキストマイニングを利用したアプリケーショ
ンを作りたいんですが、NLPの教科書を読ん
でる段階でして…
• えんぴつで絵を描くのに、えんぴつの歴史を
熟知している必要がありますか?
16
自己紹介
篠原照樹(しのはらてるき)
筑波大学大学院 コンピュータサイエンス専攻 修士2年
卒論: 共感覚、修論: ロボットあれこれ(予定)
えごったー : http://www.egotter.com
共感覚 : http://www.synaesthesia.jp
ツイッター : @ts_3156
面白い人常に探してます!
せっかく会ったからには何か話しましょう!
17