『可視化するだけ』でも面白い テキストマイニング最初の一歩 @ts_3156 篠原照樹 1 今回伝えたいこと タイトル: 『可視化するだけ』でも面白い テキストマイニング最初の一歩 伝えたい内容: • 専門的な知識が なくてもなんとかなる • 可視化してみると 案外面白いことも多い • とりあえず作ってみよう! 2 自己紹介 篠原照樹(しのはらてるき) 筑波大学大学院 コンピュータサイエンス専攻 修士2年 卒論: 共感覚、修論: ロボットあれこれ(予定) えごったー : http://www.egotter.com 共感覚 : http://www.synaesthesia.jp ツイッター : @ts_3156 面白い人常に探してます! せっかく会ったからには何か話しましょう! 3 作ったもの えごったー 4 えごったーって何? ・ツイッターのフォロー情報を可視化 ・アカウント名を入力するだけで使える ・認証情報は不要です →誰の情報でも見れます 約5000回/日くらい 使われてます! 5 えごったーで分かることの一部 • • • • • • フォローしている/されているだけの人一覧 口ぐせ分析 よくツイートする時間帯 リプライを見られている人一覧 入っているクラスタ分析 リムーブした/された人一覧 6 えごったーで何が分かる? 1/2 ・リムーブされたことが分かります(クリック率1位!) ・あなたをリムった人が、他にどんな人を りむったのか分かります 7 えごったーで何が分かる? 2/2 ・プロフィールに載っていない情報を推測 ・同じクラスタに属するユーザを推測 8 実際に使ってみましょう えごったーの被験者いませんか? ・フォロー/フォロワーの合計が 2000人以内 ・できればたくさんリストに 入っている人がよい 9 なんでこんなの作ったの? 人は誰だって、自分の社会的な評判が知りた いですよね…? しかもこっそりと… たとえどんなに やましいものでも、 人に使ってもらう のって楽しいですよ! 10 クラスタ分析の実装解説の前に ちなみに、皆さんでしたらどのよう に実装しますか?? 11 クラスタ分析の実装解説 仕組みはたったこれだけ! 1. 同じリストに入っているユーザを見つける 2. そのユーザのプロフィールを連結し、形態素 解析する 3. 出現頻度が高い単語が、 そのユーザの関連語 12 開発を通して思ったこと 1/3 高度な知識は必ずしも必要ない • 今回利用したのは、形態素解析だけ • 簡単な解法で解ける問題もたくさんある 13 開発を通して思ったこと 2/3 可視化するだけでも良い 面白さは、人間が勝手に見つける • えごったー側で行うのは簡単な情報の提示のみ • 意味を汲み取るのは人間の役目 • 面白い可視化の例 – ツイッターの可視化 http://20kaido.com/archives/2861874.html – 放射線量可視化 http://microsievert.net/ 14 テキストマイニングを使う技術/作る技術 より引用 テキストマイニングは魔法の玉手箱ではない。 膨大な量の文書データの内容をコンピュータが勝手に理 解して適宜報告してくれるというようなことは、現在の技 術のレベルではあり得ないことである。 したがって、分析者を機械化するのがテキストマイニング ではない。 あくまでも、人間が膨大な文書データを有効活用するた めのツールの一つにすぎない データの内容を解釈して判断を下すのは人間である 15 開発を通して思ったこと 3/3 見切り発車でも大丈夫! とりあえず作ってみよう • テキストマイニングを利用したアプリケーショ ンを作りたいんですが、NLPの教科書を読ん でる段階でして… • えんぴつで絵を描くのに、えんぴつの歴史を 熟知している必要がありますか? 16 自己紹介 篠原照樹(しのはらてるき) 筑波大学大学院 コンピュータサイエンス専攻 修士2年 卒論: 共感覚、修論: ロボットあれこれ(予定) えごったー : http://www.egotter.com 共感覚 : http://www.synaesthesia.jp ツイッター : @ts_3156 面白い人常に探してます! せっかく会ったからには何か話しましょう! 17
© Copyright 2024 Paperzz