EDGE Datasetsを用いたテキストマイニング

EDGE Datasetsを用いたテキストマイニング
~タグの持つ意味とその利用~
自己紹介
(学外の方のために)
●
●
●
●
経済学研究科の超駄目院生
web掲示板やブログなどの文字情報から消費者の
生の声を取り入れて統計的に分析する「テキストマ
イニング」というのを専門にしているのかもしれない
実は・・・ニコニコ動画やlivedoorクリップを普段は
使っていません。システム等について認識違いが
あればご指摘いただけると幸いです
今回は学部生等のために「思いつきから実際の分
析に至る手順」と「スライド発表するときの注意点」
も盛り込もうとしたら余計煩雑に・・・
EDGE Datasetsとは?
●
学術研究目的でまとまったデータを必要とされてい
る方のために、研究用データセットを用意しました。
livedoor クリップで公開設定になっているユーザ
データの URL, タグ, 作成時刻などを csv ファイル
にまとめたものを用意しています。(公式サイト
より転載させていただきました)
● EDGE Datasetsを使って分析してみよ
う!
データの中身
今回の流れ
●
●
●
●
●
●
●
タグ分析の(思いつきの)モチベーション:ヒットしや
すいタグを見つけよう!
タグとは何か?
タグの性質を検討した後のモチベーション:ジャン
ルを繋ぐようなタグを見つけよう
タグを分析しよう!
分析ツール「共起ネットワーク」の説明
分析結果
今後の展望
今タグ分析が熱い!
●
●
●
●
ニコニコ動画などではタグ検索がデフォルト装備。
ユーザーはタグを辿って様々な動画に辿り着く
Gmailもフォルダではなくタグでメールを管理
先行研究もある(配付資料参照)
アクセスを伸ばせるタグが見つかるかも!?
今回のタグ分析の(思いつきの)目的:
注目を集めやすいスーパータグを見つけたい!
タグを分析しよう!でもその前に・・・
●
●
●
タグと一口に言っても色々あるんじゃない?
ニコニコ動画もlivedoorクリップもタグって単語を
使っているけど、意味するものは同じかな?どうも
違う気がするぞ?
分析する前に、問題点を整理して何を導きたいか
はっきりさせるぜ!
まず、ニコニコ動画とlivedoorクリップの
タグシステムの違いを把握しよう!
タグについて本気出して考えてみる
●
●
そもそもタグって何の為につけるの?フォルダとの
違いは?利点は?
整理・ラベルとして活用できる
●
●
●
フォルダ式ではどのフォルダに入れるか迷う場合があ
る。タグ式ならば、データが該当するタグの全てを付与
すればよい
正しいタグが張られることにより、検索効率アップ
それだけかな?
タグの意義はもう一つあるのでは?
●
新しい出会いを誘発することができる
●
●
●
好みのタグを辿って行くことにより、ジャンルを超えた思
いがけぬ出会いが生まれる。ジャンルだけで分類して
いると、既知のジャンルにとどまりがち
私の誘発ケース:聴くのは「平沢進」という人の音楽だ
け→タグ:平沢進を辿っていたら、初音ミクの平沢曲カ
バーが→さらに辿ると初音ミクの「自転車に乗って」とい
う曲が→この曲は「お願いデーモン!」という15年前の
ドラマの主題歌だった→試験を差し置いてドラマ鑑賞す
る羽目に。普段なら古いドラマを見る輩ではない
本稿ではこの誘発に焦点を置く
タグに求められる性質(1)信頼性
●
信頼性:「爆笑動画」というタグがつけられていて
も、その内容が実際は寒かったりすると、そのタグ
は信頼されなくなる
●
●
ニコ動:一つの動画につきタグの個数が上限10個。そ
れ以上タグをつける場合は、以前のタグを上書きするし
かない。結果、信頼性の乏しいタグは淘汰されていくた
め、タグの信頼性を維持できる
livedoor:同じURLに対しても各ユーザーが個別にタグ
をつけるため、信頼性を考慮していない。淘汰もない
タグに求められる性質(2)誘発性
●
誘発性:一つのオブジェクト(サイトや動画)に(関
連はあるが)ジャンルを超えたタグが張られること
によって、ウィキペディアのように芋づる式に捜索
範囲を広げていくことができることと定義する
●
●
ニコニコ動画:前述の誘発ケースなど
livedoor:クリップしたURLを整理・検索しやすくするた
めだけに付与するものなので、誘発性は無い。「思いが
けぬ出会い」は外部から持ち込まれるもの。クリップし
た本人がタグをつけ、そのタグを見るのは本人だけとい
うlivedoorのシステムでは新たな出会いは生まれない
誘発性のあるタグシステムとは?
●
●
●
●
ジャンルを超えてつけられる(ニコニコ動画では「才
能の無駄遣い」など)
淘汰がある
「タグ職人」「タグ理解」という概念
「タグつけるのって楽しい!><」と思えること(良
いタグをつけようという誘因が働くこと)
誘発性のあるタグシステムは
コミュニケーションツールとして
機能するのでは?
タグによるコミュニケーション
●
●
●
●
ある音楽系の動画に「コッペパン」なる謎のタグと
「タグ職人」というタグがつけられていた
その動画で確かに空耳で「コッペパン」と聞こえる
箇所があってかなり笑った
その瞬間「タグ理解」というコメントの嵐。「タグ職
人」と褒め称えるコメントも多数
閲覧者もタグを意識するし、タグつける人も見られ
ることをはっきり意識している
前述の内容を踏まえて、再検討
●
●
●
●
●
思いつき段階でのスーパータグとは「アクセス数を
伸ばしやすいキャッチーなタグ」のこと
タグの意義を検討した結果、「異なるジャンルを繋
ぎ、ユーザーの興味・関心を誘発する」ようなタグを
スーパータグと定義する。
ニコニコ動画にはスーパータグが存在するようだ
が、livedoorにも存在するのだろうか?
「スーパータグはどれか」を調べる前に「スーパータ
グが存在するかどうか」を調べないといけない
さぁ、やることがはっきりしてきたぞ!
問題提起
●
●
●
どうも誘発性のあるスーパータグが存在するシス
テムはハッピーなようだ。ユーザーは普段と違った
ジャンルに出会えてハッピー。その結果、普段買わ
ないものを買ったりしてくれることもあるので運営側
もハッピー。同じジャンルだけだと、パイの奪い合
いに限界がある
livedoorのタグシステムでスーパータグは発生する
のだろうか?
まずはスーパータグが存在するかを検証してみよ
う!
スーパータグを見つけよう!
●
●
●
●
どうやれば見つけられるかな?
ツールは色々あるけど、どれも一長一短。万能
ツールはない
自分の能力と検証したいことがはっきりしていれば
ツールを選択できるし、その分析ツールを使う妥当
性も主張できる
今回は共起ネットワークを使うぜ!なぜなら、「スー
パータグは異なるジャンルをつなぐ存在である」と
仮定しているため、それを視覚的に表したいから
スーパータグを検証するためのツール
~共起ネットワーク~
●
●
●
●
●
共起ネットワークとは
Jaccard係数
媒介中心性
詳細は配付資料
ちょっとここから難しい話するかも。すまんこった
スーパータグは媒介中心性が高く、
異なるジャンルを繋ぐ存在であると考えられる
共起ネットワークとは?
●
●
共起関係を視覚的にわかりやすいようネットワーク
形式で表現した図
共起関係
●
●
●
あるテキストに、複数のキーワードが同時に出現する程
度を調べること
amazonの「これ買った人はこっちも買ってるよ」ってシ
ステムを思い浮かべてみると理解しやすい
Jaccard係数(共起指標)
●
単語「X」と「Y」の単独での出現数を|X|、|Y|、どちらか一
方が出現した回数を|X∪Y|、両方が出現した回数を|
X∩Y|とする。どちらかが出現したうち、何回同時に出現
するかで、|X∩Y|/|X∪Y|で求める
媒介中心性とは?
●
●
●
●
その対象がどれくらい全体の連結に貢献している
かの程度を表す
ある人が色んなグループの架け橋となっている場
合、その人の媒介中心性は高いと表現する
注意:媒介中心性が高い≠沢山の人と繋がってい
る(ただし、そういう傾向はあるかも)
スーパータグは媒介中心性が高く、様々なジャン
ルを連結していると想定する
コミュニティ抽出法とは
●
●
●
●
●
ネットワーク全体から、高密度にリンクされた「コ
ミュニティ」を見つける、「切断法」という類の手法
媒介中心性の高い単語は様々なコミュニティをつ
なぐ架け橋の役割を持つ
媒介中心性の高いノードを除去するとネットワーク
が分割されるとする
分割された各々のネットワークをコミュニティである
と考えてコミュニティを抽出する
ニコニコ動画でやってみると「才能の無駄遣い」な
どのスーパータグがジャンルの架け橋となり、それ
を除去すれば各ジャンルに分かれるはず(今回はデー
タが無くてそこまで分析していない、残念)
媒介中心性・コミュニティ抽出法の図説
●
●
媒介中心性の高さを色で表現。水<白<紫で高い
例として下図を参照。左右にコミュニティが存在し、
それを橋渡しする紫の丸。紫の丸は高い媒介中心
性を持つ。紫の丸を除去すれば、ネットワークは二
分され、コミュニティを浮き上がらせる
利用したデータ
●
2008年ベストエントリ上位20から6つ選択
●
エクセルのデータを見やすくする5つの簡単なテクニック
●
驚きのExcel 超早技ベスト15 これは便利!
●
PowerPointテンプレートサイトいろいろ
●
●
●
『無料+ブラウザ』で全部やってしまおう。webジェネ
レーターとサービス50個まとめ
英語の勉強したい人はiknowよりESL Podcast聞こうぜ
幕末の古写真風
このデータを採用した理由
1.人気エントリ
2.ジャンルが異なる
● スーパータグの要件が「ジャンルを超えてつけられ
ること」「つけられるとアクセス数が伸びる(誘発す
る)こと」だったためにこのようにした
(※)注意
●
データの採用基準をはっきり述べないと、都合の良いよう恣意的に
データを選択したと捉えられてしまう
●
この採用理由は果たして妥当か?
●
今回選択したデータは採用基準と本当にマッチしているか?
共起ネットワークを作ってみた
●
●
描画アルゴリズムはSpring Embedder。各単語に
バネが生えていて、共起関係があるものは引っ張
り合い、関係のないものは反発し合うとする。それ
で各単語の位置が落ち着いたものが出力結果
もっと詳しく言うとFruchterman and Reingold の
改良版力指向アルゴリズム
●
●
●
これは熱力学と実践空手を組み合わせた全く新しい・・・
詳細は省略させて頂きます
出力結果は次のスライド
分析結果の検討
●
●
●
●
ジャンル毎に完全分離しているのが見て取れる
架け橋が見事に無い!つまりスーパータグが無
い!
これでは既存のジャンルに閉じこもったまま・・・
Jaccard係数0.1で算出。これはかなり甘い(リンク
が繋がりやすい)基準。それにも関わらずこの結果
livedoorクリップに誘発性はあるのか
●
●
●
あるあ・・・ねーよwww、サーセンwww
残念な分析結果に
なぜこんなことになったかをしっかり検討すれば、
どのようなタグシステムであれば誘発性を高める
事が出来るかが判明する可能性は高い
なぜlivedoorクリップに誘発性がないのか?
●
見せるつもりがない
●
●
●
タグつけることは「作業」。楽しいものではない。ニコニコ
動画だとチャット、奪い合いの興等があり、コミュニケー
ションツールとして利用可能
そもそも自分だけのためにつけている
淘汰がない
●
●
タグ上限や上書きなどのシステムがない
淘汰にはそれなりのユーザー数が必要。ニコニコだと
人気動画には数千~万人規模のクリップがある。
livedoorでは人気トピックでもだいたい二桁程度
結 論
●
●
タグと一口に言っても色々ある
淘汰があり、タグそのものがコミュニケーションツー
ルとして機能するものをここでは「ニコニコ型」、単
なる整理符号でしかないものを「ラベル型」タグと名
付ける。livedoorはラベル型
●
livedoorのシステムに関して、タグの誘発性は低い
●
livedoorもっとがんばれ!
おわりに
●
どのようなタグシステムであれば誘発性を高めるこ
とが出来るか考えてみると面白い
●
●
これが出来れば第2第3のニコ動を君の手で作れるかも
誘発性の高いタグを見つける手法は?
●
本稿では媒介中心性とコミュニティ抽出法を採用した。
これが本当に妥当かどうかは検証しなければならな
い。また、もっと良い手法がある可能性も
追記
●
●
●
●
●
●
この類の発表は、本来ならばニコニコ動画のデー
タも分析して比較しなければならない。
ニコ動のデータが公式で公開されてないから難し
い
データさえあれば・・・
データさえあれば・・・
データさえあればなぁ・・・
データさえ公開されていればもっ
と面白いこと出来るのになぁ・・・
もっと勉強したい!という方のために
●
●
わかりやすくてお手頃価格の日本語書籍を紹介
ネットワーク理論
●
●
●
テキストマイニング
●
●
ネットワーク科学の道具箱(コミュニティ抽出法等掲載)
実践ネットワーク分析
事例で学ぶテキストマイニング
データマイニング
●
図解 よくわかるデータマイニング
自力で分析したい!と言う方のために
●
●
●
テキストマイニングの市販ソフトは数百万円
市販ソフトはとても手が出ないので、フリーソフトと
その使い方を説明した書籍を紹介
TTM:テキストマイニング用ソフト
●
●
●
http://mtmr.jp/ttm/ ←からダウンロード
解説書は今春発行予定。みんな買ってね♡
フリーで高性能な分析ツール「R」を使おう
●
●
●
Rによるデータサイエンス
データマイニング入門(豊田 秀樹氏の方)
Rによるテキストマイニング入門