EDGE Datasetsを用いたテキストマイニング ~タグの持つ意味とその利用~ 自己紹介 (学外の方のために) ● ● ● ● 経済学研究科の超駄目院生 web掲示板やブログなどの文字情報から消費者の 生の声を取り入れて統計的に分析する「テキストマ イニング」というのを専門にしているのかもしれない 実は・・・ニコニコ動画やlivedoorクリップを普段は 使っていません。システム等について認識違いが あればご指摘いただけると幸いです 今回は学部生等のために「思いつきから実際の分 析に至る手順」と「スライド発表するときの注意点」 も盛り込もうとしたら余計煩雑に・・・ EDGE Datasetsとは? ● 学術研究目的でまとまったデータを必要とされてい る方のために、研究用データセットを用意しました。 livedoor クリップで公開設定になっているユーザ データの URL, タグ, 作成時刻などを csv ファイル にまとめたものを用意しています。(公式サイト より転載させていただきました) ● EDGE Datasetsを使って分析してみよ う! データの中身 今回の流れ ● ● ● ● ● ● ● タグ分析の(思いつきの)モチベーション:ヒットしや すいタグを見つけよう! タグとは何か? タグの性質を検討した後のモチベーション:ジャン ルを繋ぐようなタグを見つけよう タグを分析しよう! 分析ツール「共起ネットワーク」の説明 分析結果 今後の展望 今タグ分析が熱い! ● ● ● ● ニコニコ動画などではタグ検索がデフォルト装備。 ユーザーはタグを辿って様々な動画に辿り着く Gmailもフォルダではなくタグでメールを管理 先行研究もある(配付資料参照) アクセスを伸ばせるタグが見つかるかも!? 今回のタグ分析の(思いつきの)目的: 注目を集めやすいスーパータグを見つけたい! タグを分析しよう!でもその前に・・・ ● ● ● タグと一口に言っても色々あるんじゃない? ニコニコ動画もlivedoorクリップもタグって単語を 使っているけど、意味するものは同じかな?どうも 違う気がするぞ? 分析する前に、問題点を整理して何を導きたいか はっきりさせるぜ! まず、ニコニコ動画とlivedoorクリップの タグシステムの違いを把握しよう! タグについて本気出して考えてみる ● ● そもそもタグって何の為につけるの?フォルダとの 違いは?利点は? 整理・ラベルとして活用できる ● ● ● フォルダ式ではどのフォルダに入れるか迷う場合があ る。タグ式ならば、データが該当するタグの全てを付与 すればよい 正しいタグが張られることにより、検索効率アップ それだけかな? タグの意義はもう一つあるのでは? ● 新しい出会いを誘発することができる ● ● ● 好みのタグを辿って行くことにより、ジャンルを超えた思 いがけぬ出会いが生まれる。ジャンルだけで分類して いると、既知のジャンルにとどまりがち 私の誘発ケース:聴くのは「平沢進」という人の音楽だ け→タグ:平沢進を辿っていたら、初音ミクの平沢曲カ バーが→さらに辿ると初音ミクの「自転車に乗って」とい う曲が→この曲は「お願いデーモン!」という15年前の ドラマの主題歌だった→試験を差し置いてドラマ鑑賞す る羽目に。普段なら古いドラマを見る輩ではない 本稿ではこの誘発に焦点を置く タグに求められる性質(1)信頼性 ● 信頼性:「爆笑動画」というタグがつけられていて も、その内容が実際は寒かったりすると、そのタグ は信頼されなくなる ● ● ニコ動:一つの動画につきタグの個数が上限10個。そ れ以上タグをつける場合は、以前のタグを上書きするし かない。結果、信頼性の乏しいタグは淘汰されていくた め、タグの信頼性を維持できる livedoor:同じURLに対しても各ユーザーが個別にタグ をつけるため、信頼性を考慮していない。淘汰もない タグに求められる性質(2)誘発性 ● 誘発性:一つのオブジェクト(サイトや動画)に(関 連はあるが)ジャンルを超えたタグが張られること によって、ウィキペディアのように芋づる式に捜索 範囲を広げていくことができることと定義する ● ● ニコニコ動画:前述の誘発ケースなど livedoor:クリップしたURLを整理・検索しやすくするた めだけに付与するものなので、誘発性は無い。「思いが けぬ出会い」は外部から持ち込まれるもの。クリップし た本人がタグをつけ、そのタグを見るのは本人だけとい うlivedoorのシステムでは新たな出会いは生まれない 誘発性のあるタグシステムとは? ● ● ● ● ジャンルを超えてつけられる(ニコニコ動画では「才 能の無駄遣い」など) 淘汰がある 「タグ職人」「タグ理解」という概念 「タグつけるのって楽しい!><」と思えること(良 いタグをつけようという誘因が働くこと) 誘発性のあるタグシステムは コミュニケーションツールとして 機能するのでは? タグによるコミュニケーション ● ● ● ● ある音楽系の動画に「コッペパン」なる謎のタグと 「タグ職人」というタグがつけられていた その動画で確かに空耳で「コッペパン」と聞こえる 箇所があってかなり笑った その瞬間「タグ理解」というコメントの嵐。「タグ職 人」と褒め称えるコメントも多数 閲覧者もタグを意識するし、タグつける人も見られ ることをはっきり意識している 前述の内容を踏まえて、再検討 ● ● ● ● ● 思いつき段階でのスーパータグとは「アクセス数を 伸ばしやすいキャッチーなタグ」のこと タグの意義を検討した結果、「異なるジャンルを繋 ぎ、ユーザーの興味・関心を誘発する」ようなタグを スーパータグと定義する。 ニコニコ動画にはスーパータグが存在するようだ が、livedoorにも存在するのだろうか? 「スーパータグはどれか」を調べる前に「スーパータ グが存在するかどうか」を調べないといけない さぁ、やることがはっきりしてきたぞ! 問題提起 ● ● ● どうも誘発性のあるスーパータグが存在するシス テムはハッピーなようだ。ユーザーは普段と違った ジャンルに出会えてハッピー。その結果、普段買わ ないものを買ったりしてくれることもあるので運営側 もハッピー。同じジャンルだけだと、パイの奪い合 いに限界がある livedoorのタグシステムでスーパータグは発生する のだろうか? まずはスーパータグが存在するかを検証してみよ う! スーパータグを見つけよう! ● ● ● ● どうやれば見つけられるかな? ツールは色々あるけど、どれも一長一短。万能 ツールはない 自分の能力と検証したいことがはっきりしていれば ツールを選択できるし、その分析ツールを使う妥当 性も主張できる 今回は共起ネットワークを使うぜ!なぜなら、「スー パータグは異なるジャンルをつなぐ存在である」と 仮定しているため、それを視覚的に表したいから スーパータグを検証するためのツール ~共起ネットワーク~ ● ● ● ● ● 共起ネットワークとは Jaccard係数 媒介中心性 詳細は配付資料 ちょっとここから難しい話するかも。すまんこった スーパータグは媒介中心性が高く、 異なるジャンルを繋ぐ存在であると考えられる 共起ネットワークとは? ● ● 共起関係を視覚的にわかりやすいようネットワーク 形式で表現した図 共起関係 ● ● ● あるテキストに、複数のキーワードが同時に出現する程 度を調べること amazonの「これ買った人はこっちも買ってるよ」ってシ ステムを思い浮かべてみると理解しやすい Jaccard係数(共起指標) ● 単語「X」と「Y」の単独での出現数を|X|、|Y|、どちらか一 方が出現した回数を|X∪Y|、両方が出現した回数を| X∩Y|とする。どちらかが出現したうち、何回同時に出現 するかで、|X∩Y|/|X∪Y|で求める 媒介中心性とは? ● ● ● ● その対象がどれくらい全体の連結に貢献している かの程度を表す ある人が色んなグループの架け橋となっている場 合、その人の媒介中心性は高いと表現する 注意:媒介中心性が高い≠沢山の人と繋がってい る(ただし、そういう傾向はあるかも) スーパータグは媒介中心性が高く、様々なジャン ルを連結していると想定する コミュニティ抽出法とは ● ● ● ● ● ネットワーク全体から、高密度にリンクされた「コ ミュニティ」を見つける、「切断法」という類の手法 媒介中心性の高い単語は様々なコミュニティをつ なぐ架け橋の役割を持つ 媒介中心性の高いノードを除去するとネットワーク が分割されるとする 分割された各々のネットワークをコミュニティである と考えてコミュニティを抽出する ニコニコ動画でやってみると「才能の無駄遣い」な どのスーパータグがジャンルの架け橋となり、それ を除去すれば各ジャンルに分かれるはず(今回はデー タが無くてそこまで分析していない、残念) 媒介中心性・コミュニティ抽出法の図説 ● ● 媒介中心性の高さを色で表現。水<白<紫で高い 例として下図を参照。左右にコミュニティが存在し、 それを橋渡しする紫の丸。紫の丸は高い媒介中心 性を持つ。紫の丸を除去すれば、ネットワークは二 分され、コミュニティを浮き上がらせる 利用したデータ ● 2008年ベストエントリ上位20から6つ選択 ● エクセルのデータを見やすくする5つの簡単なテクニック ● 驚きのExcel 超早技ベスト15 これは便利! ● PowerPointテンプレートサイトいろいろ ● ● ● 『無料+ブラウザ』で全部やってしまおう。webジェネ レーターとサービス50個まとめ 英語の勉強したい人はiknowよりESL Podcast聞こうぜ 幕末の古写真風 このデータを採用した理由 1.人気エントリ 2.ジャンルが異なる ● スーパータグの要件が「ジャンルを超えてつけられ ること」「つけられるとアクセス数が伸びる(誘発す る)こと」だったためにこのようにした (※)注意 ● データの採用基準をはっきり述べないと、都合の良いよう恣意的に データを選択したと捉えられてしまう ● この採用理由は果たして妥当か? ● 今回選択したデータは採用基準と本当にマッチしているか? 共起ネットワークを作ってみた ● ● 描画アルゴリズムはSpring Embedder。各単語に バネが生えていて、共起関係があるものは引っ張 り合い、関係のないものは反発し合うとする。それ で各単語の位置が落ち着いたものが出力結果 もっと詳しく言うとFruchterman and Reingold の 改良版力指向アルゴリズム ● ● ● これは熱力学と実践空手を組み合わせた全く新しい・・・ 詳細は省略させて頂きます 出力結果は次のスライド 分析結果の検討 ● ● ● ● ジャンル毎に完全分離しているのが見て取れる 架け橋が見事に無い!つまりスーパータグが無 い! これでは既存のジャンルに閉じこもったまま・・・ Jaccard係数0.1で算出。これはかなり甘い(リンク が繋がりやすい)基準。それにも関わらずこの結果 livedoorクリップに誘発性はあるのか ● ● ● あるあ・・・ねーよwww、サーセンwww 残念な分析結果に なぜこんなことになったかをしっかり検討すれば、 どのようなタグシステムであれば誘発性を高める 事が出来るかが判明する可能性は高い なぜlivedoorクリップに誘発性がないのか? ● 見せるつもりがない ● ● ● タグつけることは「作業」。楽しいものではない。ニコニコ 動画だとチャット、奪い合いの興等があり、コミュニケー ションツールとして利用可能 そもそも自分だけのためにつけている 淘汰がない ● ● タグ上限や上書きなどのシステムがない 淘汰にはそれなりのユーザー数が必要。ニコニコだと 人気動画には数千~万人規模のクリップがある。 livedoorでは人気トピックでもだいたい二桁程度 結 論 ● ● タグと一口に言っても色々ある 淘汰があり、タグそのものがコミュニケーションツー ルとして機能するものをここでは「ニコニコ型」、単 なる整理符号でしかないものを「ラベル型」タグと名 付ける。livedoorはラベル型 ● livedoorのシステムに関して、タグの誘発性は低い ● livedoorもっとがんばれ! おわりに ● どのようなタグシステムであれば誘発性を高めるこ とが出来るか考えてみると面白い ● ● これが出来れば第2第3のニコ動を君の手で作れるかも 誘発性の高いタグを見つける手法は? ● 本稿では媒介中心性とコミュニティ抽出法を採用した。 これが本当に妥当かどうかは検証しなければならな い。また、もっと良い手法がある可能性も 追記 ● ● ● ● ● ● この類の発表は、本来ならばニコニコ動画のデー タも分析して比較しなければならない。 ニコ動のデータが公式で公開されてないから難し い データさえあれば・・・ データさえあれば・・・ データさえあればなぁ・・・ データさえ公開されていればもっ と面白いこと出来るのになぁ・・・ もっと勉強したい!という方のために ● ● わかりやすくてお手頃価格の日本語書籍を紹介 ネットワーク理論 ● ● ● テキストマイニング ● ● ネットワーク科学の道具箱(コミュニティ抽出法等掲載) 実践ネットワーク分析 事例で学ぶテキストマイニング データマイニング ● 図解 よくわかるデータマイニング 自力で分析したい!と言う方のために ● ● ● テキストマイニングの市販ソフトは数百万円 市販ソフトはとても手が出ないので、フリーソフトと その使い方を説明した書籍を紹介 TTM:テキストマイニング用ソフト ● ● ● http://mtmr.jp/ttm/ ←からダウンロード 解説書は今春発行予定。みんな買ってね♡ フリーで高性能な分析ツール「R」を使おう ● ● ● Rによるデータサイエンス データマイニング入門(豊田 秀樹氏の方) Rによるテキストマイニング入門
© Copyright 2024 Paperzz