データサイエンティストはビッグデータの夢を見るか?

D
MediaRoom
Writer
ソリューション推進局
インタラクティブ事業戦略室
142
Vol.
デ ジ タ ル メ デ ィ ア 教 室
田村 玄
Theme
データサイエンティストはビッグデータの夢を見るか?
データサイエンティスト
vs スタティスティシャン
(1)はデータベース技術者が有する技術であり、
(2)
は統計やデータ解析の技術者であり、非常に理系な
データサイエンティストと呼ばれる専門家がもて
イメージです。一方(3)はどうでしょうか。デー
はやされています。データサイエンティストとは、
タや分析については明るくないがビジネスには精通
膨大なデータからビジネスに役立つ知見を引き出す
しているビジネスマンから、
課題を引き出し(コミュ
人を指すそうです。書店では、統計解析に関する専
ニケーション能力)
、科学的な課題へと定式化(
(1)
門書のコーナーはもちろん、ビジネス書のコーナー
や(2)で解決できる課題への変換)する能力にな
にも、データ分析に関する本が平積みになっていま
ります。定式化ができれば、
(1)や(2)のスキル
す。筆者は 2012 年 8 月の本連載においてビッグ
を持って問題解決に臨むことになります。このよう
データについて書いていますが、
「データサイエン
に、ビジネスに科学的なアプローチを持って接して
ティスト」という単語はまだ使っていませんでした。
いくこと、それがデータサイエンティストに必須な
その一方で「今後 10 年間で最もセクシーな仕事は
ことだと思われます。加えてアウトプットにも気を
“統計学者”である」という Google チーフエコノ
使う必要があると考えます。
(1)
(2)に精通して
ミスト Hal Varian 氏のコメントを引用しています。
いる技術者は自身の専門用語を使いがちです。しか
このコメントを見聞きしたとき、統計解析を専門と
し、対峙する相手は(1)
(2)に精通している方だ
してきた私は「ついに統計が日の目を見る時が来た
けとは限りません。なるべくわかりやすい言葉で表
のか ?」と思ったことを記憶しております。そのよ
現する必要があります。TED ※ 2 のカンファレンス
うな世相を反映してか、大学でも統計学の授業はか
で、Melissa Marshall 氏も「
『省略せずに 極限ま
なりの人気だそうです
。しかし、肩書きとして
で単純に(アインシュタイン)
』
。レベルを落とさず
は「統計学者(statistician)
」ではなく、
「データ
に研究内容を明確に伝えることは可能なんです」と
サイエンティスト」が世間を席巻しているように思
述べています。
えます。
(1)と(2)のような技術を身につけ、ビジネス
※1
を視野に入れて科学的なアプローチでインプットと
データサイエンティストの要件とは ?
アウトプットを行う、それがデータサイエンティス
それでは、データサイエンティストの必要条件と
トのあるべき姿なのでしょう。
は何でしょうか ? 正式な定義があるわけではない
ようですが、見聞きしたことをまとめますと、次の
ビジネスを視野に入れた分析を考える
3 つの要件を満たす人のようです。
データ分析には様々な手法が存在しますが、筆者
(1)データ、特にビッグデータのハンドリング
は大きく 3 つに分けられると思っています。
のスキル
(2)統計解析のスキル
(2)わける
(3)ビジネスの課題をデータ分析の課題へと翻
(3)構造を把握する
訳するスキル
(1)と(2)は“サイエンス”な感じがします。
28
(1)はかる
分析により、今までわからなかったことが明らか
になることは確かです。ただ、単にわかるだけでは
Video Research Digest 2014.3
なく、今後どのようなアクションをとればよいのか
よく買っているが、筆者が a を買っていないとし
について示唆を与えてくれるとよりよいと思いま
ます。このとき、筆者に商品 a をレコメンドする
す。このような、ビジネスを視野に入れた分析につ
のです。セグメントが購買行動や購買意識に基づい
いて述べたいと思います。
て生成されている場合は、このようなレコメンドは
より有効だと思われます。
(1)はかる
1 つめの「はかる」ですが、
これは率や平均といっ
(3)構造を把握する
た基本的な指標が有名です。ある時点で 100 人中
3 つめは「構造を把握する」です。
10 人が視聴していれば 10%です。また、30 分
例えば回帰分析と呼ばれる手法を用いると、目標
番組の平均視聴率は 30 時点分の平均を求めること
としたい指標に対して、他の指標がどれだけ影響し
で得ることができます。これらはデータの縮約です。
ているかがわかります。例えば次のような分析結果
調査対象者一人ひとりのデータをまとめることで全
が得られた場合、販促費よりも広告費の方が 4 倍
体を分かりやすくする手段と言えます。ここにバラ
ブランド認知率の上昇に影響を与えていることがわ
ツキ
かります。
※3
という概念を加えましょう。同じ平均視聴
率 10%の番組でも、A と B ではバラツキの大きさ
が異なる場合があります。バラツキは投資の世界で
ブランド認知率の上昇 =
はリスクを表す指標として用いられています。バラ
0.004 ×広告費 +0.001 ×販促費
ツキの大きいほうが、リスクが高いと捉えるのです。
一方でリスクが高いということはリターンが大きい
構造を把握することができたら、予測に適応する
可能性もあります。このような視点でデータを見る
ことも可能となります。上記の数式を用いることで、
ことも必要ではないでしょうか。
広告費に 100 万円、販促費に 0 円投資すれば、ブ
ランド認知率は 4 ポイント上昇すると予測できま
(2)わける
す。また、広告費に 0 円、販促費に 100 万円投資
2 つめは「わける」です。人間はわけることが好
すれば、ブランド認知率は 1 ポイント上昇すると
きですね。男と女、20 代と 30 代、関東出身と関
予測できます。回帰分析には上記以外にもさまざま
西出身、など枚挙にいとまがありません。類似した
なモデル式を適用することができますが、より使い
調査サンプルをまとめてセグメントを作成したりす
やすい、ビジネス上の制約を加味したものである必
るのは、ある種人間の本能ではないのかと思う次第
要があると思われます。
です
。さて、セグメントを求める理由はふたつ
※4
あると思います。ひとつは似た者をまとめることで
データサイエンティスト不要時代
ターゲティングを行いやすくするという側面、もう
先日、
「ブレードランナー※ 5」という映画を見ま
ひとつはセグメントの構成比を把握することで市場
した。筆者が、何度も見、いつも面白いと感じる映
全体を概観する、というものです。ここでは別の使
画のひとつです。そのなかで、主人公デッカードが
い方を考えます。昨今、EC サイトなどではレコメ
写真の一部を拡大していくシーンがあります。みな
ンデーションなるものが用いられています。ユー
さんは、デジカメで低い解像度で撮影した写真が、
ザーが興味関心のありそうな情報を提示するサービ
拡大すればするほど画像が荒くなるのはお分かりだ
スのことです。ユーザーがどんなことに興味関心が
と思いますが、この手のシーンではなぜか画像が荒
あるのかは、ユーザーの過去の購買履歴などを活用
くなるということはありません。つまり、現実には
することが多いですが、このセグメントを使うこと
あり得ないシーンということになるのです。しかし、
もできます。例えば筆者がセグメント A に属して
昨今、機械学習という技術により可能になってきて
いるとします。そして、セグメント A が商品 a を
います。こういうことです。あらかじめ、同じ写真
29
を解像度低と解像度高で用意します。そのような写
一部の現状把握のための分析をのぞき、なるべく次
真のペアをたくさん用意し、解像度低の写真から解
のアクションへの示唆となる分析が求められている
像度高の写真を再現する関係性をモデル化しておき
と考えます。
ます。このモデルに、解像度低の写真を適用すると、
データ分析は、まだまだ機械ではなく人間が行う
きれいに拡大することが可能になります。
時代が続くことでしょう。筆者は、機械に仕事を奪
この機械学習という技術が進むと、機械が勝手に
われる時代まで、データと対峙していこうと考えて
データから学習し、最適な答えを返してくれるよう
います(そして、人工知能など機械そのものについ
になるそうです。例えば、将棋のソフトも、一昔前
て学んでいきたいと考えています)
。
は、将棋のアルゴリズムを人間が機械にプログラミ
当社には多くのデータがあります。筆者はこれら
ングして覚えさせていたものを、データを食わせる
データをデータサイエンティストの視点で皆さまの
ことにより、機械が勝手に学習してよりすぐれた指
ビジネスに貢献していく所存です。
し手を勝手に学んでいくのだそうです。
こうなると、データさえあれば、最適な結果を提
供するのはデータサイエンティストなる人間ではな
※ 1 2013 年 9 月 22 日 朝日新聞朝刊「統計学を知
く、機械なのかもしれません。機械は、初め、われ
る 佐藤俊樹(東京大教授・社会学)さんが選ぶ本」
われ人間から、タイピングなどの単純作業を奪いま
した。これからは、データの収集や分析と言った業
務も機械が奪っていく時代が来るのかもしれません。
筆者もうかうかしていられないぞと思う次第です。
より。
※ 2 TED(テド、英 : Technology Entertainment
Design)とは、アメリカのカリフォルニア州ロング
ビーチ(過去にはモントレー)で年1回、大規模な世
界的講演会を主催しているグループのこと。Melissa
Marshall 氏の講演「科学のことを熱く語って !」は
おわりに
データがビッグになってきたのは事実です。とい
うよりもビッグなデータを扱えるソフトウェアや
※ 4 学会もあります。日本分類学会。
http://www.bunrui.jp
ハードウェアが発展してきた、ということです。し
※ 5 「ブレードランナー」の原作小説のタイトルは「ア
かし、データがスモールだろうがビッグだろうが、
ンドロイドは電気羊の夢を見るか ?(Do androids
やるべき分析は変わらないのではないでしょうか。
30
2013.5.27 に E テレでオンエア。
※ 3 分散や標準偏差
dream of electric sheep?)
」