データ分析専門家というキャリア - BODIK | ビッグデータ&オープンデータ

特集 大学における統計教育の新たな動き
データ分析専門家というキャリア
丸山 宏
はじめに
石油や鉱物などの天然資源に乏しい我が国にお
過去50年にわたって、情報技術(IT)が指数
いては、新たな資源としてのビッグデータをいか
関数的に発展してきたおかげで、我々は爆発的な
に国力につなげていくかは喫緊の課題である。こ
量のデータ、いわゆるビッグデータを手にするこ
のため、総務省・経済産業省・文部科学省が合同
とになった。これらのデータの多くは適切に分析
委員会を作り、平成25年度には合計100億円の研
されずに眠っている。データからどのように新し
究開発投資をするなど力を入れている。その中の
い価値を引き出すことができるか、それをプロと
人材育成の一環として、統計数理研究所では、文
して行うのが、今脚光を浴びている「データサイ
部科学省の事業「データサイエンティスト育成ネ
エンティスト」である。2012年10月号のビジネス
ットワークの形成」4 を受託し、データサイエン
誌 Harvard Business Review はビッグデータの
ティストの育成推進のための取り組みを行ってい
特集であり、その中で「データサイエンティスト
る。本稿では、この事業の中で得られた知見を取
1
ほど素敵な仕事はない」という記事がある 。オ
り入れながら、現在注目を浴びているデータサイ
ライリーが出版している、データサイエンティス
エンティスト、あるいはデータ分析を職業として
2
トの給与サーベイ2014年版 によれば、53カ国
行う者のキャリアについて考える。
800名以上のデータサイエンティストの年収の中
央値は9万8千ドル(1ドル119円として、およ
データサイエンティストとは?
そ1,166万円)とのことである。
前出のハーバード・ビジネス・スクールの記事
一方、データ分析のプロになるかどうかに関わ
において、トーマス・ダベンポートは、「データ
らず、ビジネスを行う者として、今後データを意
サイエンティストとは、高度な数学的素養を持ち、
思決定につなげるスキルが重要になってくる。イ
プログラミングに長けていて、好奇心旺盛で企業
アン・エアーズは著書「その数学が戦略を決め
の経営にも興味を持つ、スーパースターである」
3
る」 の中で、
「我々は今、馬と蒸気機関の競争の
と 述 べ て い る 1。 シ リ コ ン バ レ ー の“Insight
ような歴史的瞬間にいる。直感や経験に基づく専
5
Data Science Fellows Program”
は、物理や数学
門技能がデータ分析に次々に負けているのだ」と
などの博士号所持者に対して6週間のプログラミ
述べている。数字で物を考える、統計のちからを
ングなどのトレーニングを施し、企業に送り込む
理解するなど、データ分析とそれに基づく意思決
データサイエンティスト育成プログラムである。
定は、これからの社会の中で必須なものになるの
このプログラムの修了生は、例外なく Google な
は間違いがない。
どシリコンバレーの企業に就職しているそうだ。
『統計』
2015年3月号
- -
データ分析専門家というキャリア
履修費用はすべて企業が負担する。米国において、
るからだ。これは筆者の想像だが、「データサイ
データサイエンティストがもっともセクシーな職
エンティスト」という言葉が生まれた背景には、
業と言われる所以である。
米国におけるデータサイエンティストの多くが、
だが、必ずしもすべてのデータサイエンティス
物理学や生物学などの博士号を持つ本物の科学者
トが、ダベンポートの言うようなスーパースター
であったことに加えて、「サイエンティスト」と
ではないだろう。我が国でデータサイエンティス
いう言葉が高度なスキルを連想させて人々を惹き
トの育成や社会に対する普及啓蒙活動を行ってい
付けやすい、ということがあったのではないかと
るデータサイエンティスト協会は、およそ1年に
思われる。仮説を立て、実験を行い、最適な解を
渡る集中的な議論の結果、2014年12月にデータサ
探索する、という営みや方法論において、科学者
イエンティストの「ミッション、スキルセット、
とデータサイエンティストとに共通する点は確か
6
定義、
スキルレベル」を発表した 。それによれば、
にある。だが、データサイエンティストを科学者
データサイエンティストとは、人間を数字入力や
であると考えるのは誤解であろう。
情報処理の作業から開放するプロフェッショナル
実際に仕事をしているデータサイエンティスト
人材であり、そのミッションは「データの持つ力
とはどのような人々だろうか。我が国を代表する
を解き放つ」ことである、としている。
データサイエンティストの一人、アクセンチュア
「データの持つ力を解き放つ」ためには、デー
の工藤卓哉氏は、データ分析をサービスとして提
タを分析するだけでは足りないことに注意してほ
供するコンサルタントである。顧客のビジネスを
しい。ビッグデータを解析して「何か面白いこと
分析し、データ分析に基づいてどのようにビジネ
が見つかった」だけでは、データサイエンティス
スを改革するか、あるいは新しいビジネスを創造
トの仕事は半分しか終わっていない。分析の結果
できるかを支援している。2013年に日経 ITPro
から、既存のビジネスプロセスを変え、その結果
によって「データサイエンティスト・オブ・ザ・
新しい価値を産んで初めて「データの持つ力を解
イヤー」に選出された大阪ガスの河本薫氏は、大
き放った」ことになるのである。逆に、データの
阪ガス社内においてデータ分析チームを率いてい
持つ力を解き放つことができるのであれば、必ず
て、機器の故障予測から、天然ガスの購入戦略の
しもデータの分析は必須ではない。分析しなくて
最適化まで、社内のあらゆる部署のデータ分析の
も、データを整理・統合しうまく見せるだけで、
支援を行っている。
データの力をビジネスに結びつけられる場合もあ
一方、近年急速に成長しているネット関連のビ
る。このように、データサイエンティストとは、
ジネス、例えばオンラインゲームやオンライン広
単にデータの分析にとどまらない、新たな種類の
告などの業界では、ビジネスのコアとなるアセッ
プロフェッショナルということができる。
トを開発しているデータサイエンティストたちが
なお、このようなプロフェッショナルを「サイ
いる。彼らは、どの利用者にどの広告を表示した
エンティスト」と呼ぶことには異論もあるだろう。
らよいか、などのアルゴリズムを、ネット上のト
自然科学に代表される「サイエンス」の本質が「知
ラフィックから得られる大量のデータに基づいて
識の探求」にあるのだとすれば、データサイエン
日々改良し、それがただちに日々のクリック率や
ティストがやることはむしろ「価値の創造」であ
売上などの KPI(主要業績指標)
に結びついている。
- -
『統計』 2015年3月号
特集 大学における統計教育の新たな動き
もっと伝統的な業種の中にも、データサイエン
データサイエンティストに要求されるスキル
ティストと呼べる人たちがいる。製造業の現場で
データサイエンティストに必要なスキルはどの
は、伝統的に統計的品質管理の重要性が認識され
ようなものであろうか。前述のデータサイエンティ
ていて、工場の生産工程から得られるデータに基
ストのレポートにおいては、データサイエンティ
づいて品質や生産性の向上を図るために、データ
ストのスキルを図1のように三つに分類している。
分析を日常の業務として行っているプロフェッシ
ビジネス力とは、課題背景を理解した上で、ビ
ョナルが活躍している。金融の世界では、様々な
ジネス課題を整理し、解決する能力である。デー
指標の予測や金融商品の開発を行うクォンツと呼
タサイエンティストは、データの持つ力を解き放
ばれるデータ分析専門家がいる。保険業界では、
たなければならない。そのためにはビジネスを理
数理モデル・データ分析の専門家はアクチュアリ
解し、データをどのように価値創造につなげられ
ーと呼ばれる。彼らは自分たちを「データサイエ
るかを見通せる人材でなければならない。このレ
ンティスト」だとは認識していないかもしれない
ポートを作成したデータサイエンティスト協会ス
が、広い意味でデータサイエンティストと呼んで
キル定義委員会の委員長安宅和人氏は、その著書
「イシューからはじめよ」7の中で、ビジネス課題
もよいだろう。
データサイエンティストとは呼べないが、デー
を整理することの重要性を強調している。データ
タサイエンティストの仕事を支える周辺の仕事を
分析においても同じで、「このデータ分析によっ
している人たちもいる。データサイエンティスト
て解きたいビジネス課題は何か」を常に意識して
には、データを収集し分析する計算機環境が必須
いなければならない。コンサルティング系のデー
である。企業において、様々なビジネス活動から
タサイエンティストの方が良く、間違った依頼と
得られるデータを収集し、整理し、データウェア
して指摘するのが、「我が社にはこんなビッグデ
ハウスに統合するのは、主に情報システム部門の
ータがあるのだが、ここから何か面白いことがで
役割である。ここには、システム管理者、データ
きないか」というものだ。まずビジネス課題(イ
ベース管理者、ソフトウェア開発者などの専門家
シュー)を明確にしておかないと、データ分析は
が必要である。また、行政機関などにおいては、
必ず失敗する、と安宅氏は指摘している。
政策決定に欠かせない統計情報を専門に
扱う部隊がいる。総務省の統計センター
図1 データサイエンティストに求められるスキルセット
はその代表格であるし、各自治体も統計
課などの部署を持っていることが多い。
彼らの仕事は、
「データの持つ力を解き
放つ」ところまでやらないかもしれない
が、データサイエンティストがデータサ
イエンティストとして活躍するために必
須の資源である、計算環境とデータを提
供する、という意味でデータサイエンテ
ィストを支える人々であると言える。
『統計』
2015年3月号
- 10 -
データ分析専門家というキャリア
ビジネス力のもう一つの重要な側面は、コミュ
り、ある意味これが一番むずかしい。ある程度以
ニケーション能力である。どんなに良いデータ分
上の複雑なシステム構築を繰り返して身につくス
析結果が得られても、意思決定者が理解できなけ
キルであり、体系的に学べる性質のものではない
れば使ってもらえない。また、使ってもらえたと
からである。
してもデータ分析の結果は不確定要素が多く、う
これらの三つのスキルセットのどれにも共通し
まくいかないときのリスクを正しく理解してもら
て言えることは、座学だけでは身につかない、と
えないこともある。ノーベル経済学賞を受賞した
いうことである。前出の大阪ガス河本氏は、デー
ダニエル・カーネマンがその著書「ファスト&ス
タ分析をイノベーションにつなげるには、現場力
ロー」において、統計的な命題を理解するには人
が必要だと主張している9。ビジネスの課題を見
間は、直感に基づいて自動的な意思決定を可能に
つけるのも、分析結果を使ってもらうのも、現場
する「システム1」ではなく、意識的に努力して
に入り込んで、現場目線で見ることが必要だ、と
思考する「システム2」を使わなければならない、
いうことだ。また、我々が文部科学省委託事業の
8
という 。したがって、データ分析結果を正しく意
一環として行っているインターンシップ・プログ
思決定者に理解してもらうためには、コミュニケー
ラムに参加した学生の多くは、データ分析は実際
ションの双方に相応のスキルが必要なのであろう。
にデータに触ってみて初めてわかることが多い、
データサイエンティストに求められるスキルセ
という感想を述べている。
ットの二つ目のデータサイエンス力である。これ
データサイエンティストになるには、上記の三
は、統計学、情報処理、人工知能などデータ分析
つのスキルセットをすべて満遍なく身につけなけ
に必要な手法を理解し、使う能力である。統計的
ればならないのだろうか。前出の安宅氏は、どれ
仮説検定や回帰分析など伝統的な統計手法だけで
か得意分野があってよいが、それぞれのスキルセ
なく、機械学習など人工知能の分野で新たに開発
ットについて最低限の知識・経験は持っていてほ
された手法などについても使えるようにしておか
しい、と述べている。我々の調査からも言えるこ
なければならない。また、それらを効率よく実装
とは、お互いにコミュニケーションのできる最低
するためのアルゴリズムや、プログラミングモデ
限の共通スキルを持った上で、データビジネス力
ルについても、理解と共に実践が大切である。特
の強い人、データサイエンス力の強い人、データエ
に、ビッグデータの分析には、並列計算など計算
ンジニアリング力の強い人をチームとして組み合わ
機アーキテクチャやネットワークの構成など、計
せて、組織能力としてデータ分析の力を発揮する
算資源の特質を熟知した上で実用的な実装を行わ
のが、多くの会社がやっていることのようである。
なければならない。これらのテクノロジは日進月
歩であり、努力してフォローしていなければなら
キャリアとしてのデータサイエンティスト
ないだろう。
これからデータサイエンティストを目指す人に
データサイエンティストに求められるスキルセ
とって、今後どのようなキャリアが考えられるだ
ットの三つ目はデータエンジニアリング力と呼ば
ろうか。
れる。データサイエンスを意味のある形で使える
まず、第一に考えられるのが、データ分析をサ
ようにシステムを設計、実装、運用する能力であ
ービスとして提供するプロフェッショナルである。
- 11 -
『統計』 2015年3月号
特集 大学における統計教育の新たな動き
これが日本では現在一番注目されているデータサ
課題は気象状況や航空路の制約などの条件下で、
イエンティストのあり方であろう。アクセンチュ
最適な航空ルート、高度、速度を計算するもので、
アなど、コンサルティング会社として他社にサー
GE は総計50万ドルの賞金を用意したとされてい
ビスを提供する場合もあるし、大阪ガスやリクル
る。このようなフリーランスのデータサイエンテ
ートなどの場合は、社内他部署に対して、あるい
ィストにとっては、コンペティションに勝つため
はグループ内他企業に対してサービスを提供する
に最新の機械学習アルゴリズムなどに精通してい
場合もある。サービス提供者としてのデータサイ
る必要があり、その意味で、データサイエンス力
エンティストには、特にデータビジネス力が求め
が最も問われるだろう。
られるだろう。多様な顧客
(社内・社外を問わず)
どのようなキャリアを選んだとしても、一生デ
に対応するために広い視野を持っていることが必
ータサイエンティストとして仕事をするかどうか
要である。
はわからないだろう。将来経営者を目指すために、
第二に、マーケティング、開発、生産、流通な
データサイエンティストをキャリアパスの1ステ
ど社内の各機能に埋め込まれた形のデータサイエ
ップと位置づける生き方もあるに違いない。繰り
ンティスト、というキャリアがある。彼らはマー
返し述べたように、データ分析はビジネスの意思
ケティングならマーケティングという領域の深い
決定に使われて初めて意味を持つ。そのためには、
知識を持ち、その領域での最適なビジネスを生み
経営者がデータ分析のことをよく理解している必
出すためにデータ分析の力を使っている。扱うデ
要がある。データサイエンティストであった者が
ータは主に自部署が収集したり管理したりしてい
経営者になれば、それは鬼に金棒であろう。今後
るデータであり、データ分析の結果を使うか使わ
は、経営幹部登用のキャリアパスとして、データ
ないかの意思決定も自部門で下される。ここで重
サイエンティストを経験させるなどという人事施
要なのは、データ分析そのもののデータサイエン
策が出てきても不思議ではない。
ス力と共に、データ分析の結果をどのように動く
アルゴリズムとして実装し、
システム化し、
運用す
何を学ぶべきか
るか、というデータエンジニアリング力であろう。
このように、データサイエンティストは魅力的
第三に、組織に所属しないフリーランスのデー
なキャリアである。では、今の若い人がデータサ
タサイエンティストというキャリアが考えられる。
イエンティストを目指す場合、何を学ぶべきだろ
データ分析は比較的個人の能力に依存することが
うか。もちろん、上述の三つのスキルセットを、
大きいためか、フリーランスのデータサイエンテ
現場経験を交えながら身につけることは大切だが、
ィストが活躍している。コンテスト形式で予測モ
それらのスキルは仕事を始めてからでも OJT を
デルのクラウドソーシングを行う Web サイト
通して学ぶことができる。また、ビジネス環境は
kaggle.com には情報科学、統計学、経済学、数
どんどん変化するし、情報技術や機械学習等の手
学などの分野から全世界で約95,000人のデータサ
法も日進月歩である。大学で学ぶ統計についても、
イエンティストが登録していて、多くの企業がビ
実はビッグデータの時代に十分について行けてい
ジネスに直結するデータ分析課題を投げかけてい
ないものもあり、古い知識となっていくものがあ
る。例えば、GE が出した Flight Quest 2という
るだろう。
『統計』
2015年3月号
- 12 -
データ分析専門家というキャリア
むしろ、筆者が若いうちに身につけるべきとし
解できる想像力が欠かせない。そのためには、文
て勧めたいのは、若いうちにしかできなくて、か
化、歴史など広く世の中の人々の営みに関する理
つ一生のキャリアの中で陳腐化しない知識、スキ
解、すなわちリベラルアーツ(自由人としての教
ルである。そして、それは、数学・語学・リベラ
養)がなくてはならない。他人を理解することが
ルアーツのようなものであろう。
できて初めて、データを理解することができるの
数学は統計や機械学習、コンピュータプログラ
だと思う。
ミングの基礎になる知識である。そして、データ
数学・語学・リベラルアーツのようなものは、
分析を行う者にとっては、集合論、代数、解析、
データサイエンティストを目指す人にとって、一
確率論など数学の基本的な概念を広く理解してお
見、遠回りに見えるかもしれないが、40年、50年
くことが重要である。現在の統計的モデリングや
というキャリアを考えると、その重要性が理解で
機械学習の手法は、あらゆる数学のテクニックを
きるのではないか。
駆使して設計されている。これらを、概念的にだ
けでも理解するためには、数学の広い分野を素養
として身につけておくことが望まれる。
<参考文献>
1 Davenport, T.H.; Patil, D.J. Data Scientist: The Sexiest Job
of the 21st Century. Harvard Business Review. October,
語学がデータ分析のキャリアに必要だというの
2012, p. 70-76. 日本版 データサイエンティストほど素敵な
仕事はない.DIAMOND ハーバード・ビジネス・レビュー.
は奇異に感じるかもしれない。データサイエンテ
ィストに語学が必要な理由は二つある。一つは、
2013,2月号,p. 84-95.
2 John King & Roger Magoulas, 2014 Data Science Salary
Survey, O'Reilly, http://radar.oreilly.com/2014/12/2014-
データ分析に関する新しい手法、ツール、事例な
どの情報がどんどん海外から入ってくることだ。
新しいソフトウェアの利用方法の多くは英語で書
data-science-salary-survey.html, 2014.
3 Ian Ayres, Super Crunchers: Why Thinking-by-Numbers Is
the New Way to Be Smart, ISBN-13: 978-0553805406, 邦訳
その数学が戦略を決める,文春文庫,ISBN-13: 978-416765
かれている。新たな手法に関する論文や著書もし
かり、である。日本語訳が出るのを待っていたら、
競争相手に勝つことができない。また、データサ
イエンティストとして仕事をしていくうちに、い
つかは海外のお客様の仕事をすることもあるだろ
う。データ分析の仕事は言語や地域によらず、ネ
1701,2010.
4 データサイエンティスト育成ネットワークの形成 事業ホー
ムページ,http://datascientist.ism.ac.jp/.
5 Insight Data Science Fellows Program White Paper. http://
insightdatascience.com/Insight_White_Paper_2014.pdf,
(accessed 2013-03-11).
6 データサイエンティスト協会プレスリリース,データサイ
エンティストのミッション、スキルセット、定義、スキルレ
ットワーク接続があればどこからでもできるグロ
ベルを発表,http://prtimes.jp/main/html/rd/p/000000005.
ーバルな仕事であると言える。そのためには、お
7 安宅和人,イシューからはじめよ-知的生産の「シンプル
客様と自由にコミュニケーションできる語学力が
必要である。
000007312.html.
な本質」,ISBN-13:978-4862760852,2010.
8 Daniel Kahneman, Thinking, Fast and Slow, ISBN-13: 9780141033570,2012,邦訳「ファスト&スロー(上 / 下)
:あな
データ分析とは畢竟、集められたデータの裏に
あるメカニズムが何であるか想像することである。
そして、データが生成され、収集される背景には、
たの意思はどのように決まるか ?」,ISBN-13:978-4152093387,
978-4152093394,2012.
9 河本薫,データ分析力と現場力を融合 新たなイノベーショ
ンを起こす,行政&情報システム,2014年2月号.
常に人々の営みがある。だから、データ分析には
データの裏にある社会の仕組み・人々の営みを理
- 13 -
(まるやま ひろし・統計数理研究所教授)
『統計』 2015年3月号