BI 取り組みの罠 塩田千幸 最近は BI(ビジネス・インテリジェンス)という言葉も一般に使われるようになり、少し目先を変えた “アナリティクス”のような表現も見かけるようになってきました。ビジネスに関わるデータを最大限 に活用しようという傾向は大変結構なのですが、BI 利用によって有益で有効な情報を得るためには注意 すべき点もあります。 本文では BI が等身大で理解され活用されるために、場合によっては見過ごされているかもしれない 注意点をいくつかご紹介します。 1.意外性の罠 BI をテクニカルな側面から見るときデータマイニングという言葉がよく使われます。コンピュータ・ システムに蓄積された膨大なデータを“黄金が隠された鉱脈”と見立て、うまく財宝を掘り当てるイメ ージを表わしています。その宝を掘り当てた例として「おむつとビール」の話がよく持ち出されます。 これは既に伝説化していてご存知の方も多いと思いますが、「おむつと同時にビールも買う人が結構い る。家事で手を離せない母親に代わって紙おむつを買いに来た父親が自分の飲むビールを買っていたか らである」という意外な“実態”がデータマイニングにより判明した、というものです。 実は「おむつとビール」はデータマイニングの効果をアピールするための作り話です。創作者 T.B. 氏は米国の某社(IBM ではありません)の小売業コンサルティング・グループに在籍し、分析結果とし て「化粧品とグリーティングカード」の連関性などを得ていたものの、自社資料に載せるため“パンチ の効いた例“を創作したようです。 (HP 社の研究者がこのような伝聞情報メモを 2000 年に公表してい ます。それによれば、分析データによるサポートは全くなかったそうで、「傾向は発見されていた」と いうフォーブス誌記事も誤りのようです。) ただしデータマイニング自体の有効性や価値は、もう少し地味な例で数多く確かめられていて、上記 については“あっと驚くような分析結果”は冷静に判断する必要があるという例と考えるべきでしょう。 実際にデータマイニングで“意外な”分析結果が得られることもありますが、大抵は「データの誤り」、 「コード体系変更による影響」 、 「データの取り方の問題」などで説明が付き、なかなか“意外性のある 面白い結果”に遭遇することはありません。 2.モデル掘り下げの罠 データマイニングで利用される有力な手法の一つに“決定木”があります。 データ全体 決定木のイメージ例 属性 X=x2 属性 X=x1 末端ノード 1 決定木は、ローン与信を例にとると、Good 顧客層と Bad 顧客層を与信時に識別するために利用され ます。その際、事前に既存顧客の Good/Bad の違いを顧客属性などの組み合わせで説明できるようにツ リー分析を行い、前掲図のような決定木を作ります。簡略化して言えば、このような決定木により属性 条件に応じて該当する末端ノードを識別し、そのノードに見合う与信リスクの大きさが評価されます。 ここで決定木によるリスク評価の精度が問題になります。多くの分岐条件をカバーした複雑で大きな 決定木を構築できれば末端ノードも多くなり、きめ細かいリスク評価が可能になりますが、それだけの 分岐を可能にするほどの量の分析データを用意できるかどうか。無理やり決定木を作っても、分析デー タ中の十分な数のデータが各末端ノードに該当しない恐れがあります。逆に、各ノードに十分な数の該 当データが収まるような決定木を構成したときは、ツリー構造がシンプルになって顧客のリスク評価が 粗くなり Good/Bad の判定精度が悪くなります。 “使い物”になるような決定木でないと意味が無いと考えれば、どうしても分析段階で判別精度を上 げるためにデータを深堀りして末端ノードを多くすることになりますが、限度を超えて末端ノード数を 増やしても“分析データだけ説明できる決定木”では仕方ありません。そこで通常は、妥当なノード数 を判断するために、分析データとは別の検証データを用いて決定木の精度を調べます。一般的な分析デ ータと検証データの判定精度カーブのパターンは下図のようになり、検証データの判定精度の限界を見 て、決定木の末端ノード数の妥当な値(最適値)を判断することができます。 決定木の判定精度と末端ノード数 この図のように分析データだけからモデルの判定精度を見ていて起きがちなのが“オーバーフィッテ ィング”の問題で、上記のような決定木に限らずモデル分析全般で注意すべき点です。まさに「過ぎた るは及ばざるがごとし」で、モデルを掘り下げ過ぎないように自戒するのも大事なことです。 3.表面的な結論の罠 BI のデータ分析は、モデル・スキームの下での仮説検証など、ある程度結論を想定して行うことも多 くあります。アンケート調査などでは回答内容を想定した設問段階の“バイアス”が集計・分析結果に そのまま反映されたりもします。一方で、顧客などが調査票や申込用紙に記入した内容が調査側の想定 外で、記入内容の意味を解釈し直す必要があったりもします。たとえば個人事業主に年収を訊くと“年 商”が回答されることがあります。これなら金額レンジで妥当性のチェックもできるかもしれませんが、 定性的な情報など意味の違いに気付かず間違った解釈で“思い込み”の結論に走ってしまう危険もあり 2 ます。 ここで、ビジネスから離れた調査データの例を『やさしい統計入門』(田栗、藤越、柳井、ラオ共著 の講談社ブルーバックス)からアレンジして引用します。 最近、日本の子供の学力低下が問題視され、原因の追及や対策が講じられているのはご存じの通りで す。いささか旧聞に属しますが、下図は 2001 年度に実施された学力調査(小学5年生の社会科)です。 (問題(ア)は省略) 別に難問には見えませんが、正答率は 44.7%だったそうです。 (正答は 48 または 50 で、前者は正確に計算した値、後者は「お およそ半分」と見た値) 学力低下は悲惨な状態と速断しそうですが、 それにしてもなぜ、これほど正答率が低い のでしょうか。 前掲書の著者達は約 1 万 6000 人の解答者か らランダムに 200 人を選び、解答結果を調 べて集計したところ、下表のようになりま した。 左表から分ることは、小学5年生の児童は 「・・・をはじめ」という文章表現を理解 できなかった者が非常に多かった、という ことです。問題は、計算能力や社会科での 判断力ではなく、国語知識にありました。 この例から言えることは、回答結果の数字 だけから表面的な結論を出すのは危ない、 設問内容が意図通りに理解されるとは 限らない、ということです。 話をビジネスに戻すと、たとえば銀行業界のリテール・マーケティングの実効性を高めるためには、 データに基づき戦略を練り上げる必要があります。その際は適切なデータを集め、そのデータを正しく 読み取る必要があります。ありきたりのデータを表面的に撫でただけではうまく行かないはずです。 近年の先進的なマーケティングの考え方は、心理学からの知見も取り入れて大きく進歩しています。 カスタマイゼーションなどはコストがかかる割に、あまり重要でない商品サービス属性に関する差別化 を競い合う結果になりやすいともいわれています。生活環境などコンテクストが異なれば、同じもの・ 言葉でも顧客には異なった意味になるので、たとえば“素朴に退職金を当て込む”ような単純な EBM (イベント・ベースト・マーケティング)は進化させるべきです。銀行などの“思い込み”を脱却する 拠り所は、上質のデータとそれを適切に読み解くリテラシーと言えそうです。 4.おわりに 以上、はまりがちな罠として注意点を示しましたが、他の技法などと同様に BI も使い方次第でゴミ や毒を生み出すのかクスリになるのかが決まります。BI の実行者、利用者ともに十分なリテラシーとセ ンスを磨くことが望まれます。 3
© Copyright 2025 Paperzz