ノンパラメトリック効用関数を用いた 多項ロジット型の離散的選択モデル

ノンパラ
ノンパラメトリック効
メトリック効用関数を用いた
関数を用いた
多項ロジ
多項ロジット型の離散
ット型の離散的選択モデル
選択モデル
阿部 誠
阿部 誠
要約
多項ロジット型の離散的選択モデル (Multinomial Logit Model of Discrete Choice) の効
用関数に使われる説明変数は通常、線型または関数変換後の和として設定されるが、
この研究では効用関数を個々の説明変数による1次元のノンパラメトリック関数の
和とし、変数の非線的な反応をよりフレキシブルに推測する。 このモデルは二項従
属変数を対象とする Generalized Additive Models によるロジスティック回帰 (logistic
regression) を一般化し、3つ以上の値をとる多項従属変数に対処する。 シミュレ
ーションによると、様々に設定された変数の非線型反応が復元された。
このモデルの応用として、スーパーマーケットからバーコード・スキャナーで収集さ
れた2種類の商品カテゴリーの世帯別購買パネルデータを用いて、消費者がマーケテ
ィング変数にどのような非線型的反応をしているかを検討した。 また、マモグラム
経験の医学データにも当てはめられて、モデル構築と診断にどのように役立つかを示
した。
1.はじ
1.はじめに
多項ロジットモデル (MNL) は、選択肢の属性と意思決定者の特性から離散的選択モ
デルを確率的に予測するのに使われる。 MNL は数学的表現がシンプルで、かつパ
ラメーター推測も簡単なため、計量経済、交通工学、マーケティング等様々な分野の
離散的選択問題に応用され成功している。 近年マーケティングでは、バーコード・
スキャナー技術の発達により膨大な世帯別購買パネルデータを正確に集めることが
可能となった。 国内ではビデオ・リサーチや流通経済研究所等が、又海外ではニー
ルセンや IRI 等の大手のマーケティング・リサーチ会社が、業務サービスの一部とし
てスキャナー・データを収集している。 このパネルデータに、価格、値引、その他
プロモーション等の店舗内のマーケティング活動情報と、家庭内のテレビに備え付け
られた機械によってモニターされた個人レベルでのコマーシャルの露出情報を加え
ることによって、個々の消費者がおかれている購買環境をかなり正確に把握すること
ができる。 業界ではこのようなデータをシングルソースデータと呼ぶが、それは消
費者のブランド選択を理解する上で改革をもたらした。 この様なデータを使って、
幾つかのリサーチ会社は MNL による購買データ分析を日常ルティーン的に行ってい
る。
6/25/99
1
広く成功をおさめた MNL は細工がしやすく、その仮定を緩和させるために様々な拡
張モデルが提唱された。 拡張は大きくいって2つの方向に分類できる。 ひとつは
誤差項の independent identically distributed (同等独立分布) 仮定を和らげて、
Independent from Irrelevant Alternatives (IIA)の制約を取り除く事であり Nested Logit 等
に代表される(Ben-Akiva and Lerman 1985)。 もうひとつの流れはパラメーターの世
帯間異質性 (heterogeneity) を考慮する事で、Latent Segment Logit や世帯別パラメータ
ー推測などが提案されている(Kamakura and Russell 1989, Rossi and Allenby 1993, Rossi,
McCulloch and Allenby 1996)。 これらの拡張とは別に、本論文では通常のロジットモ
デルで仮定されているパラメトリックな効用関数をノンパラメトリックに緩和する、
と言う比較的研究されていない分野を考える。
ロジットモデルの効用(utility)において説明変数が非線型の関係が存在する場合には、
多項変換、Box-Cox 変換、あるいは他の関数変換を行うのが普通である。 マーケテ
ィングの例を見てみると、Krishnamurthi and Raj (1988) は価格を対数変換して効用関
数に含めているが、他の研究者は線型を使っている。 Tellis (1988) は広告の露出指
数の2乗項をも使っているが、Pedrick and Zufryden (1991) は線型のみである。 過去
の研究から、消費者の価格に対する知覚は様々な非線型反応を取りえる事が分かって
いるので、データ分析の前に適切な関数変換を見出すのは難しい。 例えば実験認知
科学によると、消費者は一定の範囲内の小さな価格変動には反応しないが、ある閾値
を超えると価格の違いを知覚し効用が急激に変化する。 Gupta and Cooper (1992) は
実験研究に基づいてこの閾値の存在を見つけると共に、値引額が増えるにつれて効用
の伸びが減少すると言う飽和効果をも観察した。 Kalyanaram and Little (1994) は非
連続線型(piecewise linear)効用関数をロジットモデルに用い、消費者が反応しない価格
変動範囲(lattitude of price acceptance)を見出すとともに、価格の上昇と下降に対して非
対称的な反応をすることをスキャナー・パネルデータから実証した。 Blattberg,
Briesch and Fox (1995) は、値引に対する消費者の反応の形状が線型、凸型、凹型、ま
たは S 型であるかは、プロモーションの研究において実証を欠いた最も重要な課題の
1つであると提示している。 この様な非線型効果は認知学研究者のみならず、メー
カーや小売店の価格戦略にも重要な意味合いを持つ。
離散的選択モデルにおける効用関数の非線型効果は、他の分野でも大きな関心がある。
例えば Ben-Akiva and Lerman (1985)では、交通機関の選択において非連続線型効用関
数をロジットモデルに導入している。 医学統計学の分野では Hosmer and Lemeshow
(1989)で、ロジスティック回帰(第 4 章)と多項ロジットモデル(第 8 章)における非線型
効果と多項変換又は非連続線型によるモデル・セレクションが説明されている。 多
くの場合、説明変数とその適切な関数変換の選択は、統計的仮説検定と研究者の判断
との繰り返しによる試行錯誤のやっかいなプロセスを踏まなければならない。
本研究では、MNL モデルの効用関数において通常仮定される説明変数の linear-inparameters 構造を緩和する (Abe 1998, 1999)。 具体的には、意思決定者 i の選択肢 j
に対する効用 vij を、個々の説明変数の1次元ノンパラメトリック関数の和と考える。
式にすると、 vij = Sp fp(xijp) となり、fp(·) はp番目の説明変数の1次元ノンパラメト
リック関数である。 ノンパラメトリック法によるデータ主導型アプローチは分析者
の主観的影響を減らすことができるだけでなく、推定されたノンパラメトリック関数
をグラフ化することによって結果の伝達が容易になる。 統計の専門家ではないが重
6/25/99
2
要な決断を下さなければならない経営者は、非線型反応を視覚化することによって直
感的な洞察力を役立てることができるであろう。 研究者は探索的研究において、従
来のパラメトリック手法の代わりにこのノンパラメトリック・モデルを使うことよっ
て、より効率的そして客観的にモデル・セレクションを行えるであろう。
本論文で提唱する多項ロジットのノンパラメトリック化は、Hastie and Tibshirani の
Generalized Additive Models (GAM) に基づいたノンパラメトリック・ロジット回帰
(二項ロジット)を拡張したものである。 拡張の原理自体は複雑であるが、最終的に
求められたアルゴリズムは比較的シンプルで、選択肢が2つの場合は Hastie and
Tibshirani のノンパラメトリック・ロジット回帰に還元する。 現実的なサイズの離
散的選択データならパソコンで簡単に計算できる。
本稿は次のように構成されている。 第 2 章ではまず離散的選択で使われている既存
のノンパラメトリック手法をレビューする。 そして、今回のモデルの基盤となる
Hastie and Tibshirani が提案したセミパラメトリックモデル、GAM とそのロジット回
帰への応用を紹介した後、多項選択へ一般化する場合の問題点を指摘し、その解決策
を提案する。 第 3 章では、提案されたノンパラメトリック多項ロジット・モデルが
様々な非線型反応をどのくらい正確に復元できるかを、シミュレーションによって検
討する。 さらにこのモデルでの統計的仮説検証を紹介する。 第 4 章では、このモ
デルを実際にスーパーマーケットで収集された2種類の商品カテゴリーのスキャナ
ー・パネルデータに応用し、消費者がマーケティング変数にどのような非線型的反応
をしているかを探索する。 また、マモグラム経験の医学データにも当てはめてみる。
最後の章には、まとめとモデルの利点・弱点が指摘されている。
2.モデル
2.モデル
2.1. 目的
データ主導型アプローチはノンパラメトリック手法を使うことによって達成される。
従属変数 y が連続的な場合は、カーネル法やスプライン法など様々な既存のノンパ
ラメトリック回帰方法によって、yと説明変数 xp (p=1,..,P)との関係を分析すること
ができる。 一般にほとんどのケースで、 E(y|X)=Spfp(xp) のような説明変数の加法
分離性(additive separability)を仮定している。その理由として、まずそれが普通の回帰
モデル E(y|X)=SpbpXp の一番自然なノンパラメトリック化であり、モデル構築とその
解釈の上で扱いやすい事が挙げられる。 第 2 に、もし説明変数どうしの相互作用が
必要な場合はその積の項を加えることによって簡単に対処できるので、加法分離性の
仮定は制約的ではない事が挙げられる。 3 番目の理由として、もし幾つかの一次元
ノンパラメトリック関数 fp(Xp) が fpq..(xp, xq,..) のように一般的な多次元関数として
統合された場合、次元が増えるにしたがってデータの必要量が指数的に増加する
"curse of dimensionality" (Silverman 1986)と呼ばれる問題に側面するからにある。 以上
の理由から、実際の応用例としては 2 次元関数でさえ少なく、3 次元のケースは皆無
と言ってもよい。 よって、多くの既存のノンパラメトリック手法研究では、Breiman
and Friedman (1985)の alternative conditional expectation (ACE) や Hastie and Tibshirani
(1986, 87) の generalized additive models (GAM) のように、説明変数の加法分離性を仮
6/25/99
3
定したモデルにフォーカスが置かれている。
これらのノンパラメトリック手法は、説明変数が離散的選択のように定性的な場合に
は特別な工夫なしには使えない。 例えば Abe (1995)は、上述のカーネル確率密度推
測方法をベイズのルール(Bayes Rule)をつかって選択モデルに応用したが、もっと有効
なアプローチは、消費者行動に象徴される確率的効用最大化に基づいたモデル構築で
あろう。 確率的効用最大化によると、消費者は選択可能なJ個の選択肢各々に効用
値を割り当てて、それが最大の選択肢を選ぶ。 意思決定者 i (i=1,..,N) のj番目の選
択肢に対する効用 uij は uij = vij + eij のように、確定的な要素 vij と確率的な要素 eij の
和として表現される。 効用値は直接観察できないので、実際の選択結果から推測し
なければならない。 そのため効用関数のノンパラメトリック回帰は複雑である。
定性的な従属変数(qualitative response variable)を対象とした最近のノンパラメトリッ
ク手法の研究は、下記のように3つのタイプに分類できる。
表: ノ
: ノンパラメトリ
ンパラメトリック手法の分類
ク手法の分類
確定的要
確定的要素 vij
確率的要
確率的要素 eij
nonparametric
distribution-free
Semiparametric I
parametric
distribution-free
Semiparametric II
nonparametric
parametric distribution
タイプ
タイプ
Nonparametric
最初の完全なノンパラメトリックのタイプにおいては、Matzkin (1993) が推測関数の
識別条件(identification conditions)を研究して、その応用が現在進んでいる (Briesch,
Chintagunta, and Matzkin 1997)。 1 番目のタイプのセミパラメトリック手法では確率
的要素が仮定されていない分布であっても、効用関数のパラメーターにバイアスがか
からない(unbiased)利点があり、計量経済学で盛んに研究されている分野である。
Maximum score estimator (Manski 1975) や single index models (Horowitz et al. 1994) に
代表されるように、殆どの研究は二項の従属変数を対象としている。 このタイプの
モデルでは確定的要素はパラメトリック関数を仮定しているため、非線型的反応を調
査するには複数の競合モデルの仮説検定による通常のパラメトリック的なアプロー
チに頼らざるを得ない。 2 番目のタイプのセミパラメトリック手法では、確率的要
素にはあるパラメトリック分布を仮定し、効用関数をノンパラメトリックに緩和する。
この分野は統計学の方で研究が進んでいる。 従属変数が二項の場合、確率的要素が
ロジスティック分布に従うと仮定することにより、GAMを使って加法分離的なノン
パラメトリック効用関数を推定することができる (Hastie and Tibshirani 1986)。
本研究では、2 番目のタイプのセミパラメトリック・アプローチによって、下記の (1)
6/25/99
4
式で表される従来の linear-in-parameters な MNL の効用関数を加法的なノンパラメト
リック効用関数に置きかえる。
probi ( j ) =
e
v ij
åe
v ik
where vij = å b p xijp
(1)
p
k
即ち,確率的効用 uij = vij + eij は、vij =Spfp(xijp) のように個々の説明変数の1次元ノン
パラメトリック関数の和となり、eij は極値分布 (extreme-value distribution) を仮定す
ることによって (2) 式のモデルが成立する。
probi ( j ) =
e
v ij
åe
v ik
where vij = å f p ( xijp )
(2)
p
k
このモデルが提案された背景には、これが(1) 式の一番自然なノンパラメトリック化
であるという以外に次のような理由がある。
1.(2) 式のモデルはMNLを基礎にしている。 MNLが産業界で広く使われてい
るという事は、それが現実の様々な状況下においてロバストなパフォーマンスを
発揮しているからである。
2.上述のように、従属変数が連続的な場合は、右辺は1次元ノンパラメトリック関
数の和と仮定することが常識化している。 また分離性を仮定する事によって、
一部の説明変数だけをノンパラメトリック関数に緩和し、残りの説明変数はパラ
メトリック関数にする事が可能になる。
3.上記の表にある完全なノンパラメトリック手法のように、確定的要素と確率的要
素の両方をノンパラメトリック化することによってモデルはよりフレキシブルに
なるが、同時に計算量とデータの必要量も増加する。 確率的要素にのみMNL
の仮定を課すことによって、モデルが単純化し推定がロバストになり計算量が減
る利点が得られる。 後述の応用例での計算時間は MMX Pentium 200MHz で 1 分
以下である。
4.MNLに基づいたパラメトリック仮定が妥当かどうかは、仮定された分布とデー
タとが異なった場合、ノンパラメトリックの効用関数の推測がどれ程ロバストか
を、シミュレーションでチェックする事によって検証できる(3.2 章を参照)
。
5.(2) 式のモデルを推測するにあたって、GAMを拡張したモデルが用いられた。
即ち,提案されたモデルはGAM系統に属する。 GAMは過去 13 年間統計学に
おいて様々な研究と応用がなされ、その統計的な特性はよく知られている。
2.2.
. Generalized Additive Models
Generalized Linear Models (GLM) (Nelder and Wedderburn 1972) は、説明変数を linearin-parameters 的に組み合わせた指数, h(x) = Sp bp xp, と従属変数 y との間に柔軟性のあ
る関係を築くことによって、様々なタイプの従属変数に対処できるように回帰モデル
を一般化した手法である。 GLMの確率的要素とそのリンク関数(link function)を適
6/25/99
5
切に設定することにより,重回帰分析、ロジスティック回帰、バイナリー・プロビッ
ト、ログリニア・モデル等が生まれる。 Generalized Additive Models (GAM) は、G
LMにおける説明変数の linear-in-parameters 仮定を、h(x) = Sp fp(xp) のように1次元ノ
ンパラメトリック関数の和に拡張したモデルである。 例えばロジスティック回帰を
GAMによってノンパラメトリック化すると下記のようなモデルになる。
prob( y ) º m ( x ) º E ( y | x ) =
1
1 + e -h ( x )
(3)
上記で述べたように h(x) = Sp fp(xp) で、fp(xp) は p 番目の説明変数の1次元ノンパラメ
トリック関数である。
残念ながら、このモデルは多項選択には拡張できない。 その理由は、(2)式で表され
るノンパラメトリックMNLの分母と分子を eVij で割ることによって明白になる。
probi ( j ) =
1
1 + e - h ( xi )
ìï
æ
ö üï
where h( xi ) = å f p ( xijp ) - log íå expçç å f p ( xikp ) ÷÷ ý
ïîk ¹ j
p
è p
ø ïþ
(4)
このモデルでは、説明指数, h(xi) , はGAMの基本仮定である fp の和という形では表
現できなくなっている。
2.3.
.MNL
MNLに対応す
に対応するためのGAMの拡張法
ためのGAMの拡張法
vij(x) = Sp fp(xijp) のような、効用関数が 1 次元ノンパラメトリック関数の和となるよう
なMNLモデルを作るには、ペナルティーを科した尤度関数を使って導かれたGAM
の基本概念(Hastie and Tibshirani 1990, ch. 6) に戻る必要がある。 普通、ノンパラメト
リック手法を使って尤度を最大化しようとすると、推定された関数は個々のデータ値
をつないだギザギザな線になってしまう。 例えば (3)式にあるロジスティック回帰
の場合これは、yij=1 の時 h(x)=+¥ であり、yij=0 の時 h(x)=-¥ を意味する。 それを
解決するには、通常の尤度に 2 次微係数(second derivative)の量で測られたギザギザ度
を加えた条件付尤度 (penalized likelihood function) を最大にするようなノンパラメト
リック関数を推定すればよい。
この方法によって,Hastie and Tibshirani (1990, ch. 8) はGAMを幾つかの特殊なモデ
ルに対処できるように拡張した。 そのひとつは、統計医学の分野でよく使われるケ
ース・コントロール・データを扱うモデルである。 このデータは、病気の患者とそ
うでない正常な人達の様々な医学テストの結果を含んでいて、その中でどの要因が発
病に強く関連しているのかを調査するのに使われる(Breslow and Day 1980)。 Hastie
and Tibshirani の拡張は非常にテクニカルで、彼らの本の前半の部分を詳しく紹介する
必要があるため、ここではそれを省く。 しかし、そこで得られた結果の解釈と表記
を変えることによって、離散的選択データをケース・コントロール・データに適応さ
せることが可能である。 補論に載せられた、(2)式のノンパラメトリックMNLモデ
ルを推定するアルゴリズムは、Hastie and Tibshirani の結果 (1990, Algorithm 8.1) に修
正を加えることによって導かれた。 補論ではアルゴリズムの他に、推定方法と推定
6/25/99
6
された関数の統計的な特性が簡単に述べられている。
GAMは統計学で盛んに研究された手法なので、その数学的な特性はよく知られてい
る (Hastie and Tibshirani, 1990)。 ここで提案されたモデルはGAMの一種なので、
GAM の特性がすべて当てはまる。 また、ここで導かれたアルゴリズムは、従属変
数が二項の場合には Hastie and Tibshirani のGAMロジスティック回帰と同等になる。
従って彼らのロジスティック回帰は、このノンパラメトリックMNLモデルの特別な
ケースだと言える。
提案されたモデルの大きな利点は、GAMにおける自由度(degrees of freedom)の概念
を使って、統計的仮説検定を行えることだ。 例えば、パラメトリックからノンパラ
メトリック関数に緩和した時に向上したフィットが統計的に有意かをテストするこ
とができる。 Hastie and Tibshirani (1990, ch. 3)は線型モデルのアナロジーからGAM
での自由度を導いて、それをカイ 2 乗テスト (likelihood ratio index test) に当てはめる
ことによって、様々な入れ子式GAMモデルを統計的に比較した。 このテストは近
似的なものではあるが、仮説検定の概念は実際の応用に非常に有用である。
3.シミ
3.シミュレーション
ュレーション
3.1.
. 設定
筆者の知る限りではGAMを離散的選択に当てはめた研究は文献に存在しないので、
まず提案されたモデルの特性をシミュレーションで検討することにした。 スペース
の都合上、興味深い結果のみを簡単に紹介する。 3 つのブランド選択肢が存在する
状況を考え、多項ロジット (MNL) の仮定に基づいて、予め設定した効用関数によ
って 988 の選択データを発生させた。 効用関数は2つの説明変数の非線型関数の和
から成り立っている。 ここでの目的は、ノンパラメトリック効用関数が選択データ
からどの程度もとの非線型関数を復元できるかを検証することである。 使われた非
線型関数は興味ある難題となるように、様々な形,最大値、最小値等をとるように設
定された。 ここでは便宜上、その説明変数を広告と価格と呼ぶことにするが、実際
の反応とはかけ離れている事に注意してほしい。 シミュレーションをいっそう現実
的なものにするため、効用関数には2つのバイナリーな説明変数(それぞれ feature
と display と呼ぶことにする)も加えた。 下記の 4 つのケースがテストされた。
Specification 1: · 広告が増えると効用の増加率が減る。
· 価格が上がると効用の減少率が増える。
Specification 2: · 広告が増えると効用の増加率が減る。
· 価格が上がると効用の減少率が減る。
Specification 3: · 広告が 0.5 の時に効用が最大になる。
· 価格が 0.75 の時に効用が最大になる。
Specification 4: · 広告が 0.5 の時に効用が最大になる。
· 価格が 0.75 の時に効用が最小になる。
なお、ランダム・サンプルによる結果の変動を考慮して、シミュレーションは 100 回
6/25/99
7
行った。 図1∼4はそれぞれのケースにおいて 100 回の推測結果の平均(黒線)を真
の関数(点線)と共にプロットしたものである。 また、グラフには 1 番目のシミュレ
ーション・データを 500 回 boot strap することによって計算された 95%信頼区域も示
されている。 これによると、真の関数の大部分が信頼区域の中に入っており、その
形が巧く復元されているのが分かる。
ノンパラメトリック・モデルにありがちなオーバーフィッティングの問題を調べるた
め、キャリブレーション・サンプル(測定用)とホールドアウト・サンプル(妥当性のテ
スト用)の両方を使って推測された関数のフィットを評価した。 表1はそれぞれの
サンプルにおいて 100 回のシミュレーション結果の対数尤度を平均したものである。
これによると、GAM のフィットはホールドアウト・サンプルでもあまり落ちていな
いので、オーバーフィッティングの問題は無いようである。 さらに表 1 では、ノン
パラメトリック MNL モデルを、対数尤度の観点から線型の効用関数と真の効用関数
を使った MNL モデルと比較してみた。 殆どのケースにおいて、ノンパラメトリッ
クのモデルは真のモデルにかなり近いフィットになっている。 キャリブレーショ
ン・サンプルでは、ノンパラメトリック手法の柔軟な特徴によって、提案されたモデ
ルが真のモデルのフィットを僅かではあるが超えているケースもいくつか見られる。
また、効用関数を線型からノンパラメトリックに緩和する事よって向上するフィット
は、ケース3と4の方がケース1と2より大きくなっている。 これは、ケース1と
2の単調増加あるいは減少と違って、ケース3と4は線型でのフィットがより難しい
ためである。 つまり、線型から外れていればいるほどノンパラメトリック手法によ
る恩恵が大きいのである。
3.2.
.ノンパ
ノンパラメトリ
ラメトリック MNL モデルのロバ
モデルのロバスト度
提案されたノンパラメトリック MNL は通常の MNL と同様、効用関数の確率的要素
は極値分布 (type I extreme-value distribution) に従うと仮定されている。 しかしその
ような仮定が現実のデータで厳密に満たされているのは稀であろう。 そこで、デー
タが極値分布に当てはまらない状況での本モデルの特性を知ることは有意である。
同時に、そのような考察は(1)計算量とデータの必要量が多い完全なノンパラメト
リック手法 (前述の表を参照) がなぜ不必要かを正当化することになり、(2)1 番目
のタイプのセミパラメトリック手法での主な関心事――つまり確率的要素の分布の
仮定が適切でない場合、パラメーターがバイアスを持つ――は、実際の応用ではそれ
ほど致命的なことではなく、2 番目のタイプのセミパラメトリック手法で行われてい
るような効用関数のノンパラメトリック化の方がより有用である、という事を理由づ
けることになる。
実際のデータが MNL の確率分布の仮定を満たさないという現象には、(1)確率分布
の形自体が違う場合と(2)極値分布なのだが選択肢間で分布が独立でない場合、の
二つのタイプがある。 特に後者は、MNL の Independent from Irrelevant Alternatives
(IIA) 特性 を侵害することがよく知られており、パラメーターの推定値にバイアスが
かかってしまう。 この IIA 制約に縛られないためには、MNL を拡張したネステッ
ド・ロジットモデルや、計算量の多いプロビット・モデルで代用しなければならない
(McFadden 1989)。 ここではシミュレーションによって、MNLで仮定された分布と
は異なる確率的要素を織り込んだデータを発生させて、上記両方のタイプの仮定の相
6/25/99
8
違を検討する。
ケース1の効用関数にもとづいて確率的要素に5つの異なった確率分布――極値分
布、均一分布(uniform distribution)、独立正規分布、選択肢1と2の相関が 0.5 の正規
分布、そして選択肢1と2の相関が 0.8 の正規分布――を仮定して選択データを発生
させた。 図5と6に、モデルによって推測された広告と価格のノンパラメトリック
関数がそれぞれ示されている。 独立正規分布は極値分布に形が似ているためにその
推測結果が近似しているのは推知できるが、均一分布での結果でさえもそれほど違わ
ない。 この3つの似たような推測結果が意味することは、分布の形がMNLの仮定
するものとかなり異なっていても、ノンパラメトリック MNL モデルの推定はロバス
トであるということだ。 相関した正規分布は MNL の仮定からさらに外れるが、そ
れでも相関が特に高くない場合には (r=0.5) 真の効用関数の形をほぼ復元できてい
る。 さすがに相関が 0.8 と高くなると復元力が落ちて来るが、それでもまだ大体の
面影は残っている。 ここでは、提案されたモデルによるノンパラメトリック効用関
数の推測は仮定された分布と異なった場合でも十分安定していることを実験的に提
示し、現実の様々な状況に適応することを確認した。
3.3.
.入れ子
入れ子式効用関
式効用関数モデルの統計的仮説検
モデルの統計的仮説検定
自由度の概念をノンパラメトリック手法に導入することによって、対数尤度を使って
通常の線型回帰モデルのように入れ子式効用関数の統計的検定をすることができる。
つまり、ある説明変数を加えたり説明変数を線型からノンパラメトリック関数にする
ことが統計的に有意かどうかをテストできる。
表2はケース1のキャリブレーション・データとホールドアウト・データを用いて、
様々な入れ子式効用関数を使った MNL モデルのフィットを、対数尤度と AIC とで比
較したものである。 例えば、3 行目の効用関数には、選択肢ダミー、2つのバイナ
リー説明変数 (feature と display)、価格の線型関数が含まれているし、4 行目の効用関
数には、選択肢ダミー、2つのバイナリー説明変数、価格のノンパラメトリック関数
が含まれている。 また、5 行目の効用には、真の価格の関数が組み込まれている。 ノ
ンパラメトリック的に推定された効用関数は 3 つとも (M4, M7 と M10)、それぞれに
該当する線型のモデル (M3, M6 と M9) に対して1%のレベルで統計的に有意であこ
とがカイ 2 乗テストによって確認された。 例えば,ノンパラメトリック MNL (M10,
自由度=11.8)と線型の MNL (M9, 自由度=6)の自由度の差は 5.8 である。 従って、こ
の 2 つのモデルのキャリブレーションとホールドアウト・サンプルにおける対数の差
は両方とも1%のレベルで有意なものとなり、効用関数のノンパラメトリック化は統
計的に支持されている。 また、広告と価格の両方をノンパラメトリック変換したも
のを効用関数に含んだモデル (M10) は、どちらかひとつだけを含んだモデル (M4 と
M7) に較べて1%のレベルで有意である。 これは、効用関数に説明変数を両方共ノ
ンパラメトリック変換したものを組み込む必要性があることを意味している。 ノン
パラメトリック MNL はデータに非常に柔軟に適応するため、キャリブレーション・
サンプルでは真の MNL モデルのフィットを超えているケースも (M4 と M10) いくつ
か見られる。
6/25/99
9
4.応用例
4.応用例
前章のシミュレーションでは、(1)ノンパラメトリック MNL 離散的選択モデルは説
明変数の効用に対する様々な非線型反応を復元することができる、(2)ノンパラメト
リック効用関数の推測は確率的要素が仮定された分布と異なっていてもロバストで
ある、(3)効用関数の入れ子式モデルに統計的仮説検定を行うことができる,の 3 点
が分かった。 本章では、このモデルを実際のコーヒー豆とオレンジ・ジュースのス
キャナー・パネルデータと医学分野のマモグラム・データに応用した結果を報告する。
4.1.
.コーヒ
コーヒー豆のデ
ー豆のデータ
スキャナー・パネルデータは米国の大手リサーチ会社、SAMI が3ブランドの 1 と 3
ポンドのカン入りコーヒー豆について収集したものである。 同一ブランドでもサイ
ズにより単価やプロモーション活動が違うために、異なったサイズでも個別の選択肢
と見なして合計6ブランド・サイズの商品として分析する。 ここでの関心は特にヘ
ビーバイヤーにあるので,期間中コーヒーを 10 回以上購買した世帯に対象を絞った。
データの中で利用できる説明変数は、ポンド当りの価格(price)と折込広告にその商品
が載せられたかどうか (feature) である。 表3にデータの記述統計を記載しておく。
その他,過去の購買記録をラグ項に取り入れ、世帯毎にブランド・サイズ選好を計算
して、それを説明変数として加えた。 これは Guadagni and Little (1983)によって最初
に紹介されたロイヤルティーという変数で、世帯間の異質性とその動的変化を取り込
む役割を果たす。 その繰り越し係数(carry-over constant)は最大尤度法によって 0.8 と
推定された (Fader, Lattin, and Little 1992)。 ロイヤルティー変数の初期値は、キャリ
ブレーション・データ以前の 26 週間に観察された 1,386 の購買機会から計算した (表
3)。 パッケージ商品業界においては、ロイヤルティーのような過去の購買に基づ
いた変数は、デモグラフィク情報に較べて、世帯間の異質性をより説明できるため広
く使われている。 しかし時系列よりクロスセクション・データがよく使われる医学
研究や交通工学の分野では、意思決定者の異質性を説明するためにデモグラフィク情
報をモデルに組み込むことが必要であろう。 ちなみに、本研究ではモデルのキャリ
ブレーションにデータをなるべく多く残したいために、ロイヤルティーの初期化に使
われたデータをモデルの信頼度をテストするためのホールドアウト・データと併用し
た (表3)。
表4は、説明変数を入れ子式にノンパラメトリック化した MNL モデルのキャリブレ
ーション・サンプルとホールドアウト・サンプルでのフィットを報告したもである。
効用関数のノンパラメトリック化によって、対数尤度は線型 MNL (M3) の -2200.18
から -2140.89 (M6) に増加したが、どちらのモデルでも選択肢ダミーとプロモーショ
ンの係数は似たような推定値であった。 ここでの、ロイヤルティーと価格のノンパ
ラメトリック関数の自由度は、それぞれ 5.1 と 3.3 である。 観測された価格はクラ
スターを作っており、分布が希薄なため、スムーズな関数を推定するために自由度は
低く設定されている。 カイ 2 乗テストによると、ノンパラメトリック MNL (M6) は
通常の線型 MNL (M3) に較べて 0.5%のレベルで有意である。 また、ロイヤルティ
ーか価格のどちらか片方の変数のみをノンパラメトリック化した場合でも (M4 か
M5) 線型 MNL モデル (M3) に比較して 0.5%のレベルで有意であった。ホールドア
ウト・サンプルにおいてもキャリブレーション・サンプル程ではないが、統計的に有
6/25/99
10
意なフィットの向上が見られた。
図7は、モデル M6 で推定されたロイヤルティーと価格のノンパラメトリック関数で
ある。 M4 や M5 のようにどちらか一方の変数のみノンパラメトリック化された場
合でも、推定されたカーブは殆ど同じであった。 このように推定結果が安定してい
ると言うことは、この 2 つの説明変数の間には非線型的な相互関係があまり無いこと
を意味する。 ノンパラメトリック手法では非線型的な相互関係の事を concurvity と
呼び、線型モデルの多重共線性に対応する。
推定されたロイヤルティーのノンパラメトリック関数は、0.7 を境に 2 つのセグメン
トに別れているように見られる。 ロイヤルティーの高いセグメントでは効用に対す
る傾きが大きく、低い方では傾きは緩やかである。 これは、世帯があるブランドを
繰り返して買うと、それに対する効用は加速的に上がることを意味している。 しか
しロイヤルティー変数には、マネージャーが直接コントロールするマーケティング活
動と個々の世帯との複雑な相互作用の結果が反映されているので、その解釈は難しい。
その点、価格はマネージャーが自由に設定できるため、それに対する消費者の反応を
知ることは実務上も非常に有用である。
推定結果によると、価格に対する反応は大雑把に 3 つの線型的なセグメントに別けら
れる。 効用関数が負の傾きを持った価格が $2.40 以下と $3.00 以上の区域、そして
その間に挟まれた比較的平らな傾き(-0.25)の領域である。 ここでのノンパラメトリ
ック関数の自由度が 3.3 というのも,セグメントが3つ存在する事を支持する要因と
なっている。 この結果は、価格関数が3つの区分的線型から成り立つパラメトリッ
クな効用関数をもった通常の MNL モデルによっても確認された。 価格が$2.40 以下
と$3.00 以上の領域では負の傾き係数 (それぞれ -2.08, t=-3.0 と -2.53, t=-4.1) は統計
的に有意であったが、その間の価格帯では有意でなかった (-0.27, t=-0.85)。 $2.40
と$3.00 に屈折点のある3つの区分的線型を効用関数に用いた MNL モデル (表 4 の
M7) のフィットは、単純な一本の線型を使ったモデル(M3)のフィットより良かったが
ノンパラメトリックに推測したモデル(M4)に較べると少し劣っていたのが、キャリブ
レーション(5%で有意)とホールドアウトの両方において確認された。 ここで注意し
たいのは、断片の数とその屈折点の位置がノンパラメトリック MNL によって事前に
分かっていないと、通常の MNL ではその傾き係数は推測できないことだ。
ここの応用例で観測されたことは、(1)価格には消費者があまり反応しない変動領域
があるのと(2)消費者は金銭的なゲインよりロスに強く反応する事である(しかし
ながらその反応の差は統計的には有意でなかった)。 このような消費者の価格に対
する非線型的な反応は、認知科学における容認価格帯(latitude of price acceptance)、価
格閾値効果(threshold effect)、価格飽和効果(saturation effect)、そしてプロスペクト理論
(prospect theory)の実験研究によっても支持されている (Kahneman and Tversky 1979)。
4.2.
.オレン
オレンジ・ジュ
・ジュースのデータ
スのデータ
この米国のデータベースには、合計でカテゴリー売上の 80%以上を占めるトップ6ブ
ランドの冷蔵オレンジ・ジュース(サイズは全て 64 オンス)のみを 10 回以上買った世
帯を対象にした 1188 の購買機会が記録されている。 データに含まれている説明変
数は、ブランド・ロイヤルティー、通常価格、値引額、そしてプロモーション(feature)
6/25/99
11
の有無である。 表3にデータの記述統計を記載する。 コーヒーと同様に、ロイヤ
ルティーの初期化のデータをモデル検証のためのホールドアウトに併用している。
表5は、説明変数を入れ子式にノンパラメトリック化した MNL モデルのフィットを
示したもである。 効用関数をノンパラメトリック化することによって、対数尤度は
線型 MNL (M3) の -976.62 から -949.56 (M10) に増加したが、選択肢ダミーとプロモ
ーションの係数はどちらのモデルでも似たような推定値になった。 ここでの、ロイ
ヤルティー、通常価格、値引額のノンパラメトリック関数の自由度は、それぞれ 5.1、
3.9、2.5 である。 カイ 2 乗テストによると、ノンパラメトリック MNL (M10) は通
常の線型 MNL (M3) に較べて 0.5%のレベルで有意である。 また、ロイヤルティー、
通常価格、値引額のどれかひとつの変数のみをノンパラメトリック化した場合でも
(M4, M5 か M6) 線型 MNL モデル (M3) に比較して 0.5%のレベルで有意であった。
図8は、モデル M10 で推定されたロイヤルティー、通常価格、そして値引額のノン
パラメトリック関数である。 コーヒーと同様に、3つの説明変数の内の一つ又は二
つだけノンパラメトリック化した場合でも(M4∼M9)、推定されたカーブは殆ど同じ
だったので、 concurvity の問題は無いと言える。 ロイヤルティーと通常価格の関数
は、コーヒーの結果と非常によく似ている。
値引額の関数では、値引効果の閾値と飽和値が観察されるような興味深い推定結果と
なっている。 値引が 15 セントと 39 セントの間では消費者の効用は増え続けるが、
それ以下あるいはそれ以上ではグラフの平らな領域から判るように効用にあまり変
化が見られない。 この結果は、値引額の関数を3つの区分的線型で表した通常の
MNL モデルによっても確認された。 傾き係数は、値引額が 15 セント以下の場合有
意でなく(-1.90, t=-0.8)、15 セントと 39 セントの領域では有意で(3.36, t=4.6)、39 セン
ト以上の場合は有意ではあるがよりフラットになった(1.98, t=6.3)。 キャリブレーシ
ョンとホールドアウトでの、この区分的線型を効用関数に使った MNL モデルのフィ
ットが表5の M11 に示されている。 キャリブレーションでは、区分的線型モデル
(M11)のフィットは単純な線型モデル(M3)のフィットより良かったが、ノンパラメト
リック・モデル(M4)に比較すると悪かった。 しかし逆にホールドアウトでは、区分
的線型モデル(M11)がノンパラメトリック・モデル(M4)に較べて良かった。 これは、
値引額のデータ点の分布が希薄な 70 セント付近で効用が減少するというサンプル変
動が原因と考えられる。 オレンジ・ジュースのサンプル数は、コーヒーの約半分と
いう事実がそれに寄与しているようだ。
以上の結果を消費者行動の観点からまとめると、次のような事が言える。 値引額が
ある程度大きくないと消費者はそれに気づかない。 しかし値引が一定のレベルを超
えると、それ以上顧客を引き付けることができなくなり、マージンが減って利益が落
ちる。
4.3.
.マモグ
マモグラム経験
ラム経験の医学データ
医学データ
Hosmer and Lemeshow (1989) の第8章では、多項ロジットモデルの特別なケースであ
る多項ロジスティック回帰モデル(polychotomous logistic regression)が紹介されている。
多項ロジスティック回帰モデルでは、説明変数のパラメータは選択肢別に異なるもの
が推定されるが、多項ロジットモデルにおいてはパラメータは選択肢別でも選択肢共
6/25/99
12
通にでも設定することができる。 マーケティングの分野では、マイクロ経済学の効
用最大化理論に従って、価格やプロモ―ションに対する反応係数はすべての選択肢で
同等であると仮定するのが普通である。 上記のスキャナーデータの例では、このよ
うな消費者行動的な理由から、全てのブランドに共通なロイヤルティーと価格のノン
パラメトリック関数および feature のパラメーターを推定した。 しかし、選択肢別の
ノンパラメトリック関数およびパラメーターは、その説明変数と選択肢ダミーとの相
互作用項と見なすことによってモデルに簡単に組み込むことができる。
Hosmer and Lemeshow (1989) は女性のマモグラム(乳癌診断のための乳房 X 線写真撮
影)の経験度を3段階に分類した非説明変数 (0='未経験'、1='1年以内に行った'、
2='1 年以上前に行った' ) を含んだ医学データを用いて、多項ロジスティック回帰で
のモデルセレクション・プロセスを紹介した。 このデータでは説明変数はすべて定
性的なものであったが、唯一の例外は5から 20 の整数で表された被験者の持つマモ
グラムのメリットに対する意識だった。 この連続変数の適切な関数変換を選定する
に関して、彼らはその変数の値によって 5,6,…,9, そして 10 以上の 6 つのカテゴリ
ーダミーを設定した。 そして、それぞれのダミー係数の推定値をグラフで繋げると
ほぼ直線になることから、説明変数は線型が妥当であると結論づけた(Hosmer and
Lemeshow , Figur 8.1, p.228, 1989)。
本論文で提案された GAM モデルを用いれば、このようなダミー変数を作らずに関数
の形を直接ノンパラメトリックに推測することができる。 彼らの表記で logit 1 (非
説明変数が1と 0 になる確率比)と logit 2 (非説明変数が 2 と 0 になる確率比)と呼ばれ
ている関数をノンパラメトリック MNL で推測したものが図9に示されている。 結
果はほぼ線型で、Hosmer and Lemeshow の結論と一致している。 しかし説明変数の
値が 16 を超えるとグラフは下の方に曲がっている。 この原因は図9に見られる様
に、13 以上の観測値では 17 が唯一 1 回あるのみだからである。 従って、このノン
パラメトリックの推定は 13 以上では信頼してはいけない。 このように GAM のグ
ラフには、推定されたノンパラメトリック関数のみならずデータ・ポイントも表示さ
れるので、その密度によって推定の信頼度を直感的に判断することができる。 この
ノンパラメトリック MNL モデルの対数尤度は、線型ロジスティック回帰に比較して
0.45 だけ増えた。 ノンパラメトリック化のメリットが小さいと言うことは、逆に言
えばここでの線型モデルの妥当性を裏付けている。
5.
.まとめ
まとめ
本研究では、MNLの効用関数が説明変数の一次元なノンパラメトリック関数の和に
なった離散的選択モデルを紹介した。 このモデルは Hastie and Tibshirani の
Generalized Additive Models によるロジスティック回帰 (logistic regression) を一般化
して、3つ以上の値をとる多項従属変数に対処するよう拡張したものである。 モデ
ルの設定自体はシンプルだが、二項から多項へと拡張しようとすると GAM の基本的
な仮定である説明変数の加法分離性が崩れるために、既存のアルゴリズムで推定する
ことはできない。 そこで GAM の原点に戻り、条件付尤度関数を使って推定方法を
導き出す必要がある。 得られたアルゴリズムはシンプルで、パソコンで簡単に推測
できる。 また従属変数が二項の場合、このアルゴリズムはノンパラメトリック・ロ
6/25/99
13
ジスティック回帰のものに還元するので、Hastie and Tibshirani の GAM ロジスティッ
ク回帰モデルは提案されたノンパラメトリック MNL モデルの特別なケースであると
言える。 本研究の貢献は、ノンパラメトリック MNL モデルを GAM のフレームワ
ークに基づいて導き出し、それを多項離散的選択データに応用した事である。
提案されたモデルは、シミュレーションで設定された様々な非線型反応を復元できた。
データに対するフィットは通常の線型 MNL モデルに較べて、キャリブレーション内
のみならずホールドアウトにおいても向上し、ノンパラメトリック手法にありがちな
オーバーフィッティングの問題は見られなかった。 データの特性が本モデルで仮定
されている確率的要素の確率分布と異なっていても、ノンパラメトリック関数の推測
はロバストであることもシミュレーションから分かった。 これは確率的要素の確率
分布をノンパラメトリックに緩和しても、そのメリットが少ない事を意味する。 こ
こでは、前述の表で 3 つに分類されたノンパラメトリック手法に対して、次のような
見解が得られた。
まずデータ量と計算量が限られている場合には、確定的要素と確率的要素の両方を緩
和する完全なノンパラメトリック手法のもたらす利点は十分に正当化できない。 こ
れは、同様な結論を示した Briesch, Chintagunta and Matzkin (1997)とも一致する。 ま
た、ノンパラメトリック化をどちらかひとつ選択する場合には、確定的要素の方が確
率的要素よりメリットが大きい。 つまり実際の応用においては、表にある 1 番目の
タイプのセミパラメトリック手法の方が 2 番目のタイプより有用である事を裏付てい
る。
自由度の概念を GAM に組み入れる事によって、様々な入れ子型モデルを近似統計的
に仮説検定することが可能になった。 例えばパラメトリックモデルに較べたノンパ
ラメトリックモデルの有意度が確率的に導き出せる。 GAM については、すでに多
くの数学的特性、例えば推定値の識別性、漸近正規性、一致性、標準誤差、自由度、
そしてアルゴリズムの収束性、等が研究されていて (Hastie and Tibshirani 1990)、それ
らは今回提案されたモデルにも全て当てはまる。
マーケティングへの応用として、バーコード・スキャナーで集められた二つの商品カ
テゴリーにおける消費者のブランド選択のパネルデータに当てはめた。 ノンパラメ
トリック関数によって推測された消費者の非線型反応は認知科学での研究結果とも
一致しており、価格やプロモーション戦略に重要な意味を持っている。 また医学分
野への応用として、Hosmer and Lemeshow (1989)で多項ロジスティック回帰分析に用
いられたマモグラム経験度の個人データを取り上げた。 彼らは、唯一の連続的な説
明変数であるマモグラムのメリットに対する意識は線型としてモデルに組み込むべ
きだと提唱した。 これは、連続的な説明変数をその値によって有限数のカテゴリー
に分類し、推定されたカテゴリー・ダミーの係数をグラフにプロットすることによっ
て、間接的に導き出された結論である。 これと対照的に、本モデルは連続的な説明
変数のノンパラメトリック関数を推測することによって、それがほぼ線型である事実
を直接導き出すことができる。
ここで、このモデルの 2 つの弱点について触れておく。 1つめは GAM の基本仮定
である説明変数の加法分離性である。 このモデルに限らず GAM 一般において、相
互作用を分析するために多次元の関数を推定することは可能である。 しかしノンパ
6/25/99
14
ラメトリック手法は "curse of dimensionality" に陥りやすいう観点を踏まえて、実際例
としては 2 次元を超える事は稀である。 また分離性の構造は、興味ある一部の説明
変数のみをノンパラメトリック化し、残りの説明変数はパラメトリックのままにする
ということが容易にできる利点がある。 しかし、説明変数間に相互作用の存在が予
測される場合やその相互作用自体が研究の関心である場合には、適切な対策を打つ必
要があろう。 この議論はすでに 2.1 章で触れた。
もう1つは concurvity という、回帰分析における多重共線性と同等なコンセプトであ
る。 2 つの説明変数が非線型的に高い相関関係にある場合(つまりそれらが同じよ
うに変化するが必ずしも線型的な関係ではない場合)、それぞれ別な関数を認知する
ことが困難なために、GAM の推定が不安定になったりアルゴリズムが収束しない等
の問題が生じる。 これは、回帰分析で多重共線性が存在する時、推定値の標準誤差
が大きくなるのと似ている。 本研究の応用例では、説明変数を序々に加えたモデル
を検討した時に推定された関数が安定しているかどうか、という簡単なチェックによ
ってこれに対処した。
提案されたノンパラメトリックMNLモデルには、次の 3 つの利点がある。 まず、
効用関数に含まれるパラメトリック変換が現実の購買行動にそぐわない、という誤っ
たモデル選択が避けられる。 2 番目は、このモデルのアウトプットであるグラフは、
統計の専門家でないユーザーにも結果を伝達するのに有用であるという事だ。 マー
ケティングの応用例からも分かるように、推測されたノンパラメトリック関数はマネ
ージャーに直観的にアピールし意思決定を支える。 最後に、このモデルは研究者に
とって有益な探索ツールになり得るということだ。 推定されたノンパラメトリック
関数は、説明変数の適切なパラメトリック変換の選択に役立つ。 またモデル・セレ
クションのプロセスが短いということは、研究者によって異なる主観的な要素の入る
余地が少なく、より客観的なデータ主導型のモデル構築が可能になる。
6/25/99
15
補論: ALGORITHM FOR THE NONPARAMETRIC MNL FOR DISCRETE CHOICE
A.1 Generic Algorithm for Standard GAMs
For estimation of GAMs, Hastie and Tibshirani (1986) propose the local scoring algorithm, a nonparametric
variant of the Fisher scoring procedure.
Operationally, the so-called adjusted dependent variable, z --- a new
estimate of the predictor index, h(x) =
å fp(xp), based on the current estimate of fp(xp)'s --- is updated
iteratively by nonparametric regression on the explanatory variables with certain weight, w.
For the case of a binary logit GAM, the adjusted dependent variable, z, and the weight, w, become
z = h(x) +
y-m
(5)
m (1 - m)
w = m (1-m)
(6)
where h(x) is based on the current estimate of fp's, and m is the mean of the response variable y predicted by the
current estimate.
The adjusted dependent variable z can be interpreted as the first-order Taylor series
approximation of the predictor index h about the current estimate of m.
The weight w is a reciprocal of the
variance of z, providing less (more) weight on observations with high (low) variance in the regression.
if h(x) is linearly specified as
åp bp xp
Notably,
as in GLM, the second term of Equation (5) becomes the partial
residuals defined by Landwehr, Pregibon, and Shoemaker (1984).
Each iteration of the local scoring procedure
consists of [1] updating the choice probability m from the previous estimate of additive predictor index, h, [2]
computing the adjusted dependent variable z and weight w, and [3] applying nonparametric regression of z on x
with weight w.
The local scoring algorithm for a binary logit GAM can be summarized as follows.
Local Scoring Algorithm for a Binary Logit GAM
Initial estimate by linear model, h(x) = b'x
Repeat
Compute the current estimate of m from h
[by (3)]
Compute the adjusted dependent variable z and weight w [by (5) and (6)]
Obtain fp(xp)'s by nonparametric regression of z on x with weight w
[by backfitting procedure]
Until loglikelihood converges.
The functions fp (p=1,..,P) are obtained by nonparametric regression of z on x with weight w sequentially,
one variable at a time, by using the preceding estimates of the functions for other variables.
6/25/99
16
This technique is
referred to as the backfitting procedure (Friedman and Stuetzle 1981), whose algorithm is shown below.
Although it is possible to obtain a multidimensional nonparametric function h(x)=f(x1,x2,..,xP) without
imposing the additive structure, such regression tends to be vulnerable to the curse of dimensionality as well as
computationally intensive.
Backfitting Algorithm
Initialization by the linear model:
fp(xp) = bp xp
Cycle over the explanatory variables:
p = 1,..,P, 1,..,P, 1,..
" p = 1,..,P
fp(xp) = E{ z - åq¹p fq(xq) | xp }
Until change in the functions, fp(xp), is sufficiently small.
Hastie and Tibshirani (1986) demonstrate that the local scoring algorithm achieves the maximum expected
loglikelihood rather than the sample loglikelihood as in the maximum likelihood estimation to produce smooth
nonparametric functions.
Technical discussion for convergence of the algorithm as well as existence,
consistency and non-degeneracy (uniqueness) of the solution can be found in Hastie and Tibshirani (1990).
In
practice, as long as covariates are not highly correlated in the sense of concurvity, convergence of the algorithm
and consistency of the solution are generally achieved.
A.2 Algorithm for the GAM of Discrete Choice
Modifying the algorithm of the GAM for matched case-control data (Hastie and Tibshirani 1990, Algorithm
8.1) results in the following algorithm for the GAM of discrete choice.
three basic steps are involved.
explicit.
As in the binary logit case, the same
For operational purpose, subscript n --- an index for datapoints --- is made
Here, the predictor index hnj is the additive nonparametric utility vnj.
Initial estimate by the linear model, h(xnj) = b' xnj
" n and j
Repeat
Compute the current estimate of mnj from h as
h ( x nj )
mnj
= e
åe
h ( x nk )
k
Compute the adjusted dependent variable znj and the weight wnj , where
6/25/99
17
znj = h ( xnj ) +
ynj - mnj
m nj (1 - m nj )
wnj = m nj (1 - mnj )
Obtain fp(xp) (p=1,..,P) by nonparametric regression of znj on xnj with weight wnj
[by the backfitting procedure]
Until loglikelihood converges.
The adjusted dependent variable, znj, can be interpreted as an updated utility for alternative j at choice
occasion n, which is inferred from the observed choice.
Having established the continuous response variable z,
it now is possible to apply a standard nonparametric regression technique (with some weight).
For additive
functions of many covariates, this regression can be carried out efficiently by the backfitting algorithm.
Nonparametric functions for the proposed GAM, fp(xp), are identifiable up to an additive constant if and
only if the corresponding linear problem (i.e., parametric MNL) has a unique solution (Hastie and Tibshirani
1990, p.150).
In actual estimation, the arbitrary additivity was eliminated by requiring the partial residuals for
each function, z -
åq¹p fq(xq), to have a zero mean (Hastie and Tibshirani 1990, p.115). The scale of the
nonparametric functions (i.e., a multiplicative factor as opposed to the additive constant) is not arbitrary but
fixed by the system.
The situation is analogous to the parametric case of estimating b's in which the scale is
determined by the data assuming that the variance of the error term is p2/6.
This is because separate
identification of the scales of the systematic utility and the error variance is not possible (Ben-Akiva and Lerman
1985, p.71).
A.3 Statistical Inference for GAMs
Estimation of GAMs requires the use of nonparametric regression in the backfitting procedure.
Fortunately, the regression involves only a single explanatory variable because of the additive separability
assumption of GAMs.
Several well-established techniques such as kernel regression and various splines, as
well as simple smoothing schemes such as running mean, running line, and running median, can be adopted for
this one-dimensional nonparametric regression.
See Hastie and Tibshirani (1990) for an overview of those
techniques.
Selection of a nonparametric regression technique for the proposed GAM should be based on three criteria.
First, the estimated functions must be smooth. We can reasonably expect the additive utility functions to be
6/25/99
18
continuous because they model human choice behavior.
Running mean, running line, and running median are
not suitable because of discontinuity in the first derivative at each observation point.
Second, it is desirable for
the fit of the regression, y , to be expressed as linear in the observed response values yi (i=1,..,n).
That is,
y = S y , where y and y are n´1 column vectors, S is an n´n matrix, and n is the number of observations.
In
this case, many useful concepts and properties, such as degrees of freedom and standard errors, can be derived
by the analogy of linear regression.
Running mean, running line, kernel, and splines are all linear operations,
whereas running median and variable kernel, whose smoothing depends on the values of y, are not.
Third,
computational efficiency is important because the regression is applied repeatedly in the backfitting procedure.
In addition to those three considerations, the ease of extending to higher dimensions leads us to adopt kernel
regression.
To facilitate asymptotic statistical inferences, a notion of degrees of freedom analogous to that of the linear
models was developed (Hastie and Tibshirani 1990, chap. 3).
degrees of freedom is equal to tr(2S - S S').
when it is expressed as y = S y .
In OLS, y = S y where S = X(X'X)-1X', the
The same measure can be adopted to nonparametric regression
In kernel regression, degrees of freedom is controlled mainly by the
smoothing constant, which in turn affects the value of matrix S.
For infinitely large smoothing, all elements of
S is 1/n because y is constant and equal to the average of y.
Then, the degrees of freedom characterized by
tr(2S - S S') is equal to 1 as it should be.
On the other hand, degrees of freedom approaches n for very small
smoothing, since the regression curve is simply interpolating n datapoints with S being an n´n identity matrix.
Automatic methods for determining the optimal smoothing constant, such as cross validation, are current
focus in econometrics.
Unfortunately, many elaborate methods are prohibitively computation-intensive and
have not had much success in real applications (Hastie and Tibshirani 1990).
In our study, the minimum
amount of smoothing was applied to remove kinks and discontinuities while preserving the overall shape as
much in detail as possible.
This task is accomplished with relative ease by comparing the resulting utility
functions of different smoothing, because these plots characterize human attitude (i.e., utility) and managers tend
to have a fairly good insight about the functions' roughness (but not the shape).
6/25/99
19
参考文献
参考文献
Abe, M. (1995), "A Nonparametric Density Estimation Method for Brand Choice Using Scanner Data,"
Marketing Science, 14 (3), 300-325.
Abe, M. (1998), "Measuring Consumer, Nonlinear Brand Choice Response to Price," Journal of Retailing, 74 (4),
541-568.
Abe, M. (1999), " A Generalized Additive Model for Discrete Choice Data," Journal of Business and Economic
Statistics, forthcoming.
Ben-Akiva, M., and Lerman, S. (1985), Discrete Choice Analysis: Theory and Application to Travel Demand,
Cambridge, MA: MIT Press.
Blattberg, R. C., Briesch, R., and Fox, E. (1995), "How Promotions Work," Marketing Science, 14 (3), G122G133.
Breiman, L., and Friedman, J. H. (1985), "Estimating Optimal Transformations for Multiple Regression and
Correlation," Journal of the American Statistical Association, 80, 580-619.
Breslow, N. S. and Day, N. E. (1980), Statistical Methods in Cancer Research. 1: The Analysis of Case-Control
Studies, I.A. R.C, Lyon.
Briesch, R. A., Chintagunta, P. K., and Matzkin R. L. (1997), "Nonparametric and Semiparametric Models of
Brand Choice Behavior," working paper, The University of Texas at Austin.
Fader, P. S., Lattin, J. M., and Little, J. D. C. (1992), "Estimating Nonlinear Parameters in the Multinomial Logit
Model," Marketing Science, 11, 372-385.
Friedman, J. H., and Stuetzle, W. (1981), "Projection Pursuit Regression," Journal of American Statistical
Association, 76, 817-823.
Guadagni, P. M., and Little, J. D. C.
(1983), "A Logit Model of Brand Choice Calibrated on Scanner Data,"
Marketing Science, 2, 203-238.
Gupta, S. and Cooper, L. G. (1992), "The discounting of discounts and promotion thresholds (by consumers),"
Journal of Consumer Research, 19 (December), 401-411.
Hastie, T., and Tibshirani, R. (1986), "Generalized Additive Models," Statistical Science, 1, 297-318.
----------
(1987), "Generalized Additive Models: Some Applications," Journal of the American Statistical
Association, 82, 371-386.
----------
6/25/99
(1990), Generalized Additive Models, New York: Chapman and Hall.
20
Horowitz, J. L., Bolduc, D., Divankar, S., Geweke, J., Gonul, F., Hajivassiliou, V., Koppelman, F. S., Kean, M.
Matzkin, R., Rossi, P., and Ruud, P. (1994), "Advances in Random Utility Models: Report of the Workshop on
Advances in Random Utility Models," Marketing Letters, 5 (4), 311-322.
Hosmer, D. W., and Lemeshow, S. (1989), Applied Logistic Regression, New York: Wiley.
Kahneman, D. and Tversky, A. (1979), "A Prospect Theory: An Analysis of Decision under Risk," Econometrica,
47, 263-291.
Kalyanaram, G., and Little, J. D. C. (1994), "An Empirical Analysis of Latitude of Price Acceptance in
Consumer Packaged Goods," Journal of Consumer Research, 21 (December), 408-418.
Kamakura, W. A. and G. J. Russell (1989), "A Probabilistic Choice Model for Market Segmentation and
Elasticity Structure," Journal of Marketing Research, 26, 379-390.
Krishnamurthi, L., and Raj, S. P. (1988), "A Model of Brand Choice and Purchase Quantity Price Sensitivities,"
Marketing Science, 7, 1-20.
Landwehr, J. M., Pregibon, D., and Shoemaker, A. C. (1984), "Graphical Methods for Assessing Logistic
Regression Models," Journal of the American Statistical Association, 79, 61-71.
McFadden, D. (1974), "Conditional Logit Analysis of Qualitative Choice Behavior," in Frontiers in
Econometrics, P. Zarembka eds., New York, NY: Academic Press, 105-142.
--------------, (1989) "A Method of Simulated Moments for Estimation of Discrete Response Models without
Numerical Integration," Econometrica, 57, 995-1026.
Manski, C. F. (1975), "Maximum Score Estimation of the Stochastic Utility Model of Choice," Journal of
Econometrics, 3, 205-228.
--------------, and McFadden, D. editors; (1981), Structural Analysis of Discrete Data with Econometric
Applications, Cambridge, MA: MIT Press.
Matzkin, R. L. (1993), "Nonparametric Identification and Estimation of Polychotomous Choice Models,"
Journal of Econometrics, 58 (July), 137-168.
Monroe, K. B. (1973), "Buyers' Subjective Perceptions of Price," Journal of Marketing Research, 10, 70-80.
----------
(1990), Pricing: Making Profitable Decisions, New York: McGraw Hill.
Nelder, J. A., and Wedderburn, R. W. M. (1972), "Generalized Linear Models," Journal of the Royal Statistical
Society A, 135, 370-384.
Pedrick, J. H., and Zufryden, F. S. (1991), "Evaluating the Impact of Advertising Media Plans: A Model of
Consumer Purchase Dynamics Using Single-Source Data," Marketing Science, 10, 111-130.
6/25/99
21
Rossi, Peter E. and Greg Allenby (1993), "A Bayesian Approach to Estimating Household Parameters," Journal
of Marketing Research, 30 (2), 171-82.
---------, Robert E. McCulloch, and Greg Allenby (1996), "The Value of Purchase History Data in Target
Marketing," Marketing Science, 15 (4), 321-340.
Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis, Monographs on Statistics and
Applied Probability, New York: Chapman and Hall.
Tellis, G. J. (1988), "Advertising Exposure, Loyalty, and Brand Purchase: A Two-Stage Model of Choice,"
Journal of Marketing Research, 25, 134-144.
6/25/99
22
表 1.
Model
100 回のシミュレーションの対
ションの対数尤度
数尤度平均
Sample
Specification 1
Specification 2
Specification 3
Specification 4
True specification
Nonparametric
Linear
Calibration
-917.9 (1.48)
-916.2 (1.50)
>
-926.2 (1.48)
Holdout
-916.7 (1.56)
-916.7 (1.65)
>
-925.8 (1.65)
Calibration
-896.7 (1.75)
-898.1 (1.68)
>
-913.9 (1.74)
Holdout
-903.0 (2.18)
-903.2 (1.64)
>
-914.0 (1.53)
Calibration
-879.5 (1.84)
-879.0 (1.88)
>
-1067.4 (1.56)
Holdout
-874.7 (1.86)
-898.7 (1.64)
>
-1067.6 (1.53)
Calibration
-877.1 (1.66)
-878.0(1.68)
>
-1064.9 (1.57)
Holdout
-877.4 (1.84)
-896.8 (1.53)
>
-1066.1 (1.60)
注: カッコ内は標準誤差
準誤差
表 2. 入れ子式モデルの対数尤度と自
数尤度と自由度
Specification
Calibration
DF
Validation
1: asc2, asc3
-1084.6 (-1086.6)
2
-1084.4 (-1086.4)
2: asc2, asc3, feature, display
-1064.6 (-1068.6)
4
-1058.9 (-1062.9)
3: asc2, asc3, feature, display, price
-1001.3 (-1006.3)
5
-991.0 (-996.0)
4: asc2, asc3, feature, display, f(price)
-993.0 (-1000.9)
7.9
-987.0 (-994.9)
5: asc2, asc3, feature, display, true(price)
-996.2 (-1002.2)
6
-997.4 (-1003.4)
6: asc2, asc3, feature, display, adv
-992.5 (-997.5)
5
-997.0 (-1002.0)
7: asc2, asc3, feature, display, f(adv)
-983.9 (-991.8)
7.9
-990.1 (-998.0)
8: asc2, asc3, feature, display, true(adv)
-983.9 (-989.9)
6
-981.3 (-987.3)
9: asc2, asc3, feature, display, price, adv
-926.5 (-932.5)
6
-926.6 (-932.6)
10: asc2, asc3, feature, display, f(price), f(adv)
-906.7 (-918.5)
11.8
-914.6 (-926.4)
11: asc2, asc3, feature, display, true(price), true(adv)
-911.1 (-919.1)
8
-910.0 (-918.0)
注: カッコ内は AIC
6/25/99
23
表 3. コーヒーとオレンジ・ジュース
・ジュースのデー
のデータベースの記述統計
の記述統計
Ground Coffee
Orange Juice
Number of brandsizes
6
6
Number of households
167
77
39
52
2390
1188
26
26
1386
680
Number of weeks for calibration sample
Number of purchases in calibration sample
Number of weeks for loyalty initialization (holdout) sample
Number of purchases in initialization (holdout) sample
COFFEE
Brandsize
Share (%)
Average price
per pound ($)
Fraction of Purchases
with Feature (%)
Brand A 1 lb.
24.1
2.87
58.6
Brand A 3 lb.
4.4
2.91
65.1
Brand B 1 lb.
36.7
3.04
38.8
Brand B 3 lb.
9.0
3.06
37.0
Brand C 1 lb.
19.5
2.91
53.3
Brand C 3 lb.
6.4
2.96
56.0
ORANGE JUICE
Brand
6/25/99
Share (%)
Average price ($)
Fraction of Purchases (%) with
Feature
Price cut
Brand A
19.9
1.79
47.0
25.7
Brand B
26.4
1.87
18.2
25.2
Brand C
20.3
2.08
30.3
43.6
Brand D
36.8
1.34
18.7
17.6
Brand E
18.5
1.89
56.8
53.0
Brand F
5.8
2.29
1.8
12.5
24
表 4 . コーヒー・データ
データの入れ子式モデ
入れ子式モデルの対数尤度
Specification
Calibration
DF
Holdout
1: asc
-3720.1 (-3725.1)
5
-2384.0 (-2389.0)
2: asc, feature
-3230.0 (-3236.0)
6
-2303.9 (-2309.9)
3: asc, feature, price, loyalty
-2200.2 (-2208.2)
8
-1599.2 (-1607.2)
4: asc, feature, f(price), loyalty
-2189.0 (-2199.3)
10.3
-1592.7 (-1603.0)
5: asc, feature, price, f(loyalty)
-2147.1 (-2159.2)
12.1
-1581.5 (-1593.6)
6: asc, feature, f(price), f(loyalty)
-2140.9 (-2155.3)
14.4
-1577.9 (-1592.3)
7: asc, feature, piecewise price, loyalty
-2191.0 (-2201.0)
10
-1593.2 (-1603.2)
注: カッコ内は AIC
表 5. オレンジジュース・データの入
データの入れ子式
れ子式モデルの対数尤度
対数尤度
Specification
Calibration
DF
Holdout
1: asc
-2023.9 (-2028.9)
5
-1233.4 (-1238.4)
2: asc, feature
-1649.6 (-1655.6)
6
-994.2 (-1000.2)
3: asc, feature, regprice, pricecut, loyalty
-976.6 (-985.6)
9
-548.7 (-557.7)
4: asc, feature, regprice, f(pricecut), loyalty
-972.0 (-982.5)
10.5
-546.6 (-557.1)
5: asc, feature, f(regprice), pricecut, loyalty
-966.7 (-978.6)
11.9
-543.1 (-555.0)
6: asc, feature, regprice, pricecut, f(loyalty)
-962.5 (-975.6)
13.1
-543.0 (-556.1)
7: asc, feature, f(regprice), f(pricecut), loyalty
-962.4 (-975.8)
13.4
-542.5 (-555.9)
8: asc, feature, regprice, f(pricecut), f(loyalty)
-958.7 (-973.3)
14.6
-540.6 (-555.2)
9: asc, feature, f(regprice), pricecut, f(loyalty)
-954.2 (-970.2)
16.0
-537.0 (-553.0)
10: asc, feature, f(regprice), f(pricecut), f(loyalty)
-949.6 (-967.1)
17.5
-535.2 (-552.7)
11: asc, feature, regprice, piecewise pricecut, loyalty
-973.0 (-984.0)
11
-545.9 (-556.9)
注: カッコ内は AIC
6/25/99
25
図のタイ
図のタイトル
図1.
.Specification 1 で 100 回 のシミュレー
黒 線)と
と そ の 95%
%
図1
ミュレーション推測結果の平均
ション推測結果の平均(黒
信頼区域
を真の関数
と共にプロッ
信頼区
域を真の関
数(点
点線)と共にプロ
と共にプロ
ットしたもの。
もの。
図2.
.Specification 2 で 100 回のシミュレー
黒 線)と
と そ の 95%
%
図2
回のシミュレーション推測結果の平均
ション推測結果の平均(黒
信頼区域
を真の関数
と共にプロッ
信頼区
域を真の関
数(点
点線)と共にプロ
と共にプロ
ットしたもの。
もの。
図3.
.Specification 3 で 100 回のシミュレー
黒 線)と
と そ の 95%
%
図3
回のシミュレーション推測結果の平均
ション推測結果の平均(黒
信頼区域
を真の関数
と共にプロッ
信頼区
域を真の関
数(点
点線)と共にプロ
と共にプロ
ットしたもの。
もの。
図4.
.Specification 4 で 100 回のシミュレー
黒 線)と
と そ の 95%
%
図4
回のシミュレーション推測結果の平均
ション推測結果の平均(黒
信頼区域
を真の関数
と共にプロッ
信頼区
域を真の関
数(点
点線)と共にプロ
と共にプロ
ットしたもの。
もの。
図5.
図5.モデルの仮定と
デルの仮定と異なった確率分布によ
なった確率分布によって発生されたデータ
て発生されたデータから推定された広
ら推定された広
告のノン
パラメトリッ
告のノ
ンパラメトリ
ック関数
図6.
図6.モデルの仮定と
デルの仮定と異なった確率分布によ
なった確率分布によって発生されたデータ
て発生されたデータから推定された価
ら推定された価
格のノン
パラメトリッ
格のノ
ンパラメトリ
ック関数
図7.
図7.コーヒーのデー
ーヒーのデータを使って推定された
を使って推定されたロイヤルティーと価格
イヤルティーと価格のノンパラメトリ
ノンパラメトリ
ック関数
ック関
数
図8.
図8.オレンジジュー
レンジジュースのデータを使って推
のデータを使って推定されたロイヤルティ
されたロイヤルティーと価格のノンパ
と価格のノンパ
ラメトリ
ック関数
ラメト
リック関
数
図9.
図9.マモグラムのデ
モグラムのデータを使って推定され
タを使って推定されたマ モグラムのメリッ
ムのメリットに対する知覚
に対する知覚の
ノンパラ
メトリック関
ノンパ
ラメトリック
関数
6/25/99
26