検索ワードを用いた非集計アトリビューション・モデルの構築

検索ワードを用いた非集計アトリビューション・モデルの構築
プロフィットエンジニアリング研究
5213F027-1 日塔 享宏
指導教員
大野 髙裕
Development of A Disaggregate Attribution Model Using Search Words
NITTOH Takahiro
1. はじめに
近年,インターネット広告費が増加しており,インター
ネット広告の種類も多様化している.そのため,企業で
は各広告の効果を適切に捉え,予算配分を行なうことへ
のニーズが高まっている.
告がその他の広告のクリックを促す影響および CV に与
える影響を算出している.消費者
i の t 期における事象 u
“
”
の発生確率 ρiu t | Hti は次式で表わされる;
”
“
“
”
ρiu t | Hti =ηui exp ψu Dui (t)
インターネット広告の効果測定において注目されてい
+
るのが,アトリビューション分析である.アトリビュー
i
j (t)
U
−1 DX
X
””
“
“
j(i)
δju exp −τj t − tr
.
j=1 r=1
ション分析は,コンバージョン1 (以下 CV)に至った消
費者がどのような経路をたどって広告に接触したかを記
ただし,u = 1, · · · , U − 1 は各広告のクリック,U は CV,
録した CV パスデータを用いて,各広告に貢献度を配分
Dui (t) は消費者 i の t 期までの事象 u の発生回数,Hti は
する手法である.CV 直前に接触した広告のみを評価する
消費者 i が t 期までに受けた事象 u の情報,tr
j(i)
旧来型の手法と異なり,消費者が接触したすべての広告
者 i の r 回目の事象 j
を評価対象とする.このため,商品やサービスを認知さ
反応パラメータを表わす.
せることや,興味・関心を深めることに貢献した広告の
効果も捉えることができる.しかし,実際の各広告への
貢献度の配分比率は広告運用者の経験や勘に基づいて決
定されるため,恣意的であるといった問題が生じる.ま
た,一般的にウェブサイト上のページビュー(以下 PV)
数などの消費者の詳細な行動データを取得するためには,
第三者配信アドサーバーを必要とし,高コストである.
そこで,本研究では,低コストで取得可能なデータを
用いた非集計アトリビューション・モデルを構築するこ
とを目的とする.広告接触を個人ごとに表わした非集計
データを基にモデルを構築することで,広告が消費者の
態度変容に与える影響も捉えることができると考える.
リックした広告が t + 1 期にその他の広告のクリックを促
す影響を考慮した研究 [4],消費者の意思決定プロセスを
考慮した研究 [1] がある.消費者の意思決定プロセスを考
は
2.2. Abhishek et al.[1]
Abhishek et al. は消費者が図 1 で表わされる意思決定プ
ロセス(非認知・認知・検討の 3 状態)を経て CV に至ると仮
定して隠れマルコフモデルを構築し,広告が消費者の態度
変容及び CV に与える影響を算出している.すべての消費
者は t = 0 期に非認知の状態にいるとし,広告接触によって
各状態間を確率的に遷移する.消費者 i の t 期における状態
s から状態 s′ への遷移確率 Qs′ |s ≡ P (Sit = s′ |Sit−1 = s)
は次式で表わされる;
Qs′ |s =
exp(µiss′ + ˛ ss′ x′it )
X
, ∀s′ ̸= s,
1+
exp(µiss′ + ˛ ss′ x′it )
s′ ∈Ts
アトリビューション分析に関する従来研究には,広告
が CV に与える影響のみを考慮した研究 [2, 3],t 期にク
は消費
が起きた期間,ηui ,ψu ,δju ,τj
Qs|s =
1+
X
1
exp(µiss′ + ˛ ss′ x′it )
.
s′ ∈Ts
ただし,x′it は消費者 i が t 期までに接触した広告の累積
慮した研究の方が,消費者の態度別に広告が与える影響
和,˛ ss′ は広告が状態 s から状態 s′ への遷移に与える影
の違いを捉えることができるため,より正確に広告効果
響を表わすパラメータ,µiss′ は反応パラメータを表わす.
を測定することができる.しかし,データの取得コスト
消費者 i の t 期における状態 s での観測事象 y it の出力
が高く,広告効果の測定に予算を割けない企業では,モ
デルを適用することができないという問題がある.
2. 従来研究
2.1. Xu et al.[4]
Xu et al. は広告のクリックや CV を偶発的に発生する
事象として捉え,点過程を用いてモデルを構築し,各広
1 商品購入や資料請求など,ウェブ上から獲得できる最終成果.
確率は次式で表わされる;
P (Yit = y it |Sit = s) =
it
mcits
(1 − mits )(1−cit ) P (Nits = nit |Sit = s),
8
n
λ it e−λits
>
>P (Nit = nit |Sit = s) = itsnits ! ,
>
<
where, λits = η˜s + fi s x′it ,
>
>
>
:m = exp(α̃s +‚ s z ′it ) .
its
1+exp(α̃s +‚ s z ′it )
者の状態を推定することが可能となる.
検索ワードをモデルに用いる手順として,検索ワード
を広告主の法人名を含むものと含まないものの 2 種類に
非認知
(1)
分類する.検索ワードに法人名を含む場合,消費者は少
認知
(2)
検討
(3)
なくとも法人名を認知している状態にあり,CV 確率も高
いと考えられるため,非認知の状態への遷移確率を 0 と
して定式化する.
検索ワードに法人名を含む場合の遷移確率の定式化を
行なう.消費者 i が t 期に法人名を含むリスティング広告
図 1. 消費者の意思決定プロセス
ただし,y it は (nit , cit ) の 2 変数,nit は消費者 i の t − 1
∼t 期の広告主サイトの PV 数,cit は消費者 i が t 期に
CV したときに 1,しなかったときに 0 をとる 2 値変数,
または自然検索に接触したときの状態 s から状態 s′ への
遷移確率 Qs′ |s ≡ P (Sit = s′ |Sit−1 = s) は次式で表わさ
れる;
Q1|s =0, for s = 1, 2, 3,
z ′it は消費者 i が t 期までに接触した広告の累積和と PV
数,‚ s は広告が状態 s で CV 確率に与える影響を表わす
パラメータ,λits ,ηs ,fi s ,α̃s は反応パラメータを表わす.
6
X
exp
l=1
Qs′ |1 =
6
X
exp
2.3. 従来研究の問題点
βl12 xlit
!
+ exp
l=1
exp
が,消費者の意思決定プロセスは考慮していない.その
Qs′ |s =
1 + exp
となってしまっている.一方で,Abhishek et al. では消
6
X
βlss′ xlit
l=1
6
X
!
βlss′ xlit
′
′
! , for s, s = 2, 3 and s ̸= s ,
l=1
費者の意思決定プロセスを考慮し,消費者の態度によっ
モデルを構築するためのデータとして広告主サイト上で
βl13 xlit
!,
for s′ = 2, 3,
他の広告のクリックを促す影響については考慮している
て広告が異なる影響を与えることを捉えている.しかし,
6
X
l=1
Xu et al. は t 期にクリックした広告が t + 1 期にその
ため,各広告が与える影響は消費者の態度によらず一定
βl1s′ xlit
!
1
6
X
Qs|s =
1 + exp
βlss′ xlit
′
′
! , for s, s = 2, 3 and s ̸= s .
l=1
の PV 数を用いており,データの取得に月額数十万∼数
百万円のコストがかかってしまう.そのため,予算の関
ただし,xlit は消費者 i が t 期までに接触した広告 l ∈ {
係上 PV 数のデータを取得できない企業は適用すること
リスティング広告 (法人名含む),リスティング広告 (法人
ができない.したがって,低コストで取得可能なデータ
名含まない),ディスプレイ広告,アフィリエイト広告,
を用いたアトリビューション・モデルを構築することが
望ましい.
3. 提案モデル
3.1. モデリング
自然検索 (法人名含む),自然検索 (法人名含まない)} の
累積和,βlss′ は広告 l が状態 s から状態 s′ への遷移に与
える影響を表わすパラメータを表わす.
検索ワードに法人名を含まない場合の遷移確率の定式
化を行なう.消費者 i が t 期にディスプレイ広告4 ,アフィ
本研究では,Abhishek et al. を基に低コストで取得可
リエイト広告5 ,法人名を含まないリスティング広告また
能なデータを用いたアトリビューション・モデルを構築
は自然検索に接触したときの状態 s から状態 s′ への遷移
する.Abhishek et al. ではモデル構築の際に PV 数を用
確率は次式で表わされる;
!
6
X
exp
βlss′ xlit
いており,PV 数の取得に第三者配信アドサーバーを必要
とするため,高コストになっている.そこで,本研究で
は PV 数を用いず,消費者がリスティング広告2 または自
l=1
Qs′ |s =
然検索3 をクリックしたときに,低コストで取得可能な検
1+
合,通常よりも CV 確率が高いといわれている.したがっ
て,検索ワードの内容から異なる CV 確率からなる消費
2 検索エンジンの検索結果に,消費者が検索したワードに連動し
て表示される広告のこと.広告主はワード単位で広告を出稿する.
3 検索エンジンの検索結果のうち,広告以外の部分のこと.
6
X
exp
s′ ∈Ts
索ワードを用いることを考える.検索ワードの特徴とし
て,検索ワードに広告主サイトの法人名を含んでいた場
X
βlss′ xlit
l=1
1
Qs|s =
1+
X
s′ ∈Ts
exp
′
! , ∀s ̸= s,
6
X
βlss′ xlit
!.
l=1
4 ウェブページの一部として埋め込まれて表示される,画像や動
画などによる広告のこと.
5 第三者が商品に関連するコンテンツの一部として掲載する広告
のこと.
各状態における出力確率の定式化を行なう.消費者 i の
表 1. 適合度の比較
t 期における状態 s での観測事象 yit の出力確率は次式で
表わされる;
P (Yit = yit |Sit = s) =
it
mcits
(1 − mits )(1−cit ) ,
exp α̃s +
4
X
γks wkit
k=1
4
X
where,mits =
1 + exp α̃s +
!
γks wkit
対数尤度
適合率
再現率
比較モデル
−2197.95 26.67%
7.69%
本研究
−2079.38 28.57%
7.69%
表 2. 遷移確率のパラメータ推定結果
β12
!.
リスティング
(法人名含む)
k=1
ただし,cit は消費者 i が t 期に CV したときに 1,しな
リスティング
(法人名含まない)
かったときに 0 をとる 2 値変数,wkit は消費者 i が t 期
ディスプレイ
までに接触した広告 k ∈{ リスティング広告,ディスプレ
アフィリエイト
イ広告,アフィリエイト広告,自然検索 } の累積和,γks
自然検索
は広告 k が状態 s で CV 確率に与える影響を表わすパラ
(法人名含む)
−0.09 −0.13
本研究では非認知の状態での CV 確率 mit1 は 0 とし,
同条件下で mit3 ≥ mit2 となるように各状態におけるパ
−0.33 −0.11
0.25
α̃2 = α2 ,
−0.18 −0.10
0.24
(法人名含まない)
度関数 L は次式で表わされる;
|S| |S|
X
X
L=
"
···
s1 =1 s2 =1
T
Y
P (Sit = st |Sit−1 = st−1 )
−1.15
─
−0.80
2.65
2.92
1.92
2.16
─
─
0.99
0.79
0.60
0.68
0.68
γ3
α̃
−2.00
−2.00
リスティング
0.00
−0.39
0.36
0.61
−0.21
0.54
0.05
0.16
アフィリエイト
4.2. 検証方法
sT =1
t=1
─
γ2
自然検索
|S|
X
β32
0.29 −0.39
ディスプレイ
EM アルゴリズムにより未知パラメータを求める.尤
β31
表 3. 出力確率のパラメータ推定結果
α̃3 = α̃2 + exp {α3 } .
3.2. 推定
β23
0.26 −0.11 −0.73 −15.88 −0.41
ラメータ α̃s を次のように定義する;
α̃1 = 0,
β21
0.00 −0.07 −0.18 −0.27 −1.51 −0.04
自然検索
メータ,α̃s は反応パラメータを表わす.
β13
T
Y
#
P (Yit = yit |Sit = st ) .
t=1
本研究では,広告予算の関係上 PV 数を取得できない
状況を想定し,モデルの構築を行なっている.そのため,
PV 数を欠損値とした Abhishek et al. を比較モデルとし,
この尤度関数 L の対数をとった対数尤度 L∗ を最大化す
対数尤度,適合率,再現率で本研究のモデルと比較する
るパラメータを導出する.その際,まず βss′ を固定して
ことで,検索ワードを用いることの妥当性を検証する.
∗
L を最大化する γs を導出する.次に γs を導出された値
に固定して L∗ を最大化する βss′ を導出する.これを L∗
の値が収束するまで行なう.
4.3. 検証結果
検証結果を表 1 に示す.対数尤度,適合率で本研究の
値が優れており,検索ワードを用いた提案モデルの妥当
4. 検証
性が示されている.また,パラメータの推定結果を表 2,
4.1. 利用データ
表 3 に示す.表 2 より,広告が非認知の状態から検討の
本研究では,レーシックを取り扱う某医療系法人にお
状態の方向に影響を及ぼすだけでなく,逆方向への状態
ける CV パスデータを用いて検証を行なう.ここで,CV
遷移にも影響を及ぼしていることがわかる.また,表 3
はウェブサイト上での手術前の適応検査申し込みと定義
より,消費者が認知の状態にいるときに比べて検討の状
する.データ収集期間は 2013 年 12 月 1 日∼2014 年 2 月
態にいるときの方が,広告 1 接触あたりの CV 確率が高
28 日,検証には期間中に CV した 211 人の CV パスを用
くなっていることがわかる.
いる.対象とする広告はリスティング広告,ディスプレ
5. 貢献度配分
イ広告,アフィリエイト広告の 3 つと,自然検索による
広告主サイトへの流入である.従来研究では自然検索に
よる影響を考慮していないが,消費者視点で考えたとき
に検索エンジン経由の広告主サイトへの流入という意味
ではリスティング広告も自然検索も同じである.そのた
め,本研究では自然検索の影響も考慮する.なお,1CV
当たりの平均広告接触回数は 2.98 回である.
5.1. 貢献度配分方法
推定されたパラメータを基に,各広告の貢献度の算出
を行なう.貢献度の算出方法は Abhishek et al. を参考に
する.まず,消費者 i が t 期に接触した広告 ait の CV 確
率 Vit を広告 ait の貢献度とする.次に,Vit を広告 k ご
とに足し合わせ,その値を広告 k の貢献度とする.広告
k の貢献度 Πk は次式で表わされるものとする;
Πk =
T
XX
表 4. 貢献度配分結果
貢献度
1{ait =k} Vit ,
i t=1
リスティング
ディスプレイ
where,Vit = P (Cit = 1|Ait ) − P (Cit = 1|Ait−1 ),
Ai = {ai1 , ai2 , · · · , aiT } .
ただし,1{ait =k} は広告 ait が広告 k に属すならば 1,属
さなければ 0 を返す指示関数を表わす.
5.2. 貢献度配分結果
貢献度配分結果と貢献度から考えられる相対的な予算
配分の方針を表 4 に示す.表 4 より,アフィリエイト広
告,リスティング広告,自然検索,ディスプレイ広告の
順に貢献度が高いことがわかる.この貢献度を基に各広
告について考察し,予算配分の提案を行なう.また,コ
アフィリエイト
自然検索
相対的な予算配分の方針
10.04
0.97
現状維持
12.50
6.62
増やす
減らす
─
18
16
14
数
12
件
の10
ド
ー
ワ86
索
検
4
2
0
1
2
3
4
ストのかからない自然検索については,運用方法の検討
5
6
7
自然検索順位
8
9
10
11
~
図 2. リスティング広告の検索ワードと自然検索結果の順位
を行なう.
まず,貢献度が 1 番低かったディスプレイ広告と貢献
示されていることがわかる.また,17 ワードのすべてが
度が 1 番高かったアフィリエイト広告について考察を行
法人名を含む検索ワードである.したがって,法人名を
なう.ディスプレイ広告は,消費者に商品やサービスを認
含む検索ワードは自然検索での流入が見込めるため,リ
知させるために用いられることが多い.そのため,レー
スティング広告の予算を自然検索で上位に表示されない
シックは既に多くの消費者に認知されていると考えられ
ワードにシフトすべきだと考えられる.
る.一方で,アフィリエイト広告は商品やサービスを購
買するかどうかを検討している消費者に効果がある.ま
た,レーシックは身体的なリスクを伴うため,手術に対
して慎重に検討する消費者が多いと考えられる.このこ
とから,消費者がレーシック手術を検討する過程で,第
三者の意見を参考にする傾向があると考えられる.した
がって,ディスプレイ広告の予算を減らし,アフィリエ
イト広告などのコンテンツ型の広告の予算を増やすこと
で,広告主に対する信頼を築いていく必要があると考え
6. おわりに
本研究では,低コストで取得可能な検索ワードを用い
たアトリビューション・モデルを構築することができた.
また,貢献度に基づいて各広告の予算を再配分する提案
を行なった.その結果,広告効果の測定に予算を割けな
い企業でも,消費者の意思決定プロセスを考慮した広告
の貢献度配分ができ,広告予算の設計を行なうことが可
能になった.
今後の課題として,提案した予算配分に基づいて広告
られる.
次にリスティング広告と自然検索について考察を行な
を出稿し,CV 数の増減を検証することが挙げられる.
う.リスティング広告は CPA6 の低いワードに出稿してい
参考文献
るため,自然検索よりも貢献度が高くなったと考えられ
[1] Abhishek, V., Fader, P. S. and Hosanagar, K.: “Media
る.しかし,消費者視点で考えたときにリスティング広
Exposure through the Funnel: A Model of Multi-Stage
告も自然検索も検索エンジン経由での広告主サイトへの
Attribution,” Working Paper, Carnegie Mellon Univer-
流入という意味では同じである.したがって,1 クリック
sity, Pittsburgh (2014)
が消費者に与える影響は同程度であると考えられる.一
[2] Dalessandro, B., Stitelman, O., Perlich, C. and
方で広告主視点で考えたときにリスティング広告は広告
Provost, F.: “Causally Motivated Attribution for Online
費が発生するが,自然検索はコストが発生しない.
Advertising,” NYU Working Paper Series (2012)
そこで,リスティング広告の出稿ワードを見直し,費用
[3] Shao, X. and Li, L.: “Data-Driven Multi-Touch At-
対効果の良い自然検索の活用方法を検討する.出稿ワー
tribution Models,” KDD’11, pp.258–264 (2011)
ドの見直しを行なうにあたり,CV パスに含まれるリス
[4] Xu, L., Duan, J. A., and Whinston, A. B.: “Path to
ティング広告の検索ワード全 35 ワードについて,自然検
Purchase: A Mutually Exciting Point Process Model for
索結果の順位の調査を行なう.その結果を図 2 に示す.図
Online Advertising and Conversion,” Management Sci-
2 より,全 35 ワード中 17 ワードが自然検索結果 1 位に表
ence, Vol.60, No.6, pp.1392–1412 (2014)
6 広告単価の指標で,顧客獲得
1 人あたりの支払額のこと.