スライド 1 - OneDrive

1
多腕バンディット問題と
決定的・確率的アルゴリズム
本多淳也
東京大学 新領域創成科学研究科 助教
ELC 計算量理論の秋学校
2014/9/24-26
2
自己紹介
• 情報理論と機械学習の研究やってます
• 主な道具:
– 情報理論(データ圧縮・誤り訂正……)
• 確率論
• 離散最適化
– 機械学習(多腕バンディット問題)
• 確率論
• 位相論
• 連続最適化
多腕バンディット問題
(multiarmed bandit problem)
• 複数台のスロットマシンをプレイするギャンブラーのモデル
• 得られる報酬の確率分布は台によって異なる
• なるべく期待値の高い台をプレイしたい
問題:
• ある程度の回数プレイしないと台の良し悪しが分からない
• 報酬の期待値の低い台を何度もプレイすると損
3
4
例:Web広告
• サイトの訪問者に表示する広告をオンラインで選択する
– クリック率の高い広告を表示することが望ましい
– が,事前にはクリック率は分からない
製品A
製品B
製品C
表示回数 500回
表示回数 100回
表示回数 20回
クリック率 10%
クリック率 8%
クリック率 5%
– 製品BやCを今後どの程度表示してみるべきか?
5
歴史
• 研究自体は1930年ごろからある
– 農地への作付物の選択
– 新薬や新療法の検証 (cf. one-armed bandit)
• 最近になって急速に応用範囲が拡大
– 囲碁などのゲーム木探索 (UCTアルゴリズム)
– 広告・ニュース記事推薦
– ネットワークルーティング
– 学習アルゴリズムの選択や最適化パラメータのチューニング
6
概要
• バンディット問題の定式化と理論限界
• 決定的アルゴリズムによる漸近最適戦略の構成
• 双対な決定的アルゴリズムについて
• 確率的アルゴリズムへの発展
• バンディットのその他の定式化の概説
7
概要
• バンディット問題の定式化と理論限界
• 決定的アルゴリズムによる漸近最適戦略の構成
• 双対な決定的アルゴリズムについて
• 確率的アルゴリズムへの発展
• バンディットのその他の定式化の概説
8
確率的バンディット
•
•
•
•
•
≋ 台のスロットマシン
各台からの報酬は0か1,期待値 ⊹≩ のベルヌーイ分布にしたがう
トータル ≮ 回のプレイで報酬を最大化したい
⊹⊤ ∽ ≭≡≸≩ ⊹≩
(仮に)期待値最大の台を知っていた場合の報酬期待値: ≮⊹⊤
≘
実際にそれぞれ台 ≩ を ≔≩ ∨≮∩ 回プレイした場合:
⊹≩≔≩∨≮∩
≩
≘
≘
≲≥≧≲≥≴∨≮∩ ∽ ∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩ ∽ ⊢≩≔≩∨≮∩
≩
≩∺⊢≩∾∰
⊢≩ ∽ ⊹⊤ ⊡ ⊹≩
– これを最小化したい
• 期待値の損失 (regret) は
9
理論限界
• 全ての戦略をカバーしようとすると意味のある結果が出ない
⊹ ∽ ∰∺∵∻ ∰∺∴∻ ⊢ ⊢ ⊢ ∻ ∰∺∴
どんな ≦⊹≩ ≧ の組み合わせに対しても最低限の性能を発揮する
– 例:「何も考えずに台1を選び続ける」という戦略は、例えば
という場合には最適になってしまう
≩
•
戦略のみを考えたい
≦⊹≩≧ と ≡ ∾ ∰ に対して
≅≛≲≥≧≲≥≴∨≮∩≝ ∽ ≯∨≮≡∩
• (今回の) 「最低限の性能」: 任意の
∬
≩ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮≡∩
任意のベストでない台 で
10
•
理論限界の簡易的な導出
目標: ベストでない台のプレイ回数 ≔≩ ∨≮∩ が sub-polynomial
• 現時点でベストでなさそうな台をどの時点で打ち切ってよいか?
≔≩∨≮∩
標本平均 ⊹
≞≩
プレイ数
台1
台2
450
50
0.2
0.1
– 台1の期待値はおそらく0.2程度で間違いなさそう
– 台2の期待値は実は0.2以上かも?
• 仮に台2の真の期待値が0.2以上だとしたら標本平均が
0.1以下になる確率はどれくらいか?
11
理論限界の簡易的な導出
⊹≮ に対して
Hoeffding の不等式: ≘≩ ∲ ≛∰∻ ∱≝ とその平均値 ≘
∲≮
⊡
∲
⊢
⊹
≐≲≛≘≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊷ ≥
≔≩∨≮∩
標本平均 ⊹
≞≩
プレイ数
≮ ⊡ ≮∲
≮∲
台1
台2
0.2
0.1
≥≸≰∨⊡∰∺∰∲≮ ∩
台2のプレイを打ち切った場合の損失への寄与は
∨≮ ⊡ ≮∲∩ ≥≸≰∨⊡∰∺∰∲≮∲∩ ⊼ ≮ ≥≸≰∨⊡∰∺∰∲≮∲∩
に比例
≮∲ ⊸ ∨∵∰ ⊡ ⊲∩ ≬≯≧ ≮ でないと多項式オーダーに
• 台2の真の期待値が0.2以上だったとしても上記ケースは
最大
∲ 程度の確率で起こりうる
•
12
•
•
タイトな理論限界
∲≮
⊡
∲
⊢
⊹
Hoeffding の不等式: ≐≲≛≘≮ ⊷ ≅≛≘≩ ≝ ⊡ ⊢≝ ⊷ ≥
⊡
∨
∱
⊲
∩
≬
≯
≧
≮
– 導かれる理論限界: ≅≛≔≩ ∨≮∩≝ ⊸
∲⊢∲≩
Chernoff-Hoeffding の不等式: ≘≩ ∲ ≦∰∻ ∱≧∻ ≅≛≘≩ ≝ ∽ ⊹ のとき
≐≲≛≘⊹≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊷ ≥⊡≮≄∨⊹⊡⊢≫⊹∩
– 指数部: Kullback-Leibler ダイバージェンス
∰
∰
⊡
⊹
∱
⊹
∰
∰
∰
≄∨⊹ ≫⊹∩ ∽ ⊹ ≬≯≧ ⊹ ∫ ∨∱ ⊡ ⊹ ∩ ≬≯≧ ∱⊡⊹
⊡
∨
∱
⊲
∩
≬
≯
≧
≮
– 導かれる理論限界: ≅≛≔≩ ∨≮∩≝ ⊸
≄∨⊹≩≫⊹⊤∩
[Lai & Robbins, 1985]
13
概要
• バンディット問題の定式化と理論限界
• 決定的アルゴリズムによる漸近最適戦略の構成
• 双対な決定的アルゴリズムについて
• 確率的アルゴリズムへの発展
• バンディットのその他の定式化の概説
14
•
漸近最適戦略の構成
理論限界: ≔≩ ∨≮∩ ⊸ ≏∨≬≯≧ ≮∩
≩
– ベストでない台 を引いてしまう1ラウンドごとの確率は
≏∨∱∽≮∩
≏∨∱∽≮∩ くらいの確率でダメそうな台を引く戦略にすると
– 逆に
良さそう
∱∽≮
• UCB 戦略: 有意水準
での信頼区間の上限 (Upper
Confidence Bound) が最大になる台をプレイ
– Hoeffding の不等式から導かれる UCB (Auer et al., 2002):
∲ ≔≩ ∨≮∩
⊡
⊡
∲
∨
⊹
≞
⊹
∩
≩
⊸ ∱∽≮≧
≕≃≂≩ ∽ ≭≡≸≦⊹ ∺ ≥
≳
≬
≯
≧
≮
∽ ⊹≞≩ ∫ ∲≔≩∨≮∩
15
最適性の証明
≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲ の場合を考える
≞∱∻ ⊹≞∲ いずれも概ね収束 (寄与 ≏∨≬≯≧ ≮∩ )
– ケース1: ⊹
– ケース2: ⊹
≞∲ は収束・台1が偶然悪い性能 (寄与 ≏∨∱∩)
• とりあえず
ケース1
⊹∱
⊹∲
ケース2
⊹∱
⊹≞∱
⊹∲
その他
⊹∱ ⊹≞∲
⊹∲
16
ケース1:収束後の挙動
•
•
≳
≬
≯
≧
≮
UCB スコア: ≕≃≂≩ ∽ ⊹
≞≩ ∫ ∲≔≩∨≮∩
今回のケースのもとで台1のスコアは ⊹∱ 以上
≞∲ ⊼ ⊹∲ ∼≳⊹∱ の台2がスコアで上回る必要条件は
標本平均 ⊹
≬
≯
≧
≮
⊹∱ ∼ ⊹∲ ∫ ∲≔∲∨≮∩
⊹∱
≬
≯
≧
≮
⊹
∲
∬ ≔∲∨≮∩ ⊷ ∲∨⊹∱ ⊡ ⊹∲∩∲
– 収束後に台2を引く回数は理論限界に収束
17
•
ケース2:収束前の挙動
≔∱∨≮∩ ∽ ≮∱ のとき……
∲
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∱
∱
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥
– ⊹
⊹∱
⊹ ∫ ⊹⊱
⊹∲
18
•
ケース2:収束前の挙動
≔∱∨≮∩ ∽ ≮∱ のとき……
∲
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∱
∱
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥
– ⊹
≲ ≬≯≧ ≮
∲
⊡
∲
≮
∨
⊹
⊹
∩
∱
∲
⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥
– 台2のプレイ数が十分大きい場合に台1がプレイされる条件は
⊹∱
⊹ ∫ ⊹⊱
⊹∲
19
•
ケース2:収束前の挙動
≔∱∨≮∩ ∽ ≮∱ のとき……
∲
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∱
∱
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥
– ⊹
≲ ≬≯≧ ≮
∲
⊡
∲
≮
∨
⊹
⊹
∩
∱
∲
⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥
– ⊹
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となるラウンド数の期待値は高々
⊹
∱
∲
∲
∲
⊡
⊡
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∨
⊹
⊹
∩
⊡
⊡
∲
≮
∨
⊢
⊱
∩
∨
∩
∱
∱
∲
∱
∲
⊷≥
≥
⊢∲
⊹∲
⊹ ∫ ⊹⊱
– 台2のプレイ数が十分大きい場合に台1がプレイされる条件は
20
•
ケース2:収束前の挙動
≔∱∨≮∩ ∽ ≮∱ のとき……
∲
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∱
∱
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥
– ⊹
≲ ≬≯≧ ≮
∲
⊡
∲
≮
∨
⊹
⊹
∩
∱
∲
⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥
– ⊹
≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となるラウンド数の期待値は高々
⊹
∱
∲
∲
∲
⊡
⊡
⊡
⊡
⊡
∲
≮
∨
⊹
⊹
⊱
∩
∨
⊹
⊹
∩
⊡
⊡
∲
≮
∨
⊢
⊱
∩
∨
∩
∱
∱
∲
∱
∲
⊷≥
≥
⊢∲
⊹
∲
• ⊹
≞∱ ∼ ⊹∲ となるラウンド数の期待値は高々
∱
≘
∱ ≥⊡≮∱∨⊢∲⊡⊱∩∲ ∽ ≏∨∱∩
⊹
∫
⊱
⊹
⊱ ≮∱∽∱
– 台2のプレイ数が十分大きい場合に台1がプレイされる条件は
21
概要
• バンディット問題の定式化と理論限界
• 決定的アルゴリズムによる漸近最適戦略の構成
• 双対な決定的アルゴリズムについて
• 確率的アルゴリズムへの発展
• バンディットのその他の定式化の概説
22
双対な漸近最適戦略
• (Chernoff-Hoeffding の不等式に基づく) UCB戦略:
≕≃≂≩ ∽ ≭≡≸≦⊹ ∺ ≥⊡≔≩∨≮∩≄∨⊹≞≩≫⊹∩ ⊸ ∱∽≮≧
– 尤度 ∱∽≮ 以上という条件のもとで期待値最大の台を選ぶ
理論限界は別の戦略でも達成可能 (Honda & Takemura, 2010)
• MED 戦略 (Minimum Empirical Divergence):
≬
≯
≧
≮
⊤∩
⊡
≫
≔
∨
≮
∩
≄
∨
⊹
≞
⊹
≞
≩
≩
⊸ ∱∽≮
≔≩∨≮∩ ⊷ ≄∨⊹≞≩≫⊹≞⊤∩ ∬ ≥
を満たす台があればプレイ,なければ現時点でベストな台を選択
– 期待値 ⊹
≞⊤ 以上となる尤度が一定値を超える台を選ぶ
現時点でベストな標本平均
23
漸近最適戦略の間の関係1
より一般のパラメーター空間 上のモデル ⊵≩ ∲ ⊣ に対して
• UCB 戦略での計算:
≭≡≸≩≭≩≺≥⊵ ≅∨⊵∩
≞
⊡
≔
∨
≮
∩
≄
∨
⊵
≩
≩ ≫⊵∩ ⊸ ∱∽≮
≳≵≢≪≥≣≴ ≴≯ ≥
線形関数
• MED 戦略での計算:
≞
⊡
≔
∨
≮
∩
≄
∨
⊵
≩
≩ ≫⊵ ∩
≭≡≸≩≭≩≺≥⊵ ≥
有理関数
≳≵≢ ≪≥≣≴ ≴≯ ≅∨⊵∩ ⊸ ⊹≞⊤
– どちらも凸最適化だが一般に後者の計算が簡単
24
漸近最適戦略の間の関係2
• 性能は UCB 戦略ほうが良い場合が多い
–
≋ ∽ ∳∻ ⊹≩ ∽ ∰∺∰∵∻ ∰∺∰∲∻ ∰∺∰∱ の場合:
MED
UCB
≬
≯
≧
≮
原因:MED は ≔≩ ∨≮∩ ⊷
を満たす台をすぐプレイ
⊤
≄∨⊹≞≩≫⊹≞ ∩
– 小さい ≮ ではこの理論限界はほとんど無意味
[Garivier & Cappe, 2012]
•
25
性能向上のための課題点
• UCB戦略とMED戦略は漸近的にはどちらも理論限界を達成
≮
• が,構成において理論限界の値を前提にしているために有限の
ではギャップが大きくなる
≏∨∱∽≮∩ で期待値を見積もればいい
≬
≯
≧
≮
– MED 戦略: ベストでなさそうな台を
回くらい
⊤
≄
∨
⊹
≞
≩≫⊹≞ ∩
選べばいい
– UCB 戦略: 有意水準
• いちおう,高精度な確率評価を使えば性能の改善は可能:
例えば Chernoff-Hoeffding の不等式は次のように精緻化される
≐≲≛≘⊹≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊼ ≃ ≮⊡∱∽∲≥⊡≮≄∨⊹⊡⊢≫⊹∩
26
昨日の話
• 多腕バンディット問題:知識の探索と活用のジレンマ
• 理論限界: ベストでない台を
≏∨≬≯≧ ≮∩ 回は選ぶ必要アリ
• 漸近最適戦略:
– UCB: 確率制約のもとで期待値を最大化
– MED: 期待値制約のもとで確率を最大化
• 漸近的な性能は同等だが,計算量・有限回数での性能が異なる
– 漸近論で切り捨てた部分の大きさが性能差に表れている
今日の話:
• 理論限界をベースにせず直接小さい損失を目指すアルゴリズム
の構成→ランダムアルゴリズムへ
• バンディットのその他の定式化
27
•
ベイズの観点の導入
頻度論: ⊹≩ ∽ ∰∺∵∻ ∰∺∱ という世界と ⊹≩ ∽ ∰∺∲∻ ∰∺∳ という世界は
≦⊹≩≧は何らかの確率分布 ⊼∨⊹≩∩ から
全く別物で比較不能
• ベイズ統計: パラメーター
生成されている
• ベイズの観点では各台について「真の期待値」の確率分布が
求まる
⊹ ⊻ ≵≮≩≦ ∨∰∻ ∱∩,観測 ≔≩∨≮∩ ∽ ∱∰∻ ⊹≞≩ ∽ ∰∺∶
⊼∨⊹≩≪≈≩∨≮∩∩ ∽ ≂≥≴≡∨∷∻ ∵∩
– 例: 事前分布 ≩
このとき事後分布は
28
•
ベイズの観点の導入
頻度論: ⊹≩ ∽ ∰∺∵∻ ∰∺∱ という世界と ⊹≩ ∽ ∰∺∲∻ ∰∺∳ という世界は
≦⊹≩≧は何らかの確率分布 ⊼∨⊹≩∩ から
全く別物で比較不能
• ベイズ統計: パラメーター
生成されている
• ベイズの観点では各台について「真の期待値」の確率分布が
求まる
⊹ ⊻ ≵≮≩≦ ∨∰∻ ∱∩,観測 ≔≩∨≮∩ ∽ ∸∰∻ ⊹≞≩ ∽ ∰∺∶
⊼∨⊹≩≪≈≩∨≮∩∩ ∽ ≂≥≴≡∨∴∹∻ ∳∳∩
– 例: 事前分布 ≩
このとき事後分布は
29
Thompson Sampling
• ベイズ統計の観点では各台について「真のパラメータ」
事前・事後確率分布が定まる
≩
⊹≩ の
≩
• それぞれの台 について「台 が期待値ベストである事後確率」
も定まる
• Thompson sampling (以下TS):
各台がベストである事後確率にしたがって台をランダムに選択
– Thompson (1933) にちなむ
– 経験的には高性能がいい
• 事前分布のとり方にもあまり依存しない
– 複雑なモデルにもとりあえず実装可能
– 最近になって理論解析が整備
30
TS の性能
• UCB, MED と同じく理論限界を達成可能
– ベルヌーイ分布モデル (Agrawal & Goyal, 2013)
– 1変数指数型分布族 (Korda et al., 2013)
– 平均・分散未知の正規分布 (Honda & Takemura, 2014)
• 大抵の場合にUCBよりも高性能
UCB
TS
[Kaufmann et al, 2012]
31
•
•
TS における計算について
各台の真の期待値の事前分布 ⊼ ∨⊹≩ ∩ を設定
観測 ≸≩ のもとの事後分布: ⊼ ∨⊹≩ ≪≸≩ ∩ ∯ ⊼ ∨⊹≩ ∩≐ ∨≸≩ ≪⊹≩ ∩
⊼∨⊹≩∩ ∽ ≵≮≩≦ ∨∰∻ ∱∩
• その台が最適である事後確率に従って台をランダムに選択
– 例: 事前分布
台1
台2
台3
これまでの結果
1,0,1,1
0,0
1,0,1
期待値ベストな
事後確率
58%
3%
39%
⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩
32
•
•
TS における計算について
各台の真の期待値の事前分布 ⊼ ∨⊹≩ ∩ を設定
観測 ≸≩ のもとの事後分布: ⊼ ∨⊹≩ ≪≸≩ ∩ ∯ ⊼ ∨⊹≩ ∩≐ ∨≸≩ ≪⊹≩ ∩
⊼∨⊹≩∩ ∽ ≵≮≩≦ ∨∰∻ ∱∩
• その台が最適である事後確率に従って台をランダムに選択
– 例: 事前分布
台1
台2
台3
これまでの結果
1,0,1,1
0,0
1,0,1
期待値ベストな
事後確率
58%
3%
39%
⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩
実際に事後分布から計算するのは大変
33
ランダムアルゴリズムの利点
• TS ではそれぞれの台を「その台がベストである事後確率」に
したがってランダムに選択
– この確率は計算困難
⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹∰≪ ≪≦≸≩≧∩
∱
≚∱
≚ ⊵≩
≙
∽ ∰ ⊼∨⊵≩≪≸≩∩ ≀ ∰ ⊼∨⊵≪ ≪≸≪ ∩≤⊵≪ ≁ ≤⊵≩
≪∶∽≩
⊹≩ ∽ ⊵≩ となる確率 他の台で ⊹≪ ⊷ ⊵≩ となる確率
– この確率は(例えば)0.0001以下だったりするのでモンテカル
ロ法による近似計算も意外に面倒
34
ランダムアルゴリズムの利点
• TS ではそれぞれの台を「その台がベストである事後確率」に
したがってランダムに選択
– この確率は計算困難
⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹∰≪ ≪≦≸≩≧∩
∱
≚∱
≚ ⊵≩
≙
∽ ∰ ⊼∨⊵≩≪≸≩∩ ≀ ∰ ⊼∨⊵≪ ≪≸≪ ∩≤⊵≪ ≁ ≤⊵≩
≪∶∽≩
⊹≩ ∽ ⊵≩ となる確率 他の台で ⊹≪ ⊷ ⊵≩ となる確率
⊵
⊼ ∨ ⊹ ≪≸ ∩
– 実際にはこの確率を計算する必要はない:
各台から乱数 ≩ を事後分布
≩ ≩ にしたがって生成して
≩ が最大となった台 をプレイすれば同等な動作となる
⊵
≩
35
TS の実装
• 「事後分布のもとでの各台が期待値ベストな確率」は実際には
計算が困難
⊼∨⊹ ≪≸ ∩
⊵
• 単に事後分布
≩ ≩ にしたがって ≩ をそれぞれランダムに
サンプリングし,それが最大になった台を選択すればよい
台1
台2
台3
これまでの結果
1,0,1,1
0,0
1,0,1
事後分布から
のサンプル
0.78
0.16
0.68
⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩
36
TS の実装
• 「事後分布のもとでの各台が期待値ベストな確率」は実際には
計算が困難
⊼∨⊹ ≪≸ ∩
⊵
• 単に事後分布
≩ ≩ にしたがって ≩ をそれぞれランダムに
サンプリングし,それが最大になった台を選択すればよい
これまでの結果
台1
台2
台3
1,0,1,1,0
0,0
1,0,1
⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩
事後分布から
のサンプル
37
TS の実装
• 「事後分布のもとでの各台が期待値ベストな確率」は実際には
計算が困難
⊼∨⊹ ≪≸ ∩
⊵
• 単に事後分布
≩ ≩ にしたがって ≩ をそれぞれランダムに
サンプリングし,それが最大になった台を選択すればよい
台1
台2
台3
これまでの結果
1,0,1,1,0
0,0
1,0,1
事後分布から
のサンプル
0.67
0.19
0.81
⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩
38
TS の実装
• 「事後分布のもとでの各台が期待値ベストな確率」は実際には
計算が困難
⊼∨⊹ ≪≸ ∩
⊵
• 単に事後分布
≩ ≩ にしたがって ≩ をそれぞれランダムに
サンプリングし,それが最大になった台を選択すればよい
これまでの結果
台1
台2
台3
1,0,1,1,0
0,0
1,0,1,1
⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∴∻ ∲∩
事後分布から
のサンプル
39
TS の実装
• 「事後分布のもとでの各台が期待値ベストな確率」は実際には
計算が困難
⊼∨⊹ ≪≸ ∩
⊵
• 単に事後分布
≩ ≩ にしたがって ≩ をそれぞれランダムに
サンプリングし,それが最大になった台を選択すればよい
台1
台2
台3
これまでの結果
1,0,1,1,0
0,0
1,0,1,1
事後分布から
のサンプル
0.58
0.61
0.77
⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∴∻ ∲∩
40
TS の解釈
• 「期待値ベストでない台を選んだ回数の最小化」を考える
≩
≰≩ ∽ ⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹≪ ≪≦≸≩≧∩
• 台 の損失への寄与はどれくらいか?
– この台がベストな事後確率:
– ベストでない台の選択回数の期待値は
∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∫ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩
台 ≩ がベストでない場合 台 ≩ がベストな場合
– これを最小化したいが,実際には ≰≩ は過去のプレイ結果にも
依存するのでよく分からない
– 代わりに2つの項をバランスさせることを考える
41
≩
TS の解釈
• 台 の損失への寄与は
∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∫ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩
台 ≩ がベストでない場合 台 ≩ がベストな場合
∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∽ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩ ∬ ≮≩ ∽ ≰≩≮
となるとき
– 台 ≩ を計 ≮ 回中 ≰≩ ≮ 回プレイしているのが理想的な状態
• が,実際には ≰≩ の計算は困難
– 確率 ≰≩ で台 ≩ をランダムにプレイすればよい
• これらの項がバランスするのは
→ Thompson sampling
42
Thompson sampling のチューニング
• 事前分布によってある程度探索度合いを調整できる
– UCB タイプの戦略ほど大きな差は出ない
15
– 複数パラメータの場合は事前分布の選択が重要な場合も
   1 2 (uniform)
• 分散未知の正規分布モデル
• 試行100回の平均
(reference)
regret
10
  1 2 (Jeffreys)
asymptotic bound
5
⊮ ∽ ∱∽∲
0
•
∨⊹∱∻ ⊹∲∩ ∽ ∨∱∻ ∰∩
∨⊾∱∻ ⊾∲∩ ∽ ∨∱∺∰∻ ∰∺∵∩
事前分布 ⊼ ∨⊹≩ ∻ ⊾≩ ∩ ∯ ⊾ ⊡∱⊡∲⊮
– ⊮ が大きいと探索減
0
1
10
100
plays
1000
10000
43
Thompson sampling のチューニング
• 事前分布によってある程度探索度合いを調整できる
– UCB タイプの戦略ほど大きな差は出ない
15
– 複数パラメータの場合は事前分布の選択が重要な場合も
   1 2 (uniform)
• 分散未知の正規分布モデル
• 試行10000回の平均
(reference)
5
regret
10
  1 2 (Jeffreys)
asymptotic bound
0
•
∨⊹∱∻ ⊹∲∩ ∽ ∨∱∻ ∰∩
∨⊾∱∻ ⊾∲∩ ∽ ∨∱∺∰∻ ∰∺∵∩
事前分布 ⊼ ∨⊹≩ ∻ ⊾≩ ∩ ∯ ⊾ ⊡∱⊡∲⊮
– ⊮ が大きいと探索減
0
⊮ ∽ ∱∽∲
1
10
100
plays
1000
10000
44
概要
• バンディット問題の定式化と理論限界
• 決定的アルゴリズムによる漸近最適戦略の構成
• 双対な決定的アルゴリズムについて
• 確率的アルゴリズムへの発展
• バンディットのその他の定式化の概説
45
Best arm identification (最適腕識別)
• 通常のバンディット: 累積報酬の最大化 (損失: regret)
≎
• 最適腕識別: 既定回数( 回)プレイした後に期待値最大の
台をなるべく高確率で判定したい
∱⊡⊱
– 亜種: ベストな台を確率
以上で判別するための
試行回数を最小化 (Hoeffding race, Bernstein race)
• 知識の「活用」が必要なく純粋な「探索」の問題
– ある種の能動学習の問題
– 解析等の方法は regret 最小化の場合とよく似ている
• 全ての台を一様に選ぶと失敗確率
≥⊡≏∨≎∽≋∩
46
よくある間違い
• 深く考えずに regret 最小化のためのアルゴリズムを使ってしまう
≏∨≬≯≧ ≎ ∩
– 通常の UCB などのアルゴリズムは期待値最大でない台を
回程度しかプレイしない
→ プレイ数の偏りが大きすぎる
• 例: マシン数2・分散が等しい場合
≥≸≰∨⊡≎ ⊢ ∽∴⊾ ∩
– 明らかに最も高精度となるのは両方の台を同じ回数プレイす
∲ ∲ 程度)
ること (このとき誤り率は
≏∨≬≯≧ ≎ ∩
– が,報酬最大化のためのアルゴリズムでは良くなさそうな台の
プレイを
回程度で打ち切ってしまう
(誤り率
)
≐≯≬≹∨≎ ∩
47
最適腕識別のためのアルゴリズム
∱∽≮ ≥≸≰∨⊡≏∨≎ ∩∩
• UCB 等のアルゴリズムは有意水準を
から
にすることで容易に修正可能
(Audibert, Bubeck & Munos 2010 ほか)
≰ ≥≸≰∨⊡≏∨≎ ∩∩
• TS は有意水準に対応するものを自由に設定できない
– 例えば「期待値ベストである事後確率 ≩ が
より大きくなるものを選択」といった修正は考えられるが,
≩ の計算は大変
≰
– ただし,モデルが非常に複雑になるとそもそも UCB のほうも
信頼区間の構成が難しくなる場合があり,そのような場合に
は愚直に TS を用いても相対的に高性能となる場合がある
48
バンディット問題の分類
• 報酬の性質
– stochastic bandit (確率的)
– adversarial bandit (敵対的)
• 目的関数
– 報酬最大化 (regret 最小化)
– 期待値ベストの台の判定 (best arm identification)
• その他の拡張
– linear bandit
– contextual bandit (context: 閲覧履歴・エキスパート…)
49
≴
時間発展のある場合
• 時刻 とともに各台の報酬分布が変化する (ニュース推薦など)
⊶
≮ ⊵
≘
≲≥≧≲≥≴∨≮∩ ∽ ≩∲≦≭∱∻⊢≡⊢⊢≸∻≋≧≦⊹≩≧ ⊡ ⊹≉≴
• 時間発展のない場合の regret :
≴∽∱
⊶
≮ ⊵
≘
≲≥≧≲≥≴∨≮∩ ∽ ≩∲≦≭∱∻⊢≡⊢⊢≸∻≋≧≦⊹≩∻≴≧ ⊡ ⊹≉≴∻≴
• 時間発展のある場合:
≴∽∱
– 時間発展のない場合に比べて本質的に難しい
≭
≰
≏∨ ≮∩
– 例) 確率分布が途中で 回だけ変化する場合:
regret が
に (Garivier & Moulines, 2011)
50
•
敵対的バンディット
各マシンからの報酬 ≸≩∻≴ ∲ ≛∰∻ ∱≝ が adversary により敵対的に
決められる
1回目
2回目
3回目
4回目
累計
台1
0.8
0.5
0.2
0.3
1.8
台2
0.3
0.9
0.1
0.8
2.1
台3
0.4
0.1
0.4
0.6
1.5
• Regret = 同じ台を選び続けた場合の最大報酬 - 実際の報酬
= 2.1 - 1.5 = 0.6
51
Exp3 アルゴリズム
• Exponential-weight algorithm for Exploration and Exploitation
(Auer, Cesa-Bianchi & Schapire, 2001)
• 以下の確率に従って台をランダムに選択
≩ の累積報酬の推定値 台 ≩ の平均報酬の推定値
≰≩∻≴ ∯ ≥⊴≴≲≞≩ ∽ ≥∨≴⊴≴∩⊹≞≩
≰
– ≏∨ ≮≋ ≬≯≧ ≋ ∩ の平均 regret を達成
Softmax 法 ≰≩∻≴ ∯ ≥⊹≞≩ ∽⊿ の一種
– 推定期待値が低い台も温度パラメータ ⊿ に応じた低確率で
台
•
選ばれる
52
•
Linear bandit
取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合)
≤ 次元のベクトルをスロットマシンとして選択
報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ)
– プレイごとに
•
• 例: ネットワークルーティング
≔
⊵∳ ⊵∴ ⊵∵
⊵∱
≓
⊵∲
⊵∶
∰∱∱ ∰∱∱ ∰∱∱ ∰∰∱ ∰∰∱ ∰∰∱ ∰∰∱
≂≂∰≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∱≃≃ ≂≂∱≃≃ ≂≂∱≃≃ ≂≂∰≃≃
≂≂∱≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∱≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∰≃≃
≡≴ ∽ ≂≂≂∰≃≃≃ ∻ ≂≂≂∱≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∱≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∰≃≃≃
≂≀∰≃≁ ≂≀∰≃≁ ≂≀∱≃≁ ≂≀∰≃≁ ≂≀∰≃≁ ≂≀∱≃≁ ≂≀∰≃≁
∰ ∰ ∰ ∰ ∰ ∰ ∱
53
•
Linear bandit
取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合)
≤ 次元のベクトルをスロットマシンとして選択
報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ)
– プレイごとに
•
• 例: Web デザイン:
∰ 広 告の 大き さ ∱
≂≂フォントサイズ≃≃
≡≴ ∽ ≂≂≀ レイアウト ≃≃≁
∮∮
54
•
Linear bandit
取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合)
≤ 次元のベクトルをスロットマシンとして選択
報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ)
UCB に似たアルゴリズムにより ≲≥≧≲≥≴ ∽ ≏∨≤ ≬≯≧ ≮∩ を
高確率で達成可能 (Dani, Hayes & Kakade, 2008)
– 行動の候補数 ≪≄ ≪ が大きくても(あるいは無限大でも)
– プレイごとに
•
•
パラメータの次元数のみで regret が抑えられる
55
•
Contextual bandit
各試行ごとに補助情報 (context) ≸≴ が与えられる
– 性別・年齢・位置情報・閲覧履歴……,またはエキスパート
の助言等
≙≩ ⊻ ≦ ∨ ⊢ ≪⊵≩∻ ≸≴∩
– 例: ロジスティック回帰モデル
∱
≐≲≛≙≩ ∽ ∱≪≸≴≝ ∽ ∱ ∫ ≥⊵≩≔≸≴
≩
• 台 を選んだ場合の報酬:
• bound が保証されるようなものはあまりないが ,Thompson
Sampling が高性能
56
Contextual bandit における TS
• Contextual bandit
(ユーザ情報・閲覧履歴)
• クリック率 (CTR: Click
Through Rate) の比較
• ロジスティック回帰モデル
[Chapelle & Li, 2011]
57
その他の定式化
• Combinatorial bandit
– 単位時間ごとに複数本の腕(広告等)を選択
– 単に期待値の和を最大化する・多様性を考慮する,等の
目的の設定
• Dueling bandit
– 単位時間ごとに2つの候補を選択して優劣のみが提示される
(映画の好み等)
• Gaussian process 上の bandit
– 腕の候補が大量 or 無限個ある (パラメータの最適化等)
といった場合で最近成功している
58
まとめ
• 多腕バンディット問題: 情報の探索と活用のジレンマ
• UCB や MED といった決定的アルゴリズムによって理論限界を
漸近的に達成可能
– 必ずしも有限のプレイ数で高性能とは限らない
• Thompson sampling は有限のプレイ数でも高性能
– Contextual bandit 等の複雑なモデルにも実装可能
– 理論的には扱いにくい(怪しげな挙動を示す場合もある)
– チューニングが不要なぶん融通がきかない
(最適腕識別には使えない)
59
References
概説
• J. Vermorel and M. Mohri, “Multi-Armed Bandit Algorithms and
Empirical Evaluation,” ECML2005.
• S. Scott, “A modern Bayesian look at the multi-armed bandit,” Applied
Stochastic Models in Business and Industry, 2010.
• S. Bubeck and Nicolo Cesa-Bianchi, “Regret Analysis of Stochastic and
Nonstochastic Multi-armed Bandit Problems,” Fundations and Trends in
machine Learning, 2012.
個別の話題
• E. Kaufmann, N. Korda and R. Munos, “Thompson sampling: an
asymptotically optimal finite-time analysis”, ALT2012.
60
References
• J. Honda and A. Takemura, “An Asymptotically Optimal Bandit
Algorithm for Bounded Support Models”, COLT2010.
• J. Audibert, S. Bubeck and R. Munos, “ Best Arm Identification in MultiArmed Bandits”, COLT2010.
• Y. Gai, B. Krishnamachari and R. Jain, “Learning Multiuser Channel
Allocations in Cognitive Radio Networks: A Combinatorial Multi-Armed
Bandit Formulation”, IEEE DySPAN 2010.
• N. Srinivas, A. Krause, S. Kakade, and M. Seeger, “InformationTheoretic Regret Bounds for Gaussian Process Optimization in the
Bandit Setting”, IEEE Transactions on Information Theory, 2012.