1 多腕バンディット問題と 決定的・確率的アルゴリズム 本多淳也 東京大学 新領域創成科学研究科 助教 ELC 計算量理論の秋学校 2014/9/24-26 2 自己紹介 • 情報理論と機械学習の研究やってます • 主な道具: – 情報理論(データ圧縮・誤り訂正……) • 確率論 • 離散最適化 – 機械学習(多腕バンディット問題) • 確率論 • 位相論 • 連続最適化 多腕バンディット問題 (multiarmed bandit problem) • 複数台のスロットマシンをプレイするギャンブラーのモデル • 得られる報酬の確率分布は台によって異なる • なるべく期待値の高い台をプレイしたい 問題: • ある程度の回数プレイしないと台の良し悪しが分からない • 報酬の期待値の低い台を何度もプレイすると損 3 4 例:Web広告 • サイトの訪問者に表示する広告をオンラインで選択する – クリック率の高い広告を表示することが望ましい – が,事前にはクリック率は分からない 製品A 製品B 製品C 表示回数 500回 表示回数 100回 表示回数 20回 クリック率 10% クリック率 8% クリック率 5% – 製品BやCを今後どの程度表示してみるべきか? 5 歴史 • 研究自体は1930年ごろからある – 農地への作付物の選択 – 新薬や新療法の検証 (cf. one-armed bandit) • 最近になって急速に応用範囲が拡大 – 囲碁などのゲーム木探索 (UCTアルゴリズム) – 広告・ニュース記事推薦 – ネットワークルーティング – 学習アルゴリズムの選択や最適化パラメータのチューニング 6 概要 • バンディット問題の定式化と理論限界 • 決定的アルゴリズムによる漸近最適戦略の構成 • 双対な決定的アルゴリズムについて • 確率的アルゴリズムへの発展 • バンディットのその他の定式化の概説 7 概要 • バンディット問題の定式化と理論限界 • 決定的アルゴリズムによる漸近最適戦略の構成 • 双対な決定的アルゴリズムについて • 確率的アルゴリズムへの発展 • バンディットのその他の定式化の概説 8 確率的バンディット • • • • • ≋ 台のスロットマシン 各台からの報酬は0か1,期待値 ⊹≩ のベルヌーイ分布にしたがう トータル ≮ 回のプレイで報酬を最大化したい ⊹⊤ ∽ ≭≡≸≩ ⊹≩ (仮に)期待値最大の台を知っていた場合の報酬期待値: ≮⊹⊤ ≘ 実際にそれぞれ台 ≩ を ≔≩ ∨≮∩ 回プレイした場合: ⊹≩≔≩∨≮∩ ≩ ≘ ≘ ≲≥≧≲≥≴∨≮∩ ∽ ∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩ ∽ ⊢≩≔≩∨≮∩ ≩ ≩∺⊢≩∾∰ ⊢≩ ∽ ⊹⊤ ⊡ ⊹≩ – これを最小化したい • 期待値の損失 (regret) は 9 理論限界 • 全ての戦略をカバーしようとすると意味のある結果が出ない ⊹ ∽ ∰∺∵∻ ∰∺∴∻ ⊢ ⊢ ⊢ ∻ ∰∺∴ どんな ≦⊹≩ ≧ の組み合わせに対しても最低限の性能を発揮する – 例:「何も考えずに台1を選び続ける」という戦略は、例えば という場合には最適になってしまう ≩ • 戦略のみを考えたい ≦⊹≩≧ と ≡ ∾ ∰ に対して ≅≛≲≥≧≲≥≴∨≮∩≝ ∽ ≯∨≮≡∩ • (今回の) 「最低限の性能」: 任意の ∬ ≩ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮≡∩ 任意のベストでない台 で 10 • 理論限界の簡易的な導出 目標: ベストでない台のプレイ回数 ≔≩ ∨≮∩ が sub-polynomial • 現時点でベストでなさそうな台をどの時点で打ち切ってよいか? ≔≩∨≮∩ 標本平均 ⊹ ≞≩ プレイ数 台1 台2 450 50 0.2 0.1 – 台1の期待値はおそらく0.2程度で間違いなさそう – 台2の期待値は実は0.2以上かも? • 仮に台2の真の期待値が0.2以上だとしたら標本平均が 0.1以下になる確率はどれくらいか? 11 理論限界の簡易的な導出 ⊹≮ に対して Hoeffding の不等式: ≘≩ ∲ ≛∰∻ ∱≝ とその平均値 ≘ ∲≮ ⊡ ∲ ⊢ ⊹ ≐≲≛≘≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊷ ≥ ≔≩∨≮∩ 標本平均 ⊹ ≞≩ プレイ数 ≮ ⊡ ≮∲ ≮∲ 台1 台2 0.2 0.1 ≥≸≰∨⊡∰∺∰∲≮ ∩ 台2のプレイを打ち切った場合の損失への寄与は ∨≮ ⊡ ≮∲∩ ≥≸≰∨⊡∰∺∰∲≮∲∩ ⊼ ≮ ≥≸≰∨⊡∰∺∰∲≮∲∩ に比例 ≮∲ ⊸ ∨∵∰ ⊡ ⊲∩ ≬≯≧ ≮ でないと多項式オーダーに • 台2の真の期待値が0.2以上だったとしても上記ケースは 最大 ∲ 程度の確率で起こりうる • 12 • • タイトな理論限界 ∲≮ ⊡ ∲ ⊢ ⊹ Hoeffding の不等式: ≐≲≛≘≮ ⊷ ≅≛≘≩ ≝ ⊡ ⊢≝ ⊷ ≥ ⊡ ∨ ∱ ⊲ ∩ ≬ ≯ ≧ ≮ – 導かれる理論限界: ≅≛≔≩ ∨≮∩≝ ⊸ ∲⊢∲≩ Chernoff-Hoeffding の不等式: ≘≩ ∲ ≦∰∻ ∱≧∻ ≅≛≘≩ ≝ ∽ ⊹ のとき ≐≲≛≘⊹≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊷ ≥⊡≮≄∨⊹⊡⊢≫⊹∩ – 指数部: Kullback-Leibler ダイバージェンス ∰ ∰ ⊡ ⊹ ∱ ⊹ ∰ ∰ ∰ ≄∨⊹ ≫⊹∩ ∽ ⊹ ≬≯≧ ⊹ ∫ ∨∱ ⊡ ⊹ ∩ ≬≯≧ ∱⊡⊹ ⊡ ∨ ∱ ⊲ ∩ ≬ ≯ ≧ ≮ – 導かれる理論限界: ≅≛≔≩ ∨≮∩≝ ⊸ ≄∨⊹≩≫⊹⊤∩ [Lai & Robbins, 1985] 13 概要 • バンディット問題の定式化と理論限界 • 決定的アルゴリズムによる漸近最適戦略の構成 • 双対な決定的アルゴリズムについて • 確率的アルゴリズムへの発展 • バンディットのその他の定式化の概説 14 • 漸近最適戦略の構成 理論限界: ≔≩ ∨≮∩ ⊸ ≏∨≬≯≧ ≮∩ ≩ – ベストでない台 を引いてしまう1ラウンドごとの確率は ≏∨∱∽≮∩ ≏∨∱∽≮∩ くらいの確率でダメそうな台を引く戦略にすると – 逆に 良さそう ∱∽≮ • UCB 戦略: 有意水準 での信頼区間の上限 (Upper Confidence Bound) が最大になる台をプレイ – Hoeffding の不等式から導かれる UCB (Auer et al., 2002): ∲ ≔≩ ∨≮∩ ⊡ ⊡ ∲ ∨ ⊹ ≞ ⊹ ∩ ≩ ⊸ ∱∽≮≧ ≕≃≂≩ ∽ ≭≡≸≦⊹ ∺ ≥ ≳ ≬ ≯ ≧ ≮ ∽ ⊹≞≩ ∫ ∲≔≩∨≮∩ 15 最適性の証明 ≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲ の場合を考える ≞∱∻ ⊹≞∲ いずれも概ね収束 (寄与 ≏∨≬≯≧ ≮∩ ) – ケース1: ⊹ – ケース2: ⊹ ≞∲ は収束・台1が偶然悪い性能 (寄与 ≏∨∱∩) • とりあえず ケース1 ⊹∱ ⊹∲ ケース2 ⊹∱ ⊹≞∱ ⊹∲ その他 ⊹∱ ⊹≞∲ ⊹∲ 16 ケース1:収束後の挙動 • • ≳ ≬ ≯ ≧ ≮ UCB スコア: ≕≃≂≩ ∽ ⊹ ≞≩ ∫ ∲≔≩∨≮∩ 今回のケースのもとで台1のスコアは ⊹∱ 以上 ≞∲ ⊼ ⊹∲ ∼≳⊹∱ の台2がスコアで上回る必要条件は 標本平均 ⊹ ≬ ≯ ≧ ≮ ⊹∱ ∼ ⊹∲ ∫ ∲≔∲∨≮∩ ⊹∱ ≬ ≯ ≧ ≮ ⊹ ∲ ∬ ≔∲∨≮∩ ⊷ ∲∨⊹∱ ⊡ ⊹∲∩∲ – 収束後に台2を引く回数は理論限界に収束 17 • ケース2:収束前の挙動 ≔∱∨≮∩ ∽ ≮∱ のとき…… ∲ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∱ ∱ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥ – ⊹ ⊹∱ ⊹ ∫ ⊹⊱ ⊹∲ 18 • ケース2:収束前の挙動 ≔∱∨≮∩ ∽ ≮∱ のとき…… ∲ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∱ ∱ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥ – ⊹ ≲ ≬≯≧ ≮ ∲ ⊡ ∲ ≮ ∨ ⊹ ⊹ ∩ ∱ ∲ ⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥ – 台2のプレイ数が十分大きい場合に台1がプレイされる条件は ⊹∱ ⊹ ∫ ⊹⊱ ⊹∲ 19 • ケース2:収束前の挙動 ≔∱∨≮∩ ∽ ≮∱ のとき…… ∲ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∱ ∱ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥ – ⊹ ≲ ≬≯≧ ≮ ∲ ⊡ ∲ ≮ ∨ ⊹ ⊹ ∩ ∱ ∲ ⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥ – ⊹ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となるラウンド数の期待値は高々 ⊹ ∱ ∲ ∲ ∲ ⊡ ⊡ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∨ ⊹ ⊹ ∩ ⊡ ⊡ ∲ ≮ ∨ ⊢ ⊱ ∩ ∨ ∩ ∱ ∱ ∲ ∱ ∲ ⊷≥ ≥ ⊢∲ ⊹∲ ⊹ ∫ ⊹⊱ – 台2のプレイ数が十分大きい場合に台1がプレイされる条件は 20 • ケース2:収束前の挙動 ≔∱∨≮∩ ∽ ≮∱ のとき…… ∲ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∱ ∱ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となる確率は高々 ≥ – ⊹ ≲ ≬≯≧ ≮ ∲ ⊡ ∲ ≮ ∨ ⊹ ⊹ ∩ ∱ ∲ ⊹∲ ∼ ⊹ ∫ ∲ ≮ ∱ ∬ ≮ ⊸ ≥ – ⊹ ≞∱ ∲ ≛⊹∻ ⊹ ∫ ⊱≝ となるラウンド数の期待値は高々 ⊹ ∱ ∲ ∲ ∲ ⊡ ⊡ ⊡ ⊡ ⊡ ∲ ≮ ∨ ⊹ ⊹ ⊱ ∩ ∨ ⊹ ⊹ ∩ ⊡ ⊡ ∲ ≮ ∨ ⊢ ⊱ ∩ ∨ ∩ ∱ ∱ ∲ ∱ ∲ ⊷≥ ≥ ⊢∲ ⊹ ∲ • ⊹ ≞∱ ∼ ⊹∲ となるラウンド数の期待値は高々 ∱ ≘ ∱ ≥⊡≮∱∨⊢∲⊡⊱∩∲ ∽ ≏∨∱∩ ⊹ ∫ ⊱ ⊹ ⊱ ≮∱∽∱ – 台2のプレイ数が十分大きい場合に台1がプレイされる条件は 21 概要 • バンディット問題の定式化と理論限界 • 決定的アルゴリズムによる漸近最適戦略の構成 • 双対な決定的アルゴリズムについて • 確率的アルゴリズムへの発展 • バンディットのその他の定式化の概説 22 双対な漸近最適戦略 • (Chernoff-Hoeffding の不等式に基づく) UCB戦略: ≕≃≂≩ ∽ ≭≡≸≦⊹ ∺ ≥⊡≔≩∨≮∩≄∨⊹≞≩≫⊹∩ ⊸ ∱∽≮≧ – 尤度 ∱∽≮ 以上という条件のもとで期待値最大の台を選ぶ 理論限界は別の戦略でも達成可能 (Honda & Takemura, 2010) • MED 戦略 (Minimum Empirical Divergence): ≬ ≯ ≧ ≮ ⊤∩ ⊡ ≫ ≔ ∨ ≮ ∩ ≄ ∨ ⊹ ≞ ⊹ ≞ ≩ ≩ ⊸ ∱∽≮ ≔≩∨≮∩ ⊷ ≄∨⊹≞≩≫⊹≞⊤∩ ∬ ≥ を満たす台があればプレイ,なければ現時点でベストな台を選択 – 期待値 ⊹ ≞⊤ 以上となる尤度が一定値を超える台を選ぶ 現時点でベストな標本平均 23 漸近最適戦略の間の関係1 より一般のパラメーター空間 上のモデル ⊵≩ ∲ ⊣ に対して • UCB 戦略での計算: ≭≡≸≩≭≩≺≥⊵ ≅∨⊵∩ ≞ ⊡ ≔ ∨ ≮ ∩ ≄ ∨ ⊵ ≩ ≩ ≫⊵∩ ⊸ ∱∽≮ ≳≵≢≪≥≣≴ ≴≯ ≥ 線形関数 • MED 戦略での計算: ≞ ⊡ ≔ ∨ ≮ ∩ ≄ ∨ ⊵ ≩ ≩ ≫⊵ ∩ ≭≡≸≩≭≩≺≥⊵ ≥ 有理関数 ≳≵≢ ≪≥≣≴ ≴≯ ≅∨⊵∩ ⊸ ⊹≞⊤ – どちらも凸最適化だが一般に後者の計算が簡単 24 漸近最適戦略の間の関係2 • 性能は UCB 戦略ほうが良い場合が多い – ≋ ∽ ∳∻ ⊹≩ ∽ ∰∺∰∵∻ ∰∺∰∲∻ ∰∺∰∱ の場合: MED UCB ≬ ≯ ≧ ≮ 原因:MED は ≔≩ ∨≮∩ ⊷ を満たす台をすぐプレイ ⊤ ≄∨⊹≞≩≫⊹≞ ∩ – 小さい ≮ ではこの理論限界はほとんど無意味 [Garivier & Cappe, 2012] • 25 性能向上のための課題点 • UCB戦略とMED戦略は漸近的にはどちらも理論限界を達成 ≮ • が,構成において理論限界の値を前提にしているために有限の ではギャップが大きくなる ≏∨∱∽≮∩ で期待値を見積もればいい ≬ ≯ ≧ ≮ – MED 戦略: ベストでなさそうな台を 回くらい ⊤ ≄ ∨ ⊹ ≞ ≩≫⊹≞ ∩ 選べばいい – UCB 戦略: 有意水準 • いちおう,高精度な確率評価を使えば性能の改善は可能: 例えば Chernoff-Hoeffding の不等式は次のように精緻化される ≐≲≛≘⊹≮ ⊷ ≅≛≘≩≝ ⊡ ⊢≝ ⊼ ≃ ≮⊡∱∽∲≥⊡≮≄∨⊹⊡⊢≫⊹∩ 26 昨日の話 • 多腕バンディット問題:知識の探索と活用のジレンマ • 理論限界: ベストでない台を ≏∨≬≯≧ ≮∩ 回は選ぶ必要アリ • 漸近最適戦略: – UCB: 確率制約のもとで期待値を最大化 – MED: 期待値制約のもとで確率を最大化 • 漸近的な性能は同等だが,計算量・有限回数での性能が異なる – 漸近論で切り捨てた部分の大きさが性能差に表れている 今日の話: • 理論限界をベースにせず直接小さい損失を目指すアルゴリズム の構成→ランダムアルゴリズムへ • バンディットのその他の定式化 27 • ベイズの観点の導入 頻度論: ⊹≩ ∽ ∰∺∵∻ ∰∺∱ という世界と ⊹≩ ∽ ∰∺∲∻ ∰∺∳ という世界は ≦⊹≩≧は何らかの確率分布 ⊼∨⊹≩∩ から 全く別物で比較不能 • ベイズ統計: パラメーター 生成されている • ベイズの観点では各台について「真の期待値」の確率分布が 求まる ⊹ ⊻ ≵≮≩≦ ∨∰∻ ∱∩,観測 ≔≩∨≮∩ ∽ ∱∰∻ ⊹≞≩ ∽ ∰∺∶ ⊼∨⊹≩≪≈≩∨≮∩∩ ∽ ≂≥≴≡∨∷∻ ∵∩ – 例: 事前分布 ≩ このとき事後分布は 28 • ベイズの観点の導入 頻度論: ⊹≩ ∽ ∰∺∵∻ ∰∺∱ という世界と ⊹≩ ∽ ∰∺∲∻ ∰∺∳ という世界は ≦⊹≩≧は何らかの確率分布 ⊼∨⊹≩∩ から 全く別物で比較不能 • ベイズ統計: パラメーター 生成されている • ベイズの観点では各台について「真の期待値」の確率分布が 求まる ⊹ ⊻ ≵≮≩≦ ∨∰∻ ∱∩,観測 ≔≩∨≮∩ ∽ ∸∰∻ ⊹≞≩ ∽ ∰∺∶ ⊼∨⊹≩≪≈≩∨≮∩∩ ∽ ≂≥≴≡∨∴∹∻ ∳∳∩ – 例: 事前分布 ≩ このとき事後分布は 29 Thompson Sampling • ベイズ統計の観点では各台について「真のパラメータ」 事前・事後確率分布が定まる ≩ ⊹≩ の ≩ • それぞれの台 について「台 が期待値ベストである事後確率」 も定まる • Thompson sampling (以下TS): 各台がベストである事後確率にしたがって台をランダムに選択 – Thompson (1933) にちなむ – 経験的には高性能がいい • 事前分布のとり方にもあまり依存しない – 複雑なモデルにもとりあえず実装可能 – 最近になって理論解析が整備 30 TS の性能 • UCB, MED と同じく理論限界を達成可能 – ベルヌーイ分布モデル (Agrawal & Goyal, 2013) – 1変数指数型分布族 (Korda et al., 2013) – 平均・分散未知の正規分布 (Honda & Takemura, 2014) • 大抵の場合にUCBよりも高性能 UCB TS [Kaufmann et al, 2012] 31 • • TS における計算について 各台の真の期待値の事前分布 ⊼ ∨⊹≩ ∩ を設定 観測 ≸≩ のもとの事後分布: ⊼ ∨⊹≩ ≪≸≩ ∩ ∯ ⊼ ∨⊹≩ ∩≐ ∨≸≩ ≪⊹≩ ∩ ⊼∨⊹≩∩ ∽ ≵≮≩≦ ∨∰∻ ∱∩ • その台が最適である事後確率に従って台をランダムに選択 – 例: 事前分布 台1 台2 台3 これまでの結果 1,0,1,1 0,0 1,0,1 期待値ベストな 事後確率 58% 3% 39% ⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩ 32 • • TS における計算について 各台の真の期待値の事前分布 ⊼ ∨⊹≩ ∩ を設定 観測 ≸≩ のもとの事後分布: ⊼ ∨⊹≩ ≪≸≩ ∩ ∯ ⊼ ∨⊹≩ ∩≐ ∨≸≩ ≪⊹≩ ∩ ⊼∨⊹≩∩ ∽ ≵≮≩≦ ∨∰∻ ∱∩ • その台が最適である事後確率に従って台をランダムに選択 – 例: 事前分布 台1 台2 台3 これまでの結果 1,0,1,1 0,0 1,0,1 期待値ベストな 事後確率 58% 3% 39% ⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩ 実際に事後分布から計算するのは大変 33 ランダムアルゴリズムの利点 • TS ではそれぞれの台を「その台がベストである事後確率」に したがってランダムに選択 – この確率は計算困難 ⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹∰≪ ≪≦≸≩≧∩ ∱ ≚∱ ≚ ⊵≩ ≙ ∽ ∰ ⊼∨⊵≩≪≸≩∩ ≀ ∰ ⊼∨⊵≪ ≪≸≪ ∩≤⊵≪ ≁ ≤⊵≩ ≪∶∽≩ ⊹≩ ∽ ⊵≩ となる確率 他の台で ⊹≪ ⊷ ⊵≩ となる確率 – この確率は(例えば)0.0001以下だったりするのでモンテカル ロ法による近似計算も意外に面倒 34 ランダムアルゴリズムの利点 • TS ではそれぞれの台を「その台がベストである事後確率」に したがってランダムに選択 – この確率は計算困難 ⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹∰≪ ≪≦≸≩≧∩ ∱ ≚∱ ≚ ⊵≩ ≙ ∽ ∰ ⊼∨⊵≩≪≸≩∩ ≀ ∰ ⊼∨⊵≪ ≪≸≪ ∩≤⊵≪ ≁ ≤⊵≩ ≪∶∽≩ ⊹≩ ∽ ⊵≩ となる確率 他の台で ⊹≪ ⊷ ⊵≩ となる確率 ⊵ ⊼ ∨ ⊹ ≪≸ ∩ – 実際にはこの確率を計算する必要はない: 各台から乱数 ≩ を事後分布 ≩ ≩ にしたがって生成して ≩ が最大となった台 をプレイすれば同等な動作となる ⊵ ≩ 35 TS の実装 • 「事後分布のもとでの各台が期待値ベストな確率」は実際には 計算が困難 ⊼∨⊹ ≪≸ ∩ ⊵ • 単に事後分布 ≩ ≩ にしたがって ≩ をそれぞれランダムに サンプリングし,それが最大になった台を選択すればよい 台1 台2 台3 これまでの結果 1,0,1,1 0,0 1,0,1 事後分布から のサンプル 0.78 0.16 0.68 ⊹≩ の事後分布 ≂≥∨∴∻ ∲∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩ 36 TS の実装 • 「事後分布のもとでの各台が期待値ベストな確率」は実際には 計算が困難 ⊼∨⊹ ≪≸ ∩ ⊵ • 単に事後分布 ≩ ≩ にしたがって ≩ をそれぞれランダムに サンプリングし,それが最大になった台を選択すればよい これまでの結果 台1 台2 台3 1,0,1,1,0 0,0 1,0,1 ⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩ 事後分布から のサンプル 37 TS の実装 • 「事後分布のもとでの各台が期待値ベストな確率」は実際には 計算が困難 ⊼∨⊹ ≪≸ ∩ ⊵ • 単に事後分布 ≩ ≩ にしたがって ≩ をそれぞれランダムに サンプリングし,それが最大になった台を選択すればよい 台1 台2 台3 これまでの結果 1,0,1,1,0 0,0 1,0,1 事後分布から のサンプル 0.67 0.19 0.81 ⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∳∻ ∲∩ 38 TS の実装 • 「事後分布のもとでの各台が期待値ベストな確率」は実際には 計算が困難 ⊼∨⊹ ≪≸ ∩ ⊵ • 単に事後分布 ≩ ≩ にしたがって ≩ をそれぞれランダムに サンプリングし,それが最大になった台を選択すればよい これまでの結果 台1 台2 台3 1,0,1,1,0 0,0 1,0,1,1 ⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∴∻ ∲∩ 事後分布から のサンプル 39 TS の実装 • 「事後分布のもとでの各台が期待値ベストな確率」は実際には 計算が困難 ⊼∨⊹ ≪≸ ∩ ⊵ • 単に事後分布 ≩ ≩ にしたがって ≩ をそれぞれランダムに サンプリングし,それが最大になった台を選択すればよい 台1 台2 台3 これまでの結果 1,0,1,1,0 0,0 1,0,1,1 事後分布から のサンプル 0.58 0.61 0.77 ⊹≩ の事後分布 ≂≥∨∴∻ ∳∩ ≂≥∨∱∻ ∳∩ ≂≥∨∴∻ ∲∩ 40 TS の解釈 • 「期待値ベストでない台を選んだ回数の最小化」を考える ≩ ≰≩ ∽ ⊼∨⊹≩ ⊸ ≭≡≸≪∶∽≩⊹≪ ≪≦≸≩≧∩ • 台 の損失への寄与はどれくらいか? – この台がベストな事後確率: – ベストでない台の選択回数の期待値は ∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∫ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩ 台 ≩ がベストでない場合 台 ≩ がベストな場合 – これを最小化したいが,実際には ≰≩ は過去のプレイ結果にも 依存するのでよく分からない – 代わりに2つの項をバランスさせることを考える 41 ≩ TS の解釈 • 台 の損失への寄与は ∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∫ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩ 台 ≩ がベストでない場合 台 ≩ がベストな場合 ∨∱ ⊡ ≰≩∩ ⊣ ≮≩ ∽ ≰≩ ⊣ ∨≮ ⊡ ≮≩∩ ∬ ≮≩ ∽ ≰≩≮ となるとき – 台 ≩ を計 ≮ 回中 ≰≩ ≮ 回プレイしているのが理想的な状態 • が,実際には ≰≩ の計算は困難 – 確率 ≰≩ で台 ≩ をランダムにプレイすればよい • これらの項がバランスするのは → Thompson sampling 42 Thompson sampling のチューニング • 事前分布によってある程度探索度合いを調整できる – UCB タイプの戦略ほど大きな差は出ない 15 – 複数パラメータの場合は事前分布の選択が重要な場合も 1 2 (uniform) • 分散未知の正規分布モデル • 試行100回の平均 (reference) regret 10 1 2 (Jeffreys) asymptotic bound 5 ⊮ ∽ ∱∽∲ 0 • ∨⊹∱∻ ⊹∲∩ ∽ ∨∱∻ ∰∩ ∨⊾∱∻ ⊾∲∩ ∽ ∨∱∺∰∻ ∰∺∵∩ 事前分布 ⊼ ∨⊹≩ ∻ ⊾≩ ∩ ∯ ⊾ ⊡∱⊡∲⊮ – ⊮ が大きいと探索減 0 1 10 100 plays 1000 10000 43 Thompson sampling のチューニング • 事前分布によってある程度探索度合いを調整できる – UCB タイプの戦略ほど大きな差は出ない 15 – 複数パラメータの場合は事前分布の選択が重要な場合も 1 2 (uniform) • 分散未知の正規分布モデル • 試行10000回の平均 (reference) 5 regret 10 1 2 (Jeffreys) asymptotic bound 0 • ∨⊹∱∻ ⊹∲∩ ∽ ∨∱∻ ∰∩ ∨⊾∱∻ ⊾∲∩ ∽ ∨∱∺∰∻ ∰∺∵∩ 事前分布 ⊼ ∨⊹≩ ∻ ⊾≩ ∩ ∯ ⊾ ⊡∱⊡∲⊮ – ⊮ が大きいと探索減 0 ⊮ ∽ ∱∽∲ 1 10 100 plays 1000 10000 44 概要 • バンディット問題の定式化と理論限界 • 決定的アルゴリズムによる漸近最適戦略の構成 • 双対な決定的アルゴリズムについて • 確率的アルゴリズムへの発展 • バンディットのその他の定式化の概説 45 Best arm identification (最適腕識別) • 通常のバンディット: 累積報酬の最大化 (損失: regret) ≎ • 最適腕識別: 既定回数( 回)プレイした後に期待値最大の 台をなるべく高確率で判定したい ∱⊡⊱ – 亜種: ベストな台を確率 以上で判別するための 試行回数を最小化 (Hoeffding race, Bernstein race) • 知識の「活用」が必要なく純粋な「探索」の問題 – ある種の能動学習の問題 – 解析等の方法は regret 最小化の場合とよく似ている • 全ての台を一様に選ぶと失敗確率 ≥⊡≏∨≎∽≋∩ 46 よくある間違い • 深く考えずに regret 最小化のためのアルゴリズムを使ってしまう ≏∨≬≯≧ ≎ ∩ – 通常の UCB などのアルゴリズムは期待値最大でない台を 回程度しかプレイしない → プレイ数の偏りが大きすぎる • 例: マシン数2・分散が等しい場合 ≥≸≰∨⊡≎ ⊢ ∽∴⊾ ∩ – 明らかに最も高精度となるのは両方の台を同じ回数プレイす ∲ ∲ 程度) ること (このとき誤り率は ≏∨≬≯≧ ≎ ∩ – が,報酬最大化のためのアルゴリズムでは良くなさそうな台の プレイを 回程度で打ち切ってしまう (誤り率 ) ≐≯≬≹∨≎ ∩ 47 最適腕識別のためのアルゴリズム ∱∽≮ ≥≸≰∨⊡≏∨≎ ∩∩ • UCB 等のアルゴリズムは有意水準を から にすることで容易に修正可能 (Audibert, Bubeck & Munos 2010 ほか) ≰ ≥≸≰∨⊡≏∨≎ ∩∩ • TS は有意水準に対応するものを自由に設定できない – 例えば「期待値ベストである事後確率 ≩ が より大きくなるものを選択」といった修正は考えられるが, ≩ の計算は大変 ≰ – ただし,モデルが非常に複雑になるとそもそも UCB のほうも 信頼区間の構成が難しくなる場合があり,そのような場合に は愚直に TS を用いても相対的に高性能となる場合がある 48 バンディット問題の分類 • 報酬の性質 – stochastic bandit (確率的) – adversarial bandit (敵対的) • 目的関数 – 報酬最大化 (regret 最小化) – 期待値ベストの台の判定 (best arm identification) • その他の拡張 – linear bandit – contextual bandit (context: 閲覧履歴・エキスパート…) 49 ≴ 時間発展のある場合 • 時刻 とともに各台の報酬分布が変化する (ニュース推薦など) ⊶ ≮ ⊵ ≘ ≲≥≧≲≥≴∨≮∩ ∽ ≩∲≦≭∱∻⊢≡⊢⊢≸∻≋≧≦⊹≩≧ ⊡ ⊹≉≴ • 時間発展のない場合の regret : ≴∽∱ ⊶ ≮ ⊵ ≘ ≲≥≧≲≥≴∨≮∩ ∽ ≩∲≦≭∱∻⊢≡⊢⊢≸∻≋≧≦⊹≩∻≴≧ ⊡ ⊹≉≴∻≴ • 時間発展のある場合: ≴∽∱ – 時間発展のない場合に比べて本質的に難しい ≭ ≰ ≏∨ ≮∩ – 例) 確率分布が途中で 回だけ変化する場合: regret が に (Garivier & Moulines, 2011) 50 • 敵対的バンディット 各マシンからの報酬 ≸≩∻≴ ∲ ≛∰∻ ∱≝ が adversary により敵対的に 決められる 1回目 2回目 3回目 4回目 累計 台1 0.8 0.5 0.2 0.3 1.8 台2 0.3 0.9 0.1 0.8 2.1 台3 0.4 0.1 0.4 0.6 1.5 • Regret = 同じ台を選び続けた場合の最大報酬 - 実際の報酬 = 2.1 - 1.5 = 0.6 51 Exp3 アルゴリズム • Exponential-weight algorithm for Exploration and Exploitation (Auer, Cesa-Bianchi & Schapire, 2001) • 以下の確率に従って台をランダムに選択 ≩ の累積報酬の推定値 台 ≩ の平均報酬の推定値 ≰≩∻≴ ∯ ≥⊴≴≲≞≩ ∽ ≥∨≴⊴≴∩⊹≞≩ ≰ – ≏∨ ≮≋ ≬≯≧ ≋ ∩ の平均 regret を達成 Softmax 法 ≰≩∻≴ ∯ ≥⊹≞≩ ∽⊿ の一種 – 推定期待値が低い台も温度パラメータ ⊿ に応じた低確率で 台 • 選ばれる 52 • Linear bandit 取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合) ≤ 次元のベクトルをスロットマシンとして選択 報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ) – プレイごとに • • 例: ネットワークルーティング ≔ ⊵∳ ⊵∴ ⊵∵ ⊵∱ ≓ ⊵∲ ⊵∶ ∰∱∱ ∰∱∱ ∰∱∱ ∰∰∱ ∰∰∱ ∰∰∱ ∰∰∱ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∱≃≃ ≂≂∱≃≃ ≂≂∱≃≃ ≂≂∰≃≃ ≂≂∱≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∱≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≂≂∰≃≃ ≡≴ ∽ ≂≂≂∰≃≃≃ ∻ ≂≂≂∱≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∱≃≃≃ ∻ ≂≂≂∰≃≃≃ ∻ ≂≂≂∰≃≃≃ ≂≀∰≃≁ ≂≀∰≃≁ ≂≀∱≃≁ ≂≀∰≃≁ ≂≀∰≃≁ ≂≀∱≃≁ ≂≀∰≃≁ ∰ ∰ ∰ ∰ ∰ ∰ ∱ 53 • Linear bandit 取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合) ≤ 次元のベクトルをスロットマシンとして選択 報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ) – プレイごとに • • 例: Web デザイン: ∰ 広 告の 大き さ ∱ ≂≂フォントサイズ≃≃ ≡≴ ∽ ≂≂≀ レイアウト ≃≃≁ ∮∮ 54 • Linear bandit 取り得る行動(マシン): ≡ ∲ ≄ ⊽ ≒≤ ( ≄ : 有界集合) ≤ 次元のベクトルをスロットマシンとして選択 報酬: ≙≴ ∽ ⊵≔ ≡≴ ∫ ⊲≴ ( ⊵ ∲ ≒≤ : 未知パラメータ) UCB に似たアルゴリズムにより ≲≥≧≲≥≴ ∽ ≏∨≤ ≬≯≧ ≮∩ を 高確率で達成可能 (Dani, Hayes & Kakade, 2008) – 行動の候補数 ≪≄ ≪ が大きくても(あるいは無限大でも) – プレイごとに • • パラメータの次元数のみで regret が抑えられる 55 • Contextual bandit 各試行ごとに補助情報 (context) ≸≴ が与えられる – 性別・年齢・位置情報・閲覧履歴……,またはエキスパート の助言等 ≙≩ ⊻ ≦ ∨ ⊢ ≪⊵≩∻ ≸≴∩ – 例: ロジスティック回帰モデル ∱ ≐≲≛≙≩ ∽ ∱≪≸≴≝ ∽ ∱ ∫ ≥⊵≩≔≸≴ ≩ • 台 を選んだ場合の報酬: • bound が保証されるようなものはあまりないが ,Thompson Sampling が高性能 56 Contextual bandit における TS • Contextual bandit (ユーザ情報・閲覧履歴) • クリック率 (CTR: Click Through Rate) の比較 • ロジスティック回帰モデル [Chapelle & Li, 2011] 57 その他の定式化 • Combinatorial bandit – 単位時間ごとに複数本の腕(広告等)を選択 – 単に期待値の和を最大化する・多様性を考慮する,等の 目的の設定 • Dueling bandit – 単位時間ごとに2つの候補を選択して優劣のみが提示される (映画の好み等) • Gaussian process 上の bandit – 腕の候補が大量 or 無限個ある (パラメータの最適化等) といった場合で最近成功している 58 まとめ • 多腕バンディット問題: 情報の探索と活用のジレンマ • UCB や MED といった決定的アルゴリズムによって理論限界を 漸近的に達成可能 – 必ずしも有限のプレイ数で高性能とは限らない • Thompson sampling は有限のプレイ数でも高性能 – Contextual bandit 等の複雑なモデルにも実装可能 – 理論的には扱いにくい(怪しげな挙動を示す場合もある) – チューニングが不要なぶん融通がきかない (最適腕識別には使えない) 59 References 概説 • J. Vermorel and M. Mohri, “Multi-Armed Bandit Algorithms and Empirical Evaluation,” ECML2005. • S. Scott, “A modern Bayesian look at the multi-armed bandit,” Applied Stochastic Models in Business and Industry, 2010. • S. Bubeck and Nicolo Cesa-Bianchi, “Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems,” Fundations and Trends in machine Learning, 2012. 個別の話題 • E. Kaufmann, N. Korda and R. Munos, “Thompson sampling: an asymptotically optimal finite-time analysis”, ALT2012. 60 References • J. Honda and A. Takemura, “An Asymptotically Optimal Bandit Algorithm for Bounded Support Models”, COLT2010. • J. Audibert, S. Bubeck and R. Munos, “ Best Arm Identification in MultiArmed Bandits”, COLT2010. • Y. Gai, B. Krishnamachari and R. Jain, “Learning Multiuser Channel Allocations in Cognitive Radio Networks: A Combinatorial Multi-Armed Bandit Formulation”, IEEE DySPAN 2010. • N. Srinivas, A. Krause, S. Kakade, and M. Seeger, “InformationTheoretic Regret Bounds for Gaussian Process Optimization in the Bandit Setting”, IEEE Transactions on Information Theory, 2012.
© Copyright 2025 Paperzz