分節化された状態空間での報酬伝播によるゲーム学習の加速

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
分節化された状態空間での報酬伝播によるゲーム学習の加速
長田
悠吾†
大東
優††
石川
悟††
大森
隆司††
森川 幸治†††
† 北海道大学工学部
〒 060-8628 北海道札幌市北区北 13 条西 8 丁目
†† 北海道大学工学研究科
〒 060-8628 北海道札幌市北区北 13 条西 8 丁目
††† 松下電器産業株式会社 先端技術研究所 知能情報技術研究所
〒 619-0237 京都府相楽郡精華町光台 3-4
E-mail: †,††{yugo,y ohigashi,ishi s,omori}@complex.eng.hokudai.ac.jp, †††[email protected]
あらまし
ヒトは外界の現象を連続的現象として認識・記述できるが,同時に特徴的な事象を認識して時空間的に分
節化することにより,現象の離散的な記述を行うことが出来る.そして,この離散的な情報表現を利用することで効
率的な問題解決を可能にしている.本研究では,分節化された状態空間において環境から得られた報酬をずはやく伝
播させることにより,目標状態へ達する為の重要な経過点となる状態を発見できることを示す.また、この手法で得
られた重要状態に副報酬を設定することにより,強化学習が加速することを,単純な TV ゲームの学習で示す.
キーワード
状態空間の分節化,強化学習,ゲーム学習,副報酬
Acceleration of game learning with reward propagation in segmented
state space
Yugo NAGATA† , Yu OHIGASHI†† , Satoru ISHIKAWA†† , Takeshi OMORI†† ,
and Koji MORIKAWA†††
† Faculty of Engineering, Hokkaido University
Kita13jo Nishi8chome, Kita, Sapporo, Hokkaido, 060-8628, Japan
†† Graduate School of Engineering, Hokkaido University
Kita13jo Nishi8chome, Kita, Sapporo, Hokkaido, 060-8628, Japan
††† Advanced Technology Research Laboratory, Matsushita Electric Industrial Co.,Ltd.
3-4, Hikaridai, Seika, Soraku, Kyoto, 619-0237, Japan
E-mail: †,††{yugo,y ohigashi,ishi s,omori}@complex.eng.hokudai.ac.jp, †††[email protected]
Abstract Human can describe the world in discrete representations by recognizing characteristic phenomena in
addition to the continuous one. It is thought that the discrete representation enables efficient problem solving. In
this paper, we propose a method for finding a passing point which is important for reaching the goal by propagating
the obtained reward throuhg the segmented state space. Moreover, we demonstrate that Reinforcement Learning is
accelerated by setting a sub-reward at the important states found by our method in a simple video game learning.
Key words segmentation of state space, reinforcement learning, game learning, sub-reward
1. は じ め に
みよう.このゲームでは,ボールは画面中を物理法則に従って
ヒトが何らかの物体の動き観察する際には、途切れ途切れで
ることでボールを打ち返し,ターゲットに当てて得点を得る.
壁で反射しながら動き回っている.プレイヤはパドルを操作す
はなく連続的で滑らかな動きを知覚することが出来る.しかし,
ヒトはこのゲーム画面を見たとき,ボールの連続的な動きのみ
ヒトは外界の現象を連続的な情報としてのみ捉えているわけで
ならず,壁におけるボールの反射等の事象を認識することで,
は無い.例えば,図 1 のようなピンポンゲームの場面を考えて
離散的に現象を記述することが出来る.
—1—
表1
ピンポンゲームにおけるイベント
Table 1 Event in Ping Pong Game
Ball
Target
reward
Paddle
図1
ピンポンゲーム
Fig. 1 Ping Pong Game
名称
検出条件
E0
ゴール
ボールがターゲット下部に当たり報酬が得られた
E1
打ち返し
ボールがパドルで打ち返された
E2
壁上
上の壁でボールが反射した
E3
壁下
下の壁でボールが反射した
E4
壁左
左の壁でボールが反射した
E5
壁右
右の壁でボールが反射した
E6
ターゲット上
ターゲット上面でボールが反射した
E7
ターゲット下
ターゲット下面でボールが反射した
E8
ターゲット左
ターゲット左面でボールが反射した
E9
ターゲット右
ターゲット右面でボールが反射した
䉟䊔䊮䊃⁁ᘒ
2. 連続状態空間のモデルベースの分節化
Goal
大東らの状態空間の分節化の手法について簡単に説明する.
この手法では,環境を観測するエージェントは環境の状態変化
を予測する予測器を持っている.この予測器は,環境中におい
て局所的に単純な予測を行う複数の局所予測器から成っており,
reward
これらの局所予測器を状況に応じて切り替えることにより,あ
る程度複雑な環境の状態予測を行うことが出来る.この局所予
測器が切替わる状態というのは,それ以前に用いていた局所予
測器では予測できない状況が発生した,すなわち環境の挙動が
図2
イベント空間
Fig. 2 Event Space
大きく変化する状態であり,環境中において特徴的な状態であ
ると考えられる.例えば,ピンポンゲームの場合を考えると,
ボールが直線的に進んでいる状態とボールが壁で反射する状態
このような人間の連続空間の分節化とその分節化された空間
では異なる局所予測器が用いられ,その二つの局所予測器の切
で思考する能力の存在は古くから指摘され,人工知能では GPS
り替えの点が壁に衝突するという特徴的な点を表現している.
などの古典的なシンボル処理の大前提とされてきた [2].一旦問
このことを利用して,ボールの壁での反射という事象を連続環
題が分節化されて適切な知識表現に変換されたなら,それがシ
境中から検出することができる.このような事象の発生を我々
ンボル的に解決可能な事例が多くあることは過去の人工知能研
はイベントと呼ぶ.そして,イベントが検出される状態を集約
究の成果が示している.しかし,現実の人間の情報処理デバイ
したものをイベント状態と呼ぶことにし,イベント状態の集合
スである脳が,この分節化をどうやって実現しているか,さら
をイベント空間と呼ぶことにする.本論文で言う状態空間の分
にその分節化された情報を如何に利用しているかという問題に
節化とは,連続的な状態空間でのイベント状態をイベント空間
対しては,研究はいまだ始まったばかりであり [8],不明の点が
に変換することである.図 2 にそのイメージを示す.図下部の
非常に多い.
楕円が状態空間を表しており,楕円の中の曲線に囲まれた部分
このような問題認識のもとで,連続的な状態空間での現象の
が,状態空間の中でイベントが検出される状態を表している.
学習的な分節化のモデルとして,ボールの反射等の特徴的な事
検出されるイベント毎に,その状態を集約したイベント状態は,
象をモデルベースで検出することで状態空間を分節化する手法
図上部の点で表される.
が,大東らにより提案されている [7].状態空間をモデルベース
本論文で扱うピンポンゲームでの具体的なイベントは表 1 の
で分節化することで現象を記号的に記述することが出来るなら,
ようになる.説明の為,それぞれに固有の記号 E0 ∼ E9 ,及び
その記述表現を用いることでプランニングや観察学習などの高
名称をつける.この内,ゴールイベント E0 は報酬が得られた
度の情報処理が実現できることが期待される.そこで本論文で
ときに検出されるイベントで,ゴール達成を表す特別なイベン
は,そのような分節化された現象記述の応用の1つとして、分
トであると考える.報酬の獲得も環境における特徴的な出来事
節化された状態空間の中より目標達成に関して重要な通過点を
と考えられるからである.本論文においては,表 1 のイベント
見つける手法について提案する.そして,見つかった重要な状
の知識をあらかじめエージェントに与える.
態へ副報酬を与えることで,強化学習が加速されることを示す.
3. 分節化された状態空間の利用
状態空間を分節化し,イベント空間に投射することにより,
—2—
環境を記号的に記述することが可能になる.このことを応用し
保証はない.Profit Sharing を応用するには何らかの合理性が
て,環境の現象を記号列として認識し,それを再現するような
必要である.それに関して,宮崎らは,Profit Sharing の挙動
観察学習や,次に起こりえる事象を予測して行動を決定するよ
を解析し,明らかに無駄なルールは強化せず,得られる収益が
うなプランニングなどの実現が考えられる.本論文では,分節
0 には収束しないことを保証する合理性定理を証明した [9].
化された状態空間の利用法の1つである,目標達成の際に重要
な経過点となる状態を発見する手法について提案する.
∀i = 1, 2, . . . , W.
L
W
X
fi < fi−1
j=i
ピンポンゲームにおいては,ボールをパドルで打ち返す状態
が重要であると直感的には認識できる.何故なら,パドルで
ここで,fj は f (r, j) の省略形,W はエピソードの最大長,L
ボールを打ち返さなければターゲットにボールを当てても得点
は同一状態下に存在する有効ルールの個数である.有効ルール
を得ることができない設計になってるからである.更に,パド
とは,報酬の直接寄与するルールのことを言う.一般的にはこ
ルでボールを打ち返す際に,プレイヤはボールの反射方向を決
の L の値は学習以前には知ることが出来ないが,実装する際に
めることが可能であり,適切な方向にボールを打ち返すことで
は,L は可能な行動出力の種類の数から1を引いた値で十分で
パドルから直接ターゲットにボールを当てることができるので,
ある.この定理に従う強化関数の例としては以下のような等比
ゴール達成への一番の近道であるともいえる.
減少関数がよく用いられる.
一般に,このような重要な状態を広大かつ連続的な状態空間
の中から見つけ出すことは困難である.しかし,分節化された
fn =
1
fn−1 ,
S
n = 1, 2, . . . , W − 1.
測可能な,即ち同じ性質を持つ連続的な状態がイベント状態と
ここで,S <
= L + 1 は強化減少比と呼ばれる.
ここで重要なのは,このような強化関数を用いることによっ
して集約されているので探索空間が狭まり,そのような状態の
て,報酬獲得に貢献しない無効ルールを抑制することが可能と
発見が容易になることが予想される.イベント空間の中から重
なる点である.本稿の問題設定ではこのことを利用して,Profit
要なイベント状態を見つける方法はいろいろ考えられる.本質
Sharing の考え方をイベントに適応させることにより,ゴール
的には,ゴール達成に貢献したイベント状態に高い評価を与え,
達成に貢献するイベントを高く評価し,ゴール達成に貢献しな
逆にゴール達成に貢献しないイベント状態に評価が与えられる
いようなイベントの評価を低く抑えることが可能になることを
ことを抑制することが必要である.そのような方法として本論
期待する.
状態空間,即ちイベント空間においては同一の局所予測器で予
文では,環境から得られた報酬を分節化された状態空間に割り
3. 2 報酬伝播による最重要イベントの発見
振る手法として強化学習で使用される Profit Sharing を用いる
Profit Sharing を分節化状態空間に適用するために,ルール
ことにする.
(s, a) をイベント E に置き換えて考える.報酬を得るまでに検
3. 1 Profit Sharing
出された過去のイベントの系列が Profit Sharing で言うエピ
Profit Sharing [1] は古典的な強化学習アルゴリズムである.
ソードに相当する.この系列の最後のイベントは報酬を獲得し
ある状態において実行可能な行動はルールとして記述され,状
た時に検出されるゴールイベントとなる.各イベントには,そ
態 s で行動 a を選択する”if s then a”というルールを (s, a) と
のイベントの重要度を表すイベント重み w(E) が割り当てられ
表す.エージェントは観測された状態に対し可能なルールを選
ており,エージェントはゴールイベントを検出する毎に,環境
択することを繰り返してタスクを解決する.ルールの選択は各
から得られた報酬 r と強化関数 f (r, i) に従ってゴールイベント
ルールに割り当てられた重み w(s, a) に基づき決定される.報
に連なるイベントの重み w(E) を更新する.強化関数は等比減
酬が得られてから次の報酬が得られるまでのルールの選択系
少関数 f (r, i) = rλi を採用した.ここで,0 <
=λ<
= 1 は割引率
列 ((s0 , a0 ), (s1 , a1 ), . . . , (sT , aT )) をエピソードという.T は
である.
報酬が得られる直前のルールが発火した時刻である.報酬が与
エージェントはイベント系列の記憶 M (Et−W , Et−W +1 , . . . , Et )
えられると,エピソードに参加したルールに報酬が分配され,
を持っている.ここで,イベント Et の添え字 t はイベントが
各ルールの重みが強化される.報酬の分配の仕方は,強化関数
検出された時刻を表すが,連続的な状態空間における時刻とは
によって定義される.強化関数は f (r, i) と表され,分配される
区別し,イベント空間においてイベントを検出する度に 1 カウ
報酬の量を返す.r は報酬であり,i は報酬から何ステップ過去
ントされる離散的な時刻であるとする.W は M の記憶長であ
かを表す値である.重みは強化関数によって次のように更新さ
り,記憶できるイベントの最大の個数である.エージェントに
れる.
よって検出されたイベントは逐次 M に追加される.既に記憶
w(sT −i , aT −i ) ← w(sT −i , aT −i ) + f (r, i) (i = 0, 1, . . . , T )
されている系列の長さが W の時にイベントを検出し M に追加
すると,M の中で最も古いイベントが破棄される.ゴールイベ
この更新規則によって,報酬を得るのに貢献したルールは重み
ントが検出され M に追加された時,その M に含まれている全
が増し,そのルールが選択される確率が増す.
てのイベントの重みを上記の強化関数に従い次の式で更新する.
Profit Sharing の工夫すべきところは強化関数に集約されて
いる.強化関数によっては,明らかに無駄なルールを強化して
しまうことがあり,効率的に報酬を得るような挙動が得られる
w(ET −i ) ← w(ET −i ) + rλi (i = 0, 1, . . . , T )
ここで,ET は系列記憶 M の中で最も新しいイベント即ちゴー
—3—
表2
ႎ㈽વ᠞
パドルで打ち返されるボールの反射方向
Table 2 The reflective direction of the ball
r㱗T
r㱗T-1
E0
E1
䊶䊶䊶
r㱗
r
ET-1
ET
struck back by paddle
䉯䊷䊦䉟䊔䊮䊃
䉟䊔䊮䊃♽೉⸥ᙘ M
(ᦨᄢ㐳䈘 W)
図3
ႎ㈽ r
イベント空間での報酬伝播
Fig. 3 Reward propagation in event space.
ルイベントであり,E0 は系列記憶 M の中で最も古いイベント
である.これは,M に記憶しているイベントに環境から得ら
Pd
ボールの反射方向
0
(15 ± 5)◦
1
(45 ± 5)◦
2
(75 ± 5)◦
3
(105 ± 5)◦
4
(135 ± 5)◦
5
(165 ± 5)◦
ゲット下面に当たった場合は,下の壁での反射を間に挟まない
ので報酬 reward を得ることができる.しかし,パドルで打ち
れた報酬 r を減衰係数 λ で減衰させながら伝播させることと言
返したボールが上の壁で下向きに反射し,そのボールが下の壁
える.そのイメージを図 3 に示す.重みを更新した後は M の
で跳ね返ってターゲットに当たった場合は報酬は得られない.
内容は全て破棄される.以上の流れでイベントの重みの更新を
繰り返す.そして,ある時刻において最も重みの値が大きいイ
ベントが,その時刻において最も重要なイベントであると考え
る.ただし,その際ゴールイベントは除く.
また,プレイヤが目標を達成する際の無駄な行動を抑制するた
め,パドルに対して右または左に動く,パドル状態を変えると
いった行動を指示した場合には,小さな負の報酬を与える.
環境状態は,空間の x 座標,y 座標をそれぞれ均等に 10 分
割し,ボールの進行角度を均等に 12 分割することにより,離
4. タスクの詳細
散的に表現する.つまり,このタスクにおける状態空間はボー
ピンポンゲームの的当てタスク(図 1)について詳しく説明
ル座標 (Bx , By ),ボール進行方向 θ,パドル x 座標 Px ,パド
する.
プレイヤは2次元空間のゲーム盤面上に表示されているパド
ル状態 Pd がそれぞれ,10×10, 12, 10, 6 通りであるから,全
体では 10 × 10 × 12 × 10 × 6 = 72000 状態となる.通常の強
ルとボールを見て操作を行う.スクリーン上には x 座標(横軸)
化学習では,この状態空間で個々の状態に対応した行動を,試
と y 座標(縦軸)が,共に [0, 1] の値で定義されている.画面左
行錯誤と期待報酬の伝播で学習する.
下の座標が (x, y) = (0, 0) であり,右上の座標が (x, y) = (1, 1)
5. 最重要イベント状態の判定
である.また,ボールの進行角度は,右向きのボール動きを
0[rad],上向き正として [−π, π] の角度で表現されている.さ
5. 1 設
らに,パドルは6つの状態 (Pd = {0, 1, 2, 3, 4, 5}) を持ち,こ
ゲーム環境はピンポンゲームの的当てタスクであり,ター
の状態に従ってパドルで打ち返されたボールの反射角度が表 2
のように決まる.プレイヤは,パドルに対して各時間ステップ
毎に一つの行動を指示することができる.パドルが実行できる
行動は,右に動く,左に動く,パドルの状態を選択する(6通
り),何もせずその場に留まるの9種類となる.ボールは,一
定の速度で真っ直ぐに進み,壁で跳ね返る時は反射の物理法則
に従う.ただし,パドルで打ち返される時は,パドルの状態に
従った方向,ターゲットに当たった場合は,ボールは完全にラ
ンダムな方向へ反射する.反射の際は,何れの場合も速度の大
きさは変化しない.また,ボールが上向きに動き始めてから,
パドルがボールを打ち返すかまたは下に落としてしまうまでを
1epoch と呼ぶ.ゲームは報酬が得られた後も半永久的に続け
られる.
プレイヤがこのゲームで達成すべき目標は,落ちてくるボー
ルをパドルで打ち返し,ターゲットに当てることである.ボー
ルをパドルで打ち返した後に,ボールが下の壁に落ちることな
くターゲットの下面に当たった時に,プレイヤは正の報酬を得
る.報酬が得られるのはターゲットの下面に当たった場合のみ
であり,ターゲットの他の面は報酬が得られる対象にはならな
い.パドルで打ち返したボールが左右の壁で反射してからター
定
ゲットの左上の座標は (0.7, 0.7),幅は 0.3,高さは 0.1 に設定
した.ボールの半径は 0.02,ボールの速度は 0.1 とし,パドル
の幅は 0.1,パドルの高さは 0.05,パドルの速度は 0.1 とした.
ここで,速度とは 1step 中に移動する距離のことをさす.また,
報酬獲得の条件を満たした時に得られる報酬は reward = 1.0
であり,パドルの左右への移動,パドル状態の選択の行動を起
こした時の罰は reward = −0.01 とした.
エージェントは,actor-critic 手法の強化学習 [6] に従って行
動している.行動決定の方法はソフトマックスである.強化学
習の学習係数は α = 0.1,割引率は γ = 0.9,ソフトマックス
の逆温度は β = 1 とした.また,サブゴール発見に用いる強化
関数の減衰係数は λ = 0.1,イベント系列記憶 M のサイズは
W = 10 とした.
5. 2 結
果
図 4 は,それぞれのイベントが最重要として選択された確率
の変化を示すグラフである.縦軸は最重要であるとして選ばれ
た割合であり,横軸はゴールイベントの検出回数,つまり,報
酬獲得に成功した回数である.この確率は 50 回分の初期状態
からの試行結果の平均値である.図 4 は 3000 回報酬を得た時
点までの様子であり,図 5 は 50 回報酬を得た時点までのグラ
—4—
1
E1
selection ratio
0.8
E9
E9
E8
E8
E7
E7
E6
E6
E5
E5
E4
E4
E3
E3
E2
E2
E1
E1
0.6
0.4
E5
0.2
E4
0
0
500
1000
1500
2000
2500
3000
number of goal
0
図4
100
200
300
400
500
600
0
図6
Fig. 4 Selection ratio for the most
200
図8
500
600
Fig. 8 Transition of the most
important Event (late)
important Event (eraly)
0.1
0.8
400
最重要イベントの推移(収束が早い例)
Fig. 6 Transition of the most
important Event
300
number of goal
最重要イベントの推移(収束が遅い例)
1
0.1
0.09
E1
0.08
0.6
0.08
0.07
E5
0.4
0.05
0.04
E5
0.2
E4
E5
0.04
E1
0.03
E4
0.02
0
E1
0.06
w(E)
0.06
w(E)
selection ratio
100
number of goal
最重要イベントの選択率
0.02
E4
0.01
0
5
10
15
20
25
30
35
40
45
number of goal
図5
50
0
0
0
100
200
300
400
500
600
0
100
number of goal
200
300
400
500
number of goal
最重要イベントの選択率
(ゴール回数 0 ∼ 50)
Fig. 5 Selection ratio of the most
図7
図9
イベント重み(収束が遅い例)
Fig. 7 Weight of Event (late)
イベント重み(収束が早い例)
Fig. 9 Weight of Event (early)
important Event (0 ∼ 50 Goal)
フを拡大したものである.なお,この段階においては,おおよ
そ 20epoch に 1 回の割合で報酬が得られている.
報酬獲得を経験するにつれて,打ち返しイベント E1 が最重
6. 副報酬を用いた強化学習の加速
6. 1 最重要イベントの評価
要イベントとして選択される割合が大きくなり,最終的には
提案手法により最重要と判断されたイベントは我々が直感的
100% の確率で E1 が選択されるようになった.初期のうちは
に最重要であると考えたものと一致したが、それは本当にゴー
壁左イベント E4 と壁右イベント E5 も重要イベントとして選
ル達成の為に重要なものであるのであろうか.提案手法の妥当
択されているが,徐々にその確率は小さくなっており,最終的
性を確認するために副報酬を用いた強化学習の加速実験を行っ
にはその値は 0 となる.E1 , E4 , E5 以外のイベントが最重要イ
た.強化学習では,目標達成を導くような適切な状態に副報酬
ベントとして選択されることは無かった.壁右イベント E5 が
を与えることで,学習が加速することが知られている [3] [10].
最後の方まで高い確率で選択されるのは,ゲーム環境中でター
そこで,前述の方法で最重要とされたイベント状態に副報酬を
ゲットが右の壁に接する位置に設定されているために,右の壁
与え,強化学習の加速を試みる.具体的には,エージェントが
での反射を経由してターゲットに当たる現象が頻繁に起こる為
最重要イベントを検出した時,即ち最重要イベント状態に到
である.初期の内にこのような右壁経由の報酬獲得を多く経験
達した際に副報酬 r sub を与えることにする.この報酬はエー
すると,最重要イベントの選択が安定せず,適切なサブゴール
ジェントのスコアとなる累積報酬には加わらないが,学習に用
E1 の発見が遅れる要因となる.この状況の典型的な例として,
いる TD 誤差の式は以下のようになる.
ある 1 試行において選択された最重要イベントの遷移のグラフ
を図 6 に,その試行におけるイベント重みの値の変化グラフを
δt = rewardt+1 + γV (st+1 ) − V (st ) + r subt+1
図 7 に示す.ただし,イベント重みの値はゴールイベント E0
今回は r sub = 0.1,reward = 0.9 とした.また,選択される
の値を 1 とした相対値である.
最重要イベントの収束を考慮し,学習を始めて 3000 回の報酬
逆に,初期にに E1 を多く経験すると,瞬時に最重要イベン
トの選択は収束する.この状況の典型的な例である 1 試行の最
獲得した時点から副報酬を与えた.比較対象として,通常の
actor-critic 手法の強化学習に同じタスクを学習させた.
重要イベントの遷移のグラフと,イベント重みのグラフを図 8
6. 2 結
と図 9 に示す.
累積報酬の変化を通常の強化学習と比べた様子を図 10 に示
果
す.横軸は epoch 数,縦軸はエージェントが得た累積報酬で
ある.また,ゴール達成率の変化の様子を図 11 に示す.横軸
は epoch 数,縦軸は 100epoch の間に報酬を得た回数を 100 で
—5—
600
600000
0.9
0.8
0.7
200000
0.6
0
RL with sub-reward
goal ratio
score (accumulated reward)
400000
RL
-200000
RL with sub-reward
0.5
0.4
0.3
RL
0.2
-400000
0.1
-600000
0
0
10000
20000
30000
40000
50000
60000
70000
0
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
x 100 epoch
図 10
x 100 epoch
図 11
累積報酬
Fig. 10 Accumulated reward
割った値である.いずれも,値は 20 試行分の平均である.
両グラフから,副報酬を与えることで学習が加速されたこと
がわかる.これは,本論文で提案した手法によって発見された
最重要イベント状態が,実際にエージェントのゴール達成に有
効であったことを意味している.
7. ま と め
分節化された状態空間から目標達成の為の重要状態を発見す
る手法を提案し,その手法を用いることにより,ピンポンゲー
ムにおいて最重要状態を発見することが可能であることを示し
た.また最重要状態に副報酬を与えることにより,強化学習が
加速されることを示した。
今後の課題として、今回提案した最重要イベントの発見手法
が他のタスクにおいても有効であることを確認する必要がある。
現段階では、本研究で用いたピンポンゲームにおいてのみ有用
性を示せている。タスクによっては、今回の提案手法では最重
要イベントを発見できないものがあることが予想される。例え
ば、今回のタスクでは、一度パドルでボールを打ち返してから
ボールをターゲットに当てなければ報酬が得られなかったが、
パドルで打ち返す必要がなく、ただターゲットにボールが当た
れば報酬が得られるようなタスクの場合は、パドルでの打ち返
しを最重要であるとは見つけることは難しい。なぜなら、今回
の提案手法で最重要とされるイベントはゴール達成の為には
必ず通過しなければならない状態,即ち”bottle neck” [4] であ
るが,このようなタスクの場合、パドルでの打ち返しは bottle
neck とならないからである。bottle neck が最重要とされるの
は,今回採用した方法が Profit Sharing であった為と考えられ
ゴール達成率
Fig. 11 Goal ratio
するまでには至っていない.これも今後の重要な課題の1つで
ある.
文
献
[1] Grefenstette, J.J. (1988). ”Credit Assignment in Rule Discovery Systems Based on Genetic Algorithm”, Machine
Learning, Vol.3, pp.224-245.
[2] Stuart Russel, Peter Norvig. (1995). (邦訳 古川康一. (1997)),
エージェントアプローチ 人工知能. 共立出版. 937pp.
[3] Matari’c, M. J. (1994), ”Reward Functions for Accelerated
Learning”, in W. W. Cohen & H. Hirsh, eds, ‘Proceedings of the Eleventh International Conference on Machine
Learning (ML-94)’, Morgan Kauffman Publishers, Inc., New
Brunswick, NJ, pp. 181-189.
[4] Amy McGovern, Andrew G. Barto. (2001). ”Automatic Discovery of Subgoals in Reinforcement Learning using Diverse
Density.” Proceedings of the 18th International Conference
on Machine Learning, pp.361-368
[5] Oka,N., Morikawa, K., Komatsu, T., Suzuki, K., Hiraki,K.,
Ueda, K., Omori, T., (2001). ”Embodiment without a Physical Body”, The workshop in the 23rd Annual Meeting of
the Cognitive Science Society pp.48-52, Edinburgh, Scotland, UK
[6] Richard S. Sutton and Andrew G.Barto.(1998), (邦訳 三上
貞芳, 皆川雅章.(2000)), 強化学習. 森北出版.351pp.
[7] 大東 優, 長田悠吾, 石川 悟, 大森 隆司, 森川 幸治. (2004). ゲー
ム学習における解発見に向けたモデルベースの状態空間分節化,
Technical Report 電子情報通信学会技術報告, (印刷中).
[8] 鮫島和行, 片桐憲一, 銅谷賢治, 川人光男. (2002). モジュール結
合による運動パターンのシンボル化と見まね学習. 電子情報通信
学会論文誌, J85-D-II, pp.90-100.
[9] 宮崎和光,山村雅幸,小林重信. (1994):強化学習における報酬割
当ての理論的考察, 人工知能学会誌, Vol.9, No.4, pp.580–587.
[10] 山口,増渕,藤原,谷内田. (1997). 抽象化副報酬の自動生成によ
る実ロボットの実時間強化学習,人工知能学会誌, Vol.12, No.5,
pp.712-723.
るので,より一般的なタスクに適用する為には他の報酬分配法
を考慮する必要がある.
また、今回は状態空間の分節化については、人間がイベント
を定義し、それをエージェントに知識として与えることで実現
した。本来は、エージェント自身がイベントを生成すべきであ
る。エージェントが自律的に状態空間を分節化する手法は大東
らによって提案されているが [7],本研究で提案した手法と融合
—6—