Download

‫ﭘﺮوژهي ﭘﺎﻳﺎﻧﻲ ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬
‫‪1‬‬
‫ﻫﺪف از اﻧﺠﺎم اﻳﻦ ﭘﺮوژه ﻃﺮاﺣﻲ ﻳﻚ ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ در در ﻳﻚ ﺷﺒﻜﻪ ﻣﺎﺗﺮﻳﺴﻲ ﺣﺮﻛﺖ ﻛﻨﺪ‪.‬‬
‫ﺷﺒﻜﻪي ‪ 8*8‬زﻳﺮ را در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ )ﺷﻜﻞ ‪ .(1‬ﻫﺪف ﻧﻬﺎﻳﻲ رﺳﻴﺪن ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ ﺑﻪ ﻧﻘﻄﻪي ﻫﺪف در ﺑﺎﻻﺗﺮﻳﻦ و‬
‫راﺳﺖ ﺗﺮﻳﻦ ﺧﺎﻧﻪي ﺷﺒﻜﻪ اﺳﺖ‪ ،‬ﺑﻪ ﻃﻮري ﻛﻪ ﻋﺎﻣﻞ ﺑﻪ دﻳﻮارﻫﺎي ﻣﻮﺟﻮد در ﻣﺴﻴﺮ ﺑﺮﺧﻮرد ﻧﻜﻨﺪ‪ .‬ﻋﺎﻣﻞ ﺑﺎﻳﺪ ﺑﺘﻮاﻧﺪ‬
‫از ﻫﺮ ﻧﻘﻄﻪي ﺷﺮوﻋﻲ ﺑﻪ ﻧﻘﻄﻪي ﻫﺪف دﺳﺖ ﻳﺎﺑﺪ‪.‬‬
‫ﺷﻜﻞ ‪ : 1‬ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ در ﻳﻚ ﺷﺒﻜﻪي ‪8*8‬‬
‫ﺧﻂﻫﺎي ﻗﺮﻣﺰ ﻧﺸﺎندﻫﻨﺪهي دﻳﻮارﻫﺎﻳﻲ ﻫﺴﺘﻨﺪ ﻛﻪ ﻋﺎﻣﻞ ﻧﻤﻲﺗﻮاﻧﺪ از آنﻫﺎ ﻋﺒﻮر ﻛﻨﺪ‪ .‬داﻳﺮهي‬
‫ﺳﺒﺰ ﻧﺸﺎندﻫﻨﺪهي ﻋﺎﻣﻞ)ﻣﺜﻼ ﻳﻚ رﺑﺎت ﺳﻴﺎر‪ (2‬و ‪ G‬ﻧﺸﺎندﻫﻨﺪهي ﻫﺪف ﻣﻲﺑﺎﺷﺪ‪.‬‬
‫‪Learning agent‬‬
‫‪Mobile robot‬‬
‫ﺻﻔﺤﻪ|‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫ﻓﺮض ﻛﻨﻴﺪ‪:‬‬
‫ﺣﺎﻟﺖ‬
‫اﻗﺪام‬
‫‪3‬‬
‫‪ :‬ﺷﻤﺎ ﻣﻲداﻧﻴﺪ ﻛﻪ در ﻫﺮ ﻟﺤﻈﻪ ﻋﺎﻣﻞ در ﻛﺪام ﻣﺮﺑﻊ اﺳﺖ‪.‬‬
‫‪4‬‬
‫‪ :‬ﺑﺎﻻ‪ ،‬ﭘﺎﻳﻴﻦ‪ ،‬ﭼﭗ‪ ،‬راﺳﺖ‬
‫ﮔﺬرﻫﺎي ﺣﺎﻟﺖ‬
‫‪5‬‬
‫‪ :‬ﻗﻄﻌﻲ‪ ،‬ﻋﺎﻣﻞ از دﻳﻮارﻫﺎ ﻧﻤﻲﺗﻮاﻧﺪ ﻋﺒﻮر ﻛﻨﺪ‪ .‬ﻋﺎﻣﻞ در ﺣﺎﻟﺖ ﻓﻌﻠﻲاش‬
‫ﻣﻲﻣﺎﻧﺪ اﮔﺮ اﻗﺪاﻣﻲ ﻛﻪ اﻧﺠﺎم ﻣﻲدﻫﺪ ﺑﺎﻋﺚ ﺷﻮد ﺑﻪ دﻳﻮار ﺑﺮﺧﻮرد ﻛﻨﺪ ﻳﺎ از ﺻﻔﺤﻪي ‪8*8‬‬
‫ﺑﻴﺮون رود‪.‬‬
‫ﭘﺎداش‬
‫‪6‬‬
‫‪) -1 :‬ﻣﻨﻔﻲ ﻳﻚ( ﺑﻪ ازاي ﻫﺮ واﺣﺪ زﻣﺎﻧﻲ‪)0 ،‬ﺻﻔﺮ( ﺑﻪ ازاي رﺳﻴﺪن ﺑﻪ ﻫﺪف‬
‫‪ : ٧‬ﺗﺼﻤﻴﻢﮔﻴﺮي در ﻣﻮرد ﺿﺮﻳﺐ ﮔﺴﺴﺘﮕﻲ ﺑﺴﺘﮕﻲ ﺑﻪ ﺗﺼﻤﻴﻢ ﺧﻮد ﺷﻤﺎ دارد‪.‬‬
‫‪3‬‬
‫‪state‬‬
‫‪Action‬‬
‫‪5‬‬
‫‪State transitions‬‬
‫‪6‬‬
‫‪Reward‬‬
‫‪7‬‬
‫‪Discount factor‬‬
‫‪4‬‬
‫ﺻﻔﺤﻪ|‪2‬‬
‫ﻧﻜﺎت و اﻧﺘﻈﺎرات‪:‬‬
‫ ﭘﺮوژه ﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﺻﻮرت اﻧﻔﺮادي اﻧﺠﺎم ﺷﻮﻧﺪ‪.‬‬
‫ ﺗﺎرﻳﺦ ﺗﺤﻮﻳﻞ ﭘﺮوژه ﻫﺎ‪ ،‬ﺳﻪ ﺷﻨﺒﻪ ‪ 19‬ﺑﻬﻤﻦ و ﺑﻪ ﺻﻮرت ﺣﻀﻮري ﺧﻮاﻫﺪ ﺑﻮد‪ .‬زﻣﺎن ﺑﻨﺪي ﺗﺤﻮﻳﻞ‬
‫ﭘﺮوژه ﻣﺘﻌﺎﻗﺒﺎ اﻋﻼم ﺧﻮاﻫﺪ ﺷﺪ‪.‬‬
‫ ﺑﻪ ﺳﻮاﻻت ‪ 2 ،1‬و ‪ 3‬ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﭘﺎﺳﺦ دﻫﻴﺪ‪.‬‬
‫ ﺑﺮﻧﺎﻣﻪ ﺑﺎﻳﺪ داراي اﻳﻦ ﻗﺎﺑﻠﻴﺖ ﺑﺎﺷﺪ ﻛﻪ ﻣﺤﻞ ﻫﺪف و ﻫﻤﭽﻨﻴﻦ ﺷﻜﻞ ﻣﻮاﻧﻊ را درﻳﺎﻓﺖ ﻧﻤﻮده و‬
‫ﺳﭙﺲ ﺑﺎ روﺷﻬﺎي ﺧﻮاﺳﺘﻪ ﺷﺪه ﻋﻤﻞ ﻳﺎدﮔﻴﺮي را اﻧﺠﺎم دﻫﺪ و ﻫﻤﭽﻨﻴﻦ ﺑﺘﻮاﻧﺪ ﺑﺎ ﻗﺮار دادن‬
‫ﻋﺎﻣﻞ در ﻫﺮ ﻳﻚ از ﺧﺎﻧﻪ ﻫﺎي ﺟﺪول ﻣﺴﻴﺮ ﺑﻬﻴﻨﻪ ﺑﺪﺳﺖ آﻣﺪه ﺗﻮﺳﻂ ﻫﺮ ﻳﻚ از ﺳﻴﺎﺳﺘﻬﺎي‬
‫ﻳﺎدﮔﻴﺮي را ﻣﺸﺨﺺ ﻧﻤﺎﻳﺪ‪.‬‬
‫ ﺗﻤﺎﻣﻲ ﻛﺪﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ داراي ﺗﻮﺿﻴﺤﺎت درون ﺑﺮﻧﺎﻣﻪاي ﺑﺎﺷﻨﺪ‪.‬‬
‫ ﺑﻪ ﺑﺮﻧﺎﻣﻪ ﻫﺎﻳﻲ ﻛﻪ ﻣﻮارد ﺧﻮاﺳﺘﻪ ﺷﺪه از ﻗﺒﻴﻞ ﻧﻤﺎﻳﺶ ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ‪ ،‬ﻧﻤﺎﻳﺶ ﺣﺮﻛﺖ ﻋﺎﻣﻞ در‬
‫ﻣﺴﻴﺮ رﺳﻴﺪن ﺑﻪ ﻫﺪف‪ ،‬ﻣﺸﺨﺺ ﻛﺮدن ﻣﺤﻞ ﻫﺪف و ﺗﻌﻴﻴﻦ ﻣﻜﺎن ﻣﻮاﻧﻊ را ﺑﻪ ﺻﻮرت ﮔﺮاﻓﻴﻜﻲ‬
‫ﭘﻴﺎده ﺳﺎزي ﻧﻤﺎﻳﻨﺪ ﻧﻤﺮه اﺿﺎﻓﻪ ﺗﻌﻠﻖ ﺧﻮاﻫﺪ ﮔﺮﻓﺖ‪.‬‬
‫ ﻫﺮ ﮔﻮﻧﻪ ﺳﻮال در ﻣﻮرد ﭘﺮوژه را ﺑﻪ اﻳﻤﻴﻞ درس ارﺳﺎل ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫ﺳﻮال‬
‫‪ (a) (1‬ﺷﻜﻞ ‪ ،2‬ﻧﺸﺎندﻫﻨﺪهي ﻗﺴﻤﺘﻲ از ﻳﻚ ﺳﻴﺎﺳﺖ ﻗﻄﻌﻲ و ﻏﻴﺮ ﺑﻬﻴﻨﻪ اﺳﺖ‪ .‬ﺳﻴﺎﺳﺖ را ﻫﺮ‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫ﮔﻮﻧﻪ ﻛﻪ ﻣﻲﺧﻮاﻫﻴﺪ ﻛﺎﻣﻞ ﻛﻨﻴﺪ‪ .‬ﻣﺜﻼ ﻳﻪ ﺳﻴﺎﺳﺖ ﻏﻴﺮﺑﻬﻴﻨﻪ اﻳﻦ اﺳﺖ ﻛﻪ دور دﻳﻮارﻫﺎ را ﻃﻲ ﻛﻨﺪ و ﺳﭙﺲ ﺑﻪ ﻫﺪف‬
‫ﺑﺮﺳﺪ‪ .‬ﻫﻢﭼﻨﻴﻦ ﺷﻤﺎ ﻣﻲﺗﻮاﻧﻴﺪ ﻫﺮ ﺳﻴﺎﺳﺖ ﻏﻴﺮ ﺑﻬﻴﻨﻪي دﻳﮕﺮي را ﺑﺮاي اﻳﻦ ﻗﺴﻤﺖ ﺳﻮال اﻧﺘﺨﺎب ﻧﻤﺎﻳﻴﺪ‪ .‬روش‬
‫‪ first-visit MC‬را ﺑﺮاي ﺗﺨﻤﻴﻦ ﺗﺎﺑﻊ ﻣﻘﺪار‬
‫‪11‬‬
‫ ﺑﺮاي ﺣﺎﻟﺖﻫﺎي ﺷﺒﻜﻪ ﺑﺮ اﺳﺎس ﺳﻴﺎﺳﺖ در ﻧﻈﺮ ﮔﺮﻓﺘﻪي‬
‫ﺧﻮد )ﺑﺮاي ﺣﺎﻟﺖﻫﺎي ﻣﻮﺟﻮد در ﻣﺴﻴﺮ ﺑﺪﺳﺖ آﻣﺪه ﺑﺮ اﺳﺎس ﺳﻴﺎﺳﺖ ﻣﻮردﻧﻈﺮ ﺧﻮد( ﭘﻴﺎده ﺳﺎزي ﻧﻤﻮده و ‬
‫ﺑﺪﺳﺖآﻣﺪه را در ﺧﺮوﺟﻲ ﻧﺸﺎن دﻫﻴﺪ‪.‬‬
‫‪8‬‬
‫‪policy‬‬
‫‪deterministic‬‬
‫‪10‬‬
‫‪Non - optimal‬‬
‫‪11‬‬
‫‪Value function‬‬
‫‪9‬‬
‫ﺻﻔﺤﻪ|‪3‬‬
‫ﺷﻜﻞ‪ : 2‬ﻗﺴﻤﺘﻲ از ﻳﻚ ﺳﻴﺎﺳﺖ ﻏﻴﺮ ﺑﻬﻴﻨﻪ‬
‫روش ﭘﻴﺎدهﺳﺎزي ﺷﺪه ي ﺧﻮد را ﻛﺎﻣﻞ ﺗﻮﺿﻴﺢ دﻫﻴﺪ‪ .‬ﺳﺮﻋﺖ ﻳﺎد ﮔﻴﺮي در ﺑﺮﻧﺎﻣﻪي ﻣﻮردﻧﻈﺮ ﭼﮕﻮﻧﻪ اﺳﺖ؟‬
‫)‪(b‬‬
‫اﻛﻨﻮن )‪ Generalized Policy Iteration (GPI‬را اﻧﺠﺎم دﻫﻴﺪ‪ ،‬ﻳﻌﻨﻲ ﻋﻤﻠﻴﺎت‬
‫‪policy‬‬
‫‪ improvement‬و ‪ policy iteration‬را ﺑﻪ ﻃﻮر ﻣﺘﻨﺎوب ﺑﺮاي ﺑﺪﺳﺖ آوردن ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ اﻧﺠﺎم‬
‫دﻫﻴﺪ‪).‬ﻫﻤﭽﻨﺎن ﺑﺎ اﺳﺘﻔﺎده از ‪(MC‬‬
‫‪12‬‬
‫ﻳﻚ دﻳﺎﮔﺮام ﻛﻪ ﻧﺸﺎندﻫﻨﺪهي ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ ﺗﻮﻟﻴﺪي ﺗﻮﺳﻂ ﺑﺮﻧﺎﻣﻪي ﺷﻤﺎﺳﺖ‪ ،‬اراﺋﻪ دﻫﻴﺪ‪ .‬روش اراﺋﻪ ﺷﺪه و‬
‫ﺑﺎزدﻫﻲ ﺑﺮﻧﺎﻣﻪي ﺧﻮد در ﺑﺪﺳﺖ آوردن ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ ﺑﺎ اﻳﻦ روش را ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﺗﻮﺿﻴﺢ دﻫﻴﺪ‪.‬‬
‫ﺳﻮال ‪(a) (2‬‬
‫ﻳﻚ ﺳﻴﺎﺳﺖ ﻗﻄﻌﻲ‪ ،‬ﻏﻴﺮﺑﻬﻴﻨﻪ )ﻣﺘﻔﺎوت از ﺳﻴﺎﺳﺖ ﺳﻮال ‪ (1‬اﻧﺘﺨﺎب ﻛﻨﻴﺪ و ﻧﻤﻮدار آن را‬
‫ﺑﻜﺸﻴﺪ)ﻣﺎﻧﻨﺪ ﺷﻜﻞ ‪ .(2‬از اﻟﮕﻮرﻳﺘﻢ ‪ Monte Carlo Exploring Starts‬ﺑﺮاي ﺑﺪﺳﺖ آوردن ﻣﻘﺎدﻳﺮ ﺑﻬﻴﻨﻪي‬
‫‪12‬ﻣﺤﻴﻂ ﻫﻤﭽﻨﺎن ﻗﻄﻌﻲ اﺳﺖ‪ .‬ﭘﺎداش ﻧﻴﺰ ﻫﻤﺎﻧﻨﺪ ﺣﺎﻟﺖ ﻗﺒﻞ اﺳﺖ‪.‬‬
‫ﺻﻔﺤﻪ|‪4‬‬
‫‪ Q‬اﺳﺘﻔﺎده ﻛﻨﻴﺪ‪ .‬ﻣﻘﺎدﻳﺮ ‪ Q‬را در ﺧﺮوﺟﻲ ﭼﺎپ ﻧﻤﺎﻳﻴﺪ‪ .‬ﻣﻘﺎدﻳﺮ ‪ V‬ﺑﺮاي اﻳﻦ ﺳﻴﺎﺳﺖ را ﻧﻴﺰ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ‪ .‬ﻧﺤﻮهي‬
‫ﻛﺎر ﺧﻮد را ﺗﻮﺿﻴﺢ دﻫﻴﺪ‪.‬‬
‫)‪(b‬‬
‫ﻗﺴﻤﺖ ‪ a‬را ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻢ ‪ε-soft on-policy Monte Carlo control‬‬
‫اﻧﺠﺎم دﻫﻴﺪ‪ .‬ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ اراﺋﻪ دﻫﻴﺪ و ﺑﺎ ﻧﺘﺎﻳﺞ را ﺑﺎ روش ‪ a‬ﻣﻘﺎﻳﺴﻪ ﻛﻨﻴﺪ‪.‬‬
‫ﺳﻮال ‪(a) (3‬‬
‫اﻟﮕﻮرﻳﺘﻢ ‪ Q-learning off-policy TD control‬را ﺑﺮاي ‪ 4‬ﺣﺎﻟﺖ ﻛﻪ در ﻫﺮ ﺣﺎﻟﺖ‬
‫ﻧﻘﻄﻪي ﻫﺪف ﻳﻜﻲ از ‪ 4‬ﮔﻮﺷﻪي ﺻﻔﺤﻪي ‪ 8*8‬اﺳﺖ ﭘﻴﺎده ﺳﺎزي و اﺟﺮا ﻛﻨﻴﺪ‪ .‬ﻣﻘﺪار ‪ Q‬را ﺑﺮاي ﻫﺮ ﭼﻬﺎرﺣﺎﻟﺖ‬
‫ﻣﺤﺎﺳﺒﻪ و اراﺋﻪ دﻫﻴﺪ‪.‬‬
‫)‪ (b‬ﻧﺘﺎﻳﺞ ﺑﺪﺳﺖآﻣﺪه در ﻫﺮ ﭼﻬﺎر ﺣﺎﻟﺖ را ﺑﺎ ﻳﻜﺪﻳﮕﺮ ﻣﻘﺎﻳﺴﻪ و ﻋﻠﺖ ﺗﻔﺎوت ﻣﻘﺎدﻳﺮ ‪ Q‬را در اﻳﻦ ﭼﻬﺎر‬
‫ﺣﺎﻟﺖ ﻧﺴﺒﺖ ﺑﻪ ﻳﻜﺪﻳﮕﺮ ﺑﻴﺎن ﻛﻨﻴﺪ‪.‬‬
‫ﻣﻮﻓﻖ ﺑﺎﺷﻴﺪ‬
‫ﺻﻔﺤﻪ|‪5‬‬