ﭘﺮوژهي ﭘﺎﻳﺎﻧﻲ ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ 1 ﻫﺪف از اﻧﺠﺎم اﻳﻦ ﭘﺮوژه ﻃﺮاﺣﻲ ﻳﻚ ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ در در ﻳﻚ ﺷﺒﻜﻪ ﻣﺎﺗﺮﻳﺴﻲ ﺣﺮﻛﺖ ﻛﻨﺪ. ﺷﺒﻜﻪي 8*8زﻳﺮ را در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ )ﺷﻜﻞ .(1ﻫﺪف ﻧﻬﺎﻳﻲ رﺳﻴﺪن ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ ﺑﻪ ﻧﻘﻄﻪي ﻫﺪف در ﺑﺎﻻﺗﺮﻳﻦ و راﺳﺖ ﺗﺮﻳﻦ ﺧﺎﻧﻪي ﺷﺒﻜﻪ اﺳﺖ ،ﺑﻪ ﻃﻮري ﻛﻪ ﻋﺎﻣﻞ ﺑﻪ دﻳﻮارﻫﺎي ﻣﻮﺟﻮد در ﻣﺴﻴﺮ ﺑﺮﺧﻮرد ﻧﻜﻨﺪ .ﻋﺎﻣﻞ ﺑﺎﻳﺪ ﺑﺘﻮاﻧﺪ از ﻫﺮ ﻧﻘﻄﻪي ﺷﺮوﻋﻲ ﺑﻪ ﻧﻘﻄﻪي ﻫﺪف دﺳﺖ ﻳﺎﺑﺪ. ﺷﻜﻞ : 1ﻋﺎﻣﻞ ﻳﺎدﮔﻴﺮ در ﻳﻚ ﺷﺒﻜﻪي 8*8 ﺧﻂﻫﺎي ﻗﺮﻣﺰ ﻧﺸﺎندﻫﻨﺪهي دﻳﻮارﻫﺎﻳﻲ ﻫﺴﺘﻨﺪ ﻛﻪ ﻋﺎﻣﻞ ﻧﻤﻲﺗﻮاﻧﺪ از آنﻫﺎ ﻋﺒﻮر ﻛﻨﺪ .داﻳﺮهي ﺳﺒﺰ ﻧﺸﺎندﻫﻨﺪهي ﻋﺎﻣﻞ)ﻣﺜﻼ ﻳﻚ رﺑﺎت ﺳﻴﺎر (2و Gﻧﺸﺎندﻫﻨﺪهي ﻫﺪف ﻣﻲﺑﺎﺷﺪ. Learning agent Mobile robot ﺻﻔﺤﻪ|1 1 2 ﻓﺮض ﻛﻨﻴﺪ: ﺣﺎﻟﺖ اﻗﺪام 3 :ﺷﻤﺎ ﻣﻲداﻧﻴﺪ ﻛﻪ در ﻫﺮ ﻟﺤﻈﻪ ﻋﺎﻣﻞ در ﻛﺪام ﻣﺮﺑﻊ اﺳﺖ. 4 :ﺑﺎﻻ ،ﭘﺎﻳﻴﻦ ،ﭼﭗ ،راﺳﺖ ﮔﺬرﻫﺎي ﺣﺎﻟﺖ 5 :ﻗﻄﻌﻲ ،ﻋﺎﻣﻞ از دﻳﻮارﻫﺎ ﻧﻤﻲﺗﻮاﻧﺪ ﻋﺒﻮر ﻛﻨﺪ .ﻋﺎﻣﻞ در ﺣﺎﻟﺖ ﻓﻌﻠﻲاش ﻣﻲﻣﺎﻧﺪ اﮔﺮ اﻗﺪاﻣﻲ ﻛﻪ اﻧﺠﺎم ﻣﻲدﻫﺪ ﺑﺎﻋﺚ ﺷﻮد ﺑﻪ دﻳﻮار ﺑﺮﺧﻮرد ﻛﻨﺪ ﻳﺎ از ﺻﻔﺤﻪي 8*8 ﺑﻴﺮون رود. ﭘﺎداش 6 ) -1 :ﻣﻨﻔﻲ ﻳﻚ( ﺑﻪ ازاي ﻫﺮ واﺣﺪ زﻣﺎﻧﻲ)0 ،ﺻﻔﺮ( ﺑﻪ ازاي رﺳﻴﺪن ﺑﻪ ﻫﺪف : ٧ﺗﺼﻤﻴﻢﮔﻴﺮي در ﻣﻮرد ﺿﺮﻳﺐ ﮔﺴﺴﺘﮕﻲ ﺑﺴﺘﮕﻲ ﺑﻪ ﺗﺼﻤﻴﻢ ﺧﻮد ﺷﻤﺎ دارد. 3 state Action 5 State transitions 6 Reward 7 Discount factor 4 ﺻﻔﺤﻪ|2 ﻧﻜﺎت و اﻧﺘﻈﺎرات: ﭘﺮوژه ﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﺻﻮرت اﻧﻔﺮادي اﻧﺠﺎم ﺷﻮﻧﺪ. ﺗﺎرﻳﺦ ﺗﺤﻮﻳﻞ ﭘﺮوژه ﻫﺎ ،ﺳﻪ ﺷﻨﺒﻪ 19ﺑﻬﻤﻦ و ﺑﻪ ﺻﻮرت ﺣﻀﻮري ﺧﻮاﻫﺪ ﺑﻮد .زﻣﺎن ﺑﻨﺪي ﺗﺤﻮﻳﻞ ﭘﺮوژه ﻣﺘﻌﺎﻗﺒﺎ اﻋﻼم ﺧﻮاﻫﺪ ﺷﺪ. ﺑﻪ ﺳﻮاﻻت 2 ،1و 3ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﭘﺎﺳﺦ دﻫﻴﺪ. ﺑﺮﻧﺎﻣﻪ ﺑﺎﻳﺪ داراي اﻳﻦ ﻗﺎﺑﻠﻴﺖ ﺑﺎﺷﺪ ﻛﻪ ﻣﺤﻞ ﻫﺪف و ﻫﻤﭽﻨﻴﻦ ﺷﻜﻞ ﻣﻮاﻧﻊ را درﻳﺎﻓﺖ ﻧﻤﻮده و ﺳﭙﺲ ﺑﺎ روﺷﻬﺎي ﺧﻮاﺳﺘﻪ ﺷﺪه ﻋﻤﻞ ﻳﺎدﮔﻴﺮي را اﻧﺠﺎم دﻫﺪ و ﻫﻤﭽﻨﻴﻦ ﺑﺘﻮاﻧﺪ ﺑﺎ ﻗﺮار دادن ﻋﺎﻣﻞ در ﻫﺮ ﻳﻚ از ﺧﺎﻧﻪ ﻫﺎي ﺟﺪول ﻣﺴﻴﺮ ﺑﻬﻴﻨﻪ ﺑﺪﺳﺖ آﻣﺪه ﺗﻮﺳﻂ ﻫﺮ ﻳﻚ از ﺳﻴﺎﺳﺘﻬﺎي ﻳﺎدﮔﻴﺮي را ﻣﺸﺨﺺ ﻧﻤﺎﻳﺪ. ﺗﻤﺎﻣﻲ ﻛﺪﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ داراي ﺗﻮﺿﻴﺤﺎت درون ﺑﺮﻧﺎﻣﻪاي ﺑﺎﺷﻨﺪ. ﺑﻪ ﺑﺮﻧﺎﻣﻪ ﻫﺎﻳﻲ ﻛﻪ ﻣﻮارد ﺧﻮاﺳﺘﻪ ﺷﺪه از ﻗﺒﻴﻞ ﻧﻤﺎﻳﺶ ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ ،ﻧﻤﺎﻳﺶ ﺣﺮﻛﺖ ﻋﺎﻣﻞ در ﻣﺴﻴﺮ رﺳﻴﺪن ﺑﻪ ﻫﺪف ،ﻣﺸﺨﺺ ﻛﺮدن ﻣﺤﻞ ﻫﺪف و ﺗﻌﻴﻴﻦ ﻣﻜﺎن ﻣﻮاﻧﻊ را ﺑﻪ ﺻﻮرت ﮔﺮاﻓﻴﻜﻲ ﭘﻴﺎده ﺳﺎزي ﻧﻤﺎﻳﻨﺪ ﻧﻤﺮه اﺿﺎﻓﻪ ﺗﻌﻠﻖ ﺧﻮاﻫﺪ ﮔﺮﻓﺖ. ﻫﺮ ﮔﻮﻧﻪ ﺳﻮال در ﻣﻮرد ﭘﺮوژه را ﺑﻪ اﻳﻤﻴﻞ درس ارﺳﺎل ﻧﻤﺎﻳﻴﺪ. ﺳﻮال (a) (1ﺷﻜﻞ ،2ﻧﺸﺎندﻫﻨﺪهي ﻗﺴﻤﺘﻲ از ﻳﻚ ﺳﻴﺎﺳﺖ ﻗﻄﻌﻲ و ﻏﻴﺮ ﺑﻬﻴﻨﻪ اﺳﺖ .ﺳﻴﺎﺳﺖ را ﻫﺮ 8 9 10 ﮔﻮﻧﻪ ﻛﻪ ﻣﻲﺧﻮاﻫﻴﺪ ﻛﺎﻣﻞ ﻛﻨﻴﺪ .ﻣﺜﻼ ﻳﻪ ﺳﻴﺎﺳﺖ ﻏﻴﺮﺑﻬﻴﻨﻪ اﻳﻦ اﺳﺖ ﻛﻪ دور دﻳﻮارﻫﺎ را ﻃﻲ ﻛﻨﺪ و ﺳﭙﺲ ﺑﻪ ﻫﺪف ﺑﺮﺳﺪ .ﻫﻢﭼﻨﻴﻦ ﺷﻤﺎ ﻣﻲﺗﻮاﻧﻴﺪ ﻫﺮ ﺳﻴﺎﺳﺖ ﻏﻴﺮ ﺑﻬﻴﻨﻪي دﻳﮕﺮي را ﺑﺮاي اﻳﻦ ﻗﺴﻤﺖ ﺳﻮال اﻧﺘﺨﺎب ﻧﻤﺎﻳﻴﺪ .روش first-visit MCرا ﺑﺮاي ﺗﺨﻤﻴﻦ ﺗﺎﺑﻊ ﻣﻘﺪار 11 ﺑﺮاي ﺣﺎﻟﺖﻫﺎي ﺷﺒﻜﻪ ﺑﺮ اﺳﺎس ﺳﻴﺎﺳﺖ در ﻧﻈﺮ ﮔﺮﻓﺘﻪي ﺧﻮد )ﺑﺮاي ﺣﺎﻟﺖﻫﺎي ﻣﻮﺟﻮد در ﻣﺴﻴﺮ ﺑﺪﺳﺖ آﻣﺪه ﺑﺮ اﺳﺎس ﺳﻴﺎﺳﺖ ﻣﻮردﻧﻈﺮ ﺧﻮد( ﭘﻴﺎده ﺳﺎزي ﻧﻤﻮده و ﺑﺪﺳﺖآﻣﺪه را در ﺧﺮوﺟﻲ ﻧﺸﺎن دﻫﻴﺪ. 8 policy deterministic 10 Non - optimal 11 Value function 9 ﺻﻔﺤﻪ|3 ﺷﻜﻞ : 2ﻗﺴﻤﺘﻲ از ﻳﻚ ﺳﻴﺎﺳﺖ ﻏﻴﺮ ﺑﻬﻴﻨﻪ روش ﭘﻴﺎدهﺳﺎزي ﺷﺪه ي ﺧﻮد را ﻛﺎﻣﻞ ﺗﻮﺿﻴﺢ دﻫﻴﺪ .ﺳﺮﻋﺖ ﻳﺎد ﮔﻴﺮي در ﺑﺮﻧﺎﻣﻪي ﻣﻮردﻧﻈﺮ ﭼﮕﻮﻧﻪ اﺳﺖ؟ )(b اﻛﻨﻮن ) Generalized Policy Iteration (GPIرا اﻧﺠﺎم دﻫﻴﺪ ،ﻳﻌﻨﻲ ﻋﻤﻠﻴﺎت policy improvementو policy iterationرا ﺑﻪ ﻃﻮر ﻣﺘﻨﺎوب ﺑﺮاي ﺑﺪﺳﺖ آوردن ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ اﻧﺠﺎم دﻫﻴﺪ).ﻫﻤﭽﻨﺎن ﺑﺎ اﺳﺘﻔﺎده از (MC 12 ﻳﻚ دﻳﺎﮔﺮام ﻛﻪ ﻧﺸﺎندﻫﻨﺪهي ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ ﺗﻮﻟﻴﺪي ﺗﻮﺳﻂ ﺑﺮﻧﺎﻣﻪي ﺷﻤﺎﺳﺖ ،اراﺋﻪ دﻫﻴﺪ .روش اراﺋﻪ ﺷﺪه و ﺑﺎزدﻫﻲ ﺑﺮﻧﺎﻣﻪي ﺧﻮد در ﺑﺪﺳﺖ آوردن ﺳﻴﺎﺳﺖ ﺑﻬﻴﻨﻪ ﺑﺎ اﻳﻦ روش را ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﺗﻮﺿﻴﺢ دﻫﻴﺪ. ﺳﻮال (a) (2 ﻳﻚ ﺳﻴﺎﺳﺖ ﻗﻄﻌﻲ ،ﻏﻴﺮﺑﻬﻴﻨﻪ )ﻣﺘﻔﺎوت از ﺳﻴﺎﺳﺖ ﺳﻮال (1اﻧﺘﺨﺎب ﻛﻨﻴﺪ و ﻧﻤﻮدار آن را ﺑﻜﺸﻴﺪ)ﻣﺎﻧﻨﺪ ﺷﻜﻞ .(2از اﻟﮕﻮرﻳﺘﻢ Monte Carlo Exploring Startsﺑﺮاي ﺑﺪﺳﺖ آوردن ﻣﻘﺎدﻳﺮ ﺑﻬﻴﻨﻪي 12ﻣﺤﻴﻂ ﻫﻤﭽﻨﺎن ﻗﻄﻌﻲ اﺳﺖ .ﭘﺎداش ﻧﻴﺰ ﻫﻤﺎﻧﻨﺪ ﺣﺎﻟﺖ ﻗﺒﻞ اﺳﺖ. ﺻﻔﺤﻪ|4 Qاﺳﺘﻔﺎده ﻛﻨﻴﺪ .ﻣﻘﺎدﻳﺮ Qرا در ﺧﺮوﺟﻲ ﭼﺎپ ﻧﻤﺎﻳﻴﺪ .ﻣﻘﺎدﻳﺮ Vﺑﺮاي اﻳﻦ ﺳﻴﺎﺳﺖ را ﻧﻴﺰ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ .ﻧﺤﻮهي ﻛﺎر ﺧﻮد را ﺗﻮﺿﻴﺢ دﻫﻴﺪ. )(b ﻗﺴﻤﺖ aرا ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻢ ε-soft on-policy Monte Carlo control اﻧﺠﺎم دﻫﻴﺪ .ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﻛﺎﻣﻞ اراﺋﻪ دﻫﻴﺪ و ﺑﺎ ﻧﺘﺎﻳﺞ را ﺑﺎ روش aﻣﻘﺎﻳﺴﻪ ﻛﻨﻴﺪ. ﺳﻮال (a) (3 اﻟﮕﻮرﻳﺘﻢ Q-learning off-policy TD controlرا ﺑﺮاي 4ﺣﺎﻟﺖ ﻛﻪ در ﻫﺮ ﺣﺎﻟﺖ ﻧﻘﻄﻪي ﻫﺪف ﻳﻜﻲ از 4ﮔﻮﺷﻪي ﺻﻔﺤﻪي 8*8اﺳﺖ ﭘﻴﺎده ﺳﺎزي و اﺟﺮا ﻛﻨﻴﺪ .ﻣﻘﺪار Qرا ﺑﺮاي ﻫﺮ ﭼﻬﺎرﺣﺎﻟﺖ ﻣﺤﺎﺳﺒﻪ و اراﺋﻪ دﻫﻴﺪ. ) (bﻧﺘﺎﻳﺞ ﺑﺪﺳﺖآﻣﺪه در ﻫﺮ ﭼﻬﺎر ﺣﺎﻟﺖ را ﺑﺎ ﻳﻜﺪﻳﮕﺮ ﻣﻘﺎﻳﺴﻪ و ﻋﻠﺖ ﺗﻔﺎوت ﻣﻘﺎدﻳﺮ Qرا در اﻳﻦ ﭼﻬﺎر ﺣﺎﻟﺖ ﻧﺴﺒﺖ ﺑﻪ ﻳﻜﺪﻳﮕﺮ ﺑﻴﺎن ﻛﻨﻴﺪ. ﻣﻮﻓﻖ ﺑﺎﺷﻴﺪ ﺻﻔﺤﻪ|5
© Copyright 2026 Paperzz