ﺑﻪ ﻧﺎم ﺧﺪا ﻧﯿﻤﺴﺎل اول ٩۴-٩۵ ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ )۴٠-٧١٧ﮔﺮوه دوم( ﻣﺪرس :ﺳﻠﯿﻤﺎﻧ ﺗﻤﺮﯾﻦ ﺳﺮی ﺷﺸﻢ -ﮐﺎﻫﺶ ﺑﻌﺪ ،ﺧﻮﺷﻪﺑﻨﺪی و ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﻧﻤﺮه٩۵ : ﻣﻮﻋﺪ ﺗﺤﻮﯾﻞ ١۵ :دی ﺳﺎﻋﺖ ٢٣:۵٩ ﺳﻮال ٢٠)١ﻧﻤﺮه(PCA : ١٠) .١.١ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ a1 , a2 , ..., ad′ﭘﺎﯾﻪﻫﺎی orthonormalﻓﻀﺎی ﺧﻄ ِ -d′ﺑﻌﺪی ﺑﺎﺷﻨﺪ ﮐﻪ .d′ < dﻧﺸﺎن دﻫﯿﺪ ﻣﺘﻮﺳﻂ ﻣﺠﺬورات ﺧﻄﺎ ١ﺑﯿﻦ ﯾ ﻧﻘﻄﻪی -dﺑﻌﺪی و ﺗﺼﻮﯾﺮ آن در ﻓﻀﺎی -d′ﺑﻌﺪی ﺣﺪاﻗﻞ ﻣ ﺷﻮد اﮔﺮ .١ﭘﺎﯾﻪﻫﺎ ﺑﺮدارﻫﺎی وﯾﮋهی ﻣﺎﺗﺮﯾﺲ ﮐﻮوارﯾﺎﻧﺲ ) (Rxﺷﻮﻧﺪ. ٢ .٢زﯾﺮﻓﻀﺎی -d′ﺑﻌﺪی ﻓﻀﺎﯾ ﺑﺎﺷﺪ ﮐﻪ ﺗﻮﺳﻂ ﺑﺮدارﻫﺎی وﯾﮋهی ﻣﺘﻨﺎﻇﺮ ﺑﺎ ﺑﺰرگﺗﺮﯾﻦ ﻣﻘﺎدﯾﺮ وﯾﮋهی Rxﭘﻮﺷﺶ داده ﻣ ﺷﻮد. راﻫﻨﻤﺎﯾ :ﺳﻌ ﮐﻨﯿﺪ ﺣﺪاﻗﻞ ﻣﯿﺎﻧ ﯿﻦ ﻣﺠﺬورات ﺧﻄﺎ را ﺑﺎ وﺟﻮد ﻣﺤﺪودﯾﺖ aTi ai = 1ﺑﻪ دﺳﺖ آورﯾﺪ. ١٠) .٢.١ﻧﻤﺮه( ﻧﻘﺎط X1 , ..., XNرا در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .رواﺑﻂ ﻣﺮﺑﻮط ﺑﻪ kernel PCAرا ﺑﻪ ﻃﻮر ﮐﺎﻣﻞ از روی رواﺑﻂ PCAاﺳﺘﺨﺮاج ﮐﻨﯿﺪ و ﮔﺎمﻫﺎﯾ را داﺷﺘﻦ ﻣﺎﺗﺮﯾﺲ ﻫﺴﺘﻪی Kدر روش kernel PCAﻣﻮرد ﻧﯿﺎز اﺳﺖ ،ﻣﺸﺨﺺ ﻧﻤﺎﯾﯿﺪ .ﻓﺮض ﮐﻨﯿﺪ ﻣﯿﺎﻧ ﯿﻦ اﯾﻦ N ﺗﺒﺪﯾﻞﯾﺎﻓﺘﻪی دادهﻫﺎ ﺑﺎ∑ ( ﮐﻪ ﺑﺮای ﭘﯿﺪا ﮐﺮدن ) N X = 0 ﻧﻘﻄﻪ ﺑﺮاﺑﺮ ﺻﻔﺮ اﺳﺖ .ﻫﻤﭽﻨﯿﻦ ﺑﺮای ﺳﺎدﮔ ﻓﺮض ﮐﻨﯿﺪ ﭘﺲ از ﺗﺒﺪﯾﻞ ﻧﻘﺎط ﺑﻪ ﻓﻀﺎی ﻣﺮﺑﻮط ﺑﻪ ﻫﺴﺘﻪی ،Kﻣﯿﺎﻧ ﯿﻦ ﻧﻘﺎط ﺻﻔﺮ اﺳﺖ n n=1 ∑( ) N . n=1 Φ(Xn ) = 0 ﺳﻮال ٣۵)٢ﻧﻤﺮه( :ﺧﻮﺷﻪﺑﻨﺪی ١۵) .١.٢ﻧﻤﺮه( ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺷ ﻞﻫﺎ و ﺗﻮﺿﯿﺤﺎت زﯾﺮ ،در ﻫﺮﯾ از ﺣﺎﻻت aﺗﺎ eﺗﻤﺎم اﻧﺘﺨﺎبﻫﺎی ﻣﻤ ﻦ ﺑﺮای ﻣﺮاﮐﺰ ﺧﻮﺷﻪﻫﺎ)ﭘﺲ از ﻫﻤ ﺮاﯾ ( را ﻣﺸﺨﺺ ﮐﻨﯿﺪ .ﺗﻮﺿﯿﺢ دﻫﯿﺪ ﻫﺮﯾ از اﻧﺘﺨﺎبﻫﺎﯾ ﮐﻪ ﺑﯿﺎن ﮐﺮدﯾﺪ ،ﯾ ﮐﻤﯿﻨﻪی ﻣﺤﻠ ٣ﺑﺮای ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪ اﺳﺖ ﯾﺎ ﯾ ﮐﻤﯿﻨﻪی ﺳﺮاﺳﺮی .۴ ( ) اﻟﻒ ٣).ﻧﻤﺮه( ﺣﺎﻟﺖ دوﺧﻮﺷﻪای k = 2ﮐﻪ ﻧﻘﺎط ﺑﻪ ﺻﻮرت ﯾ ﻨﻮاﺧﺖ در ﯾ داﯾﺮه ﭘﺨﺶ ﺷﺪهاﻧﺪ. ( ) ب ٣).ﻧﻤﺮه( ﺣﺎﻟﺖ ﺳﻪﺧﻮﺷﻪای k = 3ﮐﻪ ﻧﻘﺎط ﺑﻪ ﺻﻮرت ﯾ ﻨﻮاﺧﺖ در دو داﯾﺮه ﺑﺎ ﺷﻌﺎع ﯾ ﺴﺎن ﭘﺨﺶ ﺷﺪهاﻧﺪ .ﻓﺮض ﮐﻨﯿﺪ ﻓﺎﺻﻠﻪی ﺑﯿﻦ ﻧﺰدﯾ ﺗﺮﯾﻦ ﻧﻘﺎط دو داﯾﺮه ،از ﺷﻌﺎع داﯾﺮهﻫﺎ ﺑﺰرﮔﺘﺮ اﺳﺖ. ج ٣).ﻧﻤﺮه( ﻫﻤﺎن ﺣﺎﻟﺖ ب ﺑﺎ اﯾﻦ ﺗﻔﺎوت ﮐﻪ ﻓﺎﺻﻠﻪی ﺑﯿﻦ ﻧﺰدﯾ ﺗﺮﯾﻦ ﻧﻘﺎط دو داﯾﺮه ،از ﺷﻌﺎع داﯾﺮهﻫﺎ ﮐﻮﭼ ﺘﺮ اﺳﺖ. ( ) د ٣).ﻧﻤﺮه( ﺣﺎﻟﺖ دوﺧﻮﺷﻪای k = 2ﮐﻪ ﻧﻘﺎط در دو ﺑﯿﻀ ﻣﺴﺎوی ،ﺑﻪ ﺻﻮرت ﯾ ﻨﻮاﺧﺖ ﺗﻮزﯾﻊ ﺷﺪهاﻧﺪ. Square Eror ١ Mean minima minima ٣ Local ٢ Span ۴ Global ١ ( ) ه ٣).ﻧﻤﺮه( ﺣﺎﻟﺖ ﺳﻪﺧﻮﺷﻪای k = 3ﮐﻪ ﺷ ﻞ ﻣﺤﻮر ﺗﻘﺎرن دارد .دو داﯾﺮهی ﺑﺎﻻ ﻣﺴﺎوی ﻫﺴﺘﻨﺪ ،وﻟ ﻟﺰوﻣﺎً ﺑﺎ داﯾﺮهی ﭘﺎﯾﯿﻨ ﻣﺴﺎوی ﻧﯿﺴﺘﻨﺪ .ﻧﻘﺎط در ﮐﻞ ﺷ ﻞ ﯾ ﻨﻮاﺧﺖ ﺗﻮزﯾﻊ ﺷﺪهاﻧﺪ. ١٠) .٢.٢ﻧﻤﺮه( در اﯾﻦ ﺑﺨﺶ ﻣ ﺧﻮاﻫﯿﻢ ﺑﺎ ﻧﺤﻮهی ﻋﻤﻠ ﺮد روش EMﺑﺮای ﻣﺪل ﻣﺨﻠﻮط ﮔﻮﺳ ۵آﺷﻨﺎ ﺷﻮﯾﻢ .اﺳ ﺮﯾﭙﺖﻫﺎی ﻣﻮرد ﻧﯿﺎز اﯾﻦ ﺑﺨﺶ ۶در ﭘﻮﺷﻪی Q.2.4ﺿﻤﯿﻤﻪ ﺷﺪه اﺳﺖ .ﭘﺲ از اﺟﺮای ﻫﺮ اﺳ ﺮﯾﭙﺖ ،ﺗﻌﺪادی ﻧﻤﻮﻧﻪ در ﻓﻀﺎی دوﺑﻌﺪی ﻧﺸﺎن داده ﻣ ﺷﻮد ﮐﻪ ﻣ ﺧﻮاﻫﯿﻢ آنﻫﺎ را ﺧﻮﺷﻪﺑﻨﺪی ﮐﻨﯿﻢ .ﻣﻨﺤﻨ ﻫﺎی رﻧ ،ﻧﺸﺎندﻫﻨﺪهی ﭘﺎراﻣﺘﺮﻫﺎی ﮐﻨﻮﻧ ﻫﺮ ﺟﺰء ٧ﻫﺴﺘﻨﺪ .ﺑﺎ ﻫﺮ ﺑﺎر ﮐﻠﯿ روی ﺻﻔﺤﻪی ﻧﻘﺎط ،ﯾ ﮔﺎم از روش EMاﺟﺮا ﻣ ﺷﻮد. اﻟﻒ ٣).ﻧﻤﺮه( اﺳ ﺮﯾﭙﺖ run1.mرا اﺟﺮا ﻧﻤﺎﯾﯿﺪ .ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﻢ ﮐﻪ در واﻗﻊ دو ﺧﻮﺷﻪ دارﯾﻢ ،اﻣﺎ ﯾ ﺟﺰء در ﻧﻈﺮ ﮔﺮﻓﺘﻪاﯾﻢ .ﺑﺎ ﮐﻠﯿ روی ﺗﺼﻮﯾﺮ ،ﻣﺮاﺣﻞ را ﺗﺎ رﺳﯿﺪن ﺑﻪ ﻫﻤ ﺮاﯾ ﻣﺸﺎﻫﺪه ﮐﻨﯿﺪ .آﯾﺎ ﻣﯿﺎﻧ ﯿﻦ ﺟﺰء ﺣﺎﺻﻞ روی ﻣﯿﺎﻧ ﯿﻦ ﯾ از ﺧﻮﺷﻪﻫﺎ ﻣ ﻧﺸﯿﻨﺪ؟ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﮐﻪ EMﺣﺪ ﭘﺎﺋﯿﻨ از درﺳﺖﻧﻤﺎﯾ ٨را ﺑﯿﺸﯿﻨﻪ ﻣ ﮐﻨﺪ ،ﻧﺘﯿﺠﻪی ﻧﻬﺎﯾ را ﺗﺤﻠﯿﻞ ﻧﻤﺎﯾﯿﺪ .در ﺧﻂ ١۶از اﺳ ﺮﯾﭙﺖ ،run1.m ﻣ ﺗﻮاﻧﯿﺪ ﻣﯿﺎﻧ ﯿﻦ اوﻟﯿﻪی ﺟﺰء را ﺗﻐﯿﯿﺮ دﻫﯿﺪ .آﯾﺎ ﺑﺎ ﺗﻐﯿﯿﺮ اﯾﻦ ﻣﻘﺪار ﻣ ﺗﻮان ﮐﺎری ﮐﺮد ﮐﻪ ﭘﺲ از ﻫﻤ ﺮاﯾ ،ﻣﯿﺎﻧ ﯿﻦ ﺟﺰء ﺑﺮاﺑﺮ ﻣﯿﺎﻧ ﯿﻦ ﯾ از ﺧﻮﺷﻪﻫﺎ ﺑﺎﺷﺪ؟ ب ٢).ﻧﻤﺮه( اﺳ ﺮﯾﭙﺖ run2.mرا اﺟﺮا ﮐﻨﯿﺪ .در اﯾﻨﺠﺎ ﺳﻪ ﺧﻮﺷﻪ و ﺳﻪ ﺟﺰء دارﯾﻢ .ﻣﺮاﺣﻞ EMرا ﺗﺎ رﺳﯿﺪن ﺑﻪ ﻫﻤ ﺮاﯾ اداﻣﻪ دﻫﯿﺪ. آﯾﺎ ﭘﺲ از ﻫﻤ ﺮاﯾ ،ﺳﻪ ﺟﺰء واﻗﻌﺎً ﺗﻮزﯾﻊ ﺧﻮﺷﻪﻫﺎ را ﻣ دﻫﻨﺪ؟ ج ٢).ﻧﻤﺮه( اﺳ ﺮﯾﭙﺖ run3.mرا اﺟﺮا ﮐﻨﯿﺪ .در اﯾﻨﺠﺎ دﻗﯿﻘﺎً ﻣﺠﻤﻮﻋﻪ ﻧﻘﺎط ﻗﺴﻤﺖ ﻗﺒﻞ را دارﯾﻢ ،اﻣﺎ ﻣﻘﺎدﯾﺮ اوﻟﯿﻪی ﻣﯿﺎﻧ ﯿﻦ ﺟﺰءﻫﺎ ﻣﺘﻔﺎوت اﺳﺖ .ﻣﺮاﺣﻞ EMرا ﺗﺎ رﺳﯿﺪن ﺑﻪ ﻫﻤ ﺮاﯾ اداﻣﻪ دﻫﯿﺪ .ﺟﺰﺋ ﮐﻪ وارﯾﺎﻧﺴﺶ از ﺑﻘﯿﻪ ﮐﻤﺘﺮ اﺳﺖ ،ﺣﺪوداً ﭼﻨﺪ ﻧﻘﻄﻪ را ﭘﻮﺷﺶ ﻣ دﻫﺪ؟ د ٣).ﻧﻤﺮه( ﻫﻤﺎﻧﻄﻮر ﮐﻪ در ﻗﺴﻤﺖ ج ﻣﺸﺎﻫﺪه ﮐﺮدﯾﻢ ،ﯾ از ﻣﺸ ﻼت EMاﯾﺠﺎد ﺟﺰءﻫﺎی ﺑﺎ وارﯾﺎﻧﺲ ﮐﻢ ﺣﻮل ﺑﺮﺧ ﻧﻘﺎط اﺳﺖ. ﻣ داﻧﯿﻢ EMدرواﻗﻊ ﮐﺮان ﭘﺎﺋﯿﻨ از درﺳﺘﻨﻤﺎﯾ را ﺑﯿﺸﯿﻨﻪ ﻣ ﮐﻨﺪ .ﻓﺮض ﮐﻨﯿﺪ ﺣﺪاﻗﻞ دو ﺟﺰء دارﯾﻢ .ﻧﺸﺎن دﻫﯿﺪ اﮔﺮ ﯾ از ﺟﺰءﻫﺎ را ﺑﻪ اﯾﻦ ﺻﻮرت در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ ﮐﻪ ﻣﯿﺎﻧ ﯿﻨﺶ روی ﯾ از ﻧﻘﺎط ﺑﺎﺷﺪ و وارﯾﺎﻧﺲ آن ﺑﻪ ﺻﻔﺮ ﻣﯿﻞ ﮐﻨﺪ ،درﺳﺘﻨﻤﺎﯾ ﺑﻪ ﺑ ﻧﻬﺎﯾﺖ ﻣﯿﻞ ﻣ ﮐﻨﺪ. آﯾﺎ وﻗﺘ ﻓﻘﻂ ﯾ ﺟﺰء دارﯾﻢ ،اﯾﻦ اﺗﻔﺎق رخ ﻣ دﻫﺪ؟ ١٠) .٣.٢ﻧﻤﺮه( در اﯾﻦ ﺗﻤﺮﯾﻦ ﻣ ﺧﻮاﻫﯿﻢ ﺑﺎ اﺳﺘﻔﺎده از EMﭘﺎراﻣﺘﺮﻫﺎی ﻣﺪل ﻣﺨﻠﻮط ﺑﺮﻧﻮﻟ ٩را ﭘﯿﺪا ﮐﻨﯿﻢ .١٠ﻧﻤﻮﻧﻪﻫﺎ را ﺑﺎ x1 , ..., xN ( ) ﻧﺸﺎن ﻣ دﻫﯿﻢ .ﻫﺮ ﻧﻤﻮﻧﻪ ﯾ ﺑﺮدار ﺑﺎﯾﻨﺮی ﺑﻪ ﻃﻮل Dاﺳﺖ . xn ∈ {0, 1}Dﺧﺎﻧﻪی -dام از xnرا ﺑﺎ xndﻧﺸﺎن ﻣ دﻫﯿﻢ .ﻣﺪل Kﺗﺎ ﺟﺰء دارد .ﭘﺎراﻣﺘﺮ ﻫﺮ ﺟﺰء ،ﺑﺮداری ﺑﻪ ﻃﻮل Dاﺳﺖ ﮐﻪ ﺗﻤﺎم ﺧﺎﻧﻪﻫﺎی آن در ﺑﺎزهی ] [0, 1ﻫﺴﺘﻨﺪ .ﭘﺎراﻣﺘﺮ ﺟﺰء -kام را ﺑﺎ µkﻧﺸﺎن ﻣ دﻫﯿﻢ. ﺧﺎﻧﻪی -dام از µkرا ﺑﺎ µkdﻧﺸﺎن ﻣ دﻫﯿﻢ .ﺟﺰﺋ ﮐﻪ xnﺑﻪ آن ﺗﻌﻠﻖ دارد را ﺑﺎ ﺑﺮدار znﻧﺸﺎن ﻣ دﻫﯿﻢ .اﮔﺮ xnﺑﻪ ﺟﺰء -kام ﺗﻌﻠﻖ داﺷﺘﻪ ﺑﺎﺷﺪ ،آﻧ ﺎه znk = 1و درﻏﯿﺮ اﯾﻦ ﺻﻮرت .١١ znk = 0ﻧﻤﻮﻧﻪﻫﺎی ﺟﺰء -kام ﺑﻪ ﺻﻮرت زﯾﺮ ﺗﻮﻟﯿﺪ ﻣ ﺷﻮﻧﺪ: D ∏ )(١ = )p(xn |znk = 1 ) µxkdnd (1 − µkd )(1−xnd d=1 اﺣﺘﻤﺎل اﯾﻦ ﮐﻪ ﯾ ) ﻧﻤﻮﻧﻪ از ﺟﺰء -kام ﺗﻮﻟﯿﺪ ﺷﻮد ﺑﺮاﺑﺮ λkاﺳﺖ . p(znk = 1) = λkﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﮐﻪ ﻧﻤﻮﻧﻪﻫﺎ ﻣﺴﺘﻘﻞ ﺗﻮﻟﯿﺪ ﻣ ﺷﻮﻧﺪ: ) p(zn )p(xn |zn )(٢ ( N ∏ = ) p(z1:N ,x1:N |µ1:K , λ1:K n=1 ] (1−xnd )znk ) (1 − µkd xnd znk µkd ∏ N ∏ K D ∏ [] n=1 k=1 d=1 λzknk ∏ N K ∏[ = n=1 k=1 Mixture Model mgrzes/code/gmmemfit.php ۵ Gaussian ۶ https://cs.uwaterloo.ca/ ٧ Mixture Component ٨ Likelihood ٩ Bernoulli Mixture Model ١٠ 9.3.3 from Bishop ١١ 1-of-K Coding ٢ اﻟﻒ ٢).ﻧﻤﺮه( راﺑﻄﻪ ﻣﺮﺑﻮط ﺑﻪ ﮔﺎم Eروش EMرا ﻣﺸﺨﺺ ﮐﻨﻴﺪ. ب ٨).ﻧﻤﺮه( رواﺑﻂ ﺑﻪ روز رﺳﺎﻧ ﭘﺎراﻣﺘﺮﻫﺎی ﻣﺪل ) λ1:Kو (µ1:Kدر ﮔﺎم Mﺑﺎ روش EMرا ﺑﻪ دﺳﺖ آورﯾﺪ. ﺳﻮال ۴٠)٣ﻧﻤﺮه( :ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ٢۵) .١.٣ﻧﻤﺮه( ﻣﺪل MDPزﯾﺮ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .ﮐﻨﺶﻫﺎی ﻣﻤ ﻦ در ﻣﺪل ﭼﻬﺎر ﺟﻬﺖ ﺑﺎﻻ) ،(Uراﺳﺖ) ،(Rﭘﺎﯾﯿﻦ) (Dو ﭼﭗ) (Lاﺳﺖ. در ﻫﺮ ﺣﺎﻟﺖ ،ﮐﻨﺶﻫﺎی ﻣﻤ ﻦ در آن ﺣﺎﻟﺖ ﺑﺎ ﻓﻠﺶ و ﭘﺎداش درﯾﺎﻓﺘ ﺑﺎ ﻣﺘﻐﯿﺮ rدر ﮐﻨﺎر آن ﻓﻠﺶ ﻧﻤﺎﯾﺶ داده ﺷﺪه اﺳﺖ. ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ دارﯾﻢ . discount factor γ = 0.5 اﻟﻒ ۵).ﻧﻤﺮه( ﺳﯿﺎﺳﺖ ﺑﻬﯿﻨﻪ ﺑﺮای اﯾﻦ ﻣﺪل MDPرا ﺑﻪ دﺳﺖ آورﯾﺪ. ١٢ ب ٧).ﻧﻤﺮه( ﺑﺎ اﻋﻤﺎل روش Value Iterationﻣﻘﺪار ﺣﺎﻟﺖ S3را ﭘﺲ از ١ﺗ ﺮار ٢ ،ﺗ ﺮار و ﺑ ﻧﻬﺎﯾﺖ ﺗ ﺮار ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ. ج ٧).ﻧﻤﺮه( ﻣ داﻧﯿﻢ ﮐﻪ در ﮔﺎمﻫﺎی اﺻﻠ ﺣﻞ Bellman optimality equationsدر ﻃ ﺑﻪروزرﺳﺎﻧ ﺳﯿﺎﺳﺖﻫﺎ ،در ﻫﺮ ﮔﺎم ﺳﯿﺎﺳﺖ ﻣﺮﺣﻠﻪی از ﺑﻪروزرﺳﺎﻧ ﻣﻘﺎدﯾﺮ ﺳﯿﺎﺳﺖ ﻣﺮﺣﻠﻪی ﭘﯿﺸﯿﻦ ﺑﻪ دﺳﺖ ﻣ آﯾﺪ .ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ ﺗﺮﺗﯿﺐ ﮐﻨﺶﻫﺎ در زﻣﺎن ﺑﻪروزرﺳﺎﻧ ﺑﻪ ﺗﺮﺗﯿﺐ ﺑﺎﻻ) ،(Uراﺳﺖ) ،(Rﭘﺎﯾﯿﻦ) (Dو ﭼﭗ) (Lاﺳﺖ .اﮔﺮ ﺑﺎ ﺳﯿﺎﺳﺖ } {S1 : D; S2 : R; S3 : U ; S4 : D; S5 : U ; S6 : Dﺷﺮوع ﻧﻤﺎﺋﯿﻢ ،ﺳﯿﺎﺳﺖﻫﺎی ﺑﻪ دﺳﺖ آﻣﺪه را ﭘﺲ از ١ﺗ ﺮار ٢ ،ﺗ ﺮار و ٣ﺗ ﺮار ﺑﻨﻮﯾﺴﯿﺪ. د ۶).ﻧﻤﺮه( اﻟ ﻮرﯾﺘﻢ Q-learningرا ﺑﺮای اﯾﻦ MDPدرﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ ﻧﺮخ ﯾﺎدﮔﯿﺮی α = 0.5اﺳﺖ .ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ ﺗﺮﺗﯿﺐ ﮐﻨﺶﻫﺎ ﺑﺮای اﻟ ﻮرﯾﺘﻢ در اﯾﻨﺠﺎ ﺑﻪ ﺗﺮﺗﯿﺐ ﺑﺎﻻ) ،(Uراﺳﺖ) ،(Rﭘﺎﯾﯿﻦ) (Dو ﭼﭗ) (Lاﺳﺖ. .١در ﺻﻮرﺗ ﮐﻪ اﯾﻦ ﻋﺎﻣﻞ از ﺣﺎﻟﺖ S3ﺷﺮوع ﺑﻪ ﺣﺮﮐﺖ ﻧﻤﺎﯾﺪ ١٠ ،زوج اول ) (state،actionﻣﻼﻗﺎت ﺷﺪه را ﺑﻨﻮﯾﺴﯿﺪ. .٢ﭘﺲ از ١٠ﮐﻨﺶ اوﻟﯿﻪی ﺑﻪ دﺳﺖ آﻣﺪه در ﻗﺴﻤﺖ ﮔﺬﺷﺘﻪ ،ﻣﻘﺪار Qﺑﺮای زوج ) (S6 , Uﭼﻨﺪ ﺑﻪ دﺳﺖ ﻣ آﯾﺪ؟ ١۵) .٢.٣ﻧﻤﺮه( ﯾ ﻣﺪل MDPﺑﺎ ﺣﺎﻟﺖﻫﺎی } {0, 1, 2, 3, 4در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ ﮐﻪ ﺣﺎﻟﺖ 4ﻣﺤﻞ ﺷﺮوع ﺣﺮﮐﺖ ﻋﺎﻣﻞ اﺳﺖ .در ﻫﺮ ﯾ از ﺣﺎﻟﺖﻫﺎی ،1 ≤ kﻋﺎﻣﻞ ﺣﺮﮐﺖ ﻋﺎدی Wﺑﺎ اﺣﺘﻤﺎل P (k, W, k − 1) = 1دارد .در ﺣﺎﻟﺖﻫﺎی ،2 ≤ kﻋﺎﻣﻞ ﻣ ﺗﻮاﻧﺪ ﭘﺮﺷ ﺑﺎ اﺣﺘﻤﺎل P (k, J, k − 2) = P (k, J, k) = 0.5ﻧﯿﺰ داﺷﺘﻪ ﺑﺎﺷﺪ .ﺣﺎﻟﺖ 0ﯾ وﺿﻌﯿﺖ ﭘﺎﯾﺎﻧ ١٣اﺳﺖ .ﭘﺎداش ﺗﻤﺎم ) (s, a, s′ﻫﺎ، R(s, a, s′ ) = (s − s′ )2اﺳﺖ .ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ دارﯾﻢ . discount factor γ = 0.5 اﻟﻒ ۵).ﻧﻤﺮه( ) V ∗ (2را ﺑﻪ دﺳﺖ آورﯾﺪ. ب ۵).ﻧﻤﺮه() Q∗ (4, Wرا ﺑﻪ دﺳﺖ آورﯾﺪ. ج ۵).ﻧﻤﺮه( در MDPﻓﻮق ﻓﺮض ﮐﻨﯿﺪ ﺣﺎﻟﺖﻫﺎ ﻧﺎﻣﺘﻨﺎﻫ اﻧﺪ } {4, 3, 2, 1, 0, −1, ...و ﻫﯿﭻ وﺿﻌﯿﺖ ﭘﺎﯾﺎﻧ ﻧﺪارﯾﻢ .اﺣﺘﻤﺎﻻت و ﭘﺎداشﻫﺎ را ﻧﯿﺰ ﻣﺎﻧﻨﺪ ﻗﺒﻞ ﻓﺮض ﮐﻨﯿﺪ .آنﮔﺎه ) V ∗ (2را ﺑﻪ دﺳﺖ آورﯾﺪ. ١٢ Iteration state ٣ ١٣ Terminal
© Copyright 2025 Paperzz