HW5.pdf

‫يادگيری هاشين ‪( 44-777‬گروه دوم)‬
‫نيوسال اول ‪92-93‬‬
‫تورين سری پنجن‪ :‬شبکههای بيسين و يادگيری تقويتی‬
‫هدرس‪ :‬سليوانی‬
‫هوعد تحويل‪ 77 :‬دی ‪( 92‬قبل از کالس تورين)‬
‫نوره‪54+5 :‬‬
‫سوال ‪ 34( 7‬نوره)‪ :‬شبکههای بيسين (‪)Bayesian Networks‬‬
‫‪ 11( .1.1‬ومزٌ) ضبکٍی بيشيه سيز را بزای متغيزَای ديدييی در وظز بگيزيذ‪:‬‬
‫‪A‬‬
‫‪B‬‬
‫‪D‬‬
‫‪F‬‬
‫‪H‬‬
‫‪C‬‬
‫‪E‬‬
‫‪G‬‬
‫‪ 4( .a‬ومزٌ) تمامی ريابط استقالل بيه متغيزَا را مطخص وماييذ‪.‬‬
‫‪ 6( .b‬ومزٌ) درستی يا وادرستی ريابط استقالل ضزطی سيز را با استفادٌ اس قضيٍ ‪ D-separation‬بزرسی کىيذ‪:‬‬
‫‪+‬‬
‫‪+‬‬
‫*‬
‫*‬
‫‪i.‬‬
‫‪ii.‬‬
‫‪iii.‬‬
‫‪ 7( .1.1‬ومزٌ) محاسبٍی‬
‫)‬
‫(‬
‫‪ 1( .a‬ومزٌ)‬
‫)‬
‫( چگًوٍ با تًجٍ بٍ جذايل احتمال ضزطی گزٌَا محاسبٍ میضًد؟‬
‫‪ 1( .b‬ومزٌ) آيا بزای محاسبٍی‬
‫)‬
‫( با الگًريتم حذف متغيز (‪َ )Variable Elimination‬يچ‬
‫گزٌای َزس میضًد؟‬
‫‪ 3( .c‬ومزٌ) در گزاف باال تزتيبی اس گزٌَا را مطخص کىيذ کٍ در جزيان محاسبٍی‬
‫)‬
‫( بُتزيه‬
‫تزتيب (پاييهتزيه حجم محاسبات) باضذ (تًضيح)؟‬
‫‪ 5( .3.1‬ومزٌ) يک ضبکٍ بيشيه ضامل‬
‫گزٌ‬
‫را در وظز بگيزيذ پيًوذَای بيه گزٌَا را بٍ گًوٍای رسم کىيذ کٍ‬
‫ضزايط سيز بزقزار باضىذ‪:‬‬
‫‪ .a‬تزتيبی اس حذف گزٌَا يجًد داضتٍ باضذ کٍ محاسبٍ ) ( با تزتيب حذف مزبًطٍ سمان خطی بز حسب‬
‫داضتٍ باضذ‪ .‬ايه تزتيب را مطخص وماييذ‪.‬‬
‫‪ .b‬تزتيبی اس حذف گزٌَا يجًد داضتٍ باضذ کٍ محاسبٍ ) ( با تزتيب حذف مزبًطٍ سمان ومايی بز حسب‬
‫داضتٍ باضذ‪ .‬ايه تزتيب را مطخص وماييذ‪.‬‬
‫در دي حالت باال پيًوذَای گزاف بايذ يکی باضذ‪.‬‬
‫‪ )11( .4.1‬يادگيزی پارامتزَای ضبکٍ بيشيه‪ :‬فزض کىيذ کٍ‬
‫ومًوٍی آمًسش در اختيار داريم کٍ در آنَا مقذار‬
‫اختيار وذاريم‪.‬‬
‫)‬
‫)(‬
‫)( (‬
‫∑‬
‫را در‬
‫̂𝜃‪.‬‬
‫‪ 4( .a‬ومزٌ) اگز‬
‫)‬
‫(‬
‫𝜃 ثابت کىيذ‬
‫‪ 3( .b‬ومزٌ) اگز‬
‫)‬
‫(‬
‫𝜃 فزض ضًد‪ ،‬گام ‪ E‬ي ‪ M‬الگًريتم ‪ EM‬بزای محاسبٍی پارامتز‬
‫)‬
‫)( (‬
‫∑‬
‫𝜃 را مطخص وماييذ‪.‬‬
‫‪ 5( .c‬ومزٌ) ثابت کىيذ کٍ رابطٍی بٍريس رساوی 𝜃 در گام ‪( M‬مطزح ضذٌ در بىذ ‪ )b‬با کميىٍ کزدن‬
‫‪)-‬‬
‫‪,‬‬
‫(‬
‫است ي‬
‫َمان‬
‫( بٍ دست میآيذ کٍ در ايه حالت‬
‫)‬
‫مجمًػٍ َمٍی متغيزَا غيز اس‬
‫است‪.‬‬
‫سوال ‪ 27( 2‬نوره)‪ :‬يادگيری تقويتی (‪)Reinforcement Learning‬‬
‫‪ .1.1‬محيط ػامل (‪ )agent‬مزبغ‬
‫ضکل پاييه است کٍ در يکی اس خاوٍَای آن کٍ بٍ صًرت تًپز مطخص ضذٌ‪ ،‬امکان‬
‫يريد يجًد وذارد‪ .‬در َز خاوٍ ايه محيط امکان اػمال چُار حزکت باال (‪ ،)U‬پاييه (‪ ،)D‬چپ (‪ )L‬ي راست (‪ )R‬يجًد‬
‫دارد‪ .‬اما بٍ ياسطٍی غيزقطؼی بًدن (‪ )non-deterministic‬بًدن محيط‪َ ،‬ز کىص با احتمال ‪ 0.8‬باػث اػمال در راستای‬
‫مًردوظز میضًد يلی با احتمال ‪َ 0.1‬م در َزيک اس راستاَای با ساييٍ ‪ 91‬درجٍ اػمال میضًد‪ .‬مثالً کىص ‪ U‬با احتمال‬
‫‪ 0.8‬مىجز بٍ يک ياحذ باال رفته میضًد ي با احتمال ‪َ 0.1‬م باػث رفته بٍ چپ ي راست میضًد‪ .‬اگزچىانچٍ اػمال‬
‫يک کىص مؼادل رفته ػامل بٍ خاوٍ تًپز يا خارج ضذن اس محيط ضًد‪ ،‬اػمال کىص َيچ اثزی وخًاَذ داضت‪ .‬پاداش‬
‫(‪ )reward‬اس طزف محيط بٍ ياسطٍی رسيذن بٍ خاوٍی ‪ 11 ،1‬امتياس است ي خاوٍی ‪ 1‬يک يضؼيت پاياوی (‬
‫‪ )state‬است‪َ .‬مچىيه فزض کىيذ‬
‫‪terminal‬‬
‫‪.‬‬
‫‪6 7 8‬‬
‫‪3 4 5‬‬
‫‪1‬‬
‫‪1‬‬
‫‪ 5( .a‬ومزٌ) الگًريتم ‪ Value Iteration‬را در وظز بگيزيذ‪ .‬فزض کىيذ مقذار ايليٍ ارسش َمٍی خاوٍَا صفز است‪.‬‬
‫ارسش خاوٍَا پس اس دي تکزار (‪ )iteration‬الگًريتم را مطخص وماييذ‪ .‬فزض کىيذ در َز تکزار الگًريتم‬
‫تزتيب بٍريسرساوی ارسش خاوٍَا بٍ تزتيب ضمارٌ خاوٍَای مزبًطٍ است‪.‬‬
‫‪ 1( .b‬ومزٌ) بؼذ اس ايه دي تکزار بُتزيه سياست (‪ )policy‬طبق ارسشَای کىًوی در خاوٍَای ‪ 1‬ي ‪ 6‬چٍ خًاَذ‬
‫بًد؟‬
‫‪ .1.1‬چىانچٍ خصًصيات محيط باال ضىاختٍ وطذٌ باضذ ي ػامل ‪َepisode‬ای سيز را در الگًريتم ‪Q-learning‬اوجام دَذ‪ .‬در‬
‫اػمال َز کىص‪ ،‬مقذار ايل ضمارٌ خاوٍ کىًوی ػامل را وطان میدَذ‪ ،‬مقذار ديم کىص مزبًطٍ را مطخص میکىذ ي‬
‫مقذار سًم ميشان پاداش را تؼييه میکىذ‪:‬‬
‫‪4U0, 7U0, 7D0, 8R0, 8U0, 8D0, 5L0, 4U0, 7D0, 4R0, 5R0, 5D10‬‬
‫‪6U0, 6D0, 3L0, 3R0, 4D0, 4U0, 7U0, 7D0, 4R0, 5U0, 8D0, 5D0, 4R0, 5D10‬‬
‫‪ 5( .a‬ومزٌ) با فزض ايىکٍ مقاديز جذيل ‪ Q‬در ضزيع کار صفز مقذاردَی ضذٌ باضىذ‪ ،‬پس اس َز کذام اس‬
‫‪َepisode‬ای باال مطخص کىيذ کٍ مقاديز جذيل ‪ Q‬بٍ چٍ صًرتی در خًاَذ آمذ‪َ .‬مچىيه تؼييه کىيذ کٍ‬
‫تغييزات مقاديز ‪ Q‬در کذام حزکتَا صًرت گزفتٍ است ي ميشان تغييز مزبًطٍ را ويش مطخص وماييذ‪.‬‬
‫‪ 1( .b‬ومزٌ) بُتزيه سياست طبق جذيل ‪ Q‬کٍ تا ايه لحظٍ بٍ دست آمذٌ چيست؟‬
‫‪ 1( .c‬ومزٌ) آيا ‪َepisode‬ای مطخص ضذٌ در بىذ ‪ a‬میتًاوذ بز اساس يک سياست حزيصاوٍ (‪ )greedy‬تًسط‬
‫الگًريتم ‪ Q-learning‬ايجاد ضذٌ باضذ؟‬
‫‪ 5( .3.1‬ومزٌ) بزای ‪ MDP‬ممکه است دي سياست‬
‫مقذار باالتزی داضتٍ باضذ ي‬
‫ي‬
‫يجًد داضتٍ باضىذ کٍ‬
‫در تؼذادی اس يضؼيتَا (‪)state‬‬
‫در تؼذادی ديگز اس يضؼيتَا‪ .‬وطان دَيذ چزا يک سياست‬
‫مقذارش در َمٍی يضؼيتَا اس َز سياست ديگزی کمتز ويست‬
‫() (‬
‫) (‬
‫)‪.‬‬
‫يجًد دارد کٍ‬