يادگيری هاشين ( 44-777گروه دوم) نيوسال اول 92-93 تورين سری پنجن :شبکههای بيسين و يادگيری تقويتی هدرس :سليوانی هوعد تحويل 77 :دی ( 92قبل از کالس تورين) نوره54+5 : سوال 34( 7نوره) :شبکههای بيسين ()Bayesian Networks 11( .1.1ومزٌ) ضبکٍی بيشيه سيز را بزای متغيزَای ديدييی در وظز بگيزيذ: A B D F H C E G 4( .aومزٌ) تمامی ريابط استقالل بيه متغيزَا را مطخص وماييذ. 6( .bومزٌ) درستی يا وادرستی ريابط استقالل ضزطی سيز را با استفادٌ اس قضيٍ D-separationبزرسی کىيذ: + + * * i. ii. iii. 7( .1.1ومزٌ) محاسبٍی ) ( 1( .aومزٌ) ) ( چگًوٍ با تًجٍ بٍ جذايل احتمال ضزطی گزٌَا محاسبٍ میضًد؟ 1( .bومزٌ) آيا بزای محاسبٍی ) ( با الگًريتم حذف متغيز (َ )Variable Eliminationيچ گزٌای َزس میضًد؟ 3( .cومزٌ) در گزاف باال تزتيبی اس گزٌَا را مطخص کىيذ کٍ در جزيان محاسبٍی ) ( بُتزيه تزتيب (پاييهتزيه حجم محاسبات) باضذ (تًضيح)؟ 5( .3.1ومزٌ) يک ضبکٍ بيشيه ضامل گزٌ را در وظز بگيزيذ پيًوذَای بيه گزٌَا را بٍ گًوٍای رسم کىيذ کٍ ضزايط سيز بزقزار باضىذ: .aتزتيبی اس حذف گزٌَا يجًد داضتٍ باضذ کٍ محاسبٍ ) ( با تزتيب حذف مزبًطٍ سمان خطی بز حسب داضتٍ باضذ .ايه تزتيب را مطخص وماييذ. .bتزتيبی اس حذف گزٌَا يجًد داضتٍ باضذ کٍ محاسبٍ ) ( با تزتيب حذف مزبًطٍ سمان ومايی بز حسب داضتٍ باضذ .ايه تزتيب را مطخص وماييذ. در دي حالت باال پيًوذَای گزاف بايذ يکی باضذ. )11( .4.1يادگيزی پارامتزَای ضبکٍ بيشيه :فزض کىيذ کٍ ومًوٍی آمًسش در اختيار داريم کٍ در آنَا مقذار اختيار وذاريم. ) )( )( ( ∑ را در ̂𝜃. 4( .aومزٌ) اگز ) ( 𝜃 ثابت کىيذ 3( .bومزٌ) اگز ) ( 𝜃 فزض ضًد ،گام Eي Mالگًريتم EMبزای محاسبٍی پارامتز ) )( ( ∑ 𝜃 را مطخص وماييذ. 5( .cومزٌ) ثابت کىيذ کٍ رابطٍی بٍريس رساوی 𝜃 در گام ( Mمطزح ضذٌ در بىذ )bبا کميىٍ کزدن )- , ( است ي َمان ( بٍ دست میآيذ کٍ در ايه حالت ) مجمًػٍ َمٍی متغيزَا غيز اس است. سوال 27( 2نوره) :يادگيری تقويتی ()Reinforcement Learning .1.1محيط ػامل ( )agentمزبغ ضکل پاييه است کٍ در يکی اس خاوٍَای آن کٍ بٍ صًرت تًپز مطخص ضذٌ ،امکان يريد يجًد وذارد .در َز خاوٍ ايه محيط امکان اػمال چُار حزکت باال ( ،)Uپاييه ( ،)Dچپ ( )Lي راست ( )Rيجًد دارد .اما بٍ ياسطٍی غيزقطؼی بًدن ( )non-deterministicبًدن محيطَ ،ز کىص با احتمال 0.8باػث اػمال در راستای مًردوظز میضًد يلی با احتمال َ 0.1م در َزيک اس راستاَای با ساييٍ 91درجٍ اػمال میضًد .مثالً کىص Uبا احتمال 0.8مىجز بٍ يک ياحذ باال رفته میضًد ي با احتمال َ 0.1م باػث رفته بٍ چپ ي راست میضًد .اگزچىانچٍ اػمال يک کىص مؼادل رفته ػامل بٍ خاوٍ تًپز يا خارج ضذن اس محيط ضًد ،اػمال کىص َيچ اثزی وخًاَذ داضت .پاداش ( )rewardاس طزف محيط بٍ ياسطٍی رسيذن بٍ خاوٍی 11 ،1امتياس است ي خاوٍی 1يک يضؼيت پاياوی ( )stateاستَ .مچىيه فزض کىيذ terminal . 6 7 8 3 4 5 1 1 5( .aومزٌ) الگًريتم Value Iterationرا در وظز بگيزيذ .فزض کىيذ مقذار ايليٍ ارسش َمٍی خاوٍَا صفز است. ارسش خاوٍَا پس اس دي تکزار ( )iterationالگًريتم را مطخص وماييذ .فزض کىيذ در َز تکزار الگًريتم تزتيب بٍريسرساوی ارسش خاوٍَا بٍ تزتيب ضمارٌ خاوٍَای مزبًطٍ است. 1( .bومزٌ) بؼذ اس ايه دي تکزار بُتزيه سياست ( )policyطبق ارسشَای کىًوی در خاوٍَای 1ي 6چٍ خًاَذ بًد؟ .1.1چىانچٍ خصًصيات محيط باال ضىاختٍ وطذٌ باضذ ي ػامل َepisodeای سيز را در الگًريتم Q-learningاوجام دَذ .در اػمال َز کىص ،مقذار ايل ضمارٌ خاوٍ کىًوی ػامل را وطان میدَذ ،مقذار ديم کىص مزبًطٍ را مطخص میکىذ ي مقذار سًم ميشان پاداش را تؼييه میکىذ: 4U0, 7U0, 7D0, 8R0, 8U0, 8D0, 5L0, 4U0, 7D0, 4R0, 5R0, 5D10 6U0, 6D0, 3L0, 3R0, 4D0, 4U0, 7U0, 7D0, 4R0, 5U0, 8D0, 5D0, 4R0, 5D10 5( .aومزٌ) با فزض ايىکٍ مقاديز جذيل Qدر ضزيع کار صفز مقذاردَی ضذٌ باضىذ ،پس اس َز کذام اس َepisodeای باال مطخص کىيذ کٍ مقاديز جذيل Qبٍ چٍ صًرتی در خًاَذ آمذَ .مچىيه تؼييه کىيذ کٍ تغييزات مقاديز Qدر کذام حزکتَا صًرت گزفتٍ است ي ميشان تغييز مزبًطٍ را ويش مطخص وماييذ. 1( .bومزٌ) بُتزيه سياست طبق جذيل Qکٍ تا ايه لحظٍ بٍ دست آمذٌ چيست؟ 1( .cومزٌ) آيا َepisodeای مطخص ضذٌ در بىذ aمیتًاوذ بز اساس يک سياست حزيصاوٍ ( )greedyتًسط الگًريتم Q-learningايجاد ضذٌ باضذ؟ 5( .3.1ومزٌ) بزای MDPممکه است دي سياست مقذار باالتزی داضتٍ باضذ ي ي يجًد داضتٍ باضىذ کٍ در تؼذادی اس يضؼيتَا ()state در تؼذادی ديگز اس يضؼيتَا .وطان دَيذ چزا يک سياست مقذارش در َمٍی يضؼيتَا اس َز سياست ديگزی کمتز ويست () ( ) ( ). يجًد دارد کٍ
© Copyright 2025 Paperzz