يادگيری ماشين ( 04-717گروه دوم )
نيمسال اول 49-40
تمرين سری اول :رگرسيون و تخمين
مدرس :سليمانی
موعد تحويل 62 :مهر 49
نمره65+144 :
سوال 7( 1نمره) :مفاهيم
درستی گزارههای زیر را بررسی کنید (با توضیح مختصر):
)a
)b
)c
)d
)e
)f
)g
خطای اعتبارسنجی ( )validationهمواره کمتر از خطای آزمون است.
افزایش پیچیدگی مدل در رگرسیون همیشه سبب افزایش واریانس و کاهش بایاس میشود.
افزایش پیچیدگی مدل در رگرسیون همیشه سبب کاهش خطای آموزش و افزایش خطای آزمون میشود.
در صورتی که مقدار بایاس باال باشد و واریانس کم باشد ،باید پیچیدگی مدل را کاهش داد.
کاهش خطای آموزش منجر به کاهش خطای آزمون میشود.
در صورتی که واریانس باال باشد ،افزایش دادههای آموزش همیشه میتواند سبب کاهش واریانس شود.
در صورتی که بایاس باال باشد ،افزایش دادههای آموزش هیچ کمکی به کاهش بایاس نمیکند و باید پیچیدگی مدل را
افزایش داد.
سوال 19( 6نمره) :رگرسيون خطی
.2.1فرض کنید دادههای اندازهگیری شده برای سیستم خطی 𝑦 = 2𝑥 − 1که در آن مقدار نویز جمع شونده هم وجود دارد
به صورت زیر باشد:
} ){(−1,1), (0, 8), (1, 5), (−2, −1
2( )aنمره) نقاط داده شده و تابع مطلوب را ترسیم کنید.
3( )bنمره) با استفاده از تابع هزینه ،SSEخط برازش کننده را بهدست آورید و آن را رسم کنید.
.1.1اگر ∗𝒘 خط بهینه طبق معیار ( MSEروی کل توزیع) را مشخص کند:
] 𝒘∗ = argmin 𝐸𝒙,𝑦 [(𝑦 − 𝒘𝑇 𝒙)2
𝒘
3( )aنمره) ∗𝒘 را بر حسب ماتریس خود همبستگی ] 𝑇𝒙𝒙[ 𝒙𝐸 = 𝑹 و بردار همبستگی ]𝑦𝒙[ 𝑦𝒙𝐸 = 𝒄 محاسبه
نمایید.
1( )bنمره) نشان دهید:
𝐸𝒙,𝑦 [(𝑦 − 𝒘∗ 𝑇 𝒙)𝒙] = 0
1( )cنمره) با استفاده از رابطهی به دست آمده در بند قبل نشان دهید:
𝒘()𝒙 𝑇 ∗𝒘 𝐸𝒙,𝑦 [(𝑦 −
̂ 𝑇 𝒙 − 𝒘∗ 𝑇 𝒙)] = 0
1( )dنمره) رابطهی حاصل در بند ( )cرا تعبیر هندسی نمایید.
سوال 64+94( 9نمره) :پيادهسازی انواع رگرسيون
توجه :برای انجام اين تمرين میبايست کدهايی که در اختيار شما قرار داده شده است را تکميل نماييد (ابتدا فايل
” “read me (instructions).txtرا مطالعه نماييد).
در این قسمت به پیادهسازی و بررسی انواع روشهای رگرسیون خواهیم پرداخت .برای این منظور از دادههای موجود در فایل
data
استفاده خواهید کرد .در این فایل 200نمونه و مقادیر متناظر با آنها به ترتیب در قالب دو ماتریس Xو Tدادهشدهاند .این دادهها
توسط رابطهی 𝜖 𝑡 = 𝑥 3 − 3𝑥 2 − 𝑥 + 3 +تولید شدهاند که 𝜖 نویز گوسی جمعشونده با میانگین صفر و واریانس
𝜎2 = 2
است.
برای بررسی الگوریتم ها ،از بین این دادهها nنمونه به صورت تصادفی به عنوان مجموعهی آموزشی انتخاب شده و بقیه برای تست
مورد استفاده قرار خواهند گرفت (مقدار nدر هر قسمت بیان خواهد شد) .برای محاسبهی خطا از میانگین RMSEدر 200بار
اجرای الگوریتم استفاده کنید (که باید در هر بار اجرا nنمونهی آموزش دوباره به صورت تصادفی انتخاب شوند).
برای حل سوالهای زیر سه تابع تبدیل زیر را در نظر بگیرید (در هر قسمت بیان شدهاست که از کدام توابع باید استفاده کنید):
] 𝝓𝟏 (𝑥) = [1 𝑥 𝑥 2 𝑥 3
] 𝝓𝟐 (𝑥) = [1 𝑥 𝑥 2 ⋯ 𝑥 10
𝜎=1
) 𝑖𝑐 (𝑥 −
;)
2𝜎 2
𝑐𝑖 ∈ {−3, −2.9, −2.8, … , 2.9, 3},
(𝝓𝟑 (𝑥))𝑖 = 𝑒𝑥𝑝 (−
توضیح :طبق تعریف اخیر ،تابع 𝜙3یک تابع با خروجی 12بعدی را نشان میدهد که هر بعد آن متناظر با یک تابع گوسی است که
مراکز این گوسیها به صورت یکنواخت در بازهی ] [-3,3پراکنده شده و واریانسهایشان یکسان است.
.2.3در صورتیکه برای رگرسیون از تابع هزینه
2
SSE
𝑛
))𝒙(𝝓 𝑇𝒘 𝐽(𝒘) = ∑ (𝑦 (𝑖) −
𝑖=1
استفاده شود:
7( .aنمره) برای هریک از سه تبدیل باال و مقادیر مختلف تعداد دادهی آموزش } 𝑛 ∈ {5,10,15, … ,90بردار
ضرایب 𝒘 را حساب کرده و خطاهای آموزش و آزمون را در نموداری بر حسب nرسم کنید.
1( .bنمره) با توجه به نمودارهای حاصل در مورد تاثیر تعداد نمونههای آموزش روی بیشبرازش ()overfitting
بحث کنید.
1( .cنمره) نمودارهای بهدست آمده برای 𝜙 های مختلف را مقایسه نمایید.
.1.3تابع هزینه SSEبا جمله منظمسازی به صورت:
2
𝑛
𝐽(𝒘) = ∑ (𝑦 (𝑖) − 𝒘𝑇 𝝓(𝒙)) + 𝜆‖𝒘‖22
𝑖=1
و تابع تبدیل 𝜙2را در نظر بگیرید:
5( .aنمره) به ازای 𝑛 = 30و } 𝜆 ∈ {10−8 , 10−7 , … , 102 , 103 , 104بردار 𝒘 را محاسبه کرده و نمودار خطای
آموزش و آزمون را به ازای مقادیر مختلف λرسم نمایید( .در رسم نمودار ،از ln λبه عنوان محور افقی
استفاده نمایید).
1( .bنمره) جهت تعیین پارامتر λدر محدوده مقادیری که در قسمت قبل ذکر شد ،روش k-fold cross
validationرا پیاده سازی کنید .سپس با استفاده از 10-fold CVنمودار میانگین خطا روی دادههای آموزش،
اعتبارسنجی ( )validationو آزمون را به ازای مقادیر مختلف λرسم نمایید .سپس بهترین مقدار λرا طبق
این نمودار پیدا کنید .همچنین مقدار میانگین خطا روی دادههای اعتبارسنحی ( )validationرا برای بهترین λ
گزراش نمایید.
𝐿𝐷 𝐷1 , … ,
.3.3در این بند ،هدف بررسی بایاس و واریانس است .برای این منظور الزم است 𝐿 = 50مجموعهی آموزشی
تشکیل شود که برای تشکیل هر کدام از این مجموعهها باید 𝑛 دادهی آموزش مطابق رابطهی
𝜖 𝑡 = 𝑥 3 − 3𝑥 2 − 𝑥 + 3 +ایجاد شود که توزیع 𝑥 یکنواخت در بازه ] [−3,3و ) 𝜖~𝑁(0, 2باشد.
5( .aنمره) با فرض استفاده از تابع هزینه SSEبا جملهی منظمسازی ‖𝒘‖22و بهکارگیری تابع تبدیل ،𝜙2برای
هر کدام از مجموعههای آموزش 𝐿𝐷 𝐷1 , … ,با اندازه 𝑛 = 20و } 𝜆 ∈ {10−8 , 10−7 , … , 102 , 103 , 104پارامتر
𝒘 را بهدست آورید .مقدار (1بایاس) ،واریانس و میانگین خطای آزمون را به ازای مقادیر مختلف λروی یک
نمودار رسم کنید( .راهنمایی :میتوانید برای محاسبهی بایاس و واریانس به روابط 3.45-3.47کتاب Bishop
مراجعه نمایید)
3( .bنمره) مشابه بند ( )aاین بار در حالتیکه اندازه مجموعه آموزش 𝑛 = 200باشد ،نتایج را مجددا به دست
آورده و نمودارهای مربوطه را رسم کنید .سپس نتایج حاصل را با بند ( )aمقایسه و تحلیل نمایید.
برای این منظور بر روی w
( .3.3اختیاری 10-نمره) در این بخش به بررسی روش بیز برای حل مسالهی رگرسیون میپردازیم.
توزیع پیشین )𝑰 𝑁(𝒘|𝟎, 𝛼 −1در نظر بگیرید .همچنین فرض کنید مقادیر 𝛼 = 2و 𝜎 2 = 2داده شدهاند .وقتی از
رویکرد احتمالی برای مدل کردن مسالهی رگرسیون استفاده میکنیم ،میتوانیم به منظور از دست ندادن اطالعات عدم
قطعیت ،به جای تخمین پارامتر توزیع با یک عدد ثابت با استفاده از تخمین MLیا ،MAPکل پارامترهای مختلف را با
احتساب احتمال هر کدام در نظر بگیریم .با انجام این کار میتوانیم با انجام marginalizationروی ،wبه صورت مستقیم
با توزیع ( predictiveیعنی )𝛼 )𝑝(𝑦|𝒙, 𝒟, 𝜎 2 ,کار کنیم .از آنجا که در مسالهی مورد بحث ما توزیع نویز و توزیع پیشین
پارامترها هر دو گوسی در نظر گرفته شدهاند ،میتوان نشان داد که این توزیع نیز گوسی خواهد بود و میانگین و واریانس
آن دارای فرم بسته است( .برای پاسخ به قسمتهای زیر بخشهای 3.3.1و 3.3.2از کتاب Bishopرا مطالعه نمایید).
برای حل این سوال نتایج هر کدام از سه تبدیل 𝜙1و 𝜙2و 𝜙3را گزارش کنید.
.aبه ازای } 𝑛 ∈ {2,5,10,90توزیع predictiveرا بدست آورید و در نموداری نقاط آموزشی را به همراه میانگین
این توزیع در هر نقطه رسم کنید .همچنین عدم قطعیت این توزیع را با رسم نمودار انحراف از معیار در دو
طرف میانگین نشان دهید (مشابه شکل 3.8کتاب .)Bishopهمچنین توابع حاصل از تخمین MLو MAPرا
در همین نمودار با رنگهای متفاوت رسم کنید( .در رسم نمودارها میتوانید ] 𝑥 ∈ [−3,3در نظر بگیرید).
نتیجه را تحلیل کنید.
20 .bنمونه از توزیع پسین 𝒘 تولید کرده و منحنیهای آنها را به همراه نقاط آموزشی در نموداری رسم کنید
(مشابه شکل 3.9کتاب .)Bishop
.cرفتار سه تبدیل 𝜙1و 𝜙2و 𝜙3را در دو مورد زیر با هم مقایسه کنید:
.iوجود دادهی پرت ( )outlierدر نمونهها
.iiمیزان عدم قطعیت در نواحی دور از بازهای که داده وجود دارد.
سوال 5+ 5( :0نمره) توابع رگرسيون بهينه (بدون محدوديت)
معیار فاصلهی Minkowskiبه صورت زیر تعریف میشود:
1
𝑝
𝑚
) 𝑝| 𝑑𝑦 ‖𝒙 − 𝒚‖𝑝 = (∑|𝑥𝑑 −
𝑑=1
در کالس دیدیم که تابع بهینه )𝒙(∗ ℎبرای کمینه کردن امید ریاضی ،‖ℎ(𝒙) − 𝑦‖22برابر با امید ریاضی
𝑦 است.
5( )aنمره) نشان دهید که تابع بهینه )𝒙(∗ ℎبرای کمینه کردن امید ریاضی ‖𝒙 − 𝒚‖1برابر میانهی توزیع )𝑥|𝑦(𝑝 است.
( )bاختیاری 5 :نمره) نشان دهید که تابع بهینه )𝒙(∗ ℎبرای کمینه کردن امید ریاضی 𝑞‖𝒚 ‖𝒙 −وقتی 𝑞 → 0برابر مد
توزیع )𝑥|𝑦(𝑝 است.
سوال 15( :5نمره) تخمين MLو MAP
3( )aنمره) فرض کنید )𝑁( 𝑥 𝑥 (1) , ⋯ ,نمونههای مستقل با توزیع یکنواخت
1
𝜃 < 𝑥 < 𝜃−
𝜃𝑝(𝑥; 𝜃) = { ⁄2
0
𝑤 𝑜.
باشند مطلوب است تعیین پارامتر 𝜃 با استفاده از تخمین .ML
𝑥~𝑈(−𝜃, 𝜃),
1( )bنمره) فرض کنید )𝑁( 𝑥 N ،𝑥 (1) , ⋯ ,نمونه مستقل با توزیع نرمال ) 𝑁(𝜇, 𝜎 2باشد و همچنین بدانیم پارامتر 𝜇 دارای
توزیع نرمال ) 𝑁(𝜇0 , 𝜎0است ( 𝜎 2به عنوان یک مقدار معلوم در نظر گرفته شود).
مطلوب است:
محاسبه تخمین پارامتر 𝜇 با استفاده از تخمین .ML
.i
.ii
محاسبه تخمین پارامتر 𝜇 با استفاده از تخمین .MAPنتیجه حاصل را با استفاده از 𝐿𝑀 ̂𝜇 بازنویسی و تفسیر
کنید.
5( )cنمره) مشابه بند bفرض کنید )𝑁( 𝑥 N ،𝑥 (1) , ⋯ ,نمونه مستقل با توزیع نرمال باشد ) 𝑁(𝜇, 𝜎 2ولی پارامتر 𝜇 معلوم
بوده و 𝜎 2دارای توزیع Inverse gammaباشد:
𝛼𝛽
𝛽
) (𝜎 2 )−𝛼−1 exp(− 2
)𝛼(Γ
𝜎
تخمین MAPپارامتر 𝜎 2را بیابید.
= )𝛽 𝑝(𝜎 2 ; 𝛼,
سوال 94( 2نمره) :رگرسيون با رويکرد احتمالی
3( )aنمره) فرض کنید likelihoodشرطی )𝜎 𝑝(𝑦|𝒙, 𝒘,یک توزیع گاوسی ) 𝑁(𝑦|𝑓(𝒙; 𝒘), σ2باشد .روابط حاصل برای
تخمین MLپارامترهای 𝜎 و 𝒘 را مشخص نمایید.
3( )bنمره) اگر بخواهیم به جای تخمین MLدر بند ( )aاز تخمین MAPبرای پارامتر 𝒘 استفاده کنیم و 𝒘 را متغیری
تصادفی با توزیع نرمال )𝑰 𝑁(𝟎, 𝛾 2فرض کنیم ،مطلوب است پیدا کردن تابع هدفی که قرار است بیشینه شود .همچنین
تابع هدف حاصل را با تابع هزینهی SSEبا جملهی منظمسازی ‖𝒘‖22مقایسه کنید.
5( )cنمره) فرض کنید likelihoodشرطی )𝜎 𝑝(𝑦|𝒙, 𝒘,برخالف بند ( )aیک توزیع الپالسین )𝑏 𝐿𝑎𝑝(𝑦|(𝑓(𝒙; 𝒘),در
نظر گرفته شود یا بهعبارت دیگر نویز حول
)𝒘 ;𝒙(𝑓 باتوزیع )𝑏exp(−|𝑥|/
1
𝑏2
فرض شود .روابط حاصل برای تخمین
MLپارامترها را مشخص نمایید .در این حالت تابع هزینهای که به دنبال کمینه کردن آن هستیم را مشخص نمایید.
]یادآوری pdf :توزیع الپالسین )𝑏exp(−|𝑥 − 𝜇|/
1
𝑏2
[
3( )dنمره) مشخص نمایید استفاده از چه رویکرد آماری معادل با SSEبا جملهی منظمسازی ‖𝒘‖1به صورت زیر خواهد
شد:
𝑛
2
𝐽(𝒘) = ∑ (𝑦 (𝑖) − 𝑓(𝒙(𝑖) ; 𝒘)) + 𝜆‖𝒘‖1
𝑖=1
معادل بودن را از طریق روابط نشان دهید.
3( )eنمره) استفاده از جمله منظمسازی ( ‖𝒘‖1در بند )dدر مقایسه با
‖𝒘‖22
(در بند )bچه تاثیری در پارامترهای
حاصل میتواند ایجاد کند؟
)fدیدیم که در نظر گرفتن توزیع گوسی برای 𝑦 به صورت زیر است:
) 𝑝(𝑦|𝒙; 𝒘, 𝜎 2 ) = 𝑁(𝑦|𝑓(𝒙; 𝒘), 𝜎 2
و استفاده از تخمین MLبرای محاسبهی مقادیر 𝒘 و 𝜎 معادل حل مسالهی بهینهسازی زیر است:
𝒘
)𝒘( 𝐸𝑆𝑀𝐽 ̂ = argmin
𝒘
𝒘( 𝐸𝑆𝑀𝐽 = 𝜎̂ 2
)̂
که تابع 𝐸𝑆𝑀𝐽 همان تابع هزینهی میانگین مجذور مربعات خطا است که از رابطهی زیر بدست میآید:
𝑛
2
1
))𝒘 ; )𝑖( 𝑥(𝑓 𝐽𝑀𝑆𝐸 (𝒘) = ∑ (𝑦 (𝑖) −
𝑛
𝑖=1
حال فرض کنید توزیع 𝑦 به صورت یک توزیع uniformحول )𝒘 ;𝒙(𝑓 با فاصلهی حداکثر 𝜃 از دو طرف تعریف شود:
𝜃 ≤ |)𝒘 ;𝒙(𝑓 |𝑦 −
𝑜. 𝑤.
1
𝜃𝑝(𝑦|𝒙; 𝒘, 𝜎 2 ) = { 2
0
𝒘
.i
( 7نمره) اثبات کنید که استفاده از تخمین MLدر این حالت معادل با کمینه کردن تابع هزینهی بیشینهی
قدر مطلق خطاها ( )Maximum Absolute Errorاست:
|)𝑤 ; )𝑖(𝒙(𝑓 𝐽𝑀𝐴𝐸 (𝒘) = max|𝑦 (𝑖) −
𝑖
و مشابه قبل روابط زیر برقرارند:
𝒘
)𝒘( 𝐸𝐴𝑀𝐽 ̂ = argmin
𝒘
𝒘( 𝐸𝐴𝑀𝐽 = 𝜎̂ 2
)̂
] راهنمایی :ابتدا سوال 5قسمت
.ii
aرا حل کنید[.
( 3نمره) با یک مثال نشان دهید که روش اخیر نسبت به روش مبتنی بر MSEنسبت به دادههای پرت
( )outliersحساسیت بیشتری دارد.
© Copyright 2026 Paperzz