HW1.pdf

‫يادگيری ماشين ‪( 04-717‬گروه دوم )‬
‫نيمسال اول ‪49-40‬‬
‫تمرين سری اول‪ :‬رگرسيون و تخمين‬
‫مدرس‪ :‬سليمانی‬
‫موعد تحويل‪ 62 :‬مهر ‪49‬‬
‫نمره‪65+144 :‬‬
‫سوال ‪ 7( 1‬نمره)‪ :‬مفاهيم‬
‫درستی گزارههای زیر را بررسی کنید (با توضیح مختصر)‪:‬‬
‫‪)a‬‬
‫‪)b‬‬
‫‪)c‬‬
‫‪)d‬‬
‫‪)e‬‬
‫‪)f‬‬
‫‪)g‬‬
‫خطای اعتبارسنجی (‪ )validation‬همواره کمتر از خطای آزمون است‪.‬‬
‫افزایش پیچیدگی مدل در رگرسیون همیشه سبب افزایش واریانس و کاهش بایاس میشود‪.‬‬
‫افزایش پیچیدگی مدل در رگرسیون همیشه سبب کاهش خطای آموزش و افزایش خطای آزمون میشود‪.‬‬
‫در صورتی که مقدار بایاس باال باشد و واریانس کم باشد‪ ،‬باید پیچیدگی مدل را کاهش داد‪.‬‬
‫کاهش خطای آموزش منجر به کاهش خطای آزمون میشود‪.‬‬
‫در صورتی که واریانس باال باشد‪ ،‬افزایش دادههای آموزش همیشه میتواند سبب کاهش واریانس شود‪.‬‬
‫در صورتی که بایاس باال باشد‪ ،‬افزایش دادههای آموزش هیچ کمکی به کاهش بایاس نمیکند و باید پیچیدگی مدل را‬
‫افزایش داد‪.‬‬
‫سوال ‪ 19( 6‬نمره)‪ :‬رگرسيون خطی‬
‫‪ .2.1‬فرض کنید دادههای اندازهگیری شده برای سیستم خطی ‪ 𝑦 = 2𝑥 − 1‬که در آن مقدار نویز جمع شونده هم وجود دارد‬
‫به صورت زیر باشد‪:‬‬
‫} )‪{(−1,1), (0, 8), (1, 5), (−2, −1‬‬
‫‪ 2( )a‬نمره) نقاط داده شده و تابع مطلوب را ترسیم کنید‪.‬‬
‫‪ 3( )b‬نمره) با استفاده از تابع هزینه ‪ ،SSE‬خط برازش کننده را بهدست آورید و آن را رسم کنید‪.‬‬
‫‪ .1.1‬اگر ∗𝒘 خط بهینه طبق معیار ‪( MSE‬روی کل توزیع) را مشخص کند‪:‬‬
‫] ‪𝒘∗ = argmin 𝐸𝒙,𝑦 [(𝑦 − 𝒘𝑇 𝒙)2‬‬
‫𝒘‬
‫‪ 3( )a‬نمره) ∗𝒘 را بر حسب ماتریس خود همبستگی ] 𝑇𝒙𝒙[ 𝒙𝐸 = 𝑹 و بردار همبستگی ]𝑦𝒙[ 𝑦𝒙𝐸 = 𝒄 محاسبه‬
‫نمایید‪.‬‬
‫‪ 1( )b‬نمره) نشان دهید‪:‬‬
‫‪𝐸𝒙,𝑦 [(𝑦 − 𝒘∗ 𝑇 𝒙)𝒙] = 0‬‬
‫‪ 1( )c‬نمره) با استفاده از رابطهی به دست آمده در بند قبل نشان دهید‪:‬‬
‫𝒘()𝒙 𝑇 ∗𝒘 ‪𝐸𝒙,𝑦 [(𝑦 −‬‬
‫‪̂ 𝑇 𝒙 − 𝒘∗ 𝑇 𝒙)] = 0‬‬
‫‪ 1( )d‬نمره) رابطهی حاصل در بند (‪ )c‬را تعبیر هندسی نمایید‪.‬‬
‫سوال ‪ 64+94( 9‬نمره)‪ :‬پيادهسازی انواع رگرسيون‬
‫توجه‪ :‬برای انجام اين تمرين میبايست کدهايی که در اختيار شما قرار داده شده است را تکميل نماييد (ابتدا فايل‬
‫”‪ “read me (instructions).txt‬را مطالعه نماييد)‪.‬‬
‫در این قسمت به پیادهسازی و بررسی انواع روشهای رگرسیون خواهیم پرداخت‪ .‬برای این منظور از دادههای موجود در فایل‬
‫‪data‬‬
‫استفاده خواهید کرد‪ .‬در این فایل ‪ 200‬نمونه و مقادیر متناظر با آنها به ترتیب در قالب دو ماتریس ‪ X‬و ‪ T‬دادهشدهاند‪ .‬این دادهها‬
‫توسط رابطهی 𝜖 ‪ 𝑡 = 𝑥 3 − 3𝑥 2 − 𝑥 + 3 +‬تولید شدهاند که 𝜖 نویز گوسی جمعشونده با میانگین صفر و واریانس‬
‫‪𝜎2 = 2‬‬
‫است‪.‬‬
‫برای بررسی الگوریتم ها‪ ،‬از بین این دادهها ‪ n‬نمونه به صورت تصادفی به عنوان مجموعهی آموزشی انتخاب شده و بقیه برای تست‬
‫مورد استفاده قرار خواهند گرفت (مقدار ‪ n‬در هر قسمت بیان خواهد شد)‪ .‬برای محاسبهی خطا از میانگین ‪ RMSE‬در ‪ 200‬بار‬
‫اجرای الگوریتم استفاده کنید (که باید در هر بار اجرا ‪ n‬نمونهی آموزش دوباره به صورت تصادفی انتخاب شوند)‪.‬‬
‫برای حل سوالهای زیر سه تابع تبدیل زیر را در نظر بگیرید (در هر قسمت بیان شدهاست که از کدام توابع باید استفاده کنید)‪:‬‬
‫] ‪𝝓𝟏 (𝑥) = [1 𝑥 𝑥 2 𝑥 3‬‬
‫] ‪𝝓𝟐 (𝑥) = [1 𝑥 𝑥 2 ⋯ 𝑥 10‬‬
‫‪𝜎=1‬‬
‫) 𝑖𝑐 ‪(𝑥 −‬‬
‫;)‬
‫‪2𝜎 2‬‬
‫‪𝑐𝑖 ∈ {−3, −2.9, −2.8, … , 2.9, 3},‬‬
‫‪(𝝓𝟑 (𝑥))𝑖 = 𝑒𝑥𝑝 (−‬‬
‫توضیح‪ :‬طبق تعریف اخیر‪ ،‬تابع ‪ 𝜙3‬یک تابع با خروجی ‪ 12‬بعدی را نشان میدهد که هر بعد آن متناظر با یک تابع گوسی است که‬
‫مراکز این گوسیها به صورت یکنواخت در بازهی ]‪ [-3,3‬پراکنده شده و واریانسهایشان یکسان است‪.‬‬
‫‪ .2.3‬در صورتیکه برای رگرسیون از تابع هزینه‬
‫‪2‬‬
‫‪SSE‬‬
‫𝑛‬
‫))𝒙(𝝓 𝑇𝒘 ‪𝐽(𝒘) = ∑ (𝑦 (𝑖) −‬‬
‫‪𝑖=1‬‬
‫استفاده شود‪:‬‬
‫‪ 7( .a‬نمره) برای هریک از سه تبدیل باال و مقادیر مختلف تعداد دادهی آموزش }‪ 𝑛 ∈ {5,10,15, … ,90‬بردار‬
‫ضرایب 𝒘 را حساب کرده و خطاهای آموزش و آزمون را در نموداری بر حسب ‪ n‬رسم کنید‪.‬‬
‫‪ 1( .b‬نمره) با توجه به نمودارهای حاصل در مورد تاثیر تعداد نمونههای آموزش روی بیشبرازش (‪)overfitting‬‬
‫بحث کنید‪.‬‬
‫‪ 1( .c‬نمره) نمودارهای بهدست آمده برای 𝜙 های مختلف را مقایسه نمایید‪.‬‬
‫‪ .1.3‬تابع هزینه ‪ SSE‬با جمله منظمسازی به صورت‪:‬‬
‫‪2‬‬
‫𝑛‬
‫‪𝐽(𝒘) = ∑ (𝑦 (𝑖) − 𝒘𝑇 𝝓(𝒙)) + 𝜆‖𝒘‖22‬‬
‫‪𝑖=1‬‬
‫و تابع تبدیل ‪ 𝜙2‬را در نظر بگیرید‪:‬‬
‫‪ 5( .a‬نمره) به ازای ‪ 𝑛 = 30‬و } ‪ 𝜆 ∈ {10−8 , 10−7 , … , 102 , 103 , 104‬بردار 𝒘 را محاسبه کرده و نمودار خطای‬
‫آموزش و آزمون را به ازای مقادیر مختلف ‪ λ‬رسم نمایید‪( .‬در رسم نمودار‪ ،‬از ‪ ln λ‬به عنوان محور افقی‬
‫استفاده نمایید‪).‬‬
‫‪ 1( .b‬نمره) جهت تعیین پارامتر ‪ λ‬در محدوده مقادیری که در قسمت قبل ذکر شد‪ ،‬روش ‪k-fold cross‬‬
‫‪ validation‬را پیاده سازی کنید‪ .‬سپس با استفاده از ‪ 10-fold CV‬نمودار میانگین خطا روی دادههای آموزش‪،‬‬
‫اعتبارسنجی (‪ )validation‬و آزمون را به ازای مقادیر مختلف ‪ λ‬رسم نمایید‪ .‬سپس بهترین مقدار ‪ λ‬را طبق‬
‫این نمودار پیدا کنید‪ .‬همچنین مقدار میانگین خطا روی دادههای اعتبارسنحی (‪ )validation‬را برای بهترین ‪λ‬‬
‫گزراش نمایید‪.‬‬
‫𝐿𝐷 ‪𝐷1 , … ,‬‬
‫‪ .3.3‬در این بند‪ ،‬هدف بررسی بایاس و واریانس است‪ .‬برای این منظور الزم است ‪ 𝐿 = 50‬مجموعهی آموزشی‬
‫تشکیل شود که برای تشکیل هر کدام از این مجموعهها باید 𝑛 دادهی آموزش مطابق رابطهی‬
‫𝜖 ‪ 𝑡 = 𝑥 3 − 3𝑥 2 − 𝑥 + 3 +‬ایجاد شود که توزیع 𝑥 یکنواخت در بازه ]‪ [−3,3‬و )‪ 𝜖~𝑁(0, 2‬باشد‪.‬‬
‫‪ 5( .a‬نمره) با فرض استفاده از تابع هزینه ‪ SSE‬با جملهی منظمسازی ‪ ‖𝒘‖22‬و بهکارگیری تابع تبدیل ‪ ،𝜙2‬برای‬
‫هر کدام از مجموعههای آموزش 𝐿𝐷 ‪ 𝐷1 , … ,‬با اندازه ‪ 𝑛 = 20‬و } ‪ 𝜆 ∈ {10−8 , 10−7 , … , 102 , 103 , 104‬پارامتر‬
‫𝒘 را بهدست آورید‪ .‬مقدار ‪(1‬بایاس)‪ ،‬واریانس و میانگین خطای آزمون را به ازای مقادیر مختلف ‪ λ‬روی یک‬
‫نمودار رسم کنید‪( .‬راهنمایی‪ :‬میتوانید برای محاسبهی بایاس و واریانس به روابط ‪ 3.45-3.47‬کتاب ‪Bishop‬‬
‫مراجعه نمایید)‬
‫‪ 3( .b‬نمره) مشابه بند (‪ )a‬این بار در حالتیکه اندازه مجموعه آموزش ‪ 𝑛 = 200‬باشد‪ ،‬نتایج را مجددا به دست‬
‫آورده و نمودارهای مربوطه را رسم کنید‪ .‬سپس نتایج حاصل را با بند (‪ )a‬مقایسه و تحلیل نمایید‪.‬‬
‫برای این منظور بر روی ‪w‬‬
‫‪( .3.3‬اختیاری‪ 10-‬نمره) در این بخش به بررسی روش بیز برای حل مسالهی رگرسیون میپردازیم‪.‬‬
‫توزیع پیشین )𝑰 ‪ 𝑁(𝒘|𝟎, 𝛼 −1‬در نظر بگیرید‪ .‬همچنین فرض کنید مقادیر ‪ 𝛼 = 2‬و ‪ 𝜎 2 = 2‬داده شدهاند‪ .‬وقتی از‬
‫رویکرد احتمالی برای مدل کردن مسالهی رگرسیون استفاده میکنیم‪ ،‬میتوانیم به منظور از دست ندادن اطالعات عدم‬
‫قطعیت‪ ،‬به جای تخمین پارامتر توزیع با یک عدد ثابت با استفاده از تخمین ‪ ML‬یا ‪ ،MAP‬کل پارامترهای مختلف را با‬
‫احتساب احتمال هر کدام در نظر بگیریم‪ .‬با انجام این کار میتوانیم با انجام ‪ marginalization‬روی ‪ ،w‬به صورت مستقیم‬
‫با توزیع ‪( predictive‬یعنی )𝛼 ‪ )𝑝(𝑦|𝒙, 𝒟, 𝜎 2 ,‬کار کنیم‪ .‬از آنجا که در مسالهی مورد بحث ما توزیع نویز و توزیع پیشین‬
‫پارامترها هر دو گوسی در نظر گرفته شدهاند‪ ،‬میتوان نشان داد که این توزیع نیز گوسی خواهد بود و میانگین و واریانس‬
‫آن دارای فرم بسته است‪( .‬برای پاسخ به قسمتهای زیر بخشهای ‪ 3.3.1‬و ‪ 3.3.2‬از کتاب ‪ Bishop‬را مطالعه نمایید‪).‬‬
‫برای حل این سوال نتایج هر کدام از سه تبدیل ‪ 𝜙1‬و ‪ 𝜙2‬و ‪ 𝜙3‬را گزارش کنید‪.‬‬
‫‪ .a‬به ازای }‪ 𝑛 ∈ {2,5,10,90‬توزیع ‪ predictive‬را بدست آورید و در نموداری نقاط آموزشی را به همراه میانگین‬
‫این توزیع در هر نقطه رسم کنید‪ .‬همچنین عدم قطعیت این توزیع را با رسم نمودار انحراف از معیار در دو‬
‫طرف میانگین نشان دهید (مشابه شکل ‪ 3.8‬کتاب ‪ .)Bishop‬همچنین توابع حاصل از تخمین ‪ ML‬و ‪ MAP‬را‬
‫در همین نمودار با رنگهای متفاوت رسم کنید‪( .‬در رسم نمودارها میتوانید ]‪ 𝑥 ∈ [−3,3‬در نظر بگیرید‪).‬‬
‫نتیجه را تحلیل کنید‪.‬‬
‫‪ 20 .b‬نمونه از توزیع پسین 𝒘 تولید کرده و منحنیهای آنها را به همراه نقاط آموزشی در نموداری رسم کنید‬
‫(مشابه شکل ‪ 3.9‬کتاب ‪.)Bishop‬‬
‫‪ .c‬رفتار سه تبدیل ‪ 𝜙1‬و ‪ 𝜙2‬و ‪ 𝜙3‬را در دو مورد زیر با هم مقایسه کنید‪:‬‬
‫‪ .i‬وجود دادهی پرت (‪ )outlier‬در نمونهها‬
‫‪ .ii‬میزان عدم قطعیت در نواحی دور از بازهای که داده وجود دارد‪.‬‬
‫سوال ‪ 5+ 5( :0‬نمره) توابع رگرسيون بهينه (بدون محدوديت)‬
‫معیار فاصلهی ‪ Minkowski‬به صورت زیر تعریف میشود‪:‬‬
‫‪1‬‬
‫𝑝‬
‫𝑚‬
‫) 𝑝| 𝑑𝑦 ‪‖𝒙 − 𝒚‖𝑝 = (∑|𝑥𝑑 −‬‬
‫‪𝑑=1‬‬
‫در کالس دیدیم که تابع بهینه )𝒙(∗‪ ℎ‬برای کمینه کردن امید ریاضی ‪ ،‖ℎ(𝒙) − 𝑦‖22‬برابر با امید ریاضی‬
‫𝑦 است‪.‬‬
‫‪ 5( )a‬نمره) نشان دهید که تابع بهینه )𝒙(∗‪ ℎ‬برای کمینه کردن امید ریاضی ‪ ‖𝒙 − 𝒚‖1‬برابر میانهی توزیع )𝑥|𝑦(𝑝 است‪.‬‬
‫‪( )b‬اختیاری‪ 5 :‬نمره) نشان دهید که تابع بهینه )𝒙(∗‪ ℎ‬برای کمینه کردن امید ریاضی 𝑞‖𝒚 ‪ ‖𝒙 −‬وقتی ‪ 𝑞 → 0‬برابر مد‬
‫توزیع )𝑥|𝑦(𝑝 است‪.‬‬
‫سوال ‪ 15( :5‬نمره) تخمين ‪ ML‬و ‪MAP‬‬
‫‪ 3( )a‬نمره) فرض کنید )𝑁( 𝑥 ‪ 𝑥 (1) , ⋯ ,‬نمونههای مستقل با توزیع یکنواخت‬
‫‪1‬‬
‫𝜃 < 𝑥 < 𝜃‪−‬‬
‫𝜃‪𝑝(𝑥; 𝜃) = { ⁄2‬‬
‫‪0‬‬
‫𝑤 ‪𝑜.‬‬
‫باشند مطلوب است تعیین پارامتر 𝜃 با استفاده از تخمین ‪.ML‬‬
‫‪𝑥~𝑈(−𝜃, 𝜃),‬‬
‫‪ 1( )b‬نمره) فرض کنید )𝑁( 𝑥 ‪ N ،𝑥 (1) , ⋯ ,‬نمونه مستقل با توزیع نرمال ) ‪ 𝑁(𝜇, 𝜎 2‬باشد و همچنین بدانیم پارامتر 𝜇 دارای‬
‫توزیع نرمال ) ‪ 𝑁(𝜇0 , 𝜎0‬است ( ‪ 𝜎 2‬به عنوان یک مقدار معلوم در نظر گرفته شود)‪.‬‬
‫مطلوب است‪:‬‬
‫محاسبه تخمین پارامتر 𝜇 با استفاده از تخمین ‪.ML‬‬
‫‪.i‬‬
‫‪.ii‬‬
‫محاسبه تخمین پارامتر 𝜇 با استفاده از تخمین ‪ .MAP‬نتیجه حاصل را با استفاده از 𝐿𝑀 ̂𝜇 بازنویسی و تفسیر‬
‫کنید‪.‬‬
‫‪ 5( )c‬نمره) مشابه بند ‪ b‬فرض کنید )𝑁( 𝑥 ‪ N ،𝑥 (1) , ⋯ ,‬نمونه مستقل با توزیع نرمال باشد ) ‪ 𝑁(𝜇, 𝜎 2‬ولی پارامتر 𝜇 معلوم‬
‫بوده و ‪ 𝜎 2‬دارای توزیع ‪ Inverse gamma‬باشد‪:‬‬
‫𝛼𝛽‬
‫𝛽‬
‫) ‪(𝜎 2 )−𝛼−1 exp(− 2‬‬
‫)𝛼(‪Γ‬‬
‫𝜎‬
‫تخمین ‪ MAP‬پارامتر ‪ 𝜎 2‬را بیابید‪.‬‬
‫= )𝛽 ‪𝑝(𝜎 2 ; 𝛼,‬‬
‫سوال ‪ 94( 2‬نمره)‪ :‬رگرسيون با رويکرد احتمالی‬
‫‪ 3( )a‬نمره) فرض کنید ‪ likelihood‬شرطی )𝜎 ‪ 𝑝(𝑦|𝒙, 𝒘,‬یک توزیع گاوسی ) ‪ 𝑁(𝑦|𝑓(𝒙; 𝒘), σ2‬باشد‪ .‬روابط حاصل برای‬
‫تخمین ‪ ML‬پارامترهای 𝜎 و 𝒘 را مشخص نمایید‪.‬‬
‫‪ 3( )b‬نمره) اگر بخواهیم به جای تخمین ‪ ML‬در بند (‪ )a‬از تخمین ‪ MAP‬برای پارامتر 𝒘 استفاده کنیم و 𝒘 را متغیری‬
‫تصادفی با توزیع نرمال )𝑰 ‪ 𝑁(𝟎, 𝛾 2‬فرض کنیم‪ ،‬مطلوب است پیدا کردن تابع هدفی که قرار است بیشینه شود‪ .‬همچنین‬
‫تابع هدف حاصل را با تابع هزینهی ‪ SSE‬با جملهی منظمسازی ‪ ‖𝒘‖22‬مقایسه کنید‪.‬‬
‫‪ 5( )c‬نمره) فرض کنید ‪ likelihood‬شرطی )𝜎 ‪ 𝑝(𝑦|𝒙, 𝒘,‬برخالف بند (‪ )a‬یک توزیع الپالسین )𝑏 ‪ 𝐿𝑎𝑝(𝑦|(𝑓(𝒙; 𝒘),‬در‬
‫نظر گرفته شود یا بهعبارت دیگر نویز حول‬
‫)𝒘 ;𝒙(𝑓 باتوزیع )𝑏‪exp(−|𝑥|/‬‬
‫‪1‬‬
‫𝑏‪2‬‬
‫فرض شود‪ .‬روابط حاصل برای تخمین‬
‫‪ ML‬پارامترها را مشخص نمایید‪ .‬در این حالت تابع هزینهای که به دنبال کمینه کردن آن هستیم را مشخص نمایید‪.‬‬
‫]یادآوری‪ pdf :‬توزیع الپالسین )𝑏‪exp(−|𝑥 − 𝜇|/‬‬
‫‪1‬‬
‫𝑏‪2‬‬
‫[‬
‫‪ 3( )d‬نمره) مشخص نمایید استفاده از چه رویکرد آماری معادل با ‪ SSE‬با جملهی منظمسازی ‪ ‖𝒘‖1‬به صورت زیر خواهد‬
‫شد‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪𝐽(𝒘) = ∑ (𝑦 (𝑖) − 𝑓(𝒙(𝑖) ; 𝒘)) + 𝜆‖𝒘‖1‬‬
‫‪𝑖=1‬‬
‫معادل بودن را از طریق روابط نشان دهید‪.‬‬
‫‪ 3( )e‬نمره) استفاده از جمله منظمسازی ‪( ‖𝒘‖1‬در بند ‪ )d‬در مقایسه با‬
‫‪‖𝒘‖22‬‬
‫(در بند ‪ )b‬چه تاثیری در پارامترهای‬
‫حاصل میتواند ایجاد کند؟‬
‫‪ )f‬دیدیم که در نظر گرفتن توزیع گوسی برای 𝑦 به صورت زیر است‪:‬‬
‫) ‪𝑝(𝑦|𝒙; 𝒘, 𝜎 2 ) = 𝑁(𝑦|𝑓(𝒙; 𝒘), 𝜎 2‬‬
‫و استفاده از تخمین ‪ ML‬برای محاسبهی مقادیر 𝒘 و 𝜎 معادل حل مسالهی بهینهسازی زیر است‪:‬‬
‫𝒘‬
‫)𝒘( 𝐸𝑆𝑀𝐽 ‪̂ = argmin‬‬
‫𝒘‬
‫𝒘( 𝐸𝑆𝑀𝐽 = ‪𝜎̂ 2‬‬
‫)̂‬
‫که تابع 𝐸𝑆𝑀𝐽 همان تابع هزینهی میانگین مجذور مربعات خطا است که از رابطهی زیر بدست میآید‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪1‬‬
‫))𝒘 ; )𝑖( 𝑥(𝑓 ‪𝐽𝑀𝑆𝐸 (𝒘) = ∑ (𝑦 (𝑖) −‬‬
‫𝑛‬
‫‪𝑖=1‬‬
‫حال فرض کنید توزیع 𝑦 به صورت یک توزیع ‪ uniform‬حول )𝒘 ;𝒙(𝑓 با فاصلهی حداکثر 𝜃 از دو طرف تعریف شود‪:‬‬
‫𝜃 ≤ |)𝒘 ;𝒙(𝑓 ‪|𝑦 −‬‬
‫‪𝑜. 𝑤.‬‬
‫‪1‬‬
‫𝜃‪𝑝(𝑦|𝒙; 𝒘, 𝜎 2 ) = { 2‬‬
‫‪0‬‬
‫𝒘‬
‫‪.i‬‬
‫(‪ 7‬نمره) اثبات کنید که استفاده از تخمین ‪ ML‬در این حالت معادل با کمینه کردن تابع هزینهی بیشینهی‬
‫قدر مطلق خطاها (‪ )Maximum Absolute Error‬است‪:‬‬
‫|)𝑤 ; )𝑖(𝒙(𝑓 ‪𝐽𝑀𝐴𝐸 (𝒘) = max|𝑦 (𝑖) −‬‬
‫𝑖‬
‫و مشابه قبل روابط زیر برقرارند‪:‬‬
‫𝒘‬
‫)𝒘( 𝐸𝐴𝑀𝐽 ‪̂ = argmin‬‬
‫𝒘‬
‫𝒘( 𝐸𝐴𝑀𝐽 = ‪𝜎̂ 2‬‬
‫)̂‬
‫] راهنمایی‪ :‬ابتدا سوال ‪ 5‬قسمت‬
‫‪.ii‬‬
‫‪ a‬را حل کنید‪[.‬‬
‫(‪ 3‬نمره) با یک مثال نشان دهید که روش اخیر نسبت به روش مبتنی بر ‪ MSE‬نسبت به دادههای پرت‬
‫(‪ )outliers‬حساسیت بیشتری دارد‪.‬‬