بسمه تعالی
يادگيری ماشين ( 40-717گروه دوم)
نيمسال اول 94-95
تمرين سری دوم – رگرسيون
مدرس :دکتر سليمانی
موعد تحويل :تئوری :دوشنبه 27مهر -عملی :چهارشنبه 29مهر
نمره100 :
سوال 18( 1نمره) :رگرسيون خطی
4( .1.1نمره) فرض کنید که 𝑛 تا داده ی آموزش به صورت }) ) D {( x (1) , y (1) ),...,( x ( n ) , y ( nداريم که هر يک
بردار ويژگی 𝑥 از dتا مولفه تشکیل شده است .می خواهیم با استفاده از رگرسیون خطی با تابع هزينهی SSEمدلی به
دست آوريم که با داشتن مولفهی xيک داده بتواند مولفه ی yآن را به دست آورد:
n
2
) J (w ) y (i ) w T x (i
i 1
اگر Xماتريس ساخته شده از روی ورودیها (که هر کدام در يک سطر آن قرار گرفتهاند) و yبردار ساخته شده از
روی خروجیها و wبردار پارامترها باشد:
أ.
نشان دهید که بردار wبرای حداقل کردن تابع هزينهی باال به صورت
T
X Y
1
XT X
ˆ wبه دست می آيد.
ب .مشکالت استفاده از رابطهی فوق برای به دست آوردن ( Wحتی در صورتیکه رابطه ورودی و خروجی خطی
است) را با ذکر مثال توضیح دهید.
4( .2.1نمره) برای حل مشکالت بند "ب" سوال " "1.1چندين راهکار وجود دارد که در ادامه آمده است ،روابط محاسبهی
wرا برای هر کدام از راهکارهای زير به دست آوريد و توضیح دهید که کدام يک از مشکالت فوق به چه دلیلی با اين
راهکارها رفع میشوند:
أ.
استفاده از روشهای بهینهسازی تکرار شونده مانند
Gradient Descent
ب .استفاده از جملهی منظمساز
3( .3.1نمره) فرض کنید که nداده ی آموزش داريم که هر کدام kبعد دارد .اگر يکی از بعدهای دادهها ترکیب خطیای از
k
ساير ابعاد باشد (
j
x
i
j 1, j i
.) x i توضیح دهید که چرا نمیتوان مدل رگرسیون خطی عادی را برای اين دادهها
استفاده کرد و راهحل رفع آن برای استفاده از رگرسیون خطی بدون تغییر در دادهها چیست؟
.4.1اگر ∗𝒘 خط بهینه طبق معیار ) Mean Square Error (MSEبه صورت را مشخص کند:
] 𝒘∗ = argmin 𝐸𝒙,𝑦 [(𝑦 − 𝒘𝑇 𝒙)2
𝒘
4( .aنمره) ∗𝒘 را بر حسب ماتريس خود همبستگی ] 𝑇𝒙𝒙[ 𝒙𝐸 = 𝑹 و بردار همبستگی ]𝑦𝒙[ 𝑦𝒙𝐸 = 𝒄 محاسبه
نمايید.
3( .bنمره) ثابت نمايید که میتوان Expected errorرا به صورت جمع خطاهای تقريب و ساختاری
ˆ T x)2 ] Ex, y [( y w *T x)2 ] Ex [(w *T x w
] ˆ T x)2
Ex, y [( y w
نوشت که
̂ wپارامترهای
تخمین زده شده با استفاده از مجموعهدادهی آموزش هستند.
سوال 12( 2نمره) :رگرسيون غيرخطی
3( .1.2نمره) فرض کنیم که ماتريس ورودی Xاز طريق mتا تابع پايهی گوسی به فضای جديد برده شده باشد .در آن فضا
نیز يک ابرصفحه به اين دادهها fitنمايیم .رابطهی معادل با اين ابر صفحه را در فضای ويژگی اصلی و شکل آن را
توصیف نمايید.
9( .2.2نمره) در هر يک از موارد زير توضیح دهید که پارامتر αبا استفاده از مدل رگرسیون خطی چگونه قابل محاسبه
است؟ (در صورتی که قابل محاسبه نباشد علت آن را توضیح دهید i ~ N (0, 2 ) .).در تمام موارد نويز
) ϵ𝑖 ~𝑁(0, 𝜎 2است که فرض میکنیم نويزها از هم مستقل هستند:
أ.
ب.
ج.
yi 1 x1 x23 i
1 2
yi x1 e i
1 2
yi log( x1 e ) i
سوال 20( 3نمره) :تابع رگرسيون بدون محدوديت و تجزيه خطا
7( .1.3نمره) فرض کنید که دادههای آموزش دارای توزيع ) p(x,yهستند و به دنبال fitنمودن تابع ) h(xروی اين داده ها
هستیم .بهترين تابع رگرسیون ) h * ( xرا در حاالت زير محاسبه نمايید.
أ.
( 2نمره) بهترين تابع رگرسیون ) h * ( xرا در حاالت زير محاسبه نمايید.
)] h *( x) arg min(E x,y [(h( x) y ) 2
)h( x
ب 5( .نمره) چنانچه مسالهی بهینهسازی به صورت زير تغییر داده شود ،بهترين تابع رگرسیون ) h * ( xدر اين
حالت را به دست آوريد:
)]| h *(x ) arg min(E x,y [| h (x ) y
) h (x
ج( .اختیاری 5 -نمره) نشان دهید به ازای چه تابع هزينهای بهترين تابع رگرسیون به صورت زير به دست خواهد
آمد:
)𝑥|𝑦(𝑝 ℎ∗ (𝑥) = max
𝑦
2( .2.3نمره) تابع )𝑥( ℎرا تابع رگرسیون بهینه میخوانند که بدون هیچ محدوديتی ] Ex,y [(h( x) y)2را حداقل
مینمايد .توضیح دهید که تابع رگرسیون بهینه ) h(xچه محدوديتی دارد که باعث میشود در عمل کاربردی نداشته
باشد؟
11( .3.3نمره) تجزيه خطای واقعی به صورت زير را در نظر بگیريد:
ˆ ) y)2 ] E x [( f ( x; w
] ˆ ) h( x))2 ] E x,y [(h( x) y) 2
Ex,y [( f ( x; w
أ.
تساوی فوق را اثبات نمايید.
ب .جملهی ] Ex,y [(h( x) y)2در سمت راست عبارت فوق چه مفهومی را بیان مینمايد؟
ج .جملهی ] E x [( f ( x; wˆ ) h( x)) 2در سمت راست عبارت فوق چه مفهوم کلی را بیان مینمايد؟
د .جملهی ] E x [( f ( x; wˆ ) h( x)) 2در سمت راست عبارت فوق را به صورت جمع مفهوم باياس و
واريانس به دست آوريد.
ه.
فرض کنید که در رگرسیون خطی از توابع پايهی چندجملهای با درجهی Mاستفاده نمايیم .در صورتی که
درجهی اين توابع چندجملهای را افزايش دهیم (برای مثال M=2 ،را به M=5ببريم) .چه تاثیری (افزايش،
کاهش ،بدون تغییر) بر روی مولفههای باياس و واريانس خواهد داشت؟
و .فرض کنید که در رگرسیون خطی از توابع پايهی چندجملهای با درجهی Mاستفاده نمايیم .در صورتی که
اندازهی مجموعه دادهی آموزش را افزايش دهیم ،چه تاثیری بر روی باياس و واريانس خواهد داشت؟
سوال 20( 4نمره) :رگرسيون آماری
4( .1.4نمره) اگر فرض کنیم ) P( y | x) N ( y | f ( x; w), 2آنگاه به سواالت زير پاسخ دهید:
أ.
( 2نمره) با استفاده از تخمین ،MLپارامتر 𝒘 را به دست آوريد.
2
ب 2( .نمره) با استفاده از تخمین ،MLمتغیر σرا به دست آوريد و مفهوم شهودی رابطهی نهايی آن را توضیح
دهید.
2
4( .2.4نمره) اگر برای 𝒘 در سوال قبل توزيع پیشین گوسی با میانگین صفر و ماتريس کوواريانس 𝐼 𝜎 در نظر بگیريم،
آنگاه:
أ.
با استفاده از تخمین 𝒘 ،MAPرا محاسبه نمايید.
ب .تابع هزينهی معادلی که بايد کمینه شود را به دست آوريد.
7( .3.4نمره) دو سوال قبل را اين بار با اين فرض که توزيع ) P(y|xتوزيع الپالسین ) Lap ( y | f (x ;w ), bباشد ،حل
نمايید( .راهنمايی :توزيع الپالسین
b
1 x
e
2b
) Lap (x | , b )
5( .4.4نمره) سوال 2.5را با اين فرض که توزيع )𝑥|𝑦(𝑃 همان توزيع نرمال ) P( y | x) N ( y | f ( x; w), 2باشد ،اما
توزيع پیشین روی همهی پارامترها يک توزيع الپالس با میانگین صفر باشد را حل نمايید .اگر پارامترهای bدر
توزيعهای پیشین روی 𝑑𝑤 𝑤0 , … ,با هم متفاوت باشد ،چه نتیجهای به دست خواهد آمد؟
سوال 30( 5نمره) :پيادهسازی انواع رگرسيون
* در کليهی سواالت زير کدپيادهسازی را میبايست خودتان و با زبان برنامهنويسی متلب بنويسيد و با اجرای آنها ،نتايج را
همراه با تفسير و پاسخ به سواالت در قالب مستند در کنار کدها ارسال نماييد .کليهی فايلهای الزم برای اجرای کدها
(توسط تصحيحکنندهی تمرين) بايد در فايلهای ارسالی باشد.
8( 1.5نمره) مسئلهی رگرسیون خطی y w1 x w0را در نظر بگیرد و فرض کنید که اگر nتا دادهی آموزش داشته
باشیم ،به دنبال حداقلسازی تابع هزينهی زير هستیم:
1 n
( y i w 1x i w 0 ) 2
n i 1
کد متلبی بنويسید که بر روی مجموعه دادهی اول (پیوست تمرين) پارامترهای w1و w0را به روشهای فرم بسته،
gradient descentو stochastic gradient descentحساب نمايد .همچنین stochastic gradient descentو
gradient
descentرا از نظر سرعت اجرا روی مجموعه دادهی مربوطه و تنظیمات اين الگوريتمها باهم مقايسه نمايید.
)14( 2.5در مجموعه دادهی دوم (پیوست تمرين) که به تفکیک train.txtو test.txtهستند 13 ،تا ستون اول ورودی و
ستون چهاردهم خروجی را نشان میدهد .چنانجه بخواهیم رگرسیون چندجملهای با درجه mروی اين دادهها انجام
دهیم ،ابتدا مدلهای خواسته شدهی زير را با استفاده از مجموعه دادههای train.txtآموزش داده و موارد خواسته شده
در ادامه را گزارش دهید.
أ.
مدل رگرسیون چندجملهای مرتبه چهارم با تابع هزينهی :SSEبردار ، wخطای RMSEبرای دادههای
train
و testگزارش نمايید.
ب .مدل رگرسیون چندجملهای مرتبهی دهم با تابع هزينهی :SSEبردار ، wخطای RMSEبرای دادههای
train
و testگزارش نمايید.
ج .مدل رگرسیون چندجملهای مرتبه دهم با تابع هزينهی SSEو جملهی منظمساز : || w ||2بردار wحاصل را
به دست آوريد .نمودارهای خطای RMSEرا برای دادههای trainو testبه ازای مقادير مختلف ) ln(رسم
نمايید ] .پارامتر جملهی منظمساز را } {108 ,107 ,,102 ,103 ,104درنظر
بگیرد[.
د .جهت تعیین پارامتر λدر محدوده مقاديری که در قسمت قبل ذکر شد ،روش k-fold cross validationرا
پیادهسازی کنید .سپس با استفاده از 10-fold CVنمودار میانگین خطا روی دادههای آموزش ،اعتبارسنجی
( )validationو آزمون را به ازای مقادير مختلف λرسم نمايید .سپس بهترين مقدار λرا طبق اين نمودار
پیدا کنید .همچنین مقدار میانگین خطای RMSEروی دادههای اعتبارسنحی ( )validationرا برای بهترين
λ
گزارش نمايید.
8( 3.5نمره) رابطهی بین دو کمیت در تعدادی از مسائل واقعی به صورت ) f (x ) Cx ( power-lawاست که
𝐶
ضريب نرمالسازی است و به توان power-lawمیگويند .برای نمونه تعداد تکرار لغات نسبت به رتبه لغت (رتبه از
لحاظ تکرار) در کل يک مجموعه اسناد تقريبا از رابطهی باال با مقدار 𝛼 = 1پیروی میکند (به عبارت ديگر اگر تعداد
تکرار پرتکرارترين لغت 𝐶 باشد ،تعداد تکرار دومین پرتکرارترين لغت ،𝐶/2سومین 𝐶/3و الی آخر خواهد بود).
مجموعه دادهی سوم پیوست تمرين را درنظر بگیريد .میخواهیم پارامتر را با استفاده از دادههای آموزشی که در
اختیار داريم تخمین بزنیم .ابتدا طريقهی به دست آوردن را با استفاده از روشهای زير مشخص نمايید و بعد از
پیادهسازی مقدار پارامتر به دست آمده را گزارش نمايید.
أ.
رگرسیون خطی
ب .بیشینه درستنمايی ( تخمین )ML
© Copyright 2026 Paperzz