به نام خدا دانشكده مهندسي كامپيوتر تمرین شماره ی 2 یادگیری ماشین ()40-۷۱۷ Machine Learning مدرس :دكتر حمید بیگي موعد تحویل ۱۳۹۴/۰۸/۱۳ : مالحظات اگر از کسی تقلبي گرفته شود ،تمامی نمرات تمرینها ،کوییزها ،نمرات اضافه و ارائه صفر رد میشود. لطفاً پاسخ تمرینهای خود را به صورت مختصر و مفيد و خوانا و شفاف نوشته و ارسال نمایید. لطفاً تمرینهای خود را به آدرس الكترونيكي [email protected]حداکثر تا موعد تحویل این تمرین ارسال نمایید. هر ایميل حاوی تمرین باید به فرمت ذیل باشد : موضوع ایميل به شکل > <StudentNumber>_HW#<HomeWorkNumberباید باشد یک و فقط یک فایل در ضمیمهی ایمیل قرار خواهد گرفت ،حاوی پاسخ تمرینها و به شکل یک فایل zipبا نام ( <StudentNumber>_HW#<HomeWorkNumber>.zipدر فایل مذکور میتواند یک فایل PDFو یا تعدادی فایل JPGو یا PNGبا نام شمارهی سواالتی که پاسخ داده شده است قرار گیرد) منظور از > <StudentNumberشماره ی دانشجویی فرد ارسال کننده و منظور از > <HomeWorkNumberشمارهی تمرین مورد نظر خواهد بود؛ مثالً اگر شخصی شمارهی دانشجوییاش ۹۴۱۲۳۴۵۶میباشد ،فایل ضمیمهی ایمیل تمرین سوم ایشان به شکل 94123456_HW#3میباشد. حداكثر حجم فایلهای ارسالی 5MBخواهد بود. در ایمیلهای ارسالی حاوی پاسخ تمرینهای هر شخص ،متن ایميل ارسالي به هیچوجه مالک عمل نخواهد بود. چنانچه فایل ارسالي به هر دلیلی قابل مشاهده نباشد (فایل zipخراب باشد و باز نشود ،فایل ضمیمه فراموش شده باشد ،تصاویر واضح و روشن نباشد و )...به منزلهی عدم ارسال تمرین در موعد مقرر خواهد بود. )۱در طول حل سواالت این تمرین از کسی یا منبعی کمک گرفتهاید؟ بله خير در صورتیکه پاسخ شما به سوال باال «بله» میباشد ،جزییات کامل را بیان کنید( .به عنوان مثال :احمد احمدی صورت سوال ۵تمرین را برای من شفاف نمود) )2در طول حل سواالت این تمرین به کسی کمک کردهاید؟ بله خير در صورتیکه پاسخ شما به سوال باال «بله» می باشد ،جزییات کامل را بیان کنید( .به عنوان مثال :من احمد احمدی را راهنمایی کردم که برای حل سوال ۳به فصل دوم صفحهی ۷۱مراجعه نماید). )۳مجموعه دادهای حاوی Nدادهی آموزشی موجود است .به این مجموعه داده توابع چند جملهای از درجه Mرا انطباق دادهایم .برای این کار ضرایب چند جملهای با روش رگرسیون خطی و با کمینه سازی تابع خطای زیر بدست آمده است x (.و tزوج دادهی آموزشی هستند و wضرایب چند جملهای yاست) 𝑁 1 𝐸(𝑤) = ∑{𝑦(𝑥𝑛 , 𝑤) − 𝑡𝑛 }2 2 𝑛=1 در جدول زیر نتایج را به ازای Mهای متفاوت مشاهده میکنید. الف) تحلیل خود از مقادیر بدست آمده برای ∗𝑤 ها را بیان کنید. ب) انتظار دارید از M=0با افزایش Mمقدار خطای آموزش و خطای آزمایش چگونه باشد؟ پ) چه روشهایی برای بهبود تابع تخمین زده شده بر روی این مجموعه داده پیشنهاد میکنید؟(به طور مختصر توضیح دهید) ت) تغییر مقدار Nچه تاثیری بر اندازهی ضرایب ،خطای آموزشی و خطای آزمایشی خواهد داشت؟ ث) تابع خطا را به مطابق رابطهی زیر تغییر دادهایم .انتظار دارید ( به ازای مقادیر 𝜆 خواسته شده) پس از استفاده از روش رگرسیون برای یافتن تابع انطباق ،اندازهی ضرایب چند جمله ای چگونه باشد؟ 𝑁 1 𝜆 𝐸(𝑤) = ∑{𝑦(𝑥𝑛 , 𝑤) − 𝑡𝑛 }2 + ‖𝑤‖2 2 2 𝑛=1 ∞ = 𝜆 تا 𝜆 = 0 )۴در مورد locally linear regressionتحقیق کنید و به طور خالصه نحوهی عملکرد آن را بیان کنید .این روش در مقایسه با رگرسیون ساده چه مزایایی دارد؟ )5در فایل data.xlsمجموعه دادهای شامل ۱00نمونه و مقادیر متناظر با آن ها موجود است(ردیف اول xو ردیف دوم yاست) .این مقادیر از روی تابع 𝑦 = 𝑥 2با اعمال نویز گوسی بدست آمده است. الف) یک زیر مجموعه تصادفی شامل ۵0نمونه را انتخاب کنید .این ۵0نمونه را در یک نمودار دو بعدی رسم نمایید. ب) توابع چند جمله ای 𝑚 𝑀=𝑚∑ = ) 𝑦𝑀 (x , wاز درجه ی M=1را در نظر بگیرید .با 𝑥 × 𝑤 𝑚=0 توجه به تابع خطای زیر 𝑁 1 ∑{𝑦𝑀 (𝑥𝑛 , 𝑤) − 𝑡𝑛 }2 2 = )𝑤(𝐸 𝑛=1 و با روش gradient descentبا توجه به رابطهی )𝑤(𝐸∇ ×∝ ، w ← w−چند جملهای خواسته شده را به دادههای مرحله قبل منطبق سازید. پ) نموداری از میزان ) E(wنهایی با توجه به تعداد تکرار رسم کنید .در مورد نمودار رسم شده توضیح دهید. ت) به ازای یک مقدار تکرار (با توجه به نمودار قبلی انتخاب گردد) ثابت ،اندازهی آلفا چه تاثیری بر روند الگوریتم دارد؟ ث) با توجه به دو مورد قبل ،بهترین نتیجه که از هر یک از چند جملهای ها بدست آمده را روی دادههای آموزشی رسم نمایید. )6اینبار با استفاده از مجموعه دادهی سوال ۴با استفاده از normal equationیک تابع چند جملهای از درجه ۱را منطبق سازید. الف) تابع بدست آمده را برروی تصویر مجموعهداده رسم نمایید. ب) با توجه به اطالعات مسائل ۶و ۵آیا انتظار دارید که تابع منطبق شده در این سوال با تابع منطبق شده در سوال ۵یکی (یا نزدیک به هم) باشند؟ توضیح دهید. )7در این جا می خواهیم رگرسیون را با توابع غیر خطی تقریب بزنیم .برای این کار یک تابع غیر خطی پیشنهاد داده و با کمک گرفتن از پیاده سازی های قسمت قبل رگرسیون را اعمال کنید .نتیجه را روی مجموعه دادهها رسم کنید. ( )۸اختياری) برای هر یک از چند جمله ای های خواسته شده (درجههای ۱و ۵و )۹در سوال ،عملیات انطباق را ۱00مرتبه تکرار کنید .در هر مرتبه به صورت تصادفی ۱0نمونه را به عنوان دادهی آموزش در نظر گرفته و از بقیه به عنوان تست استفاده کنید .در انتها برای هر یک از چند جملهای ها در یک نمودار میانگین و واریانس خطای آموزش و آزمایش را در ۱00تکرار بدست آورده و نتایج را تحلیل کنید. مجموعه داده Data_Q8 : )۹دو روشِ generativeو discriminativeبرای ساخت دستهبند را در نظر بگیرید. الف) تفاوت این دو روش را بیان کرده و به مزایا ومعایب هر کدام اشاره نمایید. ب) دو روش کلی برای ساخت دسته بند در زیر ارائه شده است .مشخص کنید که هر کدام discriminative است یا generative؟ دلیل انتخاب خود را مختصر توضیح دهید x ( .نمونه و Ckکالس kام است) روش اول: . ابتدا به ازای هر 𝑝(𝑥|𝐶𝑘 ) ، Ckرا بدست بیاوریم. .i سپس به ازای هر 𝑝(𝐶𝑘 ) ، Ckرا بدست بیاوریم.. .ii Posteriorرا با استفاده از قانون بیز محاسبه کنیم. روش دوم: .iii ابتدا ) 𝑘𝐶 𝑝(𝑥,را مدل کنیم. .iv احتمال محاسبه شده را نرمالسازی کرده )و بر روی xشرطی کنیم(. )۱۰در یک مسئله دستهبندی دو کالس C۲و C۱داریم .نشان دهید اگر احتمال این که یک نمونه در کالس اول قرار داشته باشد با احتمال قرار گیری در کالس دوم برابر باشد ،چه رابطهای بین دو احتمال شرطی زیر است. ) 𝑝(𝐶1 ) = 𝑝(𝐶2 ) = 0.5 → 𝑝(𝑥|𝐶1) ? 𝑝(𝑥|𝐶2 الف) نشان دهید در حالتی که برای ریسک متوسط ۱از تابع زیر استفاده شود چه رابطهای بین دو احتمال شرطی وجود دارد؟ تاثیری که این ماتریس و مقادیر aو bبر دستهبندی گذاشته است را توضیح دهید؟ (در ماتریس زیر سطرها نشان دهندهی کالس واقعی و ستون ها نشان دهندهی کالسی که به آن نسبت داده شده است ،هستند .برای مثال aمربوط به حالتی است که دادهای که متعلق به کالس ۱بوده به کالس ۲ نسبت داده شده) 𝑎 0 ] 𝑏 0 )۱۱فرض کنید میخواهیم دادههای متعلق به دو کالس که هر دو دارای pdfای به شکل )∑ 𝒩(𝜇,هستند را [ = 𝑥𝑖𝑟𝑡𝑎𝑚 𝑠𝑠𝑜𝑙 دستهبندی کنیم .و میخواهید از یک تابع discriminantبهینه برای دستهبندی استفاده کنید .اگر برای Average risk 1 همه ∑ ها برابر با 𝜎 2 Iباشد که در آن 𝜎 2یک اسکالر و Iیک ماتریس همانی هم اندازه ∑ است .اندازهی 𝜎 2 چه تاثیری بر دستهبند دارد؟ به طور دقیق توضیح دهید. الف) چه موقع صفحهی جدا کننده از میانگینِ µهای دو کالس میگذرد؟روابط را نوشته و توضیح دهید. ( )۱2پياده سازی) ۱00نقطه از هر کدام از دو توزیع گوسی ) N(10,5) , N(20,5به صورت رندوم تولید کنید. سپس با استفاده از این ۲00نقطه که با یکدیگر یک توزیع multimodalرا تولید کردهاند: الف) با روش هیستوگرام تخمینی از توزیع نمونهها را بدست بیاورید .مبدا را صفر در نظر گرفته (تا )۴0و هیستوگرام را در نموداری به همراه نمونهها رسم کنید (.به ازای سایز بینها )h = 0.25 h=1 h= 5 h=10 ب) از اتصال قلهی مرکز هر بین در هیستوگرامهای تولید شده یک نمودار رسم کنید .این نمودارها را مقایسه و تحلیل کنید. پ) مزایا و معایب روش هیستوگرام را بیان کنید. ت) با استفاده از روش پنجره پارزن ( با کرنل گوسی) توزیع ۲00نمونه را تخمین بزنید ( .برای hیک مقدار تجربی مناسب انتخاب کنید و پاسخ الگوریتم خود را در یک نمودار نشان دهید) ث) اینبار به جای ۱00نمونه تصادفی ،از هر توزیع گوسی ۲۵0نمونه انتخاب کنید و با ۵00نمونهی کلی الگوریتم پنجره پارزن را اجرا کنید ( .با hاز قسمت قبل) حال تاثیر تعداد نمونهها را تحلیل کنید. ج) با استفاده از ۵00نمونه تصادفی در قسمت ت ،و با استفاده از همسایگی k = 1 , 2,5,10,15,20با روش KNNبرای ۱00نمونهی قسمت اول سوال ،خطای آزمایش را بدست بیاورید و در یک نمودار بر حسب اندازه kنشان دهید .تاثیر اندازههای مختلف kبر خطا را تشریح کنید( .از معیار خطای MSEاستفاده کنید) )۱۳در کشوری ،هر سال از نظر وضعی بارندگی یا خشکسالی است یا آبسالی .میزان برداشت برنج در این کشور ،به عوامل متعددی وابسته است که یکی از آنها وضعیت بارندگی است .طبق اطالعاتی که در دست است ،در یک ۲ ۱ سال که وضعیت خشکسالی باشد ،به احتمال ۳بیشتر از یک میلیون تن و به احتمال ۳کمتر از یک میلیون تن ۳ برنج برداشت میشود .اما در یک سال که وضعیت آبسالی باشد ،به احتمال ۴بیشتر از یک میلیون تن و به ۱ احتمال ۴کمتر از یک میلیون تن برنج برداشت میشود .میدانیم که در سال ،۱۹۹0شاهد وضعیت آبسالی بودهایم .همچنین میدانیم که وضعیت بارندگی در هر سال نسبت به سال قبل به احتمال θتغییر میکند و به احتمال 𝜃 1 −ثابت میماند. ما وضعیت بارندگی را در سالهای ۱۹۹۱تا ۲000نمیدانیم ،اما میدانیم که در هر کدام از این ده سال، میزان برداشت برنج کمتر از یک میلیون تن بوده یا بیشتر از آن .این اطالعات در جدول زیر آمده است («ک» یعنی «کمتر از یک میلیون تن» و «ب» یعنی «بیشتر از یک میلیون تن» ): ۲000 ۱۹۹۹ ۱۹۹8 ۱۹۹۷ ۱۹۹۶ ۱۹۹۵ ۱۹۹۴ ۱۹۹۳ ۱۹۹۲ ۱۹۹۱ سال ب ک ک ب ک ک ک ک ک ک میزان برداشت هدف آن است که مقدار 𝜃 را تخمین بزنیم .برای این کار باید از روش EMاستفاده کنیم. الف) بر حسب رابطهی EMمشخص کنید که 𝜃 𝑡+1چگونه از روی 𝑡 𝜃 به دست میآید. راهنمایی :مقدار بارندگی در سال 𝑖 را برابر با متغیر 𝑖𝑋 و وضعیت بارندگی را برابر با 𝑖𝑍 در نظر بگیرید .توجه کنید 𝑖𝑍 ها متغیرهای پنهان و 𝑖𝑋 ها متغیرهای مشاهده شده هستند .در توضیحات خود نشان دهید که: 𝐶 𝜃 𝑡+1 = arg max 𝐴 log 𝜃 + 𝐵 log(1 − 𝜃) + 𝜃 که 𝐴 𝐵 ،و 𝐶 مقادیری هستند که فقط از روی 𝑖𝑋 ها و 𝑡 𝜃 به دست میآیند .در واقع اگر مجموعهی } {𝑍1991 , 𝑍1992 , … , 𝑍2010را با 𝑍 نشان دهیم ،و تعداد 𝑖 هایی که 1991 ≤ 𝑖 ≤ 2000و 𝑍𝑖 = 𝑍𝑖−1را با )𝑍( = #نشان دهیم و تعداد 𝑖 هایی که 1991 ≤ 𝑖 ≤ 2000و 𝑍𝑖 ≠ 𝑍𝑖−1را با ) #≠ (Zنشان دهیم ،آنگاه نشان دهید: ) 𝑖𝑍| 𝑖𝑋(𝑃 ∏ × )𝑍(=𝐴 = ∑ #≠ (𝑍) × (𝜃 𝑡 )#≠(𝑍) × (1 − 𝜃 𝑡 )# 𝑍 𝑖 و ) 𝑖𝑍| 𝑖𝑋(𝑃 ∏ × )𝑍(≠𝐵 = ∑ #= (𝑍) × (𝜃 𝑡 )#≠(𝑍) × (1 − 𝜃 𝑡 )# 𝑍 𝑖 بعد نشان دهید که در این حالت: 𝐴 𝐵𝐴+ 𝑡+1 𝜃 را حساب کنید. بنابراین در هر گام از برنامهی خود باید مقادیر 𝐴 و 𝐵 را محاسبه کرده و مقدار = 𝜃 𝑡+1 ب) (اختياری – پيادهسازی) برنامهای بنویسید که با مقدار اولیهی 𝜃0 = 0.5الگوریتم EMرا تا ۷0گام اجرا کند و در هر گام مقدار به دست آمده برای θو میزان درستنمایی برای آن مقدار θرا در خروجی بنویسد .آیا لگاریتم درستنمایی به صورت صعودی تغییر میکند یا این که در برخی گامها کم میشود؟ موفق باشيد
© Copyright 2026 Paperzz