HW_2.pdf

‫به نام هستی بخش‬
‫تمرین دوم‪ :‬توابع جداساز خطی‪ ،‬غیرپارامتری‪EM ،‬‬
‫تاریخ تحویل‪ :‬چهارشنبه‪ 3 ،‬اردیبهشت ‪33‬‬
‫توابع جداساز خطی‪:‬‬
‫‪.1‬‬
‫در مساله دستهبندی چند دستهای یک مجموعه نمونه "خطی جداپذیر" نامیده میشود هرگاه یک ماشین خطی وجود داشته باشد که همه نمونههای این‬
‫مجموعه را درست دسته بندی کند‪ .‬در حالتی که نمونههای هر دسته قابل جدا شدن از نمونههای بقیه دستهها توسط یک ابرصفحه باشند نمونهها "کامال‬
‫خطی جداپذیر" نامیده میشوند‪ .‬همچنین یک مجموعه نمونه "دوبهدو خطی جداپذیر" نامیده میشوند اگر نمونههای هر زوج دسته توسط یک ابرصفحه‬
‫قابل جدا شدن باشند‪ .‬با توجه به این تعاریف درستی یا نادرستی گزاره های زیر را با ذکر دلیل بیان کنید‪:‬‬
‫الف) نمونههای کامال جداپذیر خطی‪ ،‬جداپذیر خطی هستند‪.‬‬
‫ب) نمونههای جداپذیر خطی‪ ،‬کامال جداپذیر خطی هستند‪.‬‬
‫ج) نمونههای دوبهدو جداپذیر خطی‪ ،‬جداپذیر خطی هستند‪.‬‬
‫د) نمونههای جداپذیر خطی‪ ،‬دوبهدو جداپذیر خطی هستند‪.‬‬
‫‪.2‬‬
‫سه تابع جداساز زیر را برای یک مساله جداسازی خطی در نظر بگیرید‪:‬‬
‫‪g2(x) = x1 + x2 - 1 , g3(x) = -2 x2‬‬
‫قانون تصمیمگیری به این صورت است که اگر به ازای همه‬
‫‪g1(x) = -x1 + x2 ,‬‬
‫داشته باشیم‬
‫آنگاه داده ‪ x‬را به کالس ‪ i‬ام بده‪.‬‬
‫الف) شکل مرزهای دستهبند را به همراه مشخص کردن کالسها رسم کنید‪.‬‬
‫ب) آیا ناحیهای وجود دارد که قابل دستهبندی نباشد؟‬
‫‪.3‬‬
‫فرض کنید عناصر بردار ‪ d‬بعدی ‪ x‬فقط مقادیر صفر و یک را اختیار کنند‪ .‬همچنین فرض کنید که اگر تعداد عناصر غیر صفر ‪ x‬فرد باشد‪ ،‬آن را به کالس‬
‫‪ c1‬و در غیر این صورت به کالس ‪ c2‬نسبت دهیم‪ .‬ثابت کنید دادهها در فضای ‪ d‬بعدی جداپذیر خطی نیستند‪.‬‬
‫‪.4‬‬
‫یک تعمیم برای توابع جداساز تعریف آنها به صورت‬
‫قرار میدهیم‬
‫الف) اگر‬
‫ب) اگر‬
‫‪.5‬‬
‫است‪ .‬فرض می کنیم ‪ W‬یک ماتریس متقارن باشد و‬
‫‪.‬‬
‫باشد (‪ ، )k >0‬ثابت کنید مرز جداساز یک ابرکره است‪.‬‬
‫یک ماتریس ‪ positive definite‬باشد‪ ،‬ثابت کنید مرز جداساز یک ابربیضی است‪.‬‬
‫نمونههای زیر را در نظر بگیرید‪:‬‬
‫)‪w2 : (2,4), (-1,3), (5,0‬‬
‫)‪W1 : (1,2), (2,-4), (-3,-1‬‬
‫آیا این نمونه ها به صورت خطی جداپذیر هستند؟ در صورت مثبت بودن جواب یک جداساز خطی برای مساله با روش ‪ minimum squared error‬ارائه‬
‫دهید‪.‬‬
‫‪.6‬‬
‫نشان دهید نواحی تشکیل شده توسط یک ماشین خطی محدب هستند‪.‬‬
‫روش های غیر پارامتری‪:‬‬
‫∅ را در نظر بگیرید‪ .‬ثابت کنید توزیع میانگین پنجره پارزن به صورت‬
‫و تابع پنجره پارزن‬
‫‪.7‬‬
‫توزیع نرمال‬
‫‪.8‬‬
‫تمرین برنامه نویسی‪ :‬تابع چگالی )‪ U(0.5 , 2.5) + T(3,4‬را در نظر بگیرید‪ .‬نتایج تخمین پنجره پارزن را برای پهناهای پنجره ‪ h = 0.01‬و ‪h = 0.05‬‬
‫است‪.‬‬
‫و ‪ h = 0.2‬و در هر حالت برای تعداد داده ‪ N = 32‬و ‪ N = 256‬و ‪ N = 2500‬رسم نمایید‪.‬‬
‫‪.3‬‬
‫تمرین برنامه نویسی‪ :‬یک دستهبند طراحی کنید که با گرفتن مجموعه نمونههای آموزشی از تصمیم بیز برای دستهبندی استفاده کند (با فرض احتمال‬
‫)‬
‫پیشین برابر) و چگالی شرطی دستهها را با استفاده از روش پنجره پارزن با پنجره گاوسی (در چهار حالت‬
‫تخمین بزند‪ .‬درصد خطای این دستهبند را بر روی نمونههای آموزشی و تست ”‪ “iris mat‬گزارش کنید‪.‬‬
‫‪ .11‬تمرین برنامه نویسی‪ :‬دستهبند ‪-k‬نزدیکترین همسایه را پیادهسازی کنید و خطای آن را به ازای ‪ k=1‬و ‪ k=5‬و ‪ k=15‬روی نمونههای موجود در فایل‬
‫”‪ “iris mat‬گزارش دهید‪ .‬با استفاده از تکنیک ‪ 10-fold cross validation‬مقدار بهترین ‪ k‬را تعیین نمایید‪.‬‬
‫‪: EM‬‬
‫‪ .11‬دو توزیع مستقل‬
‫و‬
‫پارامترهای‬
‫و‬
‫را در نظر بگیرید‪ n .‬داده ‪ i.i.d‬را از توزیع ‪ y = y1 + y2‬نمونهگیری میکنیم‪ .‬برای تخمین‬
‫الگوریتم ‪ EM‬مناسب ارائه دهید‪.‬‬
‫‪ .12‬مدل زیر را که ترکیبی از چند گاوسی است در نظر بگیرید‪:‬‬
‫‪,‬‬
‫که مقادیر‬
‫دهید‪.‬‬
‫و‬
‫و‬
‫‪,‬‬
‫نامشخص هستند‪ n .‬داده مستقل از توزیع ‪ g‬نمونهگیری میکنیم‪ .‬الگوریتم ‪ EM‬مناسب برای تخمین بیشینه درستنمایی ارائه‬