Homework 2

‫به نام خدا‬
‫فاز ‪ 1‬پروژه و تمرین تئوری شماره‪ 2‬درس یادگیری ماشین‬
‫دانشگاه صنعتي شريف‪ ،‬دانشکده مهندسي کامپيوتر‪ ,‬گروه هوش مصنوعي‬
‫تاريخ بارگذاري‪:‬‬
‫‪1311/08/01‬‬
‫تمرين هاي تئوري را به صورت دست نويس يا پرينت شده به آزمايشگاه مهلت تحويل‪:‬‬
‫سيستم هاي هوشمند (‪ )505‬تحويل نماييد‪.‬‬
‫‪ 1311/08/11‬ساعت ‪ 12‬شب‬
‫کدهاي پياده سازي و گزارش مربوطه با فرمت ‪ PDF‬را در قالب يک فايل‬
‫‪ zip‬با نام ‪( ML91P1_StdNo‬که ‪ StdNo‬شماره دانشجويي شماست)‬
‫به ايميل ‪ [email protected]‬ارسال نماييد‪.‬‬
‫تمرین های تئوری‬
‫‪.1‬‬
‫چهار سري مجموعه داده زير را در نظر بگيريد‪:‬‬
‫رنگ ها نشان دهنده برچسب هاي داده ها مي باشند‪.‬‬
‫الف) اگر از دسته بند ‪ 1NN‬استفاده شود‪ ،‬مرزهاي تصميم گيري را براي هر سري داده ترسيم کنيد‪.‬‬
‫ب) فرض کنيد به هر سري از داده ها‪ ،‬نمونه هاي آموزشي بيشتري در حال اضافه شدن است‪ .‬بديهي است که در حين‬
‫اضافه شدن نمونه ها‪ ،‬مرزهاي تصميم گيري تغيير مي کنند‪ .‬به نظر شما‪ ،‬در اين روند‪ ،‬حساسيت مرزهاي تصميم گيري‬
‫نسبت به داده هاي آموزشي چه تغييري مي کند؟‬
‫‪|Page1‬‬
‫‪ . 2‬براي هر يک از دو مجموعه داده زير‪ ،‬تعيين کنيد کدام يک از دسته بند هاي ‪ 1NN‬و ‪ 3NN‬با روش ‪Leave-one-‬‬
‫‪ out cross validation‬خطاي بزرگتري دارد‪.‬‬
‫‪ .3‬يک مجموعه داده آموزشي و يک مجموعه داده آزمايشي در اختيار است‪ .‬مجموعه آزمايشي شامل ‪ 122‬نمونه مي‬
‫باشد‪ .‬دو الگوريتم يادگيري ‪ A‬و ‪ ،B‬فرضيه هاي ‪ hA‬و ‪ hB‬را توليد کرده اند‪ .‬پس از ارزيابي فرضيه ها روي مجموعه‬
‫آزمايشي‪ ،‬مشخص شد که فرضيه ‪ 11 ، hA‬خطا و فرضيه ‪ r ،hB‬خطا داشته است‪ .‬همه مقادير ممکن براي ‪ r‬را بيابيد به‬
‫گونه اي که بتوان ادعا کرد خطاي واقعي الگوريتم ‪ A‬با اطمينان بيشتر از ‪ %09‬و کمتر از ‪ ،%01‬حداقل ‪ 9091‬کمتر از‬
‫خطاي واقعي الگوريتم ‪ B‬است‪ .‬اگر هيچ مقداري براي ‪ r‬پيدا نمي شود‪ ،‬علت را توضيح دهيد‪.‬‬
‫تمرین های پیاده سازی ( فاز ‪ 1‬پروژه)‬
‫هدف اين فاز آشنايي با کتابخانه ي ‪ WEKA‬مي باشد‪.‬‬
‫بدين منظور عملکرد سه دسته بند ‪ ID3, C4.5‬و ‪ K-NN‬بر روي مجموعه داده ‪ Churn‬بررسي و مقايسه خواهد شد‪.‬‬
‫مجموعه داده با فرمت ‪( ARFF‬فرمت قابل استفاده در‪ (WEKA‬در سايت بارگذاري شده است‪.‬‬
‫‪ .1‬با استفاده از ‪ WEKA‬درخت ‪ ID3‬و ‪ C4.5‬را بر روي مجموعه داده بسازيد و بازه خطاي واقعي ‪10-fold cross‬‬
‫‪ validation‬را براي ‪ %01‬اطمينان محاسبه نماييد‪ .‬توجه داشته باشيد براي ساخت درخت ‪ ID3‬بر روي مجموعه داده‬
‫ابتدا بعضي ويژگي ها بايد گسسته سازي )‪ (Discretized‬شوند‪.‬‬
‫همچنين دقت دسته بندي براي درخت ‪ C4.5‬را درحالت هرس شده و نشده با هم مقايسه کنيد‪ ( .‬از روش ‪Reduced‬‬
‫‪ Error Pruning‬براي هرس استفاده نماييد)‬
‫‪ .2‬الگوريتم ‪ K-NN‬را پياده سازي ( استفاده از کتابخانه هاي آماده مجاز نیست) و روي مجموعه داده براي مقادير ‪ k‬از ‪1‬‬
‫تا ‪ 29‬اجرا نماييد و بهترين ‪ k‬را با استفاده از خطا روي ‪ Validation Set‬پيدا کنيد‪.‬‬
‫نمودار خطا بر روي ‪ Validation Set‬را بر حسب مقادير ‪ k‬رسم و تحليل کنيد‪.‬‬
‫براي بهترين ‪ k‬پيدا شده بازه ي خطاي واقعي ‪ 10-fold cross validation‬را براي ‪ %01‬اطمينان محاسبه نماييد‪.‬‬
‫‪ .3‬کدام الگوريتم براي اين مجموعه داده مناسب تر است؟ ( با استفاده از آزمون ‪) Paired t-test‬‬
‫‪|Page2‬‬