به نام خدا فاز 1پروژه و تمرین تئوری شماره 2درس یادگیری ماشین دانشگاه صنعتي شريف ،دانشکده مهندسي کامپيوتر ,گروه هوش مصنوعي تاريخ بارگذاري: 1311/08/01 تمرين هاي تئوري را به صورت دست نويس يا پرينت شده به آزمايشگاه مهلت تحويل: سيستم هاي هوشمند ( )505تحويل نماييد. 1311/08/11ساعت 12شب کدهاي پياده سازي و گزارش مربوطه با فرمت PDFرا در قالب يک فايل zipبا نام ( ML91P1_StdNoکه StdNoشماره دانشجويي شماست) به ايميل [email protected]ارسال نماييد. تمرین های تئوری .1 چهار سري مجموعه داده زير را در نظر بگيريد: رنگ ها نشان دهنده برچسب هاي داده ها مي باشند. الف) اگر از دسته بند 1NNاستفاده شود ،مرزهاي تصميم گيري را براي هر سري داده ترسيم کنيد. ب) فرض کنيد به هر سري از داده ها ،نمونه هاي آموزشي بيشتري در حال اضافه شدن است .بديهي است که در حين اضافه شدن نمونه ها ،مرزهاي تصميم گيري تغيير مي کنند .به نظر شما ،در اين روند ،حساسيت مرزهاي تصميم گيري نسبت به داده هاي آموزشي چه تغييري مي کند؟ |Page1 . 2براي هر يک از دو مجموعه داده زير ،تعيين کنيد کدام يک از دسته بند هاي 1NNو 3NNبا روش Leave-one- out cross validationخطاي بزرگتري دارد. .3يک مجموعه داده آموزشي و يک مجموعه داده آزمايشي در اختيار است .مجموعه آزمايشي شامل 122نمونه مي باشد .دو الگوريتم يادگيري Aو ،Bفرضيه هاي hAو hBرا توليد کرده اند .پس از ارزيابي فرضيه ها روي مجموعه آزمايشي ،مشخص شد که فرضيه 11 ، hAخطا و فرضيه r ،hBخطا داشته است .همه مقادير ممکن براي rرا بيابيد به گونه اي که بتوان ادعا کرد خطاي واقعي الگوريتم Aبا اطمينان بيشتر از %09و کمتر از ،%01حداقل 9091کمتر از خطاي واقعي الگوريتم Bاست .اگر هيچ مقداري براي rپيدا نمي شود ،علت را توضيح دهيد. تمرین های پیاده سازی ( فاز 1پروژه) هدف اين فاز آشنايي با کتابخانه ي WEKAمي باشد. بدين منظور عملکرد سه دسته بند ID3, C4.5و K-NNبر روي مجموعه داده Churnبررسي و مقايسه خواهد شد. مجموعه داده با فرمت ( ARFFفرمت قابل استفاده در (WEKAدر سايت بارگذاري شده است. .1با استفاده از WEKAدرخت ID3و C4.5را بر روي مجموعه داده بسازيد و بازه خطاي واقعي 10-fold cross validationرا براي %01اطمينان محاسبه نماييد .توجه داشته باشيد براي ساخت درخت ID3بر روي مجموعه داده ابتدا بعضي ويژگي ها بايد گسسته سازي ) (Discretizedشوند. همچنين دقت دسته بندي براي درخت C4.5را درحالت هرس شده و نشده با هم مقايسه کنيد ( .از روش Reduced Error Pruningبراي هرس استفاده نماييد) .2الگوريتم K-NNرا پياده سازي ( استفاده از کتابخانه هاي آماده مجاز نیست) و روي مجموعه داده براي مقادير kاز 1 تا 29اجرا نماييد و بهترين kرا با استفاده از خطا روي Validation Setپيدا کنيد. نمودار خطا بر روي Validation Setرا بر حسب مقادير kرسم و تحليل کنيد. براي بهترين kپيدا شده بازه ي خطاي واقعي 10-fold cross validationرا براي %01اطمينان محاسبه نماييد. .3کدام الگوريتم براي اين مجموعه داده مناسب تر است؟ ( با استفاده از آزمون ) Paired t-test |Page2
© Copyright 2026 Paperzz