Homework 1

‫به نام خدا‬
‫تمرین شماره ‪ 1‬درس یادگیری ماشین‬
‫دانشگاه صنعتي شريف‪ ،‬دانشکده مهندسي کامپيوتر‪ ,‬گروه هوش مصنوعي‬
‫تاريخ بارگذاري‪:‬‬
‫‪5315/70/51‬‬
‫تمرین ها را به صورت دست نویس یا پرینت شده به آزمایشگاه مهلت تحويل‪:‬‬
‫‪ 1311/07/22‬ساعت ‪14‬‬
‫سیستم های هوشمند (‪ )505‬تحویل نمایید‪.‬‬
‫‪ .5‬در يک مسئله ي يادگيري فرض کنيد نمونه هاي مثبت و منفي به شکل زير در دسترس باشد‪.‬‬
‫‪Label‬‬
‫‪+‬‬
‫‬‫‪+‬‬
‫‬‫‪+‬‬
‫‪Type‬‬
‫‪Economy‬‬
‫‪Sports‬‬
‫‪Economy‬‬
‫‪Economy‬‬
‫‪Economy‬‬
‫‪Decade‬‬
‫‪1980‬‬
‫‪1970‬‬
‫‪1990‬‬
‫‪1980‬‬
‫‪1980‬‬
‫‪Color‬‬
‫‪Blue‬‬
‫‪Green‬‬
‫‪Blue‬‬
‫‪Red‬‬
‫‪White‬‬
‫‪MFR‬‬
‫‪Honda‬‬
‫‪Toyota‬‬
‫‪Toyota‬‬
‫‪Chrysler‬‬
‫‪Honda‬‬
‫‪Origin‬‬
‫‪Japan‬‬
‫‪Japan‬‬
‫‪Japan‬‬
‫‪USA‬‬
‫‪Japan‬‬
‫که در آن هر يک از ويژگي ها مي توانند مقادير گسسته ي زير را اختيار کنند‪.‬‬
‫‪Japan, USA, Britain, Germany, Italy‬‬
‫‪Honda, Toyota, Ford, Chrysler, Jaguar, BMW, Fiat‬‬
‫‪Blue, Green, Red, White‬‬
‫‪1950, 1960, 1970, 1980, 1990, 2000‬‬
‫‪Economy, Luxury, Sports‬‬
‫‪+, -‬‬
‫‪Origin‬‬
‫‪Manufacturer‬‬
‫‪Color‬‬
‫‪Decade‬‬
‫‪Type‬‬
‫‪Label‬‬
‫الف‪ :‬با استفاده از الگوريتم ‪ Candidate Elimination‬فضاي حالت سازگار با نمونه هاي موجود را بيابيد‬
‫ب‪ :‬مجموعه اي از ‪ 4‬نمونه ارائه دهيد که فضاي حالتي مشابه با جواب قسمت الف را نتيجه دهد‪.‬‬
‫ج‪ :‬در حالت کلي چه ويژگي هايي براي يک نمونه ي مثبت باعث مي شود که آن نمونه سودمندتر باشد؟ چه‬
‫ويژگي هايي براي يک نمونه منفي باعث مي شود که آن نمونه سودمند تر باشد؟‬
‫‪ .2‬سوال ‪ 2.4‬کتاب يادگيري ماشين ‪Mitchell‬‬
‫‪ .3‬جدول دادههاي زير را در نظر بگيريد ‪:‬‬
‫‪|Page1‬‬
‫وضعیت سیستم‬
‫سیستم‬
‫سرعت حرکت‬
‫حرارت‬
‫فشار هوا‬
‫شماره‬
‫سردکننده‬
‫بحراني‬
‫ندارد‬
‫تند‬
‫ماليم‬
‫باال‬
‫‪1‬‬
‫مناسب‬
‫دارد‬
‫کند‬
‫گرم‬
‫متوسط‬
‫‪2‬‬
‫مناسب‬
‫ندارد‬
‫تند‬
‫ماليم‬
‫متوسط‬
‫‪3‬‬
‫مناسب‬
‫ندارد‬
‫کند‬
‫ماليم‬
‫کم‬
‫‪4‬‬
‫مناسب‬
‫دارد‬
‫کند‬
‫ماليم‬
‫باال‬
‫‪5‬‬
‫مناسب‬
‫دارد‬
‫کند‬
‫سرد‬
‫کم‬
‫‪6‬‬
‫بحراني‬
‫دارد‬
‫تند‬
‫ماليم‬
‫کم‬
‫‪7‬‬
‫مناسب‬
‫ندارد‬
‫کند‬
‫سرد‬
‫متوسط‬
‫‪8‬‬
‫بحراني‬
‫ندارد‬
‫کند‬
‫سرد‬
‫باال‬
‫‪1‬‬
‫مناسب‬
‫دارد‬
‫کند‬
‫سرد‬
‫باال‬
‫‪10‬‬
‫مناسب‬
‫دارد‬
‫تند‬
‫ماليم‬
‫باال‬
‫‪11‬‬
‫مناسب‬
‫دارد‬
‫تند‬
‫گرم‬
‫متوسط‬
‫‪12‬‬
‫بحراني‬
‫ندارد‬
‫تند‬
‫گرم‬
‫کم‬
‫‪13‬‬
‫بحراني‬
‫دارد‬
‫تند‬
‫گرم‬
‫کم‬
‫‪14‬‬
‫داده هاي ارائه شده نشان دهندهي وضعيت يک سيستم مکانيکي حرارتي بوده و از طرح اين داده ها قصد داريم‬
‫که بتوانيم بر اساس خصوصيات سيستم در هر لحظه وضعيت آن را تخمين زده و در صورت نياز پارامترهاي آن‬
‫را تغيير داده تا دچار حادثه نگرديم‪.‬‬
‫الف) ابتدا درخت تصميم ‪ ID3‬مربوط به اين دادهها را تشکيل بدهيد‪ .‬از معيار بهره اطالعاتي ‪(information‬‬
‫)‪ gain‬براي انتخاب ويژگي در هر نود استفاده نماييد‪( .‬توجه بفرماييد در واقع با درخت تصميم حاصل ميتوان‬
‫دسته وضعيتهاي جديد را پيش بيني نمود و اصطالحا نمونه هاي نو را دسته بندي (‪ )classify‬نمود)‪.‬‬
‫ب) ‪ 3‬نمونهي جديد زير را نيز در نظر بگيريد ‪:‬‬
‫‪|Page2‬‬
‫وضعیت سیستم‬
‫سیستم‬
‫سرعت حرکت‬
‫حرارت‬
‫فشار هوا‬
‫شماره‬
‫سردکننده‬
‫مناسب‬
‫دارد‬
‫کند‬
‫ماليم‬
‫باال‬
‫‪1‬‬
‫مناسب‬
‫ندارد‬
‫تند‬
‫گرم‬
‫باال‬
‫‪2‬‬
‫مناسب‬
‫ندارد‬
‫کند‬
‫گرم‬
‫کم‬
‫‪3‬‬
‫حال اين ‪ 3‬نمونه را به عنوان نمونههاي ‪ validation‬در نظر گرفته و خطاي صحت درخت را محاسبه نماييد‪.‬‬
‫ج)‬
‫روش )‪: Reduced Error Pruning (REP‬‬
‫در اين روش هر گرهي تصميم گيري در درخت يک مرتبه حذف گرديده و درخت حاصل با نمونههاي‬
‫‪ validation‬چک ميشود اگر خطا در حالت حذف شده کمتر از حالت حذف نشده باشد گره حذف ميگردد و‬
‫در غير اينصورت گره را به جاي خود بر ميگردانيم‪.‬‬
‫اکنون درخت را با روش ‪ Reduced Error Pruning‬هرس نماييد و مرحله به مرحله براي هر گره پروسه هرس‬
‫سازي را نمايش دهيد‪.‬‬
‫د) حال فرض کنيد اين ‪ 3‬نمونه را هم در داخل نمونههاي آموزشي قرار داده و درخت ‪ ID3‬را با کل دادههاي‬
‫موجود که حال ‪ 50‬نمونه ميباشند بسازيد‪.‬‬
‫ه) دو درخت حاصل از قسمتهاي (الف) و (ج) و (د) را با هم مقايسه نماييد‪ ،‬آيا درخت قسمت (د( از همه‬
‫مناسبتر است؟ کدام از همه عمومي تر است؟ آيا اين کار مناسب است که با هر چه داده که داريم درخت را‬
‫بسازيم تا درخت صحيحتر و کاملتري به دست آوريم؟‬
‫‪ .4‬در اين تمرين از شما خواسته شده تا با استفاده از درخت هاي تصميم گيري سيستمي طراحي کنيد تا بتواند‬
‫با استفاده از ويژگي هاي يک ارتباط )‪ (connection‬در شبکه‪ ,‬تعيين کنيد ارتباط نرمال است يا نشان دهنده‬
‫وضعيت حمله مي باشد‪.‬‬
‫‪|Page3‬‬
‫الف) ويژگي ها و وضعيت ‪ 1‬ارتباط (‪ )conncetion‬در اين شبکه در جدول زير آمده است‪ .‬با استفاده از الگوريتم‬
‫‪ ID3‬يک درخت تصميم گيري از روي اين داده ها بسازيد‪ .‬از معيار بهره اطالعاتي )‪ (information gain‬براي‬
‫انتخاب ويژگي در هر نود استفاده نماييد‪ .‬براي ويژگي تعداد ورودهاي ناموفق از آستانه )‪ (Threshold‬براي‬
‫جداسازي استفاده نماييد‪( .‬به عنوان مثال ‪ num_faild_logins > 3‬يا ‪)num_faild_logins <= 3‬‬
‫وضعيت‬
‫تعداد ورودهاي ناموفق‬
‫مدت زمان ارتباط‬
‫نوع ارتباط‬
‫عادي‬
‫‪2‬‬
‫طوالني‬
‫‪TCP‬‬
‫عادي‬
‫‪2‬‬
‫کوتاه‬
‫‪TCP‬‬
‫حمله‬
‫‪4‬‬
‫کوتاه‬
‫‪TCP‬‬
‫حمله‬
‫‪6‬‬
‫کوتاه‬
‫‪TCP‬‬
‫عادي‬
‫‪2‬‬
‫طوالني‬
‫‪UDP‬‬
‫حمله‬
‫‪4‬‬
‫طوالني‬
‫‪UDP‬‬
‫حمله‬
‫‪4‬‬
‫کوتاه‬
‫‪UDP‬‬
‫عادي‬
‫‪6‬‬
‫کوتاه‬
‫‪UDP‬‬
‫عادي‬
‫‪6‬‬
‫کوتاه‬
‫‪UDP‬‬
‫‪ N .5‬نقطه در صفحه ي مختصات کارتزين داريم که داراي برچسب ‪ +‬يا ‪ -‬هستند‪ ( .‬هيچ دو نقطه اي روي‬
‫يکديگر قرار ندارند)‪ .‬با فرض اين که هر ويژگي )‪ (attribute‬بتوند چندين بار در تصميم گيري شرکت کند و در‬
‫هر نود درخت‪ ,‬جداسازي به صورت باينري و فقط روي يک محور مختصات قابل انجام باشد‪ .‬ثابت کنيد درختي‬
‫با ارتفاع حداکثر ‪ log2 n‬وجود دارد که مي تواند اين نقاط را به درستي دسته بندي نماييد‪.‬‬
‫‪|Page4‬‬