به نام خدا تمرین شماره 1درس یادگیری ماشین دانشگاه صنعتي شريف ،دانشکده مهندسي کامپيوتر ,گروه هوش مصنوعي تاريخ بارگذاري: 5315/70/51 تمرین ها را به صورت دست نویس یا پرینت شده به آزمایشگاه مهلت تحويل: 1311/07/22ساعت 14 سیستم های هوشمند ( )505تحویل نمایید. .5در يک مسئله ي يادگيري فرض کنيد نمونه هاي مثبت و منفي به شکل زير در دسترس باشد. Label + + + Type Economy Sports Economy Economy Economy Decade 1980 1970 1990 1980 1980 Color Blue Green Blue Red White MFR Honda Toyota Toyota Chrysler Honda Origin Japan Japan Japan USA Japan که در آن هر يک از ويژگي ها مي توانند مقادير گسسته ي زير را اختيار کنند. Japan, USA, Britain, Germany, Italy Honda, Toyota, Ford, Chrysler, Jaguar, BMW, Fiat Blue, Green, Red, White 1950, 1960, 1970, 1980, 1990, 2000 Economy, Luxury, Sports +, - Origin Manufacturer Color Decade Type Label الف :با استفاده از الگوريتم Candidate Eliminationفضاي حالت سازگار با نمونه هاي موجود را بيابيد ب :مجموعه اي از 4نمونه ارائه دهيد که فضاي حالتي مشابه با جواب قسمت الف را نتيجه دهد. ج :در حالت کلي چه ويژگي هايي براي يک نمونه ي مثبت باعث مي شود که آن نمونه سودمندتر باشد؟ چه ويژگي هايي براي يک نمونه منفي باعث مي شود که آن نمونه سودمند تر باشد؟ .2سوال 2.4کتاب يادگيري ماشين Mitchell .3جدول دادههاي زير را در نظر بگيريد : |Page1 وضعیت سیستم سیستم سرعت حرکت حرارت فشار هوا شماره سردکننده بحراني ندارد تند ماليم باال 1 مناسب دارد کند گرم متوسط 2 مناسب ندارد تند ماليم متوسط 3 مناسب ندارد کند ماليم کم 4 مناسب دارد کند ماليم باال 5 مناسب دارد کند سرد کم 6 بحراني دارد تند ماليم کم 7 مناسب ندارد کند سرد متوسط 8 بحراني ندارد کند سرد باال 1 مناسب دارد کند سرد باال 10 مناسب دارد تند ماليم باال 11 مناسب دارد تند گرم متوسط 12 بحراني ندارد تند گرم کم 13 بحراني دارد تند گرم کم 14 داده هاي ارائه شده نشان دهندهي وضعيت يک سيستم مکانيکي حرارتي بوده و از طرح اين داده ها قصد داريم که بتوانيم بر اساس خصوصيات سيستم در هر لحظه وضعيت آن را تخمين زده و در صورت نياز پارامترهاي آن را تغيير داده تا دچار حادثه نگرديم. الف) ابتدا درخت تصميم ID3مربوط به اين دادهها را تشکيل بدهيد .از معيار بهره اطالعاتي (information ) gainبراي انتخاب ويژگي در هر نود استفاده نماييد( .توجه بفرماييد در واقع با درخت تصميم حاصل ميتوان دسته وضعيتهاي جديد را پيش بيني نمود و اصطالحا نمونه هاي نو را دسته بندي ( )classifyنمود). ب) 3نمونهي جديد زير را نيز در نظر بگيريد : |Page2 وضعیت سیستم سیستم سرعت حرکت حرارت فشار هوا شماره سردکننده مناسب دارد کند ماليم باال 1 مناسب ندارد تند گرم باال 2 مناسب ندارد کند گرم کم 3 حال اين 3نمونه را به عنوان نمونههاي validationدر نظر گرفته و خطاي صحت درخت را محاسبه نماييد. ج) روش ): Reduced Error Pruning (REP در اين روش هر گرهي تصميم گيري در درخت يک مرتبه حذف گرديده و درخت حاصل با نمونههاي validationچک ميشود اگر خطا در حالت حذف شده کمتر از حالت حذف نشده باشد گره حذف ميگردد و در غير اينصورت گره را به جاي خود بر ميگردانيم. اکنون درخت را با روش Reduced Error Pruningهرس نماييد و مرحله به مرحله براي هر گره پروسه هرس سازي را نمايش دهيد. د) حال فرض کنيد اين 3نمونه را هم در داخل نمونههاي آموزشي قرار داده و درخت ID3را با کل دادههاي موجود که حال 50نمونه ميباشند بسازيد. ه) دو درخت حاصل از قسمتهاي (الف) و (ج) و (د) را با هم مقايسه نماييد ،آيا درخت قسمت (د( از همه مناسبتر است؟ کدام از همه عمومي تر است؟ آيا اين کار مناسب است که با هر چه داده که داريم درخت را بسازيم تا درخت صحيحتر و کاملتري به دست آوريم؟ .4در اين تمرين از شما خواسته شده تا با استفاده از درخت هاي تصميم گيري سيستمي طراحي کنيد تا بتواند با استفاده از ويژگي هاي يک ارتباط ) (connectionدر شبکه ,تعيين کنيد ارتباط نرمال است يا نشان دهنده وضعيت حمله مي باشد. |Page3 الف) ويژگي ها و وضعيت 1ارتباط ( )conncetionدر اين شبکه در جدول زير آمده است .با استفاده از الگوريتم ID3يک درخت تصميم گيري از روي اين داده ها بسازيد .از معيار بهره اطالعاتي ) (information gainبراي انتخاب ويژگي در هر نود استفاده نماييد .براي ويژگي تعداد ورودهاي ناموفق از آستانه ) (Thresholdبراي جداسازي استفاده نماييد( .به عنوان مثال num_faild_logins > 3يا )num_faild_logins <= 3 وضعيت تعداد ورودهاي ناموفق مدت زمان ارتباط نوع ارتباط عادي 2 طوالني TCP عادي 2 کوتاه TCP حمله 4 کوتاه TCP حمله 6 کوتاه TCP عادي 2 طوالني UDP حمله 4 طوالني UDP حمله 4 کوتاه UDP عادي 6 کوتاه UDP عادي 6 کوتاه UDP N .5نقطه در صفحه ي مختصات کارتزين داريم که داراي برچسب +يا -هستند ( .هيچ دو نقطه اي روي يکديگر قرار ندارند) .با فرض اين که هر ويژگي ) (attributeبتوند چندين بار در تصميم گيري شرکت کند و در هر نود درخت ,جداسازي به صورت باينري و فقط روي يک محور مختصات قابل انجام باشد .ثابت کنيد درختي با ارتفاع حداکثر log2 nوجود دارد که مي تواند اين نقاط را به درستي دسته بندي نماييد. |Page4
© Copyright 2026 Paperzz