assignment2-DM-91-92 .pdf

‫ﺑﻪ ﻧﺎم ﺧﺪا‬
‫داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ ﮐﺎﻣﭙﯿﻮﺗﺮ‪ ،‬داﻧﺸﮕﺎه ﺻﻨﻌﺘﯽ ﺷﺮﯾﻒ‬
‫ﺗﻤﺮﯾﻦ ﺳﺮي دوم )ﭘﯿﺶﭘﺮدازش داده و ﻣﺼﻮرﺳﺎزي( درس دادهﮐﺎوي‬
‫ﺑﺮاي اﻧﺠﺎم اﯾﻦ ﺳﺮي ﺗﻤﺮﯾﻦ ﺑﻪ ﻧﮑﺎت زﯾﺮ ﺗﻮﺟﻪ ﻧﻤﺎﯾﯿﺪ‪:‬‬
‫‪ ‬ﺗﻤﺮﯾﻦﻫﺎ ﺑﻪ ﺻﻮرت اﻧﻔﺮادي اﻧﺠﺎم ﺷﻮد‬
‫‪ ‬ﮔﺰارش ﺧﻮد را ﺑﻪ آدرس ‪ [email protected]‬ﺣﺪاﮐﺜﺮ ﺗﺎ ﺗﺎرﯾﺦ ‪ 30‬آﺑﺎن ارﺳﺎل ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫‪ ‬ﻣﺠﻤﻮﻋﻪﻫﺎي داده از ﺳﺎﯾﺖ درس ﻗﺎﺑﻞ داﻧﻠﻮد ﻣﯽﺑﺎﺷﺪ‪.‬‬
‫‪ ‬در ﺻﻮرت اﺑﻬﺎم ﺳﻮاﻻت ﺧﻮد را ﺑﻪ ﯾﮑﯽ از اﯾﻤﯿﻞﻫﺎي زﯾﺮ ﺑﻔﺮﺳﺘﯿﺪ‪:‬‬
‫‪[email protected]‬‬
‫‪[email protected]‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪ .1‬ﺑﺮرﺳﯽ ﮐﻨﯿﺪ ﺑﺎ ﮐﺪام ﯾﮏ از ﻣﺪلﻫﺎي دﺳﺘﻪﺑﻨﺪي ﻣﻮﺟﻮد در ﯾﮑﯽ از اﺑﺰارﻫـﺎي ‪ Rapid Miner‬ﯾـﺎ ‪SPSS‬‬
‫‪ Clementine‬ﻣﯽﺗﻮان ﺑﻪ دﻗﺖ ﺑﺎﻻﺗﺮي در ﭘﯿﺶﺑﯿﻨﯽ وﯾﮋﮔﯽ ﻫﺪف در ﻣﺠﻤﻮﻋﻪ داده ‪ churn‬دﺳﺖ ﯾﺎﻓـﺖ و‬
‫ﻧﺘﯿﺠﻪ ﺣﺎﺻﻞ از ﺑﻬﺘﺮﯾﻦ ﻣﺪل را ﺑﺎ دﻗـﺖ ﺗﺤﻠﯿـﻞ ﮐﻨﯿـﺪ‪ .‬ﻻزم ﺑـﻪ ذﮐـﺮ اﺳـﺖ ‪ 0/7‬از ﻣﺠﻤﻮﻋـﻪ داده را ﺑـﻪ‬
‫ﯾﺎدﮔﯿﺮي ﻣﺪل و ﺑﺎﻗﯽ آنرا ﺑﻪ آزﻣﻮن اﺧﺘﺼﺎص دﻫﯿﺪ‪(%15).‬‬
‫‪ .2‬ﺑﻪ ﻣﺠﻤﻮﻋﻪ داده ‪ assignment2‬ﮐﻪ ﺑﺮاﯾﺘﺎن ارﺳـﺎل ﺷـﺪه اﺳـﺖ دﻗـﺖ ﮐﻨﯿـﺪ‪ .‬اﯾـﻦ ﻣﺠﻤﻮﻋـﻪ داده ﺷـﺎﻣﻞ‬
‫ﺗﻌﺪادي ﺷﯽء و وﯾﮋﮔﯽﻫﺎي آن اﺳﺖ ﮐﻪ ﯾﮑﯽ از اﯾﻦ وﯾﮋﮔﯽﻫﺎ وﯾﮋﮔﯽ ﻫﺪف ﻣﯽﺑﺎﺷـﺪ‪ .‬ﺑﺮرﺳـﯽ ﮐﻨﯿـﺪ ﭼـﻪ‬
‫ﻣﺪلﻫﺎﯾﯽ ﺑﺮاي دﺳﺘﻪﺑﻨﺪي اﺣﺘﻤﺎﻻﺗﯽ‪ 2‬اﯾﻦ ﻣﺠﻤﻮﻋﻪ داده ﻣﻨﺎﺳﺐ اﺳـﺖ‪ .‬ﻧﺘـﺎﯾﺞ ﺣﺎﺻـﻞ را در ﻗﺎﻟـﺐ ﯾـﮏ‬
‫ﮔﺰارش اراﺋﻪ دﻫﯿﺪ‪ .‬ﻻزم ﺑﻪ ذﮐﺮ اﺳﺖ ﺑﺮاي ﺟﻮاب ﺑﻪ اﯾﻦ ﻣﺴﺌﻠﻪ ﻣـﯽﺗﻮاﻧﯿـﺪ از ﻫـﺮ زﺑـﺎن ﺑﺮﻧﺎﻣـﻪﺳـﺎزي ﯾـﺎ‬
‫اﺑﺰاري اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪) .‬ﻫﺪف دﺳﺘﯿﺎﺑﯽ ﺑﻪ ﺑﻬﺘﺮﯾﻦ ﻧﺘﯿﺠﻪ اﺳﺖ()‪(%50‬‬
‫‪ ‬ﺗﺬﮐﺮ‪ :‬ﻧﻤﺮه اﯾﻦ ﺗﻤﺮﯾﻦ ﺑﺮ اﺳﺎس دﻗﺖ ﻣﺪل ﺣﺎﺻﻞ ﻣـﯽﺑﺎﺷـﺪ و ﻣـﺪل ﯾﺎدﮔﺮﻓﺘـﻪ ﺷـﺪه ﻧﯿـﺰ ﺑﺎﯾـﺪ‬
‫ﺗﺤﻮﯾﻞ داده ﺷﻮد‪.‬‬
‫‪ .3‬ﺑﺮاي ﭘﺎﺳﺦ ﺑﻪ ﺗﻤﺮﯾﻦ زﯾﺮ از ﻣﺠﻤﻮﻋﻪﻫﺎي داده ‪ churn‬و ‪ assignment2‬اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪ .‬ﭘﺲ از ﻧﺮﻣﺎلﺳـﺎزي‬
‫وﯾﮋﮔﯽﻫﺎي ﻋﺪدي ﻣﺮاﺣﻞ زﯾﺮ را اﻧﺠﺎم دﻫﯿﺪ‪(%35) :‬‬
‫‪ ‬ﯾﮏ درﺧﺖ ﺗﺼﻤﯿﻢ ‪ CART‬ﺑﺴﺎزﯾﺪ‪.‬‬
‫‪ ٢‬ﻣﻧظور از دﺳﺗﮫﺑﻧدی اﺣﺗﻣﺎﻻﺗﯽ ﯾﺎدﮔﯾری ﻣدﻟﯽ اﺳت ﮐﮫ ﺑﺎ اﺣﺗﻣﺎﻟﯽ‪ ،‬ﯾﮏ ﯾﺎ ﺻﻔر ﺑودن وﯾژﮔﯽ ھدف را ﭘﯾشﺑﯾﻧﯽ ﮐﻧد‪.‬‬
‫‪Classification‬‬
‫‪1‬‬
‫‪ ‬ﯾﮏ درﺧﺖ ﺗﺼﻤﯿﻢ ‪ C4.5‬ﺑﺴﺎزﯾﺪ‪.‬‬
‫‪ ‬دو درﺧﺖ ﺗﺼﻤﯿﻢ ﺣﺎﺻﻞ را ﻣﻘﺎﯾﺴﻪ و ﻣﺰاﯾﺎ و ﻣﻌﺎﯾﺐ ﻫﺮ ﮐﺪام را ﺑﺮرﺳﯽ ﮐﻨﯿﺪ‪.‬‬
‫‪ ‬ﻣﺠﻤﻮﻋﻪ ﻗﻮاﻧﯿﻦ ﺗﺼﻤﯿﻢﮔﯿﺮي ﮐﺎﻣﻠﯽ را از درﺧﺖ ﺗﺼﻤﯿﻢ ‪ CART‬اﺳﺘﺨﺮاج ﮐﻨﯿﺪ‪.‬‬
‫‪ ‬ﻣﺠﻤﻮﻋﻪ ﻗﻮاﻧﯿﻦ ﺗﺼﻤﯿﻢﮔﯿﺮي ﮐﺎﻣﻠﯽ را از درﺧﺖ ﺗﺼﻤﯿﻢ ‪ C4.5‬اﺳﺘﺨﺮاج ﮐﻨﯿﺪ‪.‬‬
‫‪ ‬دو ﻣﺠﻤﻮﻋﻪ ﻗﻮاﻧﯿﻦ ﺗﺼﻤﯿﻢﮔﯿﺮي ﺣﺎﺻﻞ را ﻣﻘﺎﯾﺴﻪ و ﻣﺰاﯾﺎ و ﻣﻌﺎﯾﺐ ﻫﺮ ﮐﺪام را ﺑﺮرﺳﯽ ﮐﻨﯿﺪ‪.‬‬