Assignment2.pdf

‫تمرین دوم‬
‫پیش پردازش داده‪:‬‬
‫در گام پیشین به شناخت و تحلیل داده پرداخته شد‪ .‬در ادامه باید بر این داده الگوریتم های مختلف داده کاوی‬
‫اعمال شود‪ .‬بنابراین باید عملیات های پیش پردازش بر داده انجام شود تا کیفیت و صحت داده افزایش یابد‪ .‬بدین‬
‫منظور عملیات هایی مانند پاکسازی‪ ،‬یکپارچه سازی‪ ،‬نمونه برداری‪ ،‬کاهش ابعاد و تبدیل داده انجام می شود‪.‬‬
‫فاز پیش پردازش داده را بر مجموعه داده خود اعمال نمایید‪ .‬هر عملیات را به صورت یک تابع در ‪ R‬پیاده سازی‬
‫نمایید‪.‬‬
‫‪:Dimensional Modeling‬‬
‫مجموعه داده خود را تحلیل نمایید و ابعاد(‪ ،)Dimension‬مجموعه مقدار های قابل اندازه گیری(‪ )Measure‬و‬
‫حقایق(‪ )fact‬را شناسایی نمایید‪ .‬خصوصیات و ویژگی های ابعاد را مشخص نمایید‪ .‬مدلی مبتنی بر ستاره و دانه‬
‫برفی را برای نمایش داده ها ارائه نمایید‪ .‬بر این اساس ‪ Cube‬های قابل نمایش را مشخص نموده و گزارش های‬
‫قابل استخراج از این مدل را توصیف نمایید‪.‬‬
‫موارد قابل تحویل‪:‬‬
‫‪ ‬مستندی شامل تمام مراحل انجام کار تهیه نمایید‪.‬‬
‫‪ ‬در این تمرین تنها استفاده از برنامه ‪ R‬مجاز می باشد‪ .‬می بایست هر مورد خواسته شده را در قالب تابع‬
‫قابل فراخوانی تعریف نمایید‪.‬‬
‫‪ ‬اسکریپت ‪ R‬برای پیش پردازش‪ :‬در یک تابع‪ ،‬داده را از پایگاه داده رابطه ای خوانده و در توابع دیگری هر‬
‫کدام از عملیات های مورد نیاز را بر داده اعمال نمایید‪.‬‬
‫‪ ‬اسکریپت ‪ R‬برای ساخت مدل‪ :‬شامل تمام مراحل ساخت مدل در پایگاه داده می باشد که بر داده های‬
‫حاصل از گام پیشین اعمال می شود‪.‬‬
‫‪ ‬پایگاه داده حاصل را در یک نسخه فشرده شده ارسال نمایید‪.‬‬
‫زمان تحویل‪:‬‬
‫سه شنبه ‪ 62‬آبان‬