Assignment3.pdf

‫درس تحلیل دادههای گسترده زیستی‬
‫دانشکده مهندسی کامپیوتر و فناوری اطالعات‬
‫استاد درس‪ :‬دکتر مطهری‬
‫طراح‪ :‬منصور حسنی‬
‫تمرین سری سوم‬
‫ریزآرایه‬
‫مهلت ارسال‪:‬‬
‫بیست و هفتم اردیبهشت‪ ،‬دوشنبه‬
‫تا ساعت ‪23:59‬‬
‫برای حل تمرین به نکات زیر توجه کنید‪.‬‬
‫‪ .۱‬تمرینات خود را پس از اتمام به آدرس ایمیل ‪ [email protected]‬ارسال نمایید‪.‬‬
‫‪ .۲‬نام فایل نهایی و موضوع ایمیل خود را مطابق الگوی زیر نامگذاری کنید‪:‬‬
‫‪∙ HW2_StudentNumber_FirstName_LastName.zip‬‬
‫‪∙ HW2_93210791_Abolfazl_Motahari.zip‬‬
‫‪ .۳‬برای هر سوال یک فایل جداگانه ‪ R.‬تهیه کنید و کدهای مربوطهی هر سوال را با جداسازی زیر بخشها در آن بنویسید‪.‬‬
‫‪ .۴‬شما باید گزارشی از انجام سواالت تهیه کنید‪ .‬این گزارش شامل پاسخ سواالت پرسیده شده و نمودارهای خواسته شده‬
‫برای سواالت میباشد‪.‬‬
‫‪ .۵‬گزارش خود با فرمت ‪ PDF‬را در کنار فایلهای دیگر برنامهنویسی‪ ZIP ،‬کنید و در نهایت فایل ‪ ZIP‬شده را ایمیل کنید‪.‬‬
‫‪ .۶‬توجه کنید تمام تمرینات به صورت انفرادی انجام خواهند گرفت؛ در صورت مشاهده هر گونه تقلب نمره کل این‬
‫تمرین صفر در نظر گرفته میشود‪.‬‬
‫‪ .۷‬به زمان مهلت ارسال توجه کنید‪ .‬هر دو ساعت تاخیر معادل کسر یک درصد تمرین شما میباشد‪.‬‬
‫اهداف تمرین‪:‬‬
‫هدف از طراحی تمرین آشنایی دانشجویان با تکنولوژی ریزآرایه و همچنین آنالیز دادههای آن میباشد‪ .‬عالوه بر این در این‬
‫تمرین قصد آشنایی با پکیج ‪ affy‬و مفهوم نرمال سازی را داریم‪.‬‬
‫طراح‪ :‬منصور حسنی‬
‫سوال اول‬
‫‪ .۱‬از طریق سایت ‪ NCBI‬مقالهی مطرح شده در کالس را با استفاده از ‪ PubMed: 14641932‬دانلود کنید‪.‬‬
‫‪ .۲‬مقاله ی مورد نظر را مطالعه و گزارشی از آن تهیه کنید‪ .‬گزارش شما با شامل نظرات و تحلیل های خود از مقاله نیز باشد‪.‬‬
‫‪ .3‬نتایج گزارش شده در مقاله را بازیابی کنید‪.‬‬
‫سوال دوم‬
‫‪ .1‬ابتدا ‪cell file‬های نمونه های مربوط سکوی ‪ GPL97‬زیر مجموعه ی آزمایش ‪ GSE781‬را دانلود کنید‪.‬‬
‫‪ .2‬دادههای دانلود شده را به درون ‪ R‬آپلود کنید و در متغییر ‪ data‬ذخیره کنید‪.‬‬
‫راهنمایی‪ :‬برای اینکار از تابع ‪ ReadAffy‬که در پکیج ‪ affy‬تعریف شده است‪ ،‬استفاده کنید‪.‬‬
‫‪ .3‬با استفاده از تابع ‪ exprs‬میزان بیان ژن های نمونهها را استخراج کنید‪.‬‬
‫‪ 1‬از‪2‬صفحه‬
‫‪ .4‬میزان بیان ژن های نمونه ی ‪ GSM11805‬را نسبت به نمونه ی ‪ GSM11814‬رسم کنید‪ .‬نمودار بدست آمده را‬
‫توضیح دهید و سپس آن را تحلیل کنید‪.‬‬
‫‪ .5‬در رابطه با نرمال سازی ریزآریه ها تحقیقی کوتاه انجام دهید‪.‬‬
‫‪ .6‬یکی از الگوریتم های نرمال سازی ‪ RMA‬می باشد‪ .‬با استفاده از تابع ‪ rma‬داده های خود را نرماالیز کنید‪ .‬کالس‬
‫داده های نرماالیز شده چیست؟ در مورد قسمتهای مختلف آن توضیح دهید‪.‬‬
‫‪ .7‬نمودار قسمت چهارم را برای دادههای نرماالیز شده نیز رسم کنید و تفاوت را توضیح دهید‪.‬‬
‫سوال سوم‬
‫‪ Probe-set .1‬مربوط به ژن ‪ PUSL1‬را یافته‪ ،‬سپس ‪ GC-content‬را برای ‪probe‬های این ژن بدست آورید و‬
‫هیستوگرام آن را رسم کنید‪.‬‬
‫‪ .2‬محل هم ردیف شدن ‪Probe‬های ژن ‪ PUSL1‬را به روی ‪ transcriptome‬انسان پیدا کنید‪ .‬مشخص کنید به هر‬
‫‪ transcript‬این ژن چند ‪ probe‬همردیف شده است‪.‬‬
‫در صورت اشکال در تمرین‪ ،‬به آدرس الکترونیکی ‪ [email protected]‬میل بزنید‪.‬‬
‫‪ 2‬از‪2‬صفحه‬