MIR-HW2.pdf

‫تمرین دوم درس بازیابی پیشرفته اطالعات‬
‫‪ 125‬نمره‬
‫مدرس‪ :‬دکتر سلیمانی‬
‫ترم اول سال تحصیلی ‪1394-95‬‬
‫دانشکده مهندسی کامپیوتر‬
‫دانشگاه صنعتی شریف‬
‫سوال يک (‪ 15‬نمره)‬
‫الف) (‪ 5‬نمره) در روش ‪ BIM‬برای محاسبه امتیاز اسناد نسبت به یک پرسمان‪ ،‬با چه فرضی امتیاز را تنها برای کلمات مشترک در پرسمان و‬
‫متن محاسبه نماییم؟ به طور کامل توضیح دهید و روابط الزم را بنویسید‪.‬‬
‫ب) (‪ 5‬نمره) فرض کنید مجموعه ای از ‪ 100‬سند داریم که تنها شامل ‪ 5‬کلمه ‪ x1‬تا ‪ x5‬هستند‪ .‬برای یک پرسمان‪ ،‬جدول زیر تعداد اسناد‬
‫مرتبط و نامرتبط را نشان می دهد‪ .‬سندی که بردار به صورت ]‪ [1 0 1 0 1‬دارد‪ ،‬چه امتیازی طبق ‪ BIM‬دریافت خواهد کرد‪ ،‬در صورتی که‬
‫پرسمان به صورت ]‪ [0 1 1 1 1‬باشد؟‬
‫‪Relevant‬‬
‫‪40 - 2*i‬‬
‫‪2*i‬‬
‫‪40‬‬
‫‪Total‬‬
‫‪40 + 3*i‬‬
‫‪60 - 3*i‬‬
‫‪100‬‬
‫‪Non-Relevant‬‬
‫‪5*i‬‬
‫‪60 - 5*i‬‬
‫‪60‬‬
‫‪i = 1...5‬‬
‫‪xi = 0‬‬
‫‪xi = 1‬‬
‫ج) (‪ 5‬نمره) در فرمول امتیازدهی ‪ ،Okapi BM25‬کم و زیاد کردن پارامترهای ‪ b‬و ‪ k‬منجر به چه اتفاقی می شوند؟‬
‫سوال ‪ 20( 2‬نمره)‬
‫الف) (‪ 8‬نمره) برای بازیابی احتمالی با استفاده از مدل زبانی ‪ ،unigram‬نشان دهید که استفاده از مدل هموار شده زیر‪:‬‬
‫) 𝑐𝑀|𝑡(𝑃)𝜆 ‪𝑃(𝑡|𝑑) = 𝜆𝑃(𝑡|𝑀𝑑 ) + (1 −‬‬
‫معادل با به کارگیری معیار شباهت به صورت زیر است‪:‬‬
‫𝑑‪𝑡𝑓𝑡,‬‬
‫𝜆‬
‫𝐿‬
‫∑ = )𝑞 ‪𝑆𝑐𝑜𝑟𝑒(𝑑,‬‬
‫‪log(1 +‬‬
‫) 𝑑 ∗‬
‫𝑓𝑐‬
‫‪1‬‬
‫‪−‬‬
‫𝜆‬
‫𝑡‬
‫)𝑞∩𝑑(∈𝑡‬
‫𝑇‬
‫که 𝑑‪ 𝑡𝑓𝑡,‬تعداد تکرار واژه ‪ t‬در سند ‪ 𝑐𝑓𝑡 ،d‬تعداد کل تکرارهای واژه ‪ t‬در اسناد‪ 𝐿𝑑 ،‬طول سند ‪ d‬و ‪ T‬تعداد کل کلمات موجود در مجموعه‬
‫اسناد (با احتساب تکراری ها) را نشان می دهد‪.‬‬
‫ب) (‪ 5‬نمره) توضیح دهید تغییر پارامتر 𝜆 چه تاثیری در بازیابی دارد و هر کدام از حاالت حدی ‪ 0‬و ‪ 1‬شدن آن‪ ،‬برای چه پرسمان هایی‬
‫مناسب هستند‪.‬‬
‫ج) (‪ 7‬نمره) سه سند زیر را در نظر بگیرید‪ ،‬با در نظر گرفتن مقدار ‪ ،𝜆 = 0.2‬امتیاز هر سند را برای پرسمان ‪ salam‬محاسبه نمایید (‪ :D‬را‬
‫یک کلمه در نظر بگیرید و ‪ Case-sensitive‬نباشید‪ ،‬یعنی ‪ Salam‬با ‪ salam‬یکی است)‪:‬‬
‫شماره سند‬
‫محتوای سند‬
‫‪Salam khoobi chetori‬‬
‫‪2‬‬
‫‪Salam salam sad ta salam :D‬‬
‫‪3‬‬
‫‪Ya Ali khodahafez shoma‬‬
‫‪1‬‬
‫سوال ‪ 10( 3‬نمره)‬
‫الف) (‪ 3‬نمره) در روش ‪ ،Naïve Bayes‬مشکل صفر شدن احتمال وجود یک سند در یک کالس به خاطر نبود تنها یک کلمه از آن در کالس‬
‫مربوطه را چگونه رفع می کنیم؟‬
‫ب) (‪ 7‬نمره) در جدول زیر ‪ 4‬سند داده شده که کالس هر یک مشخص شده است‪ .‬کالس سند پنجم را با استفاده از ‪ Naïve Bayes‬حدس‬
‫بزنید‪.‬‬
‫شماره کالس‬
‫محتوای سند‬
‫‪Plane airport fly transportation‬‬
‫‪1‬‬
‫‪Flight plane bus‬‬
‫‪2‬‬
‫‪Transportation bus crowd‬‬
‫‪2‬‬
‫‪Bus road bus‬‬
‫؟‬
‫‪Plane transportation bus fly‬‬
‫‪1‬‬
‫سوال ‪ 10( 4‬نمره)‬
‫الف) (‪ 7‬نمره) نقاط زیر را که به دو کالس ‪ C1‬و ‪ C2‬تعلق دارند در نظر بگیرید‪:‬‬
‫)‪C1: (1,1), (2,0), (3,2‬‬
‫)‪C2: (2,2), (4,3), (3,4‬‬
‫با استفاده از دسته بند ‪ ، Rocchio‬معادله خط جدا کننده این دو کالس را پیدا کنید و مشخص کنید که نقاطی که باال و پایین آن قرار می‬
‫گیرند هر کدام به کدام کالس تعلق دارند‪.‬‬
‫ب) (‪ 3‬نمره) آیا داده هایی که به چند کالس تعلق دارند و قابلیت جداسازی دادههای کالسها (دوبهدو) با خط از هم وجود دارد‪ ،‬هنگامی که‬
‫یکی را در برابر بقیه در نظر بگیریم ( یعنی یک کالس را در نظر گرفته و همه بقیه را از یک کالس دیگر در نظر بگیریم ) قابلیت جدا شدن با‬
‫یک خط از هم را دارند؟‬
‫سوال ‪ 10( 5‬نمره)‬
‫یادگیری ضرایب در ‪ weighted zone scoring‬با استفاده از دستهبند خطی چگونه انجام می شود و به چه اطالعات و داده هایی برای انجام‬
‫آن نیاز داریم؟‬
‫سوال ‪ 20( 6‬نمره)‬
‫الف) (‪ 4‬نمره) با ذکر مثال‪ ،‬چگونگی تاثیر انتخاب مرکزهای اولیه در الگوریتم ‪ kmeans‬و نتیجه آن در جواب نهایی را نشان دهید‪.‬‬
‫ب) (‪ 8‬نمره) اسناد زیر را در فضای برداری ‪( tf‬بدون ‪ )idf‬در نظر بگیرید‪:‬‬
‫شماره سند‬
‫محتوای سند‬
‫‪Ball Goal Soccer‬‬
‫‪2‬‬
‫‪Goal Goal Soccer‬‬
‫‪3‬‬
‫‪Ball Basketball Goal‬‬
‫‪4‬‬
‫‪Basketball Ball Ball‬‬
‫‪1‬‬
‫با استفاده از معیار شباهت کسینوسی‪ ،‬با استفاده از الگوریتم ‪ kmeans‬و با در نظر گرفتن ‪ ،k=2‬عمل خوشه بندی را انجام دهید‪ .‬به عنوان‬
‫حدس اولیه‪ ،‬مرکز دسته اول را سند ‪ 1‬و مرکز دسته دوم را سند ‪ 2‬در نظر بگیرید‪.‬‬
‫د) (‪ 8‬نمره) اسناد باال را با استفاده روش سلسله مراتبی ‪ Complete-Link‬دسته بندی کنید و دندوگرام مربوطه را رسم کرده و اعداد‬
‫محاسبه شده در هر گام را بنویسید‪.‬‬
‫سوال ‪ 20( 7‬نمره)‬
‫مجموعه اسناد زیر را در نظر بگیرید‪:‬‬
‫شماره سند‬
‫متن سند‬
‫‪1‬‬
‫لیمو نارنگی‬
‫‪2‬‬
‫سیب هویج‬
‫‪3‬‬
‫پرتقال لیمو نارنج‬
‫‪4‬‬
‫نارنج سیب‬
‫‪5‬‬
‫سیب گالبی‬
‫‪6‬‬
‫گالبی هویج سیب‬
‫الف) (‪ 8‬نمره) برای مجموعه اسناد باال ماتریس لغت‪-‬سند را ایجاد کنید (‪ tf‬را در هر خانهی ماتریس قرار دهید‪ ،‬نیازی به نرمالسازی نیست)‪.‬‬
‫سپس با استفاده از ‪ ،)Sigular Value Decomposition(SVD‬این ماتریس را به صورت 𝑇 𝑉‪ 𝐶 = 𝑈Σ‬بنویسید‪).‬برای تجزیه میتوانید‬
‫به صورت دستی عمل کنید یا از هر ابزار دلخواهی استفاده کنید‪ ،‬اعم از آنالین یا ‪.)Matlab‬‬
‫ب) (‪ 5‬نمره) سپس با استفاده از این ماتریسها مقدار ‪ 𝐶2 = 𝑈2 Σ2′ 𝑉2‬را محاسبه کنید‪.‬‬
‫ج) (‪ 7‬نمره) حال با مقایسهی 𝐶 𝑇 𝐶 و ‪ 𝐶2𝑇 𝐶2‬و تفاوت میان آنها راجع به معنی خانهی )‪ (i, j‬در هر کدام از آنها توضیح دهید‪ .‬و توضیح دهید‬
‫که این تجزیه چه مزایایی دارد؟ (طبیعتا نیاز به توضیح خیلی زیاد نیست!)‬
‫سوال ‪ 20( 8‬نمره)‬
‫پنج صفحهی وب به صورت زیر به یکدیگر پیوند دارند‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪5‬‬
‫‪3‬‬
‫‪4‬‬
‫الف) (‪ 8‬نمره) توسط الگوریتم محاسبهی ‪ PageRank‬و با ضریب دوربری ‪ α=0.1‬مقدار ‪ PageRank‬صفحات را به ازای سه مرحله اجرای‬
‫الگوریتم پیدا کنید‪.‬‬
‫‪α‬‬
‫ب) (‪ 5‬نمره) نشان دهید در حالت کلی مقدار ‪ PageRank‬برای تمام صفحات حداقل 𝑁 خواهد بود‪.‬‬
‫ج) (‪ 7‬نمره) مقدار ‪ hub, authority‬صفحات را با استفاده از الگورتیم ‪ HITS‬و به ازای سه مرحله اجرای این الگوریتم محاسبه کنید‪( .‬در‬
‫پایان هر مرحله‪ ،‬برای نرمال سازی‪ ،‬مقادیر را به بزرگترین مقدار آن مرحله تقسیم کنید(مقادیر مربوط به ‪ hub‬تقسیم بزرگترین ‪ hub‬آن‬
‫مرحله و مقادیر مربوط به ‪ authority‬تقسیم بر بزرگترین مقدار ‪ authority‬آن مرحله‪).‬‬
‫موفق باشید ‪:‬دی‬