تمرین دوم درس بازیابی پیشرفته اطالعات 125نمره مدرس :دکتر سلیمانی ترم اول سال تحصیلی 1394-95 دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف سوال يک ( 15نمره) الف) ( 5نمره) در روش BIMبرای محاسبه امتیاز اسناد نسبت به یک پرسمان ،با چه فرضی امتیاز را تنها برای کلمات مشترک در پرسمان و متن محاسبه نماییم؟ به طور کامل توضیح دهید و روابط الزم را بنویسید. ب) ( 5نمره) فرض کنید مجموعه ای از 100سند داریم که تنها شامل 5کلمه x1تا x5هستند .برای یک پرسمان ،جدول زیر تعداد اسناد مرتبط و نامرتبط را نشان می دهد .سندی که بردار به صورت ] [1 0 1 0 1دارد ،چه امتیازی طبق BIMدریافت خواهد کرد ،در صورتی که پرسمان به صورت ] [0 1 1 1 1باشد؟ Relevant 40 - 2*i 2*i 40 Total 40 + 3*i 60 - 3*i 100 Non-Relevant 5*i 60 - 5*i 60 i = 1...5 xi = 0 xi = 1 ج) ( 5نمره) در فرمول امتیازدهی ،Okapi BM25کم و زیاد کردن پارامترهای bو kمنجر به چه اتفاقی می شوند؟ سوال 20( 2نمره) الف) ( 8نمره) برای بازیابی احتمالی با استفاده از مدل زبانی ،unigramنشان دهید که استفاده از مدل هموار شده زیر: ) 𝑐𝑀|𝑡(𝑃)𝜆 𝑃(𝑡|𝑑) = 𝜆𝑃(𝑡|𝑀𝑑 ) + (1 − معادل با به کارگیری معیار شباهت به صورت زیر است: 𝑑𝑡𝑓𝑡, 𝜆 𝐿 ∑ = )𝑞 𝑆𝑐𝑜𝑟𝑒(𝑑, log(1 + ) 𝑑 ∗ 𝑓𝑐 1 − 𝜆 𝑡 )𝑞∩𝑑(∈𝑡 𝑇 که 𝑑 𝑡𝑓𝑡,تعداد تکرار واژه tدر سند 𝑐𝑓𝑡 ،dتعداد کل تکرارهای واژه tدر اسناد 𝐿𝑑 ،طول سند dو Tتعداد کل کلمات موجود در مجموعه اسناد (با احتساب تکراری ها) را نشان می دهد. ب) ( 5نمره) توضیح دهید تغییر پارامتر 𝜆 چه تاثیری در بازیابی دارد و هر کدام از حاالت حدی 0و 1شدن آن ،برای چه پرسمان هایی مناسب هستند. ج) ( 7نمره) سه سند زیر را در نظر بگیرید ،با در نظر گرفتن مقدار ،𝜆 = 0.2امتیاز هر سند را برای پرسمان salamمحاسبه نمایید ( :Dرا یک کلمه در نظر بگیرید و Case-sensitiveنباشید ،یعنی Salamبا salamیکی است): شماره سند محتوای سند Salam khoobi chetori 2 Salam salam sad ta salam :D 3 Ya Ali khodahafez shoma 1 سوال 10( 3نمره) الف) ( 3نمره) در روش ،Naïve Bayesمشکل صفر شدن احتمال وجود یک سند در یک کالس به خاطر نبود تنها یک کلمه از آن در کالس مربوطه را چگونه رفع می کنیم؟ ب) ( 7نمره) در جدول زیر 4سند داده شده که کالس هر یک مشخص شده است .کالس سند پنجم را با استفاده از Naïve Bayesحدس بزنید. شماره کالس محتوای سند Plane airport fly transportation 1 Flight plane bus 2 Transportation bus crowd 2 Bus road bus ؟ Plane transportation bus fly 1 سوال 10( 4نمره) الف) ( 7نمره) نقاط زیر را که به دو کالس C1و C2تعلق دارند در نظر بگیرید: )C1: (1,1), (2,0), (3,2 )C2: (2,2), (4,3), (3,4 با استفاده از دسته بند ، Rocchioمعادله خط جدا کننده این دو کالس را پیدا کنید و مشخص کنید که نقاطی که باال و پایین آن قرار می گیرند هر کدام به کدام کالس تعلق دارند. ب) ( 3نمره) آیا داده هایی که به چند کالس تعلق دارند و قابلیت جداسازی دادههای کالسها (دوبهدو) با خط از هم وجود دارد ،هنگامی که یکی را در برابر بقیه در نظر بگیریم ( یعنی یک کالس را در نظر گرفته و همه بقیه را از یک کالس دیگر در نظر بگیریم ) قابلیت جدا شدن با یک خط از هم را دارند؟ سوال 10( 5نمره) یادگیری ضرایب در weighted zone scoringبا استفاده از دستهبند خطی چگونه انجام می شود و به چه اطالعات و داده هایی برای انجام آن نیاز داریم؟ سوال 20( 6نمره) الف) ( 4نمره) با ذکر مثال ،چگونگی تاثیر انتخاب مرکزهای اولیه در الگوریتم kmeansو نتیجه آن در جواب نهایی را نشان دهید. ب) ( 8نمره) اسناد زیر را در فضای برداری ( tfبدون )idfدر نظر بگیرید: شماره سند محتوای سند Ball Goal Soccer 2 Goal Goal Soccer 3 Ball Basketball Goal 4 Basketball Ball Ball 1 با استفاده از معیار شباهت کسینوسی ،با استفاده از الگوریتم kmeansو با در نظر گرفتن ،k=2عمل خوشه بندی را انجام دهید .به عنوان حدس اولیه ،مرکز دسته اول را سند 1و مرکز دسته دوم را سند 2در نظر بگیرید. د) ( 8نمره) اسناد باال را با استفاده روش سلسله مراتبی Complete-Linkدسته بندی کنید و دندوگرام مربوطه را رسم کرده و اعداد محاسبه شده در هر گام را بنویسید. سوال 20( 7نمره) مجموعه اسناد زیر را در نظر بگیرید: شماره سند متن سند 1 لیمو نارنگی 2 سیب هویج 3 پرتقال لیمو نارنج 4 نارنج سیب 5 سیب گالبی 6 گالبی هویج سیب الف) ( 8نمره) برای مجموعه اسناد باال ماتریس لغت-سند را ایجاد کنید ( tfرا در هر خانهی ماتریس قرار دهید ،نیازی به نرمالسازی نیست). سپس با استفاده از ،)Sigular Value Decomposition(SVDاین ماتریس را به صورت 𝑇 𝑉 𝐶 = 𝑈Σبنویسید).برای تجزیه میتوانید به صورت دستی عمل کنید یا از هر ابزار دلخواهی استفاده کنید ،اعم از آنالین یا .)Matlab ب) ( 5نمره) سپس با استفاده از این ماتریسها مقدار 𝐶2 = 𝑈2 Σ2′ 𝑉2را محاسبه کنید. ج) ( 7نمره) حال با مقایسهی 𝐶 𝑇 𝐶 و 𝐶2𝑇 𝐶2و تفاوت میان آنها راجع به معنی خانهی ) (i, jدر هر کدام از آنها توضیح دهید .و توضیح دهید که این تجزیه چه مزایایی دارد؟ (طبیعتا نیاز به توضیح خیلی زیاد نیست!) سوال 20( 8نمره) پنج صفحهی وب به صورت زیر به یکدیگر پیوند دارند: 1 2 5 3 4 الف) ( 8نمره) توسط الگوریتم محاسبهی PageRankو با ضریب دوربری α=0.1مقدار PageRankصفحات را به ازای سه مرحله اجرای الگوریتم پیدا کنید. α ب) ( 5نمره) نشان دهید در حالت کلی مقدار PageRankبرای تمام صفحات حداقل 𝑁 خواهد بود. ج) ( 7نمره) مقدار hub, authorityصفحات را با استفاده از الگورتیم HITSو به ازای سه مرحله اجرای این الگوریتم محاسبه کنید( .در پایان هر مرحله ،برای نرمال سازی ،مقادیر را به بزرگترین مقدار آن مرحله تقسیم کنید(مقادیر مربوط به hubتقسیم بزرگترین hubآن مرحله و مقادیر مربوط به authorityتقسیم بر بزرگترین مقدار authorityآن مرحله). موفق باشید :دی
© Copyright 2025 Paperzz