Mir-Assignment1.pdf

‫به نام خدا‬
‫‪Modern Information Retrieval‬‬
‫‪Department of Computer Engineering‬‬
‫‪Sharif University of Technology‬‬
‫‪Spring 2012 CE 40-324‬‬
‫‪Assignment #1‬‬
‫‪Due: 81th Esfand‬‬
‫‪ -1‬هتي ُای زیر را در ًظر بگیرد‪:‬‬
‫”رضا بَ پارک رفت‪D1) “.‬‬
‫”علی باراى را دّضت دارد‪D2) “.‬‬
‫”علی بَ دبطتاى رفت‪ ،‬رضا از هذرضَ آهذ‪D3) ”.‬‬
‫آ‪ Positional Index ّ Inverted Index -‬را برای هتي ُا هػخص کٌیذ‪.‬‬
‫ب‪ -‬پاضخ پرضواى "رضا ‪ AND‬رفت" را با غرح کاهل بیابیذ‪.‬‬
‫پ‪ -‬پاضخ پرضواى "رضا ‪ 3/‬رفت" را با غرح کاهل بیابیذ‪.‬‬
‫‪ُ -2‬رکذام از هْارد زیر چَ تاثیری رّی ‪ Recall ّ Precision‬دارًذ؟ با رکر هثال تْضیخ دُیذ‪.‬‬
‫آ‪ -‬گطترظ پرضواى ُای کاربر با کلوات ُن هعٌی‬
‫ب‪ -‬اضتفادٍ از الگْرتن ُای ‪lemmatization‬‬
‫پ‪ -‬اضتفادٍ از ‪phrase indexing‬‬
‫‪ -3‬الگْریتوی برای ضاخت ّ اغتراک گیری ‪ Posting List‬پیػٌِاد کٌیذ کَ از پرضواى ُای با عبارت ‪/s2 ّ /k1‬‬
‫پػتیباًی کٌذ(هی تْاًیذ ‪ُ Posting List‬ا را بَ دلخْاٍ خْد تغییر دُیذ)‪.‬‬
‫‪ -4‬اگر ‪ a‬اًذازٍ ی ‪ Posting List‬ضٌذ ‪ b ، A‬اًذازٍ ی ‪ Posting List‬ضٌذ ‪ c ّ B‬اًذازٍ ی ‪ Posting List‬برای ضٌذ ‪C‬‬
‫باغذ‪ .‬عولیات اغتراک گیری برای کذام پرضواى زیر )‪ o(a+b+c‬هی باغذ؟ چرا؟ اگر ًَ از چَ هرتبَ ی زهاًی هی‬
‫باغذ؟‬
‫آ‪A or (B and C) -‬‬
‫ب‪A or not (B or C) -‬‬
‫پ‪A and not (B or C) -‬‬
‫‪1‬‬
‫فاصله ی بین دو واژه ‪ k‬کلمه باشد‪.‬‬
‫‪2‬‬
‫دو کلمه در یک جمله رخ بدهند‪.‬‬
‫‪ soundex -5‬را برای ّاژٍ ُای "‪ "Mesmerize" ّ "Nirvana‬هذاضبَ کٌیذ(بَ ُوراٍ رّظ اًجام)‪.‬‬
‫توضیحات‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫در صْرت اغکال ّ یا ابِام هی تْاًیذ بَ گرٍّ درش هیل بسًیذ‪.‬‬
‫برای ارضال توریي ابتذا آًرا ‪ً Zip‬وْدٍ ّ با ًام ‪ STDID_HW1‬بَ آدرش‬
‫‪ [email protected]‬ارضال کٌیذ‪ .‬دقت کٌیذ کَ عٌْاى هیل ًیس بایذ ‪STDID_HW1‬‬
‫باغذ‪.‬‬
‫در ضوي دجن فایل ارضالی ًبایذ بیع از ‪ 1Mb‬باغذ(هٌظْر کطاًی اضت کَ دضت ًْغتَ هیٌْیطٌذ ّ‬
‫عکص هیگیرًذ)‪.‬‬
‫بَ ازای ُر رّز تاخیر ‪ %10‬از ًورٍ ی غوا کاضتَ هی غْد‪.‬‬