Mir-Assignment2.pdf

‫به نام خدا‬
‫‪Modern Information Retrieval‬‬
‫‪Department of Computer Engineering‬‬
‫‪Sharif University of Technology‬‬
‫‪Spring 2012 CE 40-324‬‬
‫‪Assignment #2‬‬
‫‪Due: 31th Farvardin‬‬
‫‪ .1‬پرضمان زیر را دروظر بگﻴریذ‪:‬‬
‫امىﻴت جطتجُی ایىتروتی‬
‫قبل از اوجام ٌرکاری ابتذا فکر کىﻴذ کذام اضىاد َ صفحات َب با پرضمان باال مرتبط می باشذ‪ .‬معىای پرضمان‬
‫در وظر شما چﻴطت َ چً مُاردی شما را بً یافته وتﻴجً ی بٍتر رٌىمُن می ضازد‪ .‬تُضﻴحات خُد را در ایه مُرد‬
‫بىُیطﻴذ‪.‬‬
‫حال یک مُتُر جطتجُ اوتخاب کىﻴذ َ پرضمان را بً ٌمﻴه حالت (بذَن ٌﻴچگُوً عالمت اضافً) در آن اجرا‬
‫کىﻴذ‪ .‬در مُرد مﻴسان ارتباط ‪ 02‬وتﻴجً ی اَل با پرضمان مقایطً ای اوجام دٌﻴذ‪.‬‬
‫مُارد زیر را در پاضخ خُد ارائً دٌﻴذ‪:‬‬
‫‪ .a‬خالصً ای از تفطﻴر خُد در مُرد پرضمان‬
‫‪ .b‬مُتُر جطتجُی مُرد اضتفادي‬
‫‪ .c‬لﻴطتی از ‪ 02‬وتﻴجً ی اَل خرَجی َ وظرتان درمُرد مرتبط بُدن َ یا عذم ارتباط آوٍا با پرضمان‪ .‬بً‬
‫ٌر کذام از وتﻴجً ٌا ومري ای بﻴه ‪ 1‬تا ‪ 4‬بذٌﻴذ (‪ 1‬بذ‪ 0 ،‬قابل قبُل‪ 3 ،‬خُب‪ 4 ،‬عالی)‪.‬‬
‫‪ .d‬دقت برای ‪ 02 َ 12‬وتﻴجً ی اَل‪ .‬فرض کىﻴذ خُب َ عالی مرتبط محطُب مﻴشُوذ‪.‬‬
‫‪ .0‬فرض کىﻴذ یک ضﻴطتم بازیابی اطالعات یک مجمُعً ی ‪ 52‬تایی از اضىاد رتبً دٌی می کىذ َ برای دَ‬
‫پرضمان لﻴطت اضىاد مرتبط بً صُرت زیر اضت‪:‬‬
‫‪ 39‬و ‪Q1: 1, 2, 4, 10, 25‬‬
‫‪ 50‬و ‪Q2: 3, 5, 10‬‬
‫برای ٌر پرضمان مقادیر زیر را بﻴابﻴذ‪:‬‬
‫‪ .a‬دقت تا ضىذ ‪12‬ام‪.‬‬
‫‪ .b‬دقت زماوی کً یادآَری ‪ %52‬می باشذ‪.‬‬
‫‪ .c‬دقت زماوی کً یادآَری ‪ %05‬می باشذ‪.‬‬
‫‪ .d‬مﻴاوگﻴه دقت درَن یابی وشذي (‪.)Uninterpolated‬‬
‫‪ .e‬مﻴاوگﻴه ‪ F1‬درَن یابی وشذي (‪.)Uninterpolated‬‬
‫حال ومُ داری بر اضاش دقت َ یادآَری برای پرضمان ٌای ‪ َ Q2 ،Q1‬مﻴاوگﻴه ‪ Q1+Q2‬رضم کىﻴذ‪.‬‬
‫‪ .3‬اعذاد زیر را در وظر بگﻴریذ‪:‬‬
‫‪2, 9, 10, 14, 16‬‬
‫وتﻴجً ی ٌمً ی فشردي ضازی ٌای زیر را برای اعذاد باال بﻴابﻴذ‪ .‬مشخص کىﻴذ ضایس خرَجی چىذ بایت‬
‫اضت‪.‬‬
‫‪Uncompressed, 32-bit integers .a‬‬
‫‪Restricted Variable Length encoding with and without delta coding .b‬‬
‫‪Gamma code with and without delta coding .c‬‬
‫‪Golomb code with M=8 (not talked about in class; you'll have to look it up), with delta coding .d‬‬
‫‪ .4‬در مُرد تاثﻴر تغﻴﻴر پایً ی لگاریتم در َزن دٌی ‪ َ tf.idf‬وتﻴجً ی آن در رتبً بىذی مطتىذات بحث کىﻴذ‪.‬‬
‫‪ .5‬معﻴار مشابٍت ‪ ltn.lnc‬را براي دَ پرضمان «تﻠفهٌاي دﻳجﻴتالﻲ» َ «تﻠفهٌاي دﻳجﻴتالﻲ َ تﻠفهٌاي‬
‫َﻳذئُﻳﻲ َ ضاﻳر تﻠفه ٌا» با پر ﻛردن جذَل زﻳر بذضت آَرﻳذ ‪ .‬با فرض ‪ N=10,000,000‬رتبً مشابٍت وٍاﻳﻲ‬
‫را بذضت آَرﻳذ («ضاﻳر» َ «َ» را بً عىُان ‪ stop word‬دروظر ﮔرفتً شذٌاوذ َ از ‪ stemming‬اضتفادي شذي‬
‫اضت)‪.‬‬
‫‪product‬‬
‫‪n'lized‬‬
‫‪document‬‬
‫‪tf-wght‬‬
‫‪weigth‬‬
‫‪tf-raw‬‬
‫‪weight‬‬
‫‪Idf‬‬
‫‪query‬‬
‫‪df‬‬
‫‪10,000‬‬
‫‪100,000‬‬
‫‪50,000‬‬
‫‪tf-wght‬‬
‫‪tf-raw‬‬
‫‪Word‬‬
‫دیجﻴتال‬
‫َیذئُ‬
‫تﻠفه‬
‫توضیحات‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫در صُرت اشکال َ یا ابٍام می تُاوﻴذ بً ﮔرَي درش مﻴل بسوﻴذ‪.‬‬
‫برای ارضال تمریه ابتذا آورا ‪ Zip‬ومُدي َ با وام ‪ STDID_HW2‬بً آدرش‬
‫‪ [email protected]‬ارضال کىﻴذ‪ .‬دقت کىﻴذ کً عىُان مﻴل وﻴس بایذ ‪STDID_HW2‬‬
‫باشذ‪.‬‬
‫در ضمه حجم فایل ارضالی وبایذ بﻴش از ‪ 1Mb‬باشذ(مىظُر کطاوی اضت کً دضت وُشتً مﻴىُیطىذ َ‬
‫عکص مﻴگﻴروذ)‪.‬‬
‫بً ازای ٌر رَز تاخﻴر ‪ %12‬از ومري ی شما کاضتً می شُد‪.‬‬