HW2.pdf

‫تمرين سري دوم – بازيابی پیشرفتهي اطالعات ‪42304‬‬
‫نیمسال اول ‪10-19‬‬
‫هذسس‪ :‬سلیواًی‬
‫هَعذ تحَيل‪ 21 :‬آرس‬
‫بِ ًام خذا‬
‫تمرين سري دوم درس بازيابی پیشرفتهي اطالعات‬
‫هَعذ تحَيل ‪ 21‬آرس‬
‫لغفاً بِ هَاسد صيش دس تْیِ ٍ تحَيل توشيي دقت ًوايیذ‪:‬‬
‫‪-‬‬
‫چٌاىچِ سَالی دس سابغِ با ايي توشيي داشتیذ بِ آدسس ‪ [email protected]‬ايویل بضًیذ‪.‬‬
‫‪-‬‬
‫توشييّای ًَشتاسی بايذ دس کالس دسس تحَيل دادُ شًَذ‪.‬‬
‫‪-‬‬
‫کذ توشيي خَد سا بِ آدسس ‪ [email protected]‬اسسال ًوايیذ‪ .‬فايلّای اسسالی بايذ دس يک پَشِ فششدُ باشذ کِ‬
‫اسن آى شواسُ داًشجَيی شوا است‪ّ .‬وچٌیي عٌَاى ‪ email‬بِ صَست ‪ StudentID-HW#2‬باشذ‪ .‬هْلت اسسال کذ توشييّا‬
‫تا ساعت ‪ 21‬شب هَعذ هقشس است‪.‬‬
‫‪-‬‬
‫بِ توشييّايی کِ با تاخیش تحَيل دادُ شًَذ‪ً ،‬وشُای تعلق ًویگیشد‪.‬‬
‫‪-‬‬
‫با توشييّای کپی بِ شذت بشخَسد خَاّذ شذ‪.‬‬
‫‪ً 21( -2‬وشُ) فشض کٌیذ هَتَس جستجَی ٍبی با قابلیت باصخَسد استباط (‪ )relevance feedback‬کِ اص سٍش ‪ Rocchino‬بشای ايي‬
‫هٌظَس استفادُ هیًوايذ‪ ،‬پیادساصی شذُ است‪ .‬دس ايي سیستن باصيابی اعالعات بِ هٌظَس داشتي سشعت بیشتش‪ ،‬عولیات باصخَسد‬
‫استباط تٌْا بش اساس لغاتی کِ دس عٌَاى صفحات باصيابی شذُ‪ ،‬ظاّش شذُ صَست هیگیشد‪ّ .‬وچٌیي عشاحی هَتَس جستجَ‬
‫بِگًَِای اًجام شذُ کِ شباّت پشسواى با سٌذ تٌْا اص عشيق تعذاد تکشاس لغات (‪ )term frequency‬صَست هیگیشد (ٍ اص‬
‫‪IDF‬‬
‫ٍ ًشهالساصی عَل استفادُ ًشذُ است)‪.‬‬
‫بشای پشسواى ‪ data information retrieval‬عٌاٍيي سِ سٌذ اٍل باصيابی شذُ بِ ششح صيش است‪:‬‬
‫‪Data Management and Information Retrieval‬‬
‫‪Information Retrieval: Data Structures and Algorithms‬‬
‫‪Information Retrieval, Databases, and Data Mining‬‬
‫اص بیي ايي سِ سٌذ‪ ،‬کاسبش سٌذ اٍل ٍ سَم سا بِ عٌَاى اسٌاد هشتبظ ٍ سٌذ دٍم سا بِ عٌَاى ًاهشتبظ عالهتگزاسی هیکٌذ‪.‬‬
‫فشض کٌیذ ‪ and‬بِ عٌَاى ‪ stop word‬دس ًظش گشفتِ شَد‪.‬‬
‫‪ .a‬پشسواى اصالح شذُ سا دس صَستیکِ‬
‫‪ α‬باشذ‪ ،‬هشخص ًوايیذ (اعضای بشداس سا بِ تشتیب الفبايی‬
‫ٍاطُّای هشبَعِ دس ًظش بگیشيذ)‪.‬‬
‫‪ّ .b‬وچٌیي پشسواى اصالح شذُ سا دس صَستیکِ‬
‫‪ٍα‬‬
‫‪ γ‬دس ًظش گشفتِ شَد‪ً ،‬یض هشخص کٌیذ‪.‬‬
‫تمرين سري دوم – بازيابی پیشرفتهي اطالعات ‪42304‬‬
‫نیمسال اول ‪10-19‬‬
‫هذسس‪ :‬سلیواًی‬
‫هَعذ تحَيل‪ 21 :‬آرس‬
‫‪ً 21( -1‬وشُ) بشای باصيابی احتوالی با استفادُ اص هذل صباًی تکگشم (‪:)unigram‬‬
‫‪.a‬‬
‫ًشاى دّیذ کِ استفادُ اص هذل ّوَاس شذُ صيش بشای احتوال سخذاد ٍاطُّا دس اسٌاد‪:‬‬
‫)‬
‫| ( )‬
‫(‬
‫)‬
‫) | (‬
‫| (‬
‫هعادل با بِکاسگیشی هعیاس شباّت بِ صَست صيش است‪:‬‬
‫)‬
‫کِ‬
‫سٌذ‬
‫تعذاد تکشاس ٍاطُ دس سٌذ ‪،‬‬
‫ٍ‬
‫(‬
‫∑‬
‫)‬
‫(‬
‫تعذاد تکشاس ٍاطُ دس کل هجوَعِ اسٌاد‪،‬‬
‫تعذاد ‪ token‬هَجَد دس‬
‫تعذاد کل ‪ token‬دس هجوَعِ اسٌاد سا ًشاى هیدّذ‪.‬‬
‫‪ .b‬استباط (تشابْات ٍ تفاٍتّا) ايي هعیاس شباّت سا با هعیاس ‪ tf-idf‬هشخص کٌیذ‪.‬‬
‫‪ً 07( -3‬وشُ) دس ايي سَال‪ّ ،‬ذف پیادُساصی ٍ هقايسِ عولکشد سِ دستِبٌذ ‪( k-nn ٍ Rocchino ،Naïve Bayes‬‬
‫) بشای‬
‫دستِبٌذی اسٌاد (‪ )document classification‬بِ دٍ دستِ است‪ .‬بشای ايي هٌظَس صيش هجوَعِای اص اسٌاد هَجَد دس هجوَعِ‬
‫دادُ ‪ 20 Newsgroup‬دس ًظش گشفتِ شذُ کِ دس فايل ‪ dataset.zip‬هَجَد است‪ .‬بشای هقايسِی عولکشد دستِبٌذّا اص دقت‬
‫دستِبٌذی (تعذاد ًوًَِّايی کِ دسست دستِبٌذی شذُاًذ) بِ تعذاد کل ًوًَِّا استفادُ شَد‪.‬‬
‫‪ .a‬دقت دستِبٌذّای هَسدًظش سا سٍی دادُ آهَصش (‪ ٍ )training‬آصهَى (‪ )test‬هشخص ًوايیذ‪.‬‬
‫‪ .b‬صهاى آهَصش ٍ ّوچٌیي هتَسظ صهاًی کِ بشای دستِبٌذی يک ًوًَِ الصم است سا بشای ّش يک اص ايي سٍشّا‬
‫هشخص کٌیذ‪.‬‬
‫‪ .c‬دس گضاسش خَد‪ ،‬دقت ٍ سشعت سٍشّا سا با ّن هقايسِ ًوَدُ ٍ عولکشد کلی آىّا سا تحلیل ًوايیذ‪.‬‬
‫هَفق باشیذ‬