HW1_solution.pdf

‫تاصیاتی پیطشفتِی اعالػات‬
‫پاسخ توشیي سشی اٍل – فػلّای ‪ 5-1‬وتاب هشجغ دسس‬
‫غْثا ػظاهی‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫پاسخ سوال ‪:1‬‬
‫الف) تستگی داسد وِ ‪ query‬تِ فشم ‪ A B C‬سا ‪A&B&C‬دس ًظش تگیشین یا ‪ OR‬آًْا‪ .‬حال تاثیش حزف وشدى ‪ stop word‬دس ّش‬
‫یه اص ایي دٍ حالت سا تشسسی هیوٌین‪:‬‬
‫‪‬‬
‫چٌاًچِ هٌظَس اص ‪ query‬تاال‪ AND ،‬دٍ یا چٌذ ٍاطُ تاضذ‪ ،‬تا حزف ‪ّstop word‬ا‪ precision ،‬واّص ٍ ‪ recall‬افضایص‬
‫هییاتذ‪ .‬تِ ػٌَاى هثال فشؼ وٌیذ ‪ query‬تشاتش ‪ President of the united states‬تاضذ‪ .‬دس ایي حالت تا حزف ‪stop‬‬
‫‪ّ word‬ا‪query ،‬تِ غَست ‪ president & united & states‬دس هیآیذ وِ ‪ precision‬واّص هییاتذ صیشا توام ‪ّdoc‬ا‬
‫وِ ایي ‪ 3‬ولوِ سا داسًذ تشهیگشدد‪ ،‬دس حالیىِ هوىي است تسیاسی اص آًْا هشتثظ ًثاضذ اها ‪ recall‬افضایص هییایذ صیشا‬
‫دس حالت دٍم ػالٍُ تش ‪ّdoc‬ای هشتثظ وِ دس حالت اٍل تشگشداًذُ ضذُ تَد‪ّdoc ،‬ای هشتثظ دیگشی ّن تشهیگشدد‪.‬‬
‫هثال دس حالت اٍل ‪ doc‬وِ داسای جولِ ‪ the united states president‬است تشًویگشدد اها دس حالت دٍم تش هیگشدد‪.‬‬
‫‪‬‬
‫چٌاًچِ هٌظَس اص ‪ query‬تاال‪ OR ،‬دٍ یا چٌذ ٍاطُ تاضذ ‪ precision‬افضایص ٍ ‪ recall‬واّص هییایذ‪ .‬صیشا هثال ٍلتی‬
‫ػثاست ‪ the university‬سا جستجَ هیوٌین‪ ،‬توام ‪ّ doc‬ا وِ داسای ولوِی ‪ the‬یا ‪ university‬است تشهیگشدد ٍ اص‬
‫آًجا وِ ‪ stop word ،the‬است دس ًتیجِ تمشیثا ول ‪ collection‬تشهیگشدد وِ ایي تاػث هیطَد دس ایي حالت‬
‫‪ precision‬ون ٍ ‪ recall‬صیاد ضَد‪ .‬اها ٍلتی ‪ّstop word‬ا سا حزف هیوٌین‪ّdoc ،‬ای ووتشی ٍ احتواال هشتثظ تش تا‬
‫هَضَع تشهیگشدد پس ‪ precision‬تِ ًسثت تِ حالت لثل تیطتش ٍ ‪ recall‬افضایص هییاتذ‪.‬‬
‫ب) دس غَستی وِ دس دیىطٌشی خَد‪ ،‬ولوات ّنهؼٌی ّن رخیشُ وٌین ٍ سٍاتظ تیي ولوات سا دس ًظش تگیشین‪ ،‬دس ایي غَست‬
‫دس حالت ولی تشای سیستن ‪ IR‬هاى‪ precision ،‬ون هیضَدٍ ‪ Recall‬افضایص هییاتذ‪ .‬صیشا دس ایي غَست تخص تیطتشی اص‬
‫‪ّ doc‬ای هشتثظ سا تشهیگشداًین‪ .‬اها ایي همادیش تستگی تِ ‪query‬هاى داسد‪ .‬هثال اگش تِ دًثال ولوِی ‪ notebook‬هیگشدین‪،‬‬
‫‪ laptop‬سا ًیض تش هیگشداًین وِ هشتثظ است ٍ تٌاتشایي تؼذاد تیطتشی ‪ doc‬هشتثظ تش هیگشداًین ٍ ‪ recall‬دس ایي حالت‬
‫افضایص هییاتذ ٍلی تشای اوثش ‪ّquery‬ا‪ precision ،‬واّص هییاتذ‪ .‬هخػَغا اگش ولوِ ّنهؼٌیّای صیادی داضتِ تاضذ ٍ‬
‫یىی اص ایي ّنهؼٌیّا وِ هذ ًظش ًیست واستشد صیادی داضتِ تاضذ‪ .‬تٌاتشایي دس ایي حالت تؼذاد ‪ّ doc‬ای تیطتشی وِ احتواال‬
‫هشتثظ تا دسخَاست واستش ًیست ّن تشهیگشدد‪ .‬اها اگش ولوِای وِ تِ دًثال آى ّستین ون واستشد تاضذ‪ ،‬احتواال ایي سٍش اص‬
‫ًظش واسایی تْتش است ٍ ‪ precision‬چٌذاى تغییشی ًویوٌذ‪ .‬اها تشای ّوِی ‪ّquery‬ا‪ recall ،‬افضایص هییاتذ‪ .‬صیشا تا ایي‬
‫سٍش غیش اص تشگشداًذى ‪ّdoc‬ای هشتثظ لثلی‪ّdoc ،‬ای دیگشی سا ًیض تشهیگشداًین ٍ دس ًتیجِ ‪ recall‬تیطتش هساٍی حالت‬
‫لثل هیطَد‪.‬‬
‫ج) دس غَستی وِ اص ‪ lemmatization ٍ stemming‬تشای رخیشُی دیىطٌشی استفادُ وٌین‪ ،‬هؼوَال ‪ precision‬ون ضذُ‬
‫ٍ ‪ recall‬افضایص هییاتذ‪ .‬صیشا استفادُ اص تىٌیه ‪ lemmatization‬تشای افضایص واسایی است ٍ ووه هیوٌذ وِ تیطتش‬
‫‪ّdoc‬ای هشتثظ تا آى هَضَع سا تشگشداًین‪.‬تغَس هثال اگش ‪ scientists ،query‬تاضذ‪ ،‬تا استفادُ اص ‪ ،stemming‬هیتَاًین‬
‫ولوِی ‪ scientist‬سا ًیض جستجَ وٌین یا هثال تشای فؼلّای تیلاػذُ تا استفادُ اص ‪ lemmatization‬هیتَاًین صهاىّای‬
‫هختلف آى فؼل سا دس جولِ جستجَ وٌین‪ .‬اها دس ایي حالت هؼوَال ‪ precision‬واّص هییاتذ‪ .‬ایي اهش دس هَسد ولواتی هاًٌذ‬
‫‪ٍ scientists ٍ scientist‬اضح ًیست ٍ تاثیش صیادی تش سٍی ‪ً precision‬ذاسداها تشای ولوِای هاًٌذ ‪ٍ operate‬‬
‫‪1‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫‪ ...ٍ operator ٍoperation‬وِ توام هطتمات آى پشواستشد ّستٌذ‪ ،‬احتواال ‪ّ doc‬ای خیلی صیادی تشهیگشداًذ وِ خیلی اص‬
‫آًْا هشتثظ تا هَضَع ًیستٌذ ٍ دس ایي حالت ‪precision‬ون هیطَد‪.‬‬
‫د) استفادُ اص ‪ phrase indexing‬هؼوَال تاػث ون ضذى ‪ ٍ recall‬صیاد ضذى ‪ precision‬هیطَد‪ .‬دس ایي حالت هثال ٍلتی‬
‫ػثاست ‪ Stanford university‬سا تِ ػٌَاى ‪ٍ query‬اسد هیوٌین‪ّ document ،‬ایی وِ فمظ ضاهل ایي دٍ ولوِ تِ ّویي‬
‫تشتیة ٍ پطت سش ّن ّستٌذ سا تشهیگشداًذ ٍلی هوىي است ‪ّ doc‬ایی ٍجَد داضتِ تاضذ وِ ٍالؼا هشتثظ تا ایي ػثاست تاضذ‪،‬‬
‫اها ضاهل ایي دٍ ولوِ تِ ایي تشتیة ٍ پطت سش ّن ًثاضذ‪ .‬دس ایي حالت‪ ،‬احتواال تؼضی اص ‪ّdoc‬ای هشتثظ تا ایي ػثاست سا اص‬
‫دستدادین‪.‬اهاهؼوَال‪ precision‬فضایص هییاتذ‪ ،‬صیشا احتوال ایٌىِ دس ‪doc‬ی ایي دٍ ولوِ پطت سش ّن تاضذ ٍلی تا هَضَع‬
‫هشتثظ ًثاضذ ون است‪ .‬تٌاتشایي اوثش ‪ّdoc‬ایی وِ تشهیگشدًذ تا هَضَع هشتثظ ّستٌذ ٍ ‪ precision‬صیاد هیطَد‪ .‬هثال دس‬
‫هَسد ػثاساتی هاًٌذ ‪ ،operating system‬ون ضذى‪ recall‬چٌذاى ٍاضح ًیست صیشا ایي دٍ ولوِ دس ایي هؼٌا ّوَاسُ پطت‬
‫سش ّن ظاّش هیطًَذ ٍ ‪ doc‬ی وِ ایي دٍ ولوِ سا جذا اص یىذیگش داضتِ تاضذ‪ ،‬احتواال تا ایي هَضَع هشتثظ ًیست‪ .‬اها دس ایي‬
‫هَسد افضایص ‪ precision‬هطخع است صیشا هتيّایی وِ ضاهل ولوِ ‪ system ٍ operating‬تِ غَست جذا تاضٌذ تسیاس‬
‫صیاد ّستٌذ ٍ تٌاتشایي تسیاسی اص ‪ّdoc‬ایی وِ تشهیگشدد احتواال هؼٌی "‪ "operating system‬وِ هٌظَس واستش تَد سا ًذاسد‪.‬‬
‫تٌاتشایي هؼوَال ‪ّdoc‬ای هشتثظ تش هیگشددٍ ‪ّ precision‬ن دس ایي حالت صیاد هیضَد‪ .‬اها هثال دس هَسد ػثاستی هاًٌذ‬
‫"‪ "Stanford university‬هوىي است ایي دٍ ولوِ دس هتٌی پطت سش ّن تِ واس ًشٍد اها ّواى هؼٌی سا داضتِ تاضذ‪ .‬دس‬
‫ایي غَست واّص ‪ٍ recall‬اضح هیطَد‪.‬‬
‫پاسخ سوال ‪:2‬‬
‫الف)تشای پاسخ تِ ایي ‪ ،query‬الگَسیتن اٍلیِ تِ ایي غَست است وِ اتتذا ‪ posting list‬هشتَط تِ ‪ x‬سا پیذا وٌین ٍ سپس‬
‫‪ posting list‬هشتَط تِ ‪ Not y‬سا پیذا وٌین ٍ سپس ایي دٍ لیست سا تا ّن ‪ merge‬وٌین اها اگش تؼذاد ‪ّdoc‬ا دس‬
‫‪ collection‬صیاد تاضذ وِ هؼوَال ّن ّویٌغَس است‪ ،‬سایض لیست هشتَط تِ ‪ Not y‬هؼوَال اص ‪ order‬تؼذاد ‪ّdoc‬ای‬
‫‪ collection‬است وِ تاػث هیضَد هشتثِی ‪ّ merge‬ن تمشیثا ّویي تاضذ وِ الگَسیتن تْیٌِ ًیست‪ .‬تشای تْیٌِ ضذى‬
‫‪ً ،merge‬یاصی تِ پیذا وشدى ‪ posting list‬تشای ‪ً Not y‬یست تلىِ هیتَاى تِ جای آى هاًٌذ الگَسیتن ‪ merge‬ػادی تشای‬
‫‪ X and Y query‬سٍی دٍ ‪ posting list‬پیص سفت‪ .‬دس ٍالغ هیتَاًین تشای پاسخ تِ ایي ‪ ،query‬هغاتك صیش ػول وٌین‪:‬‬
‫‪‬‬
‫تشای ّش یه اص ایي ‪ّ posting list‬ا یه اضاسُ گش دس ًظش هیگیشین ٍ ایي اضاسُگش سا دس اتتذای ‪posting list‬‬
‫هشتَط تِ ‪ y ٍ x‬لشاس هیدّین‪.‬‬
‫‪‬‬
‫تا ٍلتی تِ اًتْای لیستّا ًشسیذین هشاحل صیش سا تىشاس وي‪.‬‬
‫‪‬‬
‫اگش ػذدی وِ اضاسُ گشی وِ سٍی ‪ posting list‬هشتَط تِ ‪ x‬است اص ػذدی وِ اضاسُ گش ‪ y posting list‬تِ آى‬
‫اضاسُ هیوٌذ وَچىتش تَد‪ ،‬ػذدی وِ ‪ x‬اضاسُ هیوٌذ سا تِ ‪ً list‬تیجِ اضافِ وي ٍ اضاسُگش هشتَط تِ لیست ‪ x‬سا‬
‫یه ٍاحذ جلَ تثش‬
‫‪2‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫‪‬‬
‫اگش ػذدی وِ اضاسُ گشی وِ سٍی ‪ posting list‬هشتَط تِ ‪ x‬است اص ػذدی وِ اضاسُ گش ‪ y posting list‬تِ آى‬
‫اضاسُ هیوٌذ تضسگتش تَد‪ ،‬ػذدی وِ ‪ x‬اضاسُ هیوٌذ سا تِ ‪ً list‬تیجِ اضافِ وي ٍ اضاسُگش هشتَط تِ لیست ‪ y‬سا یه‬
‫ٍاحذ جلَ تثش‬
‫‪‬‬
‫اگش ػذدی وِ اضاسُ گشی وِ سٍی ‪ posting list‬هشتَط تِ ‪ x‬است تا ػذدی وِ اضاسُ گش ‪ y posting list‬تِ آى‬
‫اضاسُ هیوٌذ تشاتش تَد‪ ،‬اضاسُگش هشتَط تِ لیستّای ‪ x ٍ y‬سا یه ٍاحذ جلَ تثش‪.‬‬
‫ّواًگًَِ وِ هطخع است هاًٌذ الگَسیتن ‪ merge ،x and y merge‬اص هشتثِی هجوَع ‪ posting list 2‬است صیشا ته‬
‫ته اػضای ایي ‪ 2‬تشسسی هیضًَذ ٍ ػول همایسِ ّن )‪ O(1‬است‪.‬‬
‫ب) خیش‪ .‬صیشا دس ایي حالت تشخالف لسوت الف‪ ،‬تشای ‪ OR‬تایذ حتوا ته ته اػضای ‪ّ list‬ا تشسسی ضَد ٍ تیي دٍ لیست‬
‫اجتواع گشفتِ ضَد‪ ،‬صیشا هثال ته ته اػضای ‪ Not y‬دس لیست ًتیجِ ّستٌذ ٍ الصم است تا لیست ‪ّ Not y‬ن پیوایص ضَد‬
‫وِ دس تاال گفتین وِ هؼوَال سایض تسیاس تیطتشی ًسثت تِ سایض خَد ‪ posting list‬داسد‪.‬‬
‫پاسخ سوال ‪:3‬‬
‫وذ ّواًٌذ سَدٍوذ غفحِی ‪ 37‬وتاب است‪ .‬تَجِ وٌیذ وِ دس ّش تاس اجشای حلمِ تیشًٍی‪ ،‬یه تاس همایسِ تیي دٍ ػذد غَست‬
‫هیگیشد‪.‬اگش ػذد اٍل وَچىتش تَد تا صهاًی وِ ّوچٌاى اٍلی وَجىتش است ‪ skip‬هیىٌذ‪ ،‬یؼٌی تشای اًجام ّش ‪ّ skip‬ن تایذ‬
‫یه همایسِ اًجام ضَد‪ .‬دس حالت تضسگتش تَدى اٍلی ّن تِ ّویي غَست است ٍ ‪ skip‬سٍی آسایِ دٍم غَست هیگیشد‪.‬‬
‫حالت تذٍى ‪ :skip‬دس ایي حالت تذٍى ‪ 19 ،skip‬همایسِ اًجام هیضَد ٍ دس حالت تا ‪ ،skip‬تا ‪(skip =4‬حالت اٍل) تؼذاد‬
‫همایسِّا تشاتش ‪ ٍ 18‬دس حالت ب ‪ ،‬تؼذاد همایسِّا تشاتش ‪ 22‬تاست‪ .‬ایي هطاّذات ًطاى هیدّذ وِ ّوَاسُ استفادُ اص ‪skip‬‬
‫‪ pointer‬تْتش ًیست ٍ هثال دس هَسد دٍم تؼذاد همایسِ ّا تیطتش ّن هیطَد ٍ اص آًجا وِ گام ‪ skip‬تضسي است ػوال فشق‬
‫چٌذاًی تا حالت تذٍى ‪ً skip‬ذاسد‪ .‬دس هَسد اٍلی ‪ skip‬اتفاق افتاد اها همایسِ ّا تا تَجِ تِ وَچه تَدى گام‪ ،‬تغییش چٌذاًی‬
‫ًذاضت‪ .‬دس هجوَع دس هَسد ‪ skip –pointer‬تیي همایسِّا ٍ ضاًس ‪ skip‬ضذى ‪ٍ tradeoff‬جَد داسد‪.‬‬
‫پاسخ سوال ‪:4‬‬
‫ّواًغَس وِ دس والس ّن تِ آى اضاسُ ضذ دٍ سٍش ولی دس پاسخ دّی تِ پشسواىّای ‪ٍ wildcard‬جَد داسد‪:‬‬
‫‪‬‬
‫سٍش ‪Permuterm indexes‬‬
‫‪‬‬
‫سٍش ‪k-gram indexes‬‬
‫‪3‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫دس ایٌجا تا تَجِ تِ ایٌىِ ‪ c*o*n ،query‬است‪ً ،‬ویتَاى اص ‪ k-gram‬استفادُ وشد‪ ،‬صیشا دس ‪k ،)k>=2(k-gram‬تایی ّای‬
‫پطت سشّن ولوِ سا دس دیىطٌشی پیذا هیوٌین ٍ تیي ولواتی وِ ایي ‪k‬تایی ّا دس آى تِ واس سفتِ اضتشان هیگیشین ٍ‬
‫‪ posting list‬هشتَط تِ آًْا سا پیذا هیوٌین ٍ تشهیگشداًین اها اص آًجا وِ ایي ولوِ ‪2‬تایی پطت ّن وِ دس آى * تِ واس ًشفتِ‬
‫تاضذ ًذاسد‪ ،‬تْتش است وِ اص سٍش اٍل استفادُ وٌین‪ .‬الثتِ دس غَستی وِ ‪ $‬دس اتتذا ٍ اًتْای ولوات دس ًظش تگیشین ٍ ‪-2‬تایی‬
‫ّا سا تا ‪ $‬دس ًظش تگیشین هیتَاى تِ ایي ‪ query‬تِ سٍش ‪ 2-gram‬پاسخ داد اها تشای ‪ً k>=3‬ویتَاى دس پاسخ تِ ایي‬
‫‪ query‬اص ایي سٍش استفادُ وشد‪.‬‬
‫دس سٍش ‪ Permuterm index‬اتتذا دس اتتذای ّش ولوِ ‪$‬دس ًظش هیگیشین ٍ سپس تشای توام ولوات هَجَد دس دیىطٌشی‪،‬‬
‫جایگطتّای آى سا ًیضتِ دیىطٌشی اضافِ هیوٌین ٍ ‪ pointer‬تِ ‪posting list‬آى سا تِ ‪ posting list‬ولوِ اٍلیِ اسجاع‬
‫هیدّین‪ .‬یؼٌی هثال تشای ولوِی ‪ clean‬وِ دس دیىطٌشی لشاس داسد‪ ،‬آًشا تِ غَست ‪ $clean‬دخیشُ هیوٌین ٍ ّوچٌیي‬
‫‪ clean$ ٍ lean$c ،ean$cl ،an$cle ،n$clea‬سا ّن تِ دیىطٌشی اضافِ هیوٌین تِ عَسی وِ ّوِی آًْا تِ ‪posting‬‬
‫‪ list‬هشتَط تِ ‪ $clean‬اضاسُ وٌذ‪ .‬تشای ّوِی ولوات هَجَد دس دیىطٌشی ّویي واس سا اًجام هیدّین‪ .‬حال هثال تشای‬
‫‪ query‬دادُ ضذُ‪ query ،‬تِ فشم ‪ $c*o*n‬دس هیآیذ وِ اتتذا آًشا آًمذس جایگطت هیذّین تا اًتْای ولوِ * تاضذ‪ ،‬یؼٌی دس‬
‫ایي ‪ query‬تِ فشم *‪ n$c*o‬دس هیآیذ‪ .‬حال *‪ *o‬سا تِ غَست یه * دس ًظش هیگیشین تا ‪ query‬تِ فشم *‪ n$c‬دس آیذ‪ .‬حال‬
‫ایي ػثاست سا دس دیىطٌشی جذیذی وِ تا جایگطتّای ولوات ٍ خَد ولوات ایجاد وشدین‪ ،‬جستجَ هیوٌین(‪ wild card‬دس‬
‫حالت ػادی‪ ،‬یؼٌی تا یه * ٍ استفادُ اص اهىاًات دادُ ساختاس دیىطٌشی)‪ .‬حال هجوَػِ ولوات ( ‪n$clea ٍ n$champio‬‬
‫ٍ ‪ )n$colum ٍ n$colo‬تشهیگشدد‪ .‬حال تش سٍی ایي هجوَػِی تذست آهذُ‪ post process ،‬سا اًجام هیذّین وِ ولوات‬
‫تِ فشم *‪ n$c*o‬تِ دست آیذ‪ ،‬یؼٌی تؼذ اص ‪ n$c‬حتوا حذالل یه واساوتش ‪ o‬داضتِ تاضذ‪ .‬تؼذ اص ایي واس هجوَػِ ولوات‬
‫ولوات ( ‪ )n$colum ٍ n$colo ٍ n$champio‬تشهیگشدد‪ .‬حال ‪ posting list‬هشتَط تِ ّش یه سا پیذا وشدُ ٍ اجتواع‬
‫آًشا تِ ػٌَاى جَاب تشهیگشداًین‪ .‬یؼٌی پاسخ ‪ c*o*n query‬تشاتش اجتواع ‪ّ posting list‬ای ولوات ‪champion, colon‬‬
‫ٍ ‪ column‬است‪.‬‬
‫ب) چٌاًچِ ‪ $‬دس اًتْا ٍ اتتذای ولوات دس ًظش ًگیشین‪ ،‬تایذ تشای ّش یه اص ولوات دس دیىطٌشی‪ ،‬هجوَػِ ‪ 2‬تایی ّای پطت‬
‫سش ّن سا تیاین ٍ آى سا ‪ A‬تٌاهین‪ .‬سپس تشای ‪ query‬دادُ ضذُ ّن هجوَػِی ایي ‪ 2‬تایی ّا سا پیذا وٌین ٍ آى سا ‪ B‬تٌاهین‪.‬‬
‫سپس تیي ایي دٍ هجوَػِ‪ Jaccard Coefficient ،‬سا تذست آٍسین‪.‬‬
‫} ‪Query : colmn : { co,ol,lm,mn‬‬
‫‪jaccard = 0‬‬
‫}‪Beautiful: {be , ea , au, ut, ti, if, fu, ul‬‬
‫‪jaccard = 0‬‬
‫}‪Champion: {ch , ha, am, mp, pi, io, on‬‬
‫‪jaccard = 0‬‬
‫}‪Clean:{cl, le, ea,an‬‬
‫‪jaccard = 2/6 = 0.33‬‬
‫}‪Colon: {co, ol,lo,on‬‬
‫‪jaccard = 2/6 = 0.33‬‬
‫}‪Color : {co,ol,lo,or‬‬
‫‪jaccard = 2/7 = 0.28‬‬
‫}‪Colour: {co,ol,lo,ou,ur‬‬
‫‪jaccard = 3/6 = 0.5‬‬
‫}‪Column: {co, ol, lu, um, mn‬‬
‫‪jaccard = 0‬‬
‫}‪Demo : {de, em, mo‬‬
‫‪4‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫‪jaccard = 1/7 = 0.14‬‬
‫}‪Dolor = {do, ol,lo,or‬‬
‫هطاّذُ هیضَد وِ ولوِی ‪ Column‬تیطتشیي ضثاّت سا تِ ایي ‪ query‬داسد وِ اص ًظش هؼیاس ‪ jaccard‬تشاتش ‪ 0.5‬است ٍ تشای‬
‫ّیچ ولوِای‪ ،‬ایي هؼیاس تیطتش اص ‪ 2.5‬تذست ًیاهذ‪.‬‬
‫پاسخ سوال ‪:5‬‬
‫الف) دس حالت ‪ 22 ،fixed width‬تایت تشای ّش ولوِ دس ًظش گشفتِ هیطَد یؼٌی سایض ول دیىطٌشی تا دس ًظش گشفتي اًذاسُ‬
‫‪ 4( document frequency‬تایت)ٍ سایض اضاسُگش تِ ‪ posting list‬ولوِ(‪ 4‬تایت)‪ ،‬تشاتش ‪28 * 792619 = 21.16MB‬‬
‫هیضَد‪.‬‬
‫دس حالت ‪ ،dictionary as a string‬تا تَجِ تِ ایٌىِ تؼذاد ولوات تشاتش ‪ 792619‬است ٍ ّش ولوِ تِ عَس هتَسظ دس ایي‬
‫‪ 7 ،collection‬تایت است‪ ،‬سایض ‪ string‬ولی تشاتش ‪ 7* 792619‬است وِ دس هثٌای ‪ 2‬تمشیثا تا ‪ 22.4‬تیت یا ّواى ‪ 3‬تایت‬
‫وذ هیضَد‪ .‬تٌاتشایي تشای ّش ولوِ‪ 7 ،‬تایت تِ عَس هتَسظ اختػاظ تِ خَد ولوِ داسد‪ 4 ،‬تایت اضاسُگش تِ ‪ posting list‬آى‬
‫است ٍ ‪ 4‬تایت ّن ‪ 3 ٍ doc frequency‬تایت ّن تشای اضاسُ تِ اتتذای ولوِ الصم است‪ .‬تٌاتشایي سایض دیىطٌشی تشاتش *‪18‬‬
‫‪ 792619‬یؼٌی ‪ 13.6MB‬است‪.‬‬
‫تا استفادُ اص ‪ ،k=4 ٍ blocking‬تشای ّش ‪ 4 block‬تایی اص ولوات‪ ،‬تشای ‪ 3‬ولوِ احتیاج تِ اضاسُ تِ اتتذای ولوِ ًذاسین ٍ‬
‫تٌاتشایي ‪ 9‬تایت اص ایي ًظش دس ّش تالن غشفِجَیی وشدین اها تِ جای آى تشای ّش ولوِ سایض دس ًظش گشفتین وِ ّش وذام ‪1‬‬
‫تایت است‪ ،‬تٌاتشایي دس ّش تالن ‪ 4‬تایت سا تشای سایض هػشف وشدین ٍ دس ول ‪ 5‬تایت تِ اصای ّش ‪ block‬غشفِجَیی وشدین‪.‬‬
‫تٌاتشایي تا تؼذاد ولوات ‪ 198155 ،792619‬تالن داسین ٍ دس ول ‪ 198155 * 5 = 990775 B = 0.94 MB‬تِ حالت‬
‫حالت لثل غشفِ جَیی وشدین ٍ یؼٌی سایض دیىطٌشی تمشیثا ‪ 12.7MB‬هی ضَد‪.‬‬
‫ب)‬
‫= ‪Zipf’ s law‬‬
‫وِ دس آى‪ i ،‬سًه ّش ولوِ دس حالتی است وِ آًْا سا تِ غَست ًضٍلی ‪ّcollection frequecy‬ا هشتة وشدُ تاضین ٍ ‪ c‬ثاتت‬
‫است‪.‬هیتَاى ‪ c‬سا تگًَِای تؼشیف وشد وِ وسش تشاتش ‪ً collection frequency‬سثی آى ولوِ تاضذ(ًسثت تِ تؼذاد ‪token‬‬
‫ّا دس هجوَػِ) تٌاتشایي هجوَع ایي وسشّا تشای ّوِی ولوات تایذ تشاتش ‪ 1‬تاضذ‪.‬‬
‫∑‬
‫∑‬
‫‪5‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫تٌاتشایي اص تیي ّش ‪ 13.58‬ولوِ دس ‪ ،doc‬تمشیثا یه ولوِ تا سًه ‪ 1‬تِ واس سفتِ ٍ ‪ ...‬تٌاتشایي ٍلتی تِ عَس هتَسظ دس ّش ‪،doc‬‬
‫‪ 545‬ولوِ داضتِ تاضین ولوِ تا سًه ‪،i‬‬
‫تاس تِ واس سفتِ‪ ،‬یؼٌی تمشیثا‬
‫تاس‪ .‬یؼٌی ولوات تا سًه ‪1‬تا ‪ 42‬دس ّش‬
‫‪ doc‬تِ واس سفتِ‪ ،‬ولوات تا سًه ‪42‬تا ‪ ،82‬دس ّش ‪ doc‬تِ عَس هتَسظ ‪ 2.5‬تاس تِ واس سفتِ یؼٌی اص ّش ‪ doc 2‬دس یىی تِ واس‬
‫سفتِ ٍ ‪ posting list‬آى(تِ غَست ‪ gap‬تیي اػذاد) …‪ 2,2,2‬است وِ ‪ N/2‬تاس ‪ 2‬سا وذ هیوٌذ وِ ‪ N‬دس آى تؼذاد ‪ّdoc‬ا‬
‫دس ‪ collection‬است‪ .‬ولوات تا سًه ‪ 82‬تا ‪ّ 122‬ن تِ ّویي غَست ػذد ‪ 3‬سا ‪ N/3‬تاس وذ هیوٌٌذ ٍ ‪...‬‬
‫اگش اص وذ گاها تشای وذ وشدى فاغلِّا استفادُ وٌین‪ ،‬تشای ّش ‪ 42 block‬تایی(تالن ‪j‬ام) احتیاج تِ‬
‫)‬
‫⌋‬
‫⌊ (‬
‫تیت داسین‪ .‬تٌاتشایي تشای ول ‪ّ posting list‬ا‪ ،‬جوغ ایي همذاس است تا‪:‬‬
‫∑‬
‫پاسخ سوال ‪:6‬‬
‫اص آًجا وِ ایي اػذاد‪ ،‬ضواسُ ‪ّdoc‬ا ّستٌذ‪ ،‬تشای فطشدُ ساصی تایذ اتتذا آى سا تِ فاغلِ تیي آًْا سا تذست آٍسین وِ تِ اػذاد‬
‫صیش تثذیل هیضَد‪:‬‬
‫‪7, 10,33, 131‬‬
‫الف) اگش ّش یه اص اػذاد سا تِ غَست ‪ 32‬تیتی رخیشُ وٌین وافی است ًوای تایٌشی ایي اػذاد سا دس ‪ 32‬تیت پیذا وٌین ٍ تشای‬
‫‪ 4‬ػذد‪ ،‬ایي همذاس تشاتش ‪ 16‬تایت هیطَد‪.‬‬
‫ب)تشای ایي واس ّش یه اص اػذاد سا تِ غَست تایٌشی تثذیل هیىٌین ٍ ‪ 7‬تیت ‪ 7‬تیت جذا هیوٌین ٍ یه تیت ّن تشای ایٌىِ‬
‫ًطاى دّین آخشیي تایت ػذد است یا خیش احتیاج داسین‪:‬‬
‫‪7: 10000111‬‬
‫‪10:10001010‬‬
‫‪33: 10100001‬‬
‫‪131: 00000001 10000011‬‬
‫تٌاتشایي تا ‪ 5‬تایت‪ ،‬ایي اػذاد سا رخیشُ وشدین‪.‬‬
‫ج)‬
‫‪7: 11011‬‬
‫‪6‬‬
‫تاصیاتی پیطشفتِی اعالػات – پاسخ توشیي سشی اٍل‬
‫‪10: 1110010‬‬
‫‪33:11111000001‬‬
‫‪131: 111111100000011‬‬
‫تٌاتشایي دس ایي حالت تِ ‪ 38‬تیت(یؼٌی ‪ 4.75‬یا ّواى ‪ 5‬تایت) تشای رخیشُ ساصی احتیاج داسین‪.‬‬
‫د)‬
‫‪7: 10 0 11‬‬
‫‪10 : 10 1 010‬‬
‫‪33:110 01 00001‬‬
‫‪131: 110 11 0000011‬‬
‫دس ایي حالت تِ ‪ 31‬تیت تشای وذ وشدى ٍ رخیشُ وشدى احتیاج داسین‪.‬‬
‫‪7‬‬