HW1.pdf

‫ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟ‬
‫ﺑﺎزﯾﺎﺑﯽ ﭘﯿﺸﺮﻓﺘﻪی اﻃﻼﻋﺎت‬
‫داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ‬
‫‪Modern Information Retrieval‬‬
‫ﺗﻤﺮﯾﻦ ﺳﺮی اول‬
‫ﺗﻮﺿﯿﺤﺎت‬
‫ﻟﻄﻔﺎ ﺑﻪ ﻣﻮارد زﯾﺮ در ﺗﻬﯿﻪ و ﺗﺤﻮﯾﻞ ﺗﻤﺮﯾﻦ ﺗﻮﺟﻪ ﻓﺮﻣﺎﯾﯿﺪ‪.‬‬
‫• ﺗﻤﺮﯾﻦﻫﺎ را ﯾﺎ ﺑﻪ ﺻﻮرت دﺳﺘ در ﮐﻼس ﺗﺤﻮﯾﻞ دﻫﯿﺪ و ﯾﺎ ﺑﻪ آدرس ‪ [email protected]‬اﯾﻤﯿﻞ ﮐﻨﯿﺪ‪.‬‬
‫• ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﻤﺮﯾﻦ ﺗﺎ ﺗﺎرﯾﺦ ﺳﻪ ﺷﻨﺒﻪ ‪ ١۴‬آﺑﺎن ﻣ ﺑﺎﺷﺪ‪.‬‬
‫• در ﺻﻮرت ﻣﺸﺎﻫﺪهی ﻫﺮﮔﻮﻧﻪ ﺗﻘﻠﺐ ﺑﻪ ﻫﺮ دو داﻧﺸﺠﻮ در اﯾﻦ ﺗﻤﺮﯾﻦ ﻧﻤﺮهی ﺻﻔﺮ ﺗﻌﻠﻖ ﻣ ﮔﯿﺮد‪.‬‬
‫‪١‬‬
‫ﺗﺎﺛﯿﺮ ﻫﺮ ﮐﺪام از ﮔﺰﯾﻨﻪﻫﺎی زﯾﺮ ﺑﺮ ‪ precision‬و ‪ recall‬را ﺑﺮرﺳ ﮐﻨﯿﺪ‪.‬‬
‫• اﺳﺘﻔﺎده از ‪ stop lists‬در ‪indexing‬‬
‫• اﺳﺘﻔﺎده از اﻟ ﻮرﯾﺘﻢﻫﺎی ‪stemming‬‬
‫• اﺳﺘﻔﺎده از ‪phrase indexing‬‬
‫• اﺳﺘﻔﺎده از ‪query expansion‬‬
‫‪٢‬‬
‫ﯾ‬
‫دﯾ ﺸﻨﺮی ﺑﺎ ﮐﻠﻤﺎت زﯾﺮ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪.‬‬
‫‪boring, border, broad, board, brown, broach, breed, sordid, chord‬‬
‫‪ .١‬از ﻣﯿﺎن اﻟ ﻮرﯾﺘﻢ ﻫﺎی ﭘﺎﺳ ﺑﻪ ‪ wildcard‬ﺑﻬﺘﺮﯾﻦ روش ﭘﺎﺳ ‪ b*o*d‬ﮐﺪام اﺳﺖ و ﭘﺲ از ﭼﻪ ﻣﺮاﺣﻠ ﺑﻪ ﭘﺎﺳ ﻣ رﺳﺪ؟‬
‫‪ .٢‬ﺑﺎ اﺳﺘﻔﺎده از ‪ bigram index‬و ﻣﻌﯿﺎر ‪ jaccard‬ﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ ﮐﺪام ﮐﻠﻤﺎت ﺷﺒﺎﻫﺘﺸﺎن ﺑﺎ ﮐﻠﻤﻪ ‪ bord‬ﺑﯿﺸﺘﺮ از ‪ ٠.۵‬اﺳﺖ‪.‬‬
‫‪١‬‬
‫‪٣‬‬
‫ﻣﺠﻤﻮﻋﻪای از اﺳﻨﺎد ﺑﺎ ﻣﺸﺨﺼﺎت آﻣﺎری زﯾﺮ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪.‬‬
‫‪value‬‬
‫‪statistic‬‬
‫‪800000‬‬
‫‪200‬‬
‫‪symbol‬‬
‫‪N‬‬
‫‪documents‬‬
‫‪average number of tokens in a document‬‬
‫‪400000‬‬
‫‪L ave‬‬
‫‪M‬‬
‫‪terms‬‬
‫ﻣ ﺧﻮاﻫﯿﻢ ﺣﺠﻢ ﺗﻘﺮﯾﺒﯽ ‪ posting list‬ﻫﺎی ﺳﺎﺧﺘﻪ ﺷﺪه از ﻣﺠﻤﻮﻋﻪ را ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از ‪ γ‬ﮐﺪ ﻓﺸﺮده ﺷﺪه اﻧﺪ ﺑﻪ دﺳﺖ آورﯾﻢ‪.‬‬
‫ﺑﺮای ﺑﺪﺳﺖ آوردن اﯾﻦ ﻣﻘﺪار از ﻓﺮض ﻫﺎی زﯾﺮ اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪.‬‬
‫• ﻓﺮض ﮐﻨﯿﺪ ﺗﻮزﯾﻊ ﮐﻠﻤﺎت داﺧﻞ ﯾ‬
‫ﺳﻨﺪ ﻧﯿﺰ ﻣﺎﻧﻨﺪ ﮐﻞ ﻣﺠﻤﻮﻋﻪ از ﻗﺎﻧﻮن ‪ zipf‬ﺗﺒﻌﯿﺖ ﻣ ﮐﻨﺪ‪.‬‬
‫• ﺑﺮای ﻫﺮ ﮐﻠﻤﻪ ﺧﺎص ‪ gap‬ﺑﯿﻦ اﺳﻨﺎدی ﮐﻪ اﯾﻦ ﮐﻠﻤﻪ را ﺷﺎﻣﻞ ﻫﺴﺘﻨﺪ ﺛﺎﺑﺖ اﺳﺖ‪ .‬ﯾﻌﻨ ﺑﺮای ﯾ‬
‫ﮐﻠﻤﻪی ﺧﺎص‬
‫‪N‬‬
‫‪i‬‬
‫‪gap‬‬
‫‪ i‬ﺗﺎﯾﯽ دارﯾﻢ‪.‬‬
‫‪۴‬‬
‫‪ .١‬ﺑﺎ ﺗﻐﯿﯿﺮ ﭘﺎﯾﻪی ﻟ ﺎرﯾﺘﻢ در وزندﻫ ‪ t f .id f‬و ﻧﺘﯿﺠﻪی آن در رﺗﺒﻪﺑﻨﺪی ﻣﺴﺘﻨﺪات ﭼﻪ ﺗﻐﯿﯿﺮاﺗ ﺑﻪ وﺟﻮد ﻣ آﯾﺪ‪ .‬ﺑﺤﺚ‬
‫ﮐﻨﯿﺪ‪.‬‬
‫‪ .٢‬اﻃﻼﻋﺎت زﯾﺮ راﺟ ﺑﻪ ﺗﮑﺮار ﺑﻌﻀ از ﮐﻠﻤﺎت در ﯾ‬
‫ﻣﺠﻤﻮﻋﻪ از اﺳﻨﺎد ﺷﺎﻣﻞ ‪ ١٠٠٠٠٠‬ﺳﻨﺪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪.‬‬
‫ﮐﻠﻤﻪ‬
‫ﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ ﮐﻠﻤﻪ‬
‫ﮔﻼﺑﯽ‬
‫‪١٠٠‬‬
‫ﺗﻤﺮﯾﻦ‬
‫‪١۵٠٠‬‬
‫ﺑﻬﺘﺮﯾﻦ‬
‫‪٢٠٠٠٠‬‬
‫از ﻃﺮﻓ راﺟ ﺑﻪ ﺳﻪ ﺳﻨﺪ زﯾﺮ و ﺗﮑﺮار ﮐﻠﻤﺎت در آنﻫﺎ اﻃﻼﻋﺎت زﯾﺮ در دﺳﺘﺮس اﺳﺖ ‪:‬‬
‫ﮐﻠﻤﻪ‬
‫‪d1‬‬
‫‪d2‬‬
‫‪d3‬‬
‫ﮔﻼﺑﯽ‬
‫‪١٢‬‬
‫‪٠‬‬
‫‪١١‬‬
‫ﺗﻤﺮﯾﻦ‬
‫‪١۵‬‬
‫‪١٠‬‬
‫‪٠‬‬
‫ﺑﻬﺘﺮﯾﻦ‬
‫‪٣٠‬‬
‫‪۴۵‬‬
‫‪٣۵‬‬
‫ﺣﺎل ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ روش ‪ t f − id f‬ﺷﺒﺎﻫﺖ ﭘﺮﺳﻤﺎن ”ﺗﻤﺮﯾﻦ ﮔﻼﺑﯽ” ﺑﻪ ﻫﺮ ﯾ‬
‫ﺑﺪﺳﺖ آوردن ﻃﻮل ﻫﺮ ﺳﻨﺪ ﻓﻘﻂ اﯾﻦ ‪ ۴‬ﮐﻠﻤﻪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪(.‬‬
‫‪٢‬‬
‫از اﯾﻦ ‪ ٣‬ﺳﻨﺪ را ﺑﺪﺳﺖ آورﯾﺪ‪ ).‬ﺑﺮای‬
‫‪۵‬‬
‫اﻟ ﻮرﯾﺘﻢﻫﺎی ﻣﺮﺑﻮط ﺑﻪ ﺳﺎﺧﺖ و اﺷﺘﺮاک ‪ postional index‬ﻫﺎ در ﺷﺮاﯾﻄ ﻣ ﺗﻮاﻧﻨﺪ ﺑﻪ ﭘﺮﺳﻤﺎنﻫﺎی ‪ ١ /k‬ﭘﺎﺳ دﻫﻨﺪ‪.‬‬
‫‪ .١‬اﻟ ﻮرﯾﺘﻤ اراﺋﻪ دﻫﯿﺪ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از دو ‪ posting list‬ﻣﺮﺑﻮط ﺑﻪ دو ﮐﻠﻤﻪ ﻣﻮارد ‪ /k‬را ﭘﯿﺪا ﮐﻨﺪ‪ .‬اﯾﻦ اﻟ ﻮرﯾﺘﻢ را از‬
‫ﻟﺤﺎظ زﻣﺎﻧ ﺑﺮ ﺣﺴﺐ ﻃﻮل دو ﻟﯿﺴﺖ و ‪ k‬ﺗﺤﻠﯿﻞ ﮐﻨﯿﺪ‪.‬‬
‫‪ .٢‬ﺑﺮای ‪ postional index‬ﺳﺎﺧﺘﺎری اراﺋﻪ دﻫﯿﺪ ﮐﻪ از ﭘﺮﺳﻤﺎن ﻫﺎی ‪ ٢ /s‬ﭘﺸﺘﯿﺒﺎﻧ ﮐﻨﺪ‪.‬‬
‫‪۶‬‬
‫ﻣﺠﻤﻮﻋﻪی اﺳﻨﺎد ‪ c‬و ﻋﺒﺎرت ‪ q‬را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﻣ داﻧﯿﻢ در ﻣﺠﻤﻮﻋﻪی ‪ ۴ c‬ﺳﻨﺪ ﺑﺎ ‪ q‬ﻣﺮﺗﺒﻂ ﻣ ﺑﺎﺷﻨﺪ‪ .‬دو ﺳﯿﺴﺘﻢ ﺑﺎزﯾﺎﺑﯽ‬
‫روی اﯾﻦ ﻣﺠﻤﻮﻋﻪ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ ١٠ .‬ﻧﺘﯿﺠﻪی اول ﺟﺴﺘﺠﻮی ‪ q‬در اﯾﻦ دو ﺳﯿﺴﺘﻢ را ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﺪ‪ R ).‬ﺑﻪ ﻣﻌﻨ ﻣﺮﺗﺒﻂ و‬
‫‪ N‬ﺑﻪ ﻣﻌﻨ ﻏﯿﺮ ﻣﺮﺗﺒﻂ اﺳﺖ‪(.‬‬
‫‪system1 : R N R N N N N N R R‬‬
‫‪system2 : N R N N R R R N N N‬‬
‫‪ .١‬ﻣﻌﯿﺎر ‪ MAP‬را ﺑﺮای اﯾﻦ دو ﺳﯿﺴﺘﻢ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﺘﯿﺠﻪی ﺟﺴﺘﺠﻮ ﺑﺪﺳﺖ آورﯾﺪ‪.‬‬
‫‪ .٢‬ﻣﻌﯿﺎر ‪ R-precision‬را ﺑﺮای دو ﺳﯿﺴﺘﻢ ﺑﺪﺳﺖ آورﯾﺪ‪.‬‬
‫‪ .٣‬اﯾﺎ ﻧﺘﯿﺠﻪ ﻣﻘﺎﯾﺴﻪی اﯾﻦ دو ﺳﯿﺴﺘﻢ ﺑﺎ اﯾﻦ دو ﻣﻌﯿﺎر ﯾ ﺴﺎن اﺳﺖ ؟ ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮی دﻫﯿﺪ‪.‬‬
‫‪٧‬‬
‫‪ .١‬ﭼﺮا در اﻟ ﻮرﯾﺘﻢ ﻣﺮﺑﻮط ﺑﻪ ﺑﺎزﺧﻮرد ارﺗﺒﺎط ﻣﻘﺪار ‪ γ‬را ﺑﻪ ﻧﺴﺒﺖ ‪ α‬و ‪ β‬ﮐﻤﺘﺮ ﻗﺮار ﻣ دﻫﻨﺪ؟‬
‫‪ .٢‬ﻓﺮض ﮐﻨﯿﺪ در ﯾ‬
‫ﺳﯿﺴﺘﻢ ﺟﺴﺘﺠﻮ ﮐﺎرﺑﺮ ﭘﺮﺳﻤﺎن ”ﺗﻤﺮﯾﻦ ﮔﻼﺑﯽ درس ﮔﻼﺑﯽ اﻣﺘﺤﺎن ﺳﺨﺖ” را وارد ﻣ ﮐﻨﺪ‪ .‬ﺑﺎ‬
‫ﻣﺸﺎﻫﺪهی ﻧﺘﺎﯾﺞ ﮐﺎرﺑﺮ ﺳﻨﺪ ‪ d1‬را ﺑﺎ ﻣﺘﻦ ” ﺳﯿﺴﺘﻢ ﮔﻼﺑﯽ در درس ﺑﺎزﯾﺎﺑﯽ” را ﻣﺮﺗﺒﻂ و ﺳﻨﺪ ‪ d2‬را ﺑﺎ ﻣﺘﻦ ”ﻣﯿﻮه‬
‫ﮔﻼﺑﯽ” را ﻧﺎ ﻣﺮﺗﺒﻂ ارزﯾﺎﺑﯽ ﻣ ﮐﻨﺪ‪ .‬ﻓﺮض ﮐﻨﯿﺪ ﻣﺪﻟ ﺑﺮداری دارﯾﻢ ﮐﻪ در ﻣﻮﻟﻔﻪﻫﺎی آن ﺗﻌﺪاد ﺗﮑﺮار ﮐﻠﻤﻪ را در ﻧﻈﺮ‬
‫ﻣ ﮔﯿﺮﯾﻢ و از ‪ id f‬و ﻧﺮﻣﺎﻻﯾﺰ ﻃﻮل ﻧﯿﺰ اﺳﺘﻔﺎده ﻧﻤ ﮐﻨﯿﻢ‪ .‬ﺣﺎل ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﻣﻔﺮوﺿﺎت و روش ‪ rocchio‬و ﻣﻘﺎدﯾﺮ‬
‫‪ α = 1, β = 0.75, γ = 0.25‬ﺑﺮدار ﻣﺘﻨﺎﻇﺮ ﺑﺎ ﭘﺮﺳﻤﺎن ﺑﻌﺪ از ﺑﺎزﺧﻮرد را ﺑﺪﺳﺖ آورﯾﺪ‪).‬ﺗﺮﺗﯿﺐ ﮐﻠﻤﺎت در ﻣﻮﻟﻔﻪﻫﺎی‬
‫ﺑﺮدار را اﻟﻔﺒﺎﯾﯽ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪(.‬‬
‫‪١‬دو ﮐﻠﻤﻪ ﮐﻪ در ﻓﺎﺻﻠﻪی ﺣﺪاﮐﺜﺮ ‪ k‬از ﻫﻢ ﻗﺮار دارﻧﺪ‪.‬‬
‫‪٢‬دو ﮐﻠﻤﻪ در ﯾ‬
‫ﺟﻤﻠﻪ ﻗﺮار ﺑ ﯿﺮﻧﺪ‪.‬‬
‫‪٣‬‬