ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟ ﺑﺎزﯾﺎﺑﯽ ﭘﯿﺸﺮﻓﺘﻪی اﻃﻼﻋﺎت داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ Modern Information Retrieval ﺗﻤﺮﯾﻦ ﺳﺮی اول ﺗﻮﺿﯿﺤﺎت ﻟﻄﻔﺎ ﺑﻪ ﻣﻮارد زﯾﺮ در ﺗﻬﯿﻪ و ﺗﺤﻮﯾﻞ ﺗﻤﺮﯾﻦ ﺗﻮﺟﻪ ﻓﺮﻣﺎﯾﯿﺪ. • ﺗﻤﺮﯾﻦﻫﺎ را ﯾﺎ ﺑﻪ ﺻﻮرت دﺳﺘ در ﮐﻼس ﺗﺤﻮﯾﻞ دﻫﯿﺪ و ﯾﺎ ﺑﻪ آدرس [email protected]اﯾﻤﯿﻞ ﮐﻨﯿﺪ. • ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﻤﺮﯾﻦ ﺗﺎ ﺗﺎرﯾﺦ ﺳﻪ ﺷﻨﺒﻪ ١۴آﺑﺎن ﻣ ﺑﺎﺷﺪ. • در ﺻﻮرت ﻣﺸﺎﻫﺪهی ﻫﺮﮔﻮﻧﻪ ﺗﻘﻠﺐ ﺑﻪ ﻫﺮ دو داﻧﺸﺠﻮ در اﯾﻦ ﺗﻤﺮﯾﻦ ﻧﻤﺮهی ﺻﻔﺮ ﺗﻌﻠﻖ ﻣ ﮔﯿﺮد. ١ ﺗﺎﺛﯿﺮ ﻫﺮ ﮐﺪام از ﮔﺰﯾﻨﻪﻫﺎی زﯾﺮ ﺑﺮ precisionو recallرا ﺑﺮرﺳ ﮐﻨﯿﺪ. • اﺳﺘﻔﺎده از stop listsدر indexing • اﺳﺘﻔﺎده از اﻟ ﻮرﯾﺘﻢﻫﺎی stemming • اﺳﺘﻔﺎده از phrase indexing • اﺳﺘﻔﺎده از query expansion ٢ ﯾ دﯾ ﺸﻨﺮی ﺑﺎ ﮐﻠﻤﺎت زﯾﺮ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ. boring, border, broad, board, brown, broach, breed, sordid, chord .١از ﻣﯿﺎن اﻟ ﻮرﯾﺘﻢ ﻫﺎی ﭘﺎﺳ ﺑﻪ wildcardﺑﻬﺘﺮﯾﻦ روش ﭘﺎﺳ b*o*dﮐﺪام اﺳﺖ و ﭘﺲ از ﭼﻪ ﻣﺮاﺣﻠ ﺑﻪ ﭘﺎﺳ ﻣ رﺳﺪ؟ .٢ﺑﺎ اﺳﺘﻔﺎده از bigram indexو ﻣﻌﯿﺎر jaccardﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ ﮐﺪام ﮐﻠﻤﺎت ﺷﺒﺎﻫﺘﺸﺎن ﺑﺎ ﮐﻠﻤﻪ bordﺑﯿﺸﺘﺮ از ٠.۵اﺳﺖ. ١ ٣ ﻣﺠﻤﻮﻋﻪای از اﺳﻨﺎد ﺑﺎ ﻣﺸﺨﺼﺎت آﻣﺎری زﯾﺮ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ. value statistic 800000 200 symbol N documents average number of tokens in a document 400000 L ave M terms ﻣ ﺧﻮاﻫﯿﻢ ﺣﺠﻢ ﺗﻘﺮﯾﺒﯽ posting listﻫﺎی ﺳﺎﺧﺘﻪ ﺷﺪه از ﻣﺠﻤﻮﻋﻪ را ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از γﮐﺪ ﻓﺸﺮده ﺷﺪه اﻧﺪ ﺑﻪ دﺳﺖ آورﯾﻢ. ﺑﺮای ﺑﺪﺳﺖ آوردن اﯾﻦ ﻣﻘﺪار از ﻓﺮض ﻫﺎی زﯾﺮ اﺳﺘﻔﺎده ﮐﻨﯿﺪ. • ﻓﺮض ﮐﻨﯿﺪ ﺗﻮزﯾﻊ ﮐﻠﻤﺎت داﺧﻞ ﯾ ﺳﻨﺪ ﻧﯿﺰ ﻣﺎﻧﻨﺪ ﮐﻞ ﻣﺠﻤﻮﻋﻪ از ﻗﺎﻧﻮن zipfﺗﺒﻌﯿﺖ ﻣ ﮐﻨﺪ. • ﺑﺮای ﻫﺮ ﮐﻠﻤﻪ ﺧﺎص gapﺑﯿﻦ اﺳﻨﺎدی ﮐﻪ اﯾﻦ ﮐﻠﻤﻪ را ﺷﺎﻣﻞ ﻫﺴﺘﻨﺪ ﺛﺎﺑﺖ اﺳﺖ .ﯾﻌﻨ ﺑﺮای ﯾ ﮐﻠﻤﻪی ﺧﺎص N i gap iﺗﺎﯾﯽ دارﯾﻢ. ۴ .١ﺑﺎ ﺗﻐﯿﯿﺮ ﭘﺎﯾﻪی ﻟ ﺎرﯾﺘﻢ در وزندﻫ t f .id fو ﻧﺘﯿﺠﻪی آن در رﺗﺒﻪﺑﻨﺪی ﻣﺴﺘﻨﺪات ﭼﻪ ﺗﻐﯿﯿﺮاﺗ ﺑﻪ وﺟﻮد ﻣ آﯾﺪ .ﺑﺤﺚ ﮐﻨﯿﺪ. .٢اﻃﻼﻋﺎت زﯾﺮ راﺟ ﺑﻪ ﺗﮑﺮار ﺑﻌﻀ از ﮐﻠﻤﺎت در ﯾ ﻣﺠﻤﻮﻋﻪ از اﺳﻨﺎد ﺷﺎﻣﻞ ١٠٠٠٠٠ﺳﻨﺪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ. ﮐﻠﻤﻪ ﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ ﮐﻠﻤﻪ ﮔﻼﺑﯽ ١٠٠ ﺗﻤﺮﯾﻦ ١۵٠٠ ﺑﻬﺘﺮﯾﻦ ٢٠٠٠٠ از ﻃﺮﻓ راﺟ ﺑﻪ ﺳﻪ ﺳﻨﺪ زﯾﺮ و ﺗﮑﺮار ﮐﻠﻤﺎت در آنﻫﺎ اﻃﻼﻋﺎت زﯾﺮ در دﺳﺘﺮس اﺳﺖ : ﮐﻠﻤﻪ d1 d2 d3 ﮔﻼﺑﯽ ١٢ ٠ ١١ ﺗﻤﺮﯾﻦ ١۵ ١٠ ٠ ﺑﻬﺘﺮﯾﻦ ٣٠ ۴۵ ٣۵ ﺣﺎل ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ روش t f − id fﺷﺒﺎﻫﺖ ﭘﺮﺳﻤﺎن ”ﺗﻤﺮﯾﻦ ﮔﻼﺑﯽ” ﺑﻪ ﻫﺮ ﯾ ﺑﺪﺳﺖ آوردن ﻃﻮل ﻫﺮ ﺳﻨﺪ ﻓﻘﻂ اﯾﻦ ۴ﮐﻠﻤﻪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ(. ٢ از اﯾﻦ ٣ﺳﻨﺪ را ﺑﺪﺳﺖ آورﯾﺪ ).ﺑﺮای ۵ اﻟ ﻮرﯾﺘﻢﻫﺎی ﻣﺮﺑﻮط ﺑﻪ ﺳﺎﺧﺖ و اﺷﺘﺮاک postional indexﻫﺎ در ﺷﺮاﯾﻄ ﻣ ﺗﻮاﻧﻨﺪ ﺑﻪ ﭘﺮﺳﻤﺎنﻫﺎی ١ /kﭘﺎﺳ دﻫﻨﺪ. .١اﻟ ﻮرﯾﺘﻤ اراﺋﻪ دﻫﯿﺪ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از دو posting listﻣﺮﺑﻮط ﺑﻪ دو ﮐﻠﻤﻪ ﻣﻮارد /kرا ﭘﯿﺪا ﮐﻨﺪ .اﯾﻦ اﻟ ﻮرﯾﺘﻢ را از ﻟﺤﺎظ زﻣﺎﻧ ﺑﺮ ﺣﺴﺐ ﻃﻮل دو ﻟﯿﺴﺖ و kﺗﺤﻠﯿﻞ ﮐﻨﯿﺪ. .٢ﺑﺮای postional indexﺳﺎﺧﺘﺎری اراﺋﻪ دﻫﯿﺪ ﮐﻪ از ﭘﺮﺳﻤﺎن ﻫﺎی ٢ /sﭘﺸﺘﯿﺒﺎﻧ ﮐﻨﺪ. ۶ ﻣﺠﻤﻮﻋﻪی اﺳﻨﺎد cو ﻋﺒﺎرت qرا در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .ﻣ داﻧﯿﻢ در ﻣﺠﻤﻮﻋﻪی ۴ cﺳﻨﺪ ﺑﺎ qﻣﺮﺗﺒﻂ ﻣ ﺑﺎﺷﻨﺪ .دو ﺳﯿﺴﺘﻢ ﺑﺎزﯾﺎﺑﯽ روی اﯾﻦ ﻣﺠﻤﻮﻋﻪ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ ١٠ .ﻧﺘﯿﺠﻪی اول ﺟﺴﺘﺠﻮی qدر اﯾﻦ دو ﺳﯿﺴﺘﻢ را ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﺪ R ).ﺑﻪ ﻣﻌﻨ ﻣﺮﺗﺒﻂ و Nﺑﻪ ﻣﻌﻨ ﻏﯿﺮ ﻣﺮﺗﺒﻂ اﺳﺖ(. system1 : R N R N N N N N R R system2 : N R N N R R R N N N .١ﻣﻌﯿﺎر MAPرا ﺑﺮای اﯾﻦ دو ﺳﯿﺴﺘﻢ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﺘﯿﺠﻪی ﺟﺴﺘﺠﻮ ﺑﺪﺳﺖ آورﯾﺪ. .٢ﻣﻌﯿﺎر R-precisionرا ﺑﺮای دو ﺳﯿﺴﺘﻢ ﺑﺪﺳﺖ آورﯾﺪ. .٣اﯾﺎ ﻧﺘﯿﺠﻪ ﻣﻘﺎﯾﺴﻪی اﯾﻦ دو ﺳﯿﺴﺘﻢ ﺑﺎ اﯾﻦ دو ﻣﻌﯿﺎر ﯾ ﺴﺎن اﺳﺖ ؟ ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮی دﻫﯿﺪ. ٧ .١ﭼﺮا در اﻟ ﻮرﯾﺘﻢ ﻣﺮﺑﻮط ﺑﻪ ﺑﺎزﺧﻮرد ارﺗﺒﺎط ﻣﻘﺪار γرا ﺑﻪ ﻧﺴﺒﺖ αو βﮐﻤﺘﺮ ﻗﺮار ﻣ دﻫﻨﺪ؟ .٢ﻓﺮض ﮐﻨﯿﺪ در ﯾ ﺳﯿﺴﺘﻢ ﺟﺴﺘﺠﻮ ﮐﺎرﺑﺮ ﭘﺮﺳﻤﺎن ”ﺗﻤﺮﯾﻦ ﮔﻼﺑﯽ درس ﮔﻼﺑﯽ اﻣﺘﺤﺎن ﺳﺨﺖ” را وارد ﻣ ﮐﻨﺪ .ﺑﺎ ﻣﺸﺎﻫﺪهی ﻧﺘﺎﯾﺞ ﮐﺎرﺑﺮ ﺳﻨﺪ d1را ﺑﺎ ﻣﺘﻦ ” ﺳﯿﺴﺘﻢ ﮔﻼﺑﯽ در درس ﺑﺎزﯾﺎﺑﯽ” را ﻣﺮﺗﺒﻂ و ﺳﻨﺪ d2را ﺑﺎ ﻣﺘﻦ ”ﻣﯿﻮه ﮔﻼﺑﯽ” را ﻧﺎ ﻣﺮﺗﺒﻂ ارزﯾﺎﺑﯽ ﻣ ﮐﻨﺪ .ﻓﺮض ﮐﻨﯿﺪ ﻣﺪﻟ ﺑﺮداری دارﯾﻢ ﮐﻪ در ﻣﻮﻟﻔﻪﻫﺎی آن ﺗﻌﺪاد ﺗﮑﺮار ﮐﻠﻤﻪ را در ﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ و از id fو ﻧﺮﻣﺎﻻﯾﺰ ﻃﻮل ﻧﯿﺰ اﺳﺘﻔﺎده ﻧﻤ ﮐﻨﯿﻢ .ﺣﺎل ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ ﻣﻔﺮوﺿﺎت و روش rocchioو ﻣﻘﺎدﯾﺮ α = 1, β = 0.75, γ = 0.25ﺑﺮدار ﻣﺘﻨﺎﻇﺮ ﺑﺎ ﭘﺮﺳﻤﺎن ﺑﻌﺪ از ﺑﺎزﺧﻮرد را ﺑﺪﺳﺖ آورﯾﺪ).ﺗﺮﺗﯿﺐ ﮐﻠﻤﺎت در ﻣﻮﻟﻔﻪﻫﺎی ﺑﺮدار را اﻟﻔﺒﺎﯾﯽ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ(. ١دو ﮐﻠﻤﻪ ﮐﻪ در ﻓﺎﺻﻠﻪی ﺣﺪاﮐﺜﺮ kاز ﻫﻢ ﻗﺮار دارﻧﺪ. ٢دو ﮐﻠﻤﻪ در ﯾ ﺟﻤﻠﻪ ﻗﺮار ﺑ ﯿﺮﻧﺪ. ٣
© Copyright 2026 Paperzz