ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟ ﺑﺎزﯾﺎﺑﯽ ﭘﯿﺸﺮﻓﺘﻪ اﻃﻼﻋﺎت ﻧﯿﻢﺳﺎل اول ﺳﺎل ١٣٩٣-٩۴ داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ ﺗﻤﺮﯾﻦ ﺳﺮی اول ﻧﮑﺎت ﻗﺎﺑﻞ ﺗﻮﺟﻪ • ﻣﻬﻠﺖ ارﺳﺎل ﺗﻤﺮﯾﻦ :ﯾ ﺸﻨﺒﻪ ٢۵م آﺑﺎن ﻣﺎه ﺗﺎ ﺳﺎﻋﺖ ١٢ﻇﻬﺮ • ﭘﺎﺳﺦﻫﺎی ﺧﻮد را ﺑﻪ آدرس [email protected]ارﺳﺎل ﮐﻨﯿﺪ. • ﺗﻤﺮﯾﻦﻫﺎﯾﯽ ﮐﻪ ﺑﺎ ﺗﺎﺧﯿﺮ ﺗﺤﻮﯾﻞ دادهﺷﻮﻧﺪ ،ﻧﺎدﯾﺪه ﮔﺮﻓﺘﻪ ﺧﻮاﻫﻨﺪ ﺷﺪ. ١ درﺳﺘ ﯾﺎ ﻧﺎدرﺳﺘ ﮔﺰارهﻫﺎی زﯾﺮ را ﺑﺎ ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮ ﻣﺸﺨﺺ ﮐﻨﯿﺪ. اﻟﻒ( اﮔﺮ ﻟﻐﺖ »ﺳﻮال« در ﻫﺮ دو ﺳﻨﺪ aو bﭘﻨﺞ ﺑﺎر ﺗﮑﺮار ﺷﺪه ﺑﺎﺷﺪ ،اﯾﻦ دو ﺳﻨﺪ در رﺗﺒﻪﺑﻨﺪی ﺑﺎ ﻣﻌﯿﺎر ﮐﺴﯿﻨﻮﺳ اﻣﺘﯿﺎز ﯾ ﺴﺎﻧ درﯾﺎﻓﺖ ﻣ ﮐﻨﻨﺪ. ب( ﺗﮑﻨﯿ ج( ﺗﮑﻨﯿ stemmingدﻗﺖ ) (precisionرا در ﺟﺴﺘﺠﻮ اﻓﺰاﯾﺶ ﻣ دﻫﺪ. stemmingدر ﮐﺎﻫﺶ اﻧﺪازهی Indexﻣﻮﺛﺮﺗﺮ از ﺗﮑﻨﯿ د( ﻣﻘﺪار tf-idfﺑﺮای ﻫﺮ ﺗﺮم ،ﻫﻤﻮاره از ﯾ ﺣﺬف stopwordﻫﺎﺳﺖ. ﮐﻮﭼ ﺗﺮ اﺳﺖ. ه( ﻧﮕﻪداری ﺑﺨﺸ از ﻣﺘﻦ ﮐﻪ ﮐﻠﻤﻪ در آن ﻇﺎﻫﺮ ﺷﺪه )ﻣﺜﻞ ﻋﻨﻮان ،ﭼ ﯿﺪه ،ﺑﺪﻧﻪ( در indexروی ﻣﻌﯿﺎر recall در ﺟﺴﺘﺠﻮﻫﺎی اﻧﺠﺎم ﺷﺪه ﺗﺎﺛﯿﺮی ﻧﻤ ﮔﺬارد. و( اﮔﺮ ﻧﺘﯿﺠﻪی دو ﺟﺴﺘﺠﻮ از ﻧﻈﺮ ﻣﻌﯿﺎر accuracyﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ ،از ﻧﻈﺮ precisionﻫﻢ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪaccuracy) . ﻋﺒﺎرت اﺳﺖ از ﻧﺴﺒﺖ ﺗﺼﻤﯿﻢﻫﺎی درﺳﺖ ﺑﻪ ﮐﻞ ﺗﺼﻤﯿﻢﻫﺎ( ٢ ١.٢ ﻣﻌﯿﺎر ﺟﺎﮐﺎرد )ﺑﺮ اﺳﺎس ﻧﻤﺎﯾﺶ ( bigramرا ﺑﺮای ﮐﻠﻤﻪی dogeﺑﺎ ﻫﺮ ﯾ اﺳﺎس اﯾﻦ ﻣﺤﺎﺳﺒﺎت ،ﻧﺴﺨﻪی ﺗﺼﺤﯿﺢ ﺷﺪهش اﯾﻦ ﮐﻠﻤﻪ ﮐﺪام ﺧﻮاﻫﺪ ﺑﻮد. از ﮐﻠﻤﺎت اﯾﻦ ﻟﯿﺴﺖ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ .ﺑﺮ dog, dodge, argo, dego, dope . ١ ٢.٢ از ﺳﻨﺪ ﺗﮏ ﺟﻤﻠﻪای زﯾﺮ ﯾ ﺷﺎﺧﺺ ٣ − gramﺳﺎﺧﺘﻪاﯾﻢ. To live is the rarest thing in the world. Most people exist, that is all اﻟﻒ( ﺷﺎﺧﺺ را ﺗﻨﻬﺎ ﺑﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺳﻪ ﮐﻠﻤﻪ the rarest thingﺑﺴﺎزﯾﺪ. ب( ﻣﺮاﺣﻞ ﻃ ﺷﺪه ﺑﺮای ﺟﺴﺘﺠﻮی ﭘﺮﺳﻤﺎن ∗ ra ∗ sرا ﺷﺮح دﻫﯿﺪ. ٣ اﻟﻒ( ﺑﺰرﮔﺘﺮﯾﻦ ﻓﺎﺻﻠﻪای ١ﮐﻪ ﺑﺎ روش ﺑﺎﯾﺖ ﻣﺘﻐﯿﺮ ٢ﻣ ﺗﻮان در دو ﺑﺎﯾﺖ ﮐﺪ ﮐﺮد ﭼﻘﺪر اﺳﺖ؟ ب( ﯾ ﻣﯿﻠﯿﻮن ﺳﻨﺪ دارﯾﻢ ﮐﻪ ﻫﺮ ﺳﻨﺪ ﻫﺰار ﮐﻠﻤﻪ دارد و اﻧﺪازه دﯾ ﺸﻨﺮی ﺻﺪﻫﺰار ﮐﻠﻤﻪ اﺳﺖ. ﻣﺠﻤﻮﻋﻪ ﺷﺎﻣﻞ ﯾ اﮔﺮ ﺗﻮزﯾﻊ ﻟﻐﺎت از ﻗﺎﻧﻮن Zipfﭘﯿﺮوی ﮐﻨﺪ و ﺗﻨﻬﺎ ﻣﺎﯾﻞ ﺑﻪ ذﺧﯿﺮه وﻗﻮع ﯾﺎ ﻋﺪم وﻗﻮع ﮐﻠﻤﻪ ﺑﺎﺷﯿﻢ ،ﯾ ﺑﺮﻋﮑﺲ ٣ ﺷﺎﺧﺺ ﭼﻪ ﺣﺠﻤ ﺧﻮاﻫﺪ داﺷﺖ؟ )ﺑﺮای رﻫﻨﻤﺎﯾﯽ ﻣ ﺗﻮاﻧﯿﺪ ﻣﻌﺎدﻻت 5.3ﺗﺎ 5.5ﮐﺘﺎب را ﻧﮕﺎه ﮐﻨﯿﺪ( ۴ ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﺪ اﮔﺮ از ﮐﺪ ﮔﺎﻣﺎ اﺳﺘﻔﺎده ﮐﻨﯿﻢ ،اﻧﺪازه ﺷﺎﺧﺺ ﭼﻘﺪر ﮐﻢ ﺧﻮاﻫﺪ ﺷﺪ. ۴ ﯾ ﻣﺠﻤﻮﻋﻪ ﺷﺎﻣﻞ ۵٠٠ﺳﻨﺪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .ﻣﺠﻤﻮﻋﻪ ﻟﻐﺎت ﺷﺎﻣﻞ ﺳﻪ ﮐﻠﻤﻪی »ﺧﻮب«» ،ﺑﺪ« و »زﺷﺖ« اﺳﺖ. ۵ ﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ اﯾﻦ ﮐﻠﻤﺎت ﺑﻪ ﻫﻤﺮاه ﺗﻌﺪاد وﻗﻮع آنﻫﺎ در ﺳﻪ ﺳﻨﺪ aو bو cدر ﺟﺪول زﯾﺮ آﻣﺪه اﺳﺖ. ﮐﻠﻤﻪ ﺗﻌﺪاد در aﺗﻌﺪاد در bﺗﻌﺪاد در cﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ ﺧﻮب ١٢ ٣۵ ۵۵ ١٢٣ زﺷﺖ ۵٢ ١٣ ١٢ ٨۵ ﺑﺪ ١۵ ۴٨ ٢۴ ٢۴٠ اﻟﻒ( ﻧﻤﺎﯾﺶ ﺑﺮداری ﺳﻪ ﺳﻨﺪ ﻓﻮق را ﺑﺎ اﺳﺘﻔﺎده از وزندﻫ tf ) t f − id fﺑﻪ ﺻﻮرت ﻟ ﺎرﺗﯿﻤ و idfﺑﻪ ﺻﻮرت ﻣﻌﻤﻮل( ﺑﻪ دﺳﺖ آورﯾﺪ. ب( ﺷﺒﺎﻫﺖ ﺳﻨﺪ aو bرا ﺑﺎ ﯾ ﺪﯾ ﺮ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ) .ﺑﺎ اﺳﺘﻔﺎده از ﻣﻌﯿﺎر ﮐﺴﯿﻨﻮﺳ ( ج( اﻣﺘﯿﺎز اﺳﻨﺎد را در ﻣﻘﺎﺑﻞ ﭘﺮﺳﻤﺎن »ﺑﺪ زﺷﺖ ﺑﺪ« ﺑﻪ دﺳﺖ آورﯾﺪ. ١ gap ٢ variable-byte ٣ Inverted Index ۴ γ − code ۵ Document frequency ٢ ۵ ﻣﺪلﺳﺎزی ﻓﻀﺎی ﺑﺮداری اﺳﻨﺎد )ﮐﻪ در ﺳﻮال ﻗﺒﻞ اﺳﺘﻔﺎده ﺷﺪ( را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .اﮔﺮ ﺑﺮدارﻫﺎی ﺑﻪ دﺳﺖ آﻣﺪه را ﺑﻪ ﻃﻮﻟﺸﺎن ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ .ﺗﻌﺪای ﺑﺮدار ﺑﺎ ﻃﻮل ﯾ ﺷﻌﺎع ﯾ ﻣﺸﺨﺺ ﮐﺮد. ﺧﻮاﻫﯿﻢ داﺷﺖ ﮐﻪ ﻣ ﺗﻮان آنﻫﺎ را ﺑﺎ ﻧﻘﺎﻃ روی ﮐﺮهی ﭼﻨﺪ ﺑﻌﺪی ﺑﺎ در ﺷ ﻞ ١ﻗﺴﻤﺘ از اﯾﻦ ﮐﺮه را ﻣ ﺑﯿﻨﯿﺪ ﮐﻪ ﯾ ﭘﺮﺳﻤﺎن و ﭼﻨﺪ ﺳﻨﺪ ﮐﻪ ﻧﺰدﯾ ﺗﺮﯾﻦ اﺳﻨﺎد ﺑﻪ آن ﺑﻮدهاﻧﺪ روی آن ﻣﺸﺨﺺ ﺷﺪهاﻧﺪ .ﻫﻢﭼﻨﯿﻦ ﻣﺮﺗﺒﻂ ﺑﻮدن ﯾﺎ ﻧﺒﻮدن اﯾﻦ اﺳﻨﺎد ﺗﻮﺳﻂ ﯾ روی ﺷ ﻞ ﻣﺸﺨﺺ ﺷﺪه اﺳﺖ. ﻓﺮد ﺻﺎﺣﺐﻧﻈﺮ ﺗﺸﺨﯿﺺ داده ﺷﺪه اﺳﺖ و ﺷ ﻞ١ اﻟﻒ( روش ﺑﻬﺒﻮد ﭘﺮﺳﻤﺎن Rocchioرا در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ .ﭘﺎراﻣﺘﺮﻫﺎ را اﯾﻦﮔﻮﻧﻪ ﺗﻨﻈﯿﻢ ﮐﺮدهاﯾﻢ ﮐﻪ α = ١٠و .γ = ٠ ﺣﺎﻻ ﻣ ﺎن ﭘﺮﺳﻤﺎن ﺑﻬﺒﻮد داده ﺷﺪه را ﺑﺮای ﻣﻘﺎدﯾﺮ β = ٠, ١٠, ١٠٠ﺑﻪ ﺻﻮرت ﺗﻘﺮﯾﺒﯽ در ﺷ ﻞ ﻣﺸﺨﺺ ﮐﻨﯿﺪ. ب( اﯾﻦ ﺑﺎر ﻣﻘﺪار γرا ﻧﯿﺰ ﻫﻢ زﻣﺎن ﺑﺎ βﺗﻐﯿﯿﺮ دﻫﯿﺪ .ﯾﻌﻨ α = ١٠ﺛﺎﺑﺖ اﺳﺖ و . β = γ = ٠, ١٠, ١٠٠ﻧﺘﯿﺎج را ﺑﺎ ﻗﺴﻤﺖ ﻗﺒﻞ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ. ج( از ﺑﯿﻦ ﺑﺎزﺧﻮرد ﻣﺜﺒﺖ ﮐﻪ ﻣﺸﺨﺺ ﻣ ﮐﻨﺪ ﮐﺪام ﻧﺘﺎﯾﺞ ﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ و ﺑﺎزﺧﻮرد ﻣﻨﻔ ﮐﻪ ﻣﺸﺨﺺ ﻣ ﮐﻨﺪ ﮐﺪام ﻧﺘﺎﯾﺞ ﻧﺎﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ ﮐﺪامﯾ ﻣﻮﺛﺮﺗﺮ اﺳﺖ؟ ﭼﺮا؟ د( اﮔﺮ ﺑﺨﻮاﻫﯿﻢ از ﻧﺘﺎﯾﺠ ﮐﻪ از ﺳﻮی ﮐﺎرﺑﺮ ﻧﺎﻣﺮﺑﻮط ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ ﯾ زﯾﺮ ﻣﺠﻤﻮﻋﻪ را ﺑﺮای ﺗﺎﺛﯿﺮ دادن در ﻣﻌﯿﺎر Rocchioاﻧﺘﺨﺎب ﮐﻨﯿﻢ ،ﭼﻪ اﺳﻨﺎدی ﻣﻨﺎﺳﺐ ﺣﻀﻮر در اﯾﻦ زﯾﺮ ﻣﺠﻤﻮﻋﻪ ﻫﺴﺘﻨﺪ؟ ۶ ﺑﻪ ﯾ ﺟﺴﺘﺠﻮﮔﺮ ﭘﺮﺳﻤﺎﻧ دادهاﯾﻢ و اﺳﻨﺎد ﻣﺮﺑﻮط ﺑﻪ آن را ﺗﻘﺎﺿﺎ ﮐﺮدهاﯾﻢ .ﺟﺴﺘﺠﻮ ﮔﺮ در ﭘﺎﺳﺦ ١۵ﺳﻨﺪ را ﺑﺎزﮔﺮداﻧﺪه اﺳﺖ .ﺷ ﻞ ٢ﻧﻤﻮدار Precision-Recallرا در ﻣﻮرد اﯾﻦ ١۵ﺟﻮاب ﻧﺸﺎن ﻣ دﻫﺪ .ﻫﻢﭼﻨﯿﻦ ﻣ داﻧﯿﻢ در ﮐﻞ ﻣﺠﻤﻮﻋﻪ اﺳﻨﺎد ١٢ﺳﻨﺪ ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺳﻤﺎن وﺟﻮد دارد )ﮐﻪ ﻫﻤﻪ آنﻫﺎ اﻟﺰاﻣﺎ ﺑﺎزﯾﺎﺑﯽ ﻧﺸﺪهاﻧﺪ( ٣ ﺷ ﻞ٢ اﻟﻒ( ﺑﺮای ﻫﺮ ﯾ از اﺳﻨﺎد ١ﺗﺎ ١۵ﺑﺎزﯾﺎﺑﯽ ﺷﺪه ﻣﺸﺨﺺ ﮐﻨﯿﺪ ﮐﻪ آﯾﺎ اﯾﻦ اﺳﻨﺎد ﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ ﯾﺎ ﻧﻪ. ب( ﻣﻌﯿﺎر MAPرا ﺑﺮای اﯾﻦ ﺟﺴﺘﺠﻮ ﺑﻪ دﺳﺖ آورﯾﺪ. ج( ﻣﻌﯿﺎر R − Precisionرا ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ. د( ﻣﻘﺪار Precisionدر ١٠ﭼﻘﺪر اﺳﺖ؟ ۴
© Copyright 2026 Paperzz