hw1.pdf

‫ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟ‬
‫ﺑﺎزﯾﺎﺑﯽ ﭘﯿﺸﺮﻓﺘﻪ اﻃﻼﻋﺎت‬
‫ﻧﯿﻢﺳﺎل اول ﺳﺎل ‪١٣٩٣-٩۴‬‬
‫داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ‬
‫ﺗﻤﺮﯾﻦ ﺳﺮی اول‬
‫ﻧﮑﺎت ﻗﺎﺑﻞ ﺗﻮﺟﻪ‬
‫• ﻣﻬﻠﺖ ارﺳﺎل ﺗﻤﺮﯾﻦ‪ :‬ﯾ ﺸﻨﺒﻪ ‪٢۵‬م آﺑﺎن ﻣﺎه ﺗﺎ ﺳﺎﻋﺖ ‪ ١٢‬ﻇﻬﺮ‬
‫• ﭘﺎﺳﺦﻫﺎی ﺧﻮد را ﺑﻪ آدرس ‪ [email protected]‬ارﺳﺎل ﮐﻨﯿﺪ‪.‬‬
‫• ﺗﻤﺮﯾﻦﻫﺎﯾﯽ ﮐﻪ ﺑﺎ ﺗﺎﺧﯿﺮ ﺗﺤﻮﯾﻞ دادهﺷﻮﻧﺪ‪ ،‬ﻧﺎدﯾﺪه ﮔﺮﻓﺘﻪ ﺧﻮاﻫﻨﺪ ﺷﺪ‪.‬‬
‫‪١‬‬
‫درﺳﺘ ﯾﺎ ﻧﺎدرﺳﺘ ﮔﺰارهﻫﺎی زﯾﺮ را ﺑﺎ ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮ ﻣﺸﺨﺺ ﮐﻨﯿﺪ‪.‬‬
‫اﻟﻒ( اﮔﺮ ﻟﻐﺖ »ﺳﻮال« در ﻫﺮ دو ﺳﻨﺪ ‪ a‬و ‪ b‬ﭘﻨﺞ ﺑﺎر ﺗﮑﺮار ﺷﺪه ﺑﺎﺷﺪ‪ ،‬اﯾﻦ دو ﺳﻨﺪ در رﺗﺒﻪﺑﻨﺪی ﺑﺎ ﻣﻌﯿﺎر ﮐﺴﯿﻨﻮﺳ‬
‫اﻣﺘﯿﺎز ﯾ ﺴﺎﻧ درﯾﺎﻓﺖ ﻣ ﮐﻨﻨﺪ‪.‬‬
‫ب( ﺗﮑﻨﯿ‬
‫ج( ﺗﮑﻨﯿ‬
‫‪ stemming‬دﻗﺖ )‪ (precision‬را در ﺟﺴﺘﺠﻮ اﻓﺰاﯾﺶ ﻣ دﻫﺪ‪.‬‬
‫‪ stemming‬در ﮐﺎﻫﺶ اﻧﺪازهی ‪ Index‬ﻣﻮﺛﺮﺗﺮ از ﺗﮑﻨﯿ‬
‫د( ﻣﻘﺪار ‪ tf-idf‬ﺑﺮای ﻫﺮ ﺗﺮم‪ ،‬ﻫﻤﻮاره از ﯾ‬
‫ﺣﺬف ‪ stopword‬ﻫﺎﺳﺖ‪.‬‬
‫ﮐﻮﭼ ﺗﺮ اﺳﺖ‪.‬‬
‫ه( ﻧﮕﻪداری ﺑﺨﺸ از ﻣﺘﻦ ﮐﻪ ﮐﻠﻤﻪ در آن ﻇﺎﻫﺮ ﺷﺪه )ﻣﺜﻞ ﻋﻨﻮان‪ ،‬ﭼ ﯿﺪه‪ ،‬ﺑﺪﻧﻪ( در ‪ index‬روی ﻣﻌﯿﺎر ‪recall‬‬
‫در ﺟﺴﺘﺠﻮﻫﺎی اﻧﺠﺎم ﺷﺪه ﺗﺎﺛﯿﺮی ﻧﻤ ﮔﺬارد‪.‬‬
‫و( اﮔﺮ ﻧﺘﯿﺠﻪی دو ﺟﺴﺘﺠﻮ از ﻧﻈﺮ ﻣﻌﯿﺎر ‪ accuracy‬ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‪ ،‬از ﻧﻈﺮ ‪ precision‬ﻫﻢ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ‪accuracy) .‬‬
‫ﻋﺒﺎرت اﺳﺖ از ﻧﺴﺒﺖ ﺗﺼﻤﯿﻢﻫﺎی درﺳﺖ ﺑﻪ ﮐﻞ ﺗﺼﻤﯿﻢﻫﺎ(‬
‫‪٢‬‬
‫‪١.٢‬‬
‫ﻣﻌﯿﺎر ﺟﺎﮐﺎرد )ﺑﺮ اﺳﺎس ﻧﻤﺎﯾﺶ ‪ ( bigram‬را ﺑﺮای ﮐﻠﻤﻪی ‪ doge‬ﺑﺎ ﻫﺮ ﯾ‬
‫اﺳﺎس اﯾﻦ ﻣﺤﺎﺳﺒﺎت‪ ،‬ﻧﺴﺨﻪی ﺗﺼﺤﯿﺢ ﺷﺪهش اﯾﻦ ﮐﻠﻤﻪ ﮐﺪام ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬
‫از ﮐﻠﻤﺎت اﯾﻦ ﻟﯿﺴﺖ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪ .‬ﺑﺮ‬
‫‪dog, dodge, argo, dego, dope .‬‬
‫‪١‬‬
‫‪٢.٢‬‬
‫از ﺳﻨﺪ ﺗﮏ ﺟﻤﻠﻪای زﯾﺮ ﯾ‬
‫ﺷﺎﺧﺺ ‪ ٣ − gram‬ﺳﺎﺧﺘﻪاﯾﻢ‪.‬‬
‫‪To live is the rarest thing in the world. Most people exist, that is all‬‬
‫اﻟﻒ( ﺷﺎﺧﺺ را ﺗﻨﻬﺎ ﺑﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺳﻪ ﮐﻠﻤﻪ ‪ the rarest thing‬ﺑﺴﺎزﯾﺪ‪.‬‬
‫ب( ﻣﺮاﺣﻞ ﻃ ﺷﺪه ﺑﺮای ﺟﺴﺘﺠﻮی ﭘﺮﺳﻤﺎن ∗‪ ra ∗ s‬را ﺷﺮح دﻫﯿﺪ‪.‬‬
‫‪٣‬‬
‫اﻟﻒ( ﺑﺰرﮔﺘﺮﯾﻦ ﻓﺎﺻﻠﻪای ‪ ١‬ﮐﻪ ﺑﺎ روش ﺑﺎﯾﺖ ﻣﺘﻐﯿﺮ ‪ ٢‬ﻣ ﺗﻮان در دو ﺑﺎﯾﺖ ﮐﺪ ﮐﺮد ﭼﻘﺪر اﺳﺖ؟‬
‫ب( ﯾ‬
‫ﻣﯿﻠﯿﻮن ﺳﻨﺪ دارﯾﻢ ﮐﻪ ﻫﺮ ﺳﻨﺪ ﻫﺰار ﮐﻠﻤﻪ دارد و اﻧﺪازه دﯾ ﺸﻨﺮی ﺻﺪﻫﺰار ﮐﻠﻤﻪ اﺳﺖ‪.‬‬
‫ﻣﺠﻤﻮﻋﻪ ﺷﺎﻣﻞ ﯾ‬
‫اﮔﺮ ﺗﻮزﯾﻊ ﻟﻐﺎت از ﻗﺎﻧﻮن ‪ Zipf‬ﭘﯿﺮوی ﮐﻨﺪ و ﺗﻨﻬﺎ ﻣﺎﯾﻞ ﺑﻪ ذﺧﯿﺮه وﻗﻮع ﯾﺎ ﻋﺪم وﻗﻮع ﮐﻠﻤﻪ ﺑﺎﺷﯿﻢ‪ ،‬ﯾ‬
‫ﺑﺮﻋﮑﺲ‬
‫‪٣‬‬
‫ﺷﺎﺧﺺ‬
‫ﭼﻪ ﺣﺠﻤ ﺧﻮاﻫﺪ داﺷﺖ؟ )ﺑﺮای رﻫﻨﻤﺎﯾﯽ ﻣ ﺗﻮاﻧﯿﺪ ﻣﻌﺎدﻻت ‪ 5.3‬ﺗﺎ ‪ 5.5‬ﮐﺘﺎب را ﻧﮕﺎه ﮐﻨﯿﺪ(‬
‫‪۴‬‬
‫ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﺪ اﮔﺮ از ﮐﺪ ﮔﺎﻣﺎ اﺳﺘﻔﺎده ﮐﻨﯿﻢ‪ ،‬اﻧﺪازه ﺷﺎﺧﺺ ﭼﻘﺪر ﮐﻢ ﺧﻮاﻫﺪ ﺷﺪ‪.‬‬
‫‪۴‬‬
‫ﯾ‬
‫ﻣﺠﻤﻮﻋﻪ ﺷﺎﻣﻞ ‪ ۵٠٠‬ﺳﻨﺪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﻣﺠﻤﻮﻋﻪ ﻟﻐﺎت ﺷﺎﻣﻞ ﺳﻪ ﮐﻠﻤﻪی »ﺧﻮب«‪» ،‬ﺑﺪ« و »زﺷﺖ« اﺳﺖ‪.‬‬
‫‪۵‬‬
‫ﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ اﯾﻦ ﮐﻠﻤﺎت ﺑﻪ ﻫﻤﺮاه ﺗﻌﺪاد وﻗﻮع آنﻫﺎ در ﺳﻪ ﺳﻨﺪ ‪ a‬و ‪ b‬و ‪ c‬در ﺟﺪول زﯾﺮ آﻣﺪه اﺳﺖ‪.‬‬
‫ﮐﻠﻤﻪ‬
‫ﺗﻌﺪاد در ‪ a‬ﺗﻌﺪاد در ‪ b‬ﺗﻌﺪاد در ‪ c‬ﺗﻌﺪاد اﺳﻨﺎد ﺷﺎﻣﻞ‬
‫ﺧﻮب‬
‫‪١٢‬‬
‫‪٣۵‬‬
‫‪۵۵‬‬
‫‪١٢٣‬‬
‫زﺷﺖ‬
‫‪۵٢‬‬
‫‪١٣‬‬
‫‪١٢‬‬
‫‪٨۵‬‬
‫ﺑﺪ‬
‫‪١۵‬‬
‫‪۴٨‬‬
‫‪٢۴‬‬
‫‪٢۴٠‬‬
‫اﻟﻒ( ﻧﻤﺎﯾﺶ ﺑﺮداری ﺳﻪ ﺳﻨﺪ ﻓﻮق را ﺑﺎ اﺳﺘﻔﺎده از وزندﻫ ‪ tf ) t f − id f‬ﺑﻪ ﺻﻮرت ﻟ ﺎرﺗﯿﻤ و ‪ idf‬ﺑﻪ ﺻﻮرت‬
‫ﻣﻌﻤﻮل( ﺑﻪ دﺳﺖ آورﯾﺪ‪.‬‬
‫ب( ﺷﺒﺎﻫﺖ ﺳﻨﺪ ‪ a‬و ‪ b‬را ﺑﺎ ﯾ ﺪﯾ ﺮ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪) .‬ﺑﺎ اﺳﺘﻔﺎده از ﻣﻌﯿﺎر ﮐﺴﯿﻨﻮﺳ (‬
‫ج( اﻣﺘﯿﺎز اﺳﻨﺎد را در ﻣﻘﺎﺑﻞ ﭘﺮﺳﻤﺎن »ﺑﺪ زﺷﺖ ﺑﺪ« ﺑﻪ دﺳﺖ آورﯾﺪ‪.‬‬
‫‪١ gap‬‬
‫‪٢ variable-byte‬‬
‫‪٣ Inverted Index‬‬
‫‪۴ γ − code‬‬
‫‪۵ Document frequency‬‬
‫‪٢‬‬
‫‪۵‬‬
‫ﻣﺪلﺳﺎزی ﻓﻀﺎی ﺑﺮداری اﺳﻨﺎد )ﮐﻪ در ﺳﻮال ﻗﺒﻞ اﺳﺘﻔﺎده ﺷﺪ( را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬اﮔﺮ ﺑﺮدارﻫﺎی ﺑﻪ دﺳﺖ آﻣﺪه را ﺑﻪ‬
‫ﻃﻮﻟﺸﺎن ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ‪ .‬ﺗﻌﺪای ﺑﺮدار ﺑﺎ ﻃﻮل ﯾ‬
‫ﺷﻌﺎع ﯾ‬
‫ﻣﺸﺨﺺ ﮐﺮد‪.‬‬
‫ﺧﻮاﻫﯿﻢ داﺷﺖ ﮐﻪ ﻣ ﺗﻮان آنﻫﺎ را ﺑﺎ ﻧﻘﺎﻃ روی ﮐﺮهی ﭼﻨﺪ ﺑﻌﺪی ﺑﺎ‬
‫در ﺷ ﻞ ‪ ١‬ﻗﺴﻤﺘ از اﯾﻦ ﮐﺮه را ﻣ ﺑﯿﻨﯿﺪ ﮐﻪ ﯾ‬
‫ﭘﺮﺳﻤﺎن و ﭼﻨﺪ ﺳﻨﺪ ﮐﻪ ﻧﺰدﯾ ﺗﺮﯾﻦ اﺳﻨﺎد ﺑﻪ آن ﺑﻮدهاﻧﺪ روی آن‬
‫ﻣﺸﺨﺺ ﺷﺪهاﻧﺪ‪ .‬ﻫﻢﭼﻨﯿﻦ ﻣﺮﺗﺒﻂ ﺑﻮدن ﯾﺎ ﻧﺒﻮدن اﯾﻦ اﺳﻨﺎد ﺗﻮﺳﻂ ﯾ‬
‫روی ﺷ ﻞ ﻣﺸﺨﺺ ﺷﺪه اﺳﺖ‪.‬‬
‫ﻓﺮد ﺻﺎﺣﺐﻧﻈﺮ ﺗﺸﺨﯿﺺ داده ﺷﺪه اﺳﺖ و‬
‫ﺷ ﻞ‪١‬‬
‫اﻟﻒ( روش ﺑﻬﺒﻮد ﭘﺮﺳﻤﺎن ‪ Rocchio‬را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﭘﺎراﻣﺘﺮﻫﺎ را اﯾﻦﮔﻮﻧﻪ ﺗﻨﻈﯿﻢ ﮐﺮدهاﯾﻢ ﮐﻪ ‪ α = ١٠‬و ‪.γ = ٠‬‬
‫ﺣﺎﻻ ﻣ ﺎن ﭘﺮﺳﻤﺎن ﺑﻬﺒﻮد داده ﺷﺪه را ﺑﺮای ﻣﻘﺎدﯾﺮ ‪ β = ٠, ١٠, ١٠٠‬ﺑﻪ ﺻﻮرت ﺗﻘﺮﯾﺒﯽ در ﺷ ﻞ ﻣﺸﺨﺺ ﮐﻨﯿﺪ‪.‬‬
‫ب( اﯾﻦ ﺑﺎر ﻣﻘﺪار ‪ γ‬را ﻧﯿﺰ ﻫﻢ زﻣﺎن ﺑﺎ ‪ β‬ﺗﻐﯿﯿﺮ دﻫﯿﺪ‪ .‬ﯾﻌﻨ ‪ α = ١٠‬ﺛﺎﺑﺖ اﺳﺖ و ‪ . β = γ = ٠, ١٠, ١٠٠‬ﻧﺘﯿﺎج‬
‫را ﺑﺎ ﻗﺴﻤﺖ ﻗﺒﻞ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ‪.‬‬
‫ج( از ﺑﯿﻦ ﺑﺎزﺧﻮرد ﻣﺜﺒﺖ ﮐﻪ ﻣﺸﺨﺺ ﻣ ﮐﻨﺪ ﮐﺪام ﻧﺘﺎﯾﺞ ﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ و ﺑﺎزﺧﻮرد ﻣﻨﻔ ﮐﻪ ﻣﺸﺨﺺ ﻣ ﮐﻨﺪ ﮐﺪام‬
‫ﻧﺘﺎﯾﺞ ﻧﺎﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ ﮐﺪامﯾ‬
‫ﻣﻮﺛﺮﺗﺮ اﺳﺖ؟ ﭼﺮا؟‬
‫د( اﮔﺮ ﺑﺨﻮاﻫﯿﻢ از ﻧﺘﺎﯾﺠ ﮐﻪ از ﺳﻮی ﮐﺎرﺑﺮ ﻧﺎﻣﺮﺑﻮط ﺗﺸﺨﯿﺺ داده ﺷﺪهاﻧﺪ ﯾ‬
‫زﯾﺮ ﻣﺠﻤﻮﻋﻪ را ﺑﺮای ﺗﺎﺛﯿﺮ دادن‬
‫در ﻣﻌﯿﺎر ‪ Rocchio‬اﻧﺘﺨﺎب ﮐﻨﯿﻢ‪ ،‬ﭼﻪ اﺳﻨﺎدی ﻣﻨﺎﺳﺐ ﺣﻀﻮر در اﯾﻦ زﯾﺮ ﻣﺠﻤﻮﻋﻪ ﻫﺴﺘﻨﺪ؟‬
‫‪۶‬‬
‫ﺑﻪ ﯾ‬
‫ﺟﺴﺘﺠﻮﮔﺮ ﭘﺮﺳﻤﺎﻧ دادهاﯾﻢ و اﺳﻨﺎد ﻣﺮﺑﻮط ﺑﻪ آن را ﺗﻘﺎﺿﺎ ﮐﺮدهاﯾﻢ‪ .‬ﺟﺴﺘﺠﻮ ﮔﺮ در ﭘﺎﺳﺦ ‪ ١۵‬ﺳﻨﺪ را ﺑﺎزﮔﺮداﻧﺪه‬
‫اﺳﺖ‪ .‬ﺷ ﻞ ‪ ٢‬ﻧﻤﻮدار ‪ Precision-Recall‬را در ﻣﻮرد اﯾﻦ ‪ ١۵‬ﺟﻮاب ﻧﺸﺎن ﻣ دﻫﺪ‪ .‬ﻫﻢﭼﻨﯿﻦ ﻣ داﻧﯿﻢ در ﮐﻞ‬
‫ﻣﺠﻤﻮﻋﻪ اﺳﻨﺎد ‪ ١٢‬ﺳﻨﺪ ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺳﻤﺎن وﺟﻮد دارد )ﮐﻪ ﻫﻤﻪ آنﻫﺎ اﻟﺰاﻣﺎ ﺑﺎزﯾﺎﺑﯽ ﻧﺸﺪهاﻧﺪ(‬
‫‪٣‬‬
‫ﺷ ﻞ‪٢‬‬
‫اﻟﻒ( ﺑﺮای ﻫﺮ ﯾ‬
‫از اﺳﻨﺎد ‪ ١‬ﺗﺎ ‪ ١۵‬ﺑﺎزﯾﺎﺑﯽ ﺷﺪه ﻣﺸﺨﺺ ﮐﻨﯿﺪ ﮐﻪ آﯾﺎ اﯾﻦ اﺳﻨﺎد ﻣﺮﺗﺒﻂ ﺑﻮدهاﻧﺪ ﯾﺎ ﻧﻪ‪.‬‬
‫ب( ﻣﻌﯿﺎر ‪ MAP‬را ﺑﺮای اﯾﻦ ﺟﺴﺘﺠﻮ ﺑﻪ دﺳﺖ آورﯾﺪ‪.‬‬
‫ج( ﻣﻌﯿﺎر ‪ R − Precision‬را ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪.‬‬
‫د( ﻣﻘﺪار ‪ Precision‬در ‪ ١٠‬ﭼﻘﺪر اﺳﺖ؟‬
‫‪۴‬‬