ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟ ﺑﺎزﯾﺎﺑﯽ ﭘﯿﺸﺮﻓﺘﻪی اﻃﻼﻋﺎت Modern Information Retrieval داﻧﺸ ﺪهی ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ ﭘﺮوژهی ﺳﻮم ﻣﺪرس :دﮐﺘﺮ ﺳﻠﯿﻤﺎﻧ ﻣﻮﻋﺪ ﺗﺤﻮﯾﻞ :ﺳﺎﻋﺖ ۴ﺻﺒﺢ ،ﺷﻨﺒﻪ ٢١ ،دی ١٣٩٢ )ﻧﺴﺨﻪی (١ • اﯾﻦ ﻓﺎز را ﻣ ﺗﻮاﻧﯿﺪ در ﮔﺮوهﻫﺎی دو ﻧﻔﺮه اﻧﺠﺎم دﻫﯿﺪ .ﻫﺮ دو ﻧﻔﺮ ﻣ ﺑﺎﯾﺴﺖ آ ﮔﺎﻫ ﮐﺎﻓ از ﺑﺨﺶﻫﺎی ﻣﺨﺘﻠﻒ ﭘﺮوژه داﺷﺘﻪ ﺑﺎﺷﻨﺪ. • ﺑﻪ ازای ﻫﺮ روز ﺗﺄﺧﯿﺮ )ﺣﺪاﮐﺜﺮ ﺗﺎ زﻣﺎن ﺗﺤﻮﯾﻞ ﺣﻀﻮری( در ارﺳﺎل ﭘﺮوژه ١٠٪از ﻧﻤﺮهی ﺑﺎﻗ ﻣﺎﻧﺪهی آن ﮐﺎﺳﺘﻪ ﺧﻮاﻫﺪ ﺷﺪ. • رؤﯾﺖ ﺗﻘﻠّﺐ ﻣﻮﺟﺐ ﮐﺴﺮ دو ﺑﺮاﺑﺮ ﻧﻤﺮهی اﯾﻦ ﻓﺎز از ﻫﺮ دو ﻃﺮف ﺧﻮاﻫﺪ ﺷﺪ. ١ﻫﺪف در ﻓﺎز ﻧﻬﺎﯾﯽ ﭘﺮوژه ،ﻣ ﺧﻮاﻫﯿﻢ ﯾ ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی وب ﺑﺮای )ﺑﺨﺶ ﻣﺤﺪودی از( وﯾ ﭘﺪﯾﺎ آﻣﺎده ﮐﻨﯿﻢ .در اﯾﻦ راﺳﺘﺎ اﺑﺘﺪا ﻣﺤﺘﻮای ﺻﻔﺤﺎت ﻣﺨﺘﻠﻒ را ﺑﺎ اﺳﺘﻔﺎده از ﺧﺰﻧﺪه ﺑﺪﺳﺖ ﻣ آورﯾﻢ ،ﺳﭙﺲ آنﻫﺎ را ﺷﺎﺧﺺﮔﺬاری ﻣ ﮐﻨﯿﻢ ،و ﻧﻬﺎﯾﺘﺎً ﻋﻤﻞ ﺑﺎزﯾﺎﺑﯽ را اﻧﺠﺎم ﻣ دﻫﯿﻢ .ﻫﻤﭽﻨﯿﻦ از اﻟ ﻮرﯾﺘﻢ PageRankﺟﻬﺖ رﺗﺒﻪﺑﻨﺪی ﺑﻬﺘﺮ ﻧﺘﺎﯾﺞ اﺳﺘﻔﺎده ﻣ ﮐﻨﯿﻢ. اﺟﺰاء ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮ ٢ ١.٢ ﺧﺰﻧﺪه از آﻧﺠﺎ ﮐﻪ در وب ،ﯾ ﻣﺤﻞِ ﻣﺮﮐﺰی ﺷﺎﻣﻞ ﺗﻤﺎم ﻣﺤﺘﻮا وﺟﻮد ﻧﺪارد ،ﺑﺮای ﺑﻪدﺳﺖ آوردن ﺧﻮد اﺳﻨﺎد ﻧﯿﺰ )ﮐﻪ ﺗﺎ ﭘﯿﺶ از اﯾﻦ ﻓﺮض ﻣ ﮐﺮدﯾﻢ در اﺧﺘﯿﺎرﻣﺎن ﻗﺮار ﻣ ﮔﯿﺮد( ﺑﺎﯾﺪ ﻓﺮآﯾﻨﺪ ﺟﺪاﮔﺎﻧﻪای داﺷﺘﻪ ﺑﺎﺷﯿﻢ .ﺧﺰﻧﺪه ﻣﻮﻇّﻒ اﺳﺖ از ﺻﻔﺤﻪای ﮐﺎر ﺧﻮد را آﻋﺎز ﮐﻨﺪ ،و ﺑﺎ دﻧﺒﺎل ﮐﺮدن ﻟﯿﻨﮏﻫﺎی ﻣﻮﺟﻮد در ﻣﺤﺘﻮای ﺻﻔﺤﺎت ،ﺳﺎﺧﺘﺎر و ﻣﺤﺘﻮای ﻣﻮﺟﻮد در ﺳﺎﯾﺖﻫﺎ را ﺑﺪﺳﺖ آورد. از آﻧﺠﺎ ﮐﻪ ﻣﺤﺘﻮای ﺻﻔﺤﺎت ﻏﺎﻟﺒﺎً در ﻗﺎﻟﺐ HTMLﻫﺴﺘﻨﺪ ،ﻣ ﺑﺎﯾﺴﺖ آنﻫﺎ را ﺗﻮﺳﻂ ﯾ parserﻣﻨﺎﺳﺐ )ﻣﺎﻧﻨﺪ (Jsoup ﭘﺮدازش ﮐﻨﯿﺪ ﺗﺎ ﺑﻪ ﻣﺤﺘﻮای ﺧﺎم ﺻﻔﺤﻪ )ﺑﺪون ﺗﮓﻫﺎی ﻣﺮﺑﻮﻃﻪ( دﺳﺖ ﯾﺎﺑﯿﺪ .ﻟﯿﻨﮏ ﺑﻪ ﺻﻔﺤﺎت دﯾ ﺮ را ﻧﯿﺰ ﺑﻪ ﻫﻤﯿﻦ روش ﻣ ﺗﻮاﻧﯿﺪ اﺳﺘﺨﺮاج ﮐﻨﯿﺪ. ﺑﺮﺧ ﻣﺤﺘﻮای ﺻﻔﺤﺎت ﺗﻮﺳﻂ ﺟﺎوااﺳ ﺮﯾﭙﺖ و در ﺳﻤﺖ ﮐﺎرﺑﺮ ﺗﻮﻟﯿﺪ ﻣ ﺷﻮد .در ﻗﺒﺎل اﯾﻨﮕﻮﻧﻪ ﻣﻮارد ﭼﻪﮐﺎر ﻣ ﺗﻮان ﮐﺮد؟ در ﺻﻮرﺗ ﮐﻪ ﮐﺎری در اﯾﻦ زﻣﯿﻨﻪ اﻧﺠﺎم دادﯾﺪ آن را ﺣﺘﻤﺎً در ﻣﺴﺘﻨﺪ ﺧﻮد ﺑﯿﺎورﯾﺪ ۴٠ .ﻧﻤﺮهی اﺿﺎﻓﻪ ﺑﻪ اﯾﻦ ﺑﺨﺶ اﺧﺘﺼﺎص دارد. . ١ ﭘﯿﺎدهﺳﺎزی ﺗﺸﺨﯿﺺ ﻣﺤﺘﻮای ﺗﮑﺮاری ) (Duplicate Detectionﻋﻼوه ﺑﺮ اﻓﺰاﯾﺶ ﮐﯿﻔﯿﺖ ﻧﺘﺎﯾﺠﺘﺎن ،ﻧﻤﺮهی اﺿﺎﻓﻪ ﺑﻪ ﺣﺴﺎب ﻣ آﯾﺪ .اﺳﺘﻔﺎده از اﻟ ﻮرﯾﺘﻢ ﻣ ﺎﺷﻔﻪای ﻣﻨﺎﺳﺐ ٢٠ﻧﻤﺮه ،و اﺳﺘﻔﺎده از روشﻫﺎی ﭘﯿﺶرﻓﺘﻪﺗﺮ ﺗﺎ ۴٠ﻧﻤﺮهی اﺿﺎﻓﻪ دارد .روﺷ ﮐﻪ اﺳﺘﻔﺎده ﻣ ﮐﻨﯿﺪ را در ﻣﺴﺘﻨﺪات ﺧﻮد ذﮐﺮ ﮐﻨﯿﺪ. . ﺧﺰﻧﺪهی ﺷﻤﺎ ﻣ ﺑﺎﯾﺴﺖ ﺗﻨﻬﺎ ﺻﻔﺤﺎﺗ ﮐﻪ در آدرﺳ ﻣﺎﻧﻨﺪ http://en.wikipedia.org/wiki/article_name ﻗﺮار دارﻧﺪ را درﯾﺎﻓﺖ ﮐﻨﺪ .ﻫﻤﭽﻨﯿﻦ ،ﺑﺎﯾﺪ ﮐﺎر ﺧﻮد را از ﺻﻔﺤﻪی Information Retrievalﺷﺮوع ﮐﻨﺪ ،و ﺗﺎ ﺑﻪدﺳﺖ آوردن ﺣﺪّاﻗﻞ ٢٠٠ﺳﻨﺪ ﺑﻪ ﺧﺰﯾﺪن اداﻣﻪ دﻫﺪ. ﻧﮑﺘﻪ :ﻣﺤﺘﻮای وﯾ ﭘﺪﯾﺎ ﺑﻪ ﺻﻮرت ﭘﯿﺶﻓﺮض ﺑﺮ روی ﭘﺮوﺗﮑﻞ httpsاراﺋﻪ ﻣ ﺷﻮد ،ﮐﻪ دﺳﺘﺮﺳ ﺑﻪ آن ﻣﻤ ﻦ اﺳﺖ ﮐﻨﺪ و ﺳﺨﺖ ﺑﺎﺷﺪ .در اﯾﻦ ﺻﻮرت ﻣ ﺗﻮاﻧﯿﺪ httpsﻫﺎ را ﺑﺎ httpﺟﺎﯾ ﺰﯾﻦ ﮐﻨﯿﺪ .دﻗّﺖ ﮐﻨﯿﺪ ﮐﻪ اﯾﻦ ﮐﺎر ﺑﻪ ﻫﯿﭻوﺟﻪ ﮐﺎر اﺻﻮﻟ ای ﻧﯿﺴﺖ و ﺗﻨﻬﺎ ﺑﻪ دﻟﯿﻞ ﻣﺤﺪودﯾﺖﻫﺎ از اﯾﻦ ﺗﮑﻨﯿ اﺳﺘﻔﺎده ﻣ ﮐﻨﯿﻢ. ٢.٢ﺷﺎﺧﺺﮔﺬاری و ﺗﺤﻠﯿﻞ رواﺑﻂ اﯾﻦ ﺟﺰء ﻣﻮﻇّﻒ اﺳﺖ اﺳﻨﺎدی ﮐﻪ در ﮔﺎم ﺧﺰش ﺗﻬﯿﻪ ﺷﺪه را ﭘﺮدازش ﮐﻨﺪ ﮐﻨﺪ و در ﺷﺎﺧﺺ ﻗﺮار دﻫﺪ .ﻫﻤﭽﻨﯿﻦ ،ﺑﺎﯾﺪ ﻣﻌﯿﺎر PageRankﺑﺮای ﺻﻔﺤﺎت ﻣﺤﺎﺳﺒﻪ ﺷﻮد. ﻣ ﺗﻮاﻧﯿﺪ از Luceneﺑﺮای ﺷﺎﺧﺺﮔﺬاری اﺳﺘﻔﺎده ﮐﻨﯿﺪ .ﺟﻬﺖ اﻋﻤﺎل ﺗﺄﺛﯿﺮ PageRankﻧﯿﺰ ﮐﺎﻓﯿﺴﺖ از اﻣ ﺎن Document level boostingاﺳﺘﻔﺎده ﮐﻨﯿﺪ. ﺗﻌﯿﯿﻦ ﻣﻌﯿﺎرﻫﺎی ﺷﺎﺧﺺﮔﺬاری )و ﺑﻪ ﺗﺒﻊ آن ﺑﺎزﯾﺎﺑﯽ( ﺑﻪ ﻋﻬﺪهی ﺧﻮدﺗﺎن اﺳﺖ. ٣.٢ﺑﺎزﯾﺎﺑﯽ ﻧﻬﺎﯾﺘﺎً ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی ﺷﻤﺎ ﺑﺎﯾﺪ ﺑﺘﻮاﻧﺪ ﺑﺎ درﯾﺎﻓﺖ ﯾ ۴.٢ ﯾ ،queryﻋﻤﻞ ﺑﺎزﯾﺎﺑﯽ را ﺑﺎ اﺳﺘﻔﺎده از ﺷﺎﺧﺺ اﻧﺠﺎم دﻫﺪ. واﺳﻂ ﮐﺎرﺑﺮی واﺳﻂ ﮐﺎرﺑﺮی ﺳﺎده آﻣﺎده ﮐﻨﯿﺪ ﮐﻪ ﺑﻪ ﮐﺎرﺑﺮ اﻣ ﺎن »ﺷﺮوع ﺧﺰﯾﺪن«» ،اﻧﺠﺎم ﺷﺎﺧﺺﮔﺬاری« و »ﺑﺎزﯾﺎﺑﯽ« را ﺑﺪﻫﺪ. ﻣ ﺗﻮاﻧﯿﺪ UIرا ﺑﺎ اﺳﺘﻔﺎده از Swingو ﯾﺎ ﺗﮑﻨﻮﻟﻮژیﻫﺎی وب ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ. ٣ ﻣﺴﺘﻨﺪات ﺣﺪّاﻗﻞ ﻣﻮاردی ﮐﻪ در ﻣﺴﺘﻨﺪ ﻣ آورﯾﺪ: • ﻣﻘﺪار PageRankﺻﻔﺤﺎت را ﺑﺮرﺳ ﮐﻨﯿﺪ .ﺑﯿﺸﺘﺮﯾﻦ ﻣﻘﺪار اﯾﻦ ﻣﻌﯿﺎر ﺑﻪ ﮐﺪام ﺻﻔﺤﺎت اﺧﺘﺼﺎص دارد؟ • ﯾ queryﺑﯿﺎﺑﯿﺪ ﮐﻪ ﻧﺘﯿﺠﻪی ﺟﺴﺘﺠﻮ در ﺻﻮرت ﻋﺪم اﺳﺘﻔﺎده از PageRankﺗﻐﯿﯿﺮ ﻣﻌﻨﺎداری ﭘﯿﺪا ﮐﻨﺪ) .ﻣﻤ ﻦ اﺳﺖ ﻧﯿﺎز ﺑﺎﺷﺪ ﺑﺮای ﻏﯿﺮﻓﻌﺎل ﮐﺮدن PageRankﮐﻞ ﻋﻤﻞ ﺷﺎﺧﺺﮔﺬاری را ﻣﺠﺪّداً اﻧﺠﺎم دﻫﯿﺪ(. ٢ • ﺑﻪ ﻗﺎﺑﻠﯿﺖﻫﺎی ﮐﻠّ ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮ )در ﺣﺪّ ﯾ ﺻﻔﺤﻪ ،و ﺗﯿﺘﺮوار( اﺷﺎره ﮐﻨﯿﺪ. • )ﺟﻬﺖ ﺑﻬﺒﻮد ﻓﺮآﯾﻨﺪ ﺗﺼﺤﯿﺢ( در ﺻﻮرﺗ ﮐﻪ راهاﻧﺪازی ﮐﺪ ﭘﺮوژهی ﺷﻤﺎ ﻧﯿﺎز ﺑﻪ ﺗﻨﻈﯿﻤﺎت ﺧﺎﺻ دارد )ﻣﺎﻧﻨﺪ ﻗﺮار دادن ﻓﺎﯾﻠ در ﺟﺎی ﻣﺸﺨّﺺ( ﺣﺘﻤﺎً در ﻣﺴﺘﻨﺪات اﯾﻦ ﺗﻨﻈﯿﻤﺎت را ذﮐﺮ ﮐﻨﯿﺪ. ﺗﻬﯿﻪی ﯾ ﻣﺴﺘﻨﺪ ﻣﻨﺎﺳﺐ از ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی ﺷﻤﺎ ﻣ ﺗﻮاﻧﺪ ﺗﺎ ٣٠ﻧﻤﺮهی اﺿﺎﻓﻪ داﺷﺘﻪ ﺑﺎﺷﺪ .ﺑﺮای اﯾﻦ ﮐﺎر ﭼﻨﺪ ﻣﻮرد از ﻣﺸ ﻼت راﯾﺞ در ﺑﺎزﯾﺎﺑﯽ اﻃﻼﻋﺎت وب )ﻣﺎﻧﻨﺪ ﺳﻮءاﺳﺘﻔﺎدهﻫﺎی ﻣﻤ ﻦ( را ﻧﺎم ﺑﺒﺮﯾﺪ و ﺑﺮای ﻫﺮ ﮐﺪام اﯾﻦ ﻣﻮارد را در ﻣﺴﺘﻨﺪ ﺑﯿﺎورﯾﺪ: • ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮی از ﻣﺸ ﻞ • ﺗﻮﺿﯿﺢ ﻣﺨﺘﺼﺮی از راهﮐﺎرﻫﺎی ﻣﻮﺟﻮد :ﺑﺴﯿﺎری از اﯾﻦ ﮔﻮﻧﻪ ﻣﺸ ﻼت راهﮐﺎر ﻣﺸﺨّﺼ ﻧﺪارﻧﺪ .ﺻﺮﻓﺎً ﺑﺮرﺳ ﮐﻮﺗﺎﻫ اﻧﺠﺎم داده و ﻧﺘﯿﺠﻪ را ﺑﯿﺎن ﮐﻨﯿﺪ. • ﺑﺮﺧﻮرد ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی ﺷﻤﺎ ﺑﺎ اﯾﻦ ﻣﺸ ﻞ :در اﮐﺜﺮ ﻣﻮارد اﻧﺘﻈﺎر ﻧﻤ رود ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی ﺷﻤﺎ ﺑﺘﻮاﻧﺪ ﮐﺎر ﺧﺎﺻ اﻧﺠﺎم دﻫﺪ ،اﻣﺎ ذﮐﺮ ﮐﻨﯿﺪ ﮐﻪ ﺑﺮوز اﯾﻦ ﻣﺸ ﻞ ﭼﻪ ﻋﻮاﻗﺒﯽ ﺑﺮای ﻓﺮآﯾﻨﺪ ﺟﺴﺘﺠﻮ در ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮی ﺷﻤﺎ ﺧﻮاﻫﺪ داﺷﺖ. • ﯾ ﻟﯿﻨﮏ ﻧﻤﻮﻧﻪ از ﺳﺎﯾﺘ ﮐﻪ ﻓﺮآﯾﻨﺪ ﺟﺴﺘﺠﻮ در آن ﺑﺎ ﻣﺸ ﻞ ﻓﻮق روﺑﺮوﺳﺖ :ﺗﺮﺟﯿﺤﺎً ﯾ ﺳﺎﯾﺖ واﻗﻌ ﮐﻪ )از ﻋﻤﺪ ﯾﺎ ﻏﯿﺮ ﻋﻤﺪ( ﺑﺎﻋﺚ اﯾﺠﺎد ﭼﻨﯿﻦ ﻣﺸ ﻠ ﻣ ﺷﻮد. از ﺳﺨﺘ ﻫﺎﯾﯿﺴﺖ ﮐﻪ ﺑﺮ ﺳﺮ راه ﻣﻮﺗﻮرﻫﺎی ﺟﺴﺘﺠﻮ ﻗﺮار ﺑﺮای ﻧﻤﻮﻧﻪ» ،ﺗﻮﻟﯿﺪ ﻣﺤﺘﻮا ﺑﻪ وﺳﯿﻠﻪی ﺟﺎوااﺳ ﺮﯾﭙﺖ« ﯾ دارد. ﺑﻪ ﻫﯿﭻ وﺟﻪ ﻧﯿﺎز ﻧﯿﺴﺖ ﻣﺴﺘﻨﺪ ﺷﻤﺎ ﻣﻔﺼﻞ ﺑﺎﺷﺪ .ﺣﺪود ۵ﺻﻔﺤﻪ ﻫﻢ ﻣ ﺗﻮاﻧﺪ ﯾ ۴ ﻣﺴﺘﻨﺪ ﮐﺎﻣﻞ ﺑﺎﺷﺪ. . ﻧﮑﺎت • ﻧﺘﯿﺠﻪی ﺑﺪﺳﺖ آﻣﺪه از ﮔﺎمﻫﺎی ﻣﯿﺎﻧ را ذﺧﯿﺮه ﮐﻨﯿﺪ .ﺑﻪ اﯾﻦ ﻣﻌﻨ ﮐﻪ ﺧﺰﻧﺪه ﺑﺎﯾﺪ ﻣﺤﺘﻮای ﺑﻪدﺳﺖ آﻣﺪه را در ﺟﺎﯾﯽ ﻧﮕﻬﺪاری ﮐﻨﺪ ،ﺷﺎﺧﺺﮔﺬار از آنﻫﺎ اﺳﺘﻔﺎده ﮐﻨﺪ و ﺷﺎﺧﺺ را در ﻣﺤﻠّ ذﺧﯿﺮه ﮐﻨﺪ ،و ﺑﺨﺶ ﺑﺎزﯾﺎﺑﯽ ﺑﺎ اﺳﺘﻔﺎده از ﺷﺎﺧﺺ ذﺧﯿﺮه ﺷﺪه ﻋﻤﻞ ﺑﺎزﯾﺎﺑﯽ را اﻧﺠﺎم دﻫﺪ. در ﺗﻌﯿﯿﻦ ﻧﺤﻮهی ذﺧﯿﺮهﺳﺎزی آزادﯾﺪ .ﻣ ﺗﻮاﻧﯿﺪ از دﯾﺘﺎﺑﯿﺲ ﯾﺎ ﻓﺎﯾﻞ اﺳﺘﻔﺎده ﮐﻨﯿﺪ ،و ﯾﺎ دادهﺳﺎﺧﺘﺎرﻫﺎﯾﺘﺎن را serialize ﮐﻨﯿﺪ. • ﺗﻤﺎم ﻧﺘﺎﯾﺞ ﺑﺪﺳﺖآﻣﺪه ﺑﺎﯾﺪ ﻗﺎﺑﻞ ﺑﺎزﺗﻮﻟﯿﺪ ﺑﺎﺷﻨﺪ. • ﮐﺪ ﭘﺮوژه را ﺑﻪ ﻫﻤﺮاه ﻣﺴﺘﻨﺪات و دادهﻫﺎی ﺑﺪﺳﺖ آﻣﺪه در ﻣﺮﺣﻠﻪی ﺧﺰش و ﺷﺎﺧﺺﮔﺬاری ،در ﯾ ﻓﺎﯾﻞ ﺑﺎ ﻧﺎﻣ ﻣﺎﻧﻨﺪ 89012345_90123456_PA3.zipﻗﺮار داده و ﺑﻪ آدرس [email protected]ارﺳﺎل ﮐﻨﯿﺪ. ٣
© Copyright 2026 Paperzz