Project2.pdf

‫اﻃﻼﻋﺎت ‪40324‬‬
‫ت‬
‫ﭘﺮوژه دوم – ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﺮﻓﺘﻪي‬
‫ﻧﻴﻴﻤﺴﺎل اول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 10 :‬دي ‪91‬‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫ﺑﻪ ﻧﺎم ﺧﺪا‬
‫ﭘﺮوژهه دوم درس ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﺮﻓﺘﻪي اﻃﻼﻋﺎت‬
‫ي و ﺗﺤﻮﻳﻞ ﭘﺮوژژه دﻗﺖ ﻧﻤﺎﻳﻴﺪ‪:‬‬
‫ﻟﻄﻄﻔﺎً ﺑﻪ ﻣﻮارد زﻳﺮﺮ در آﻣﺎدهﺳﺎزي‬
‫‪-‬‬
‫ﭼﻨﺎنﭼﻪﻪ ﺳﻮاﻟﻲ در راﺑﻄﻄﻪ ﺑﺎ ﭘﺮوژه داﺷﺷﺘﻴﺪ ﺑﻪ ﮔﺮوه دررس اﻳﻤﻴﻞ ﺑﻔﺮﺳﺳﺘﻴﺪ‪ .‬‬
‫‪ ‬‬
‫‪-‬‬
‫ﻞﻫﺎي ارﺳﺎﻟﻲ ﺑﺎﻳﻳﺪ در ﻳﻚ ﭘﻮﺷﻪﻪ ﻓﺸﺮده ﺑﺎﺷﺪ‬
‫ﻛﺪ ﭘﺮوژه ﺧﻮد را ﺑﻪ آدرس ‪ [email protected]‬ارﺳﺳﺎل ﻧﻤﺎﻳﻴﺪ‪ .‬ﻓﺎﻳﻞ‪ ‬‬
‫ﻞ ﺑﻪ ﺻﻮرت‬
‫ﻢ ﺟﺪا ﺷﺪهاﻧﺪ‪ ،‬اﺳﺖ‪ .‬ﻫﻤﭽﻨﻴﻴﻦ ﻋﻨﻮان اﻳﻤﻴﻞ‬
‫ﻀﺎي ﮔﺮوه ﻛﻪ ﺑﺎ "_" از ﻫﻢ‬
‫ﻢ آن ﺷﻤﺎره دداﻧﺸﺠﻮﻳﻲ اﻋﻀ‬
‫ﻛﻪ اﺳﻢ‬
‫‪ StudentID1_StudentID2_Pro‬ﻳﺎ در ﺻ‬
‫‪oject2‬‬
‫ﺻﻮرت ﺗﻚﻧﻔﺮه ﺑﻮدن ﭘﺮوژه ‪ StudenttID_Project2‬ﺑﺎﺷﺪ‪ .‬ﻣﻬﻠﺖ ارﺳﺎل‬
‫ﮔﺰارش آن ﺗﺎ ﺳﺎﺎﻋﺖ ‪ 24‬ﻣﻮﻋﺪ ﻣﻘﺮر اﺳﺖ‪ .‬‬
‫ﻛﺪ و ﮔﺰ‬
‫‪-‬‬
‫ﻛﺪ ﺑﺮﻧﺎﻣﻪ ﺑﺎﻳﺪ ﭘﻴﺎدهﺳﺎﺎزي ﺧﻮد ﺷﻤﺎ ﺑﺑﺎﺷﺪ‪ .‬‬
‫‪-‬‬
‫ﺧﻮاﻫﺪ ﮔﺮﻓﺖ‪ .‬‬
‫ﺪ‬
‫ﺗﺤﻮﻳﻞ ﭘﺮوژه ﺑﻪ ﺻﻮرت ﺣﻀﻮري ﻧﻴﺰﺰ ﺻﻮرت‬
‫ﻞ‬
‫‪-‬‬
‫ش و ﺗﺤﻠﻴﻞ ﻧﺘﺎﻳﺞ اﺧﺘﺼﺎص داردد‪.‬‬
‫ﺑﺨﺶ ﻗﻗﺎﺑﻞ ﺗﻮﺟﻬﻲ از ﻧﻧﻤﺮه ﺑﻪ ﮔﺰارش‬
‫ﭘﺮﺮوژه دووم‬
‫ﺸﺮﻓﺘﻪ اﻃﻼﻋﺎت ﻗﺮار اﺳﺖ ﻳﻚ ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮﻮي وب ﺳﺎده ﻃﻃﺮاﺣﻲ و ﭘﻴﺎده ﺳﺳﺎزي ﻧﻤﺎﻳﻴﺪ‪ .‬ﺑﺮﺮاي اﻳﻦ ﻣﻨﻈﻮر‬
‫درر ﭘﺮوژه دوم دررس ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸ‬
‫ﻊآوري ﻧﻤﺎﻳﺪ‪ .‬ﺳﺳﭙﺲ ﻋﻤﻠﻴﺎت‬
‫ﺨﺺ ﺷﺪه ﺟﻤﻊ‬
‫ﺤﺎت وب را از داﻣﻨﻪﻫﺎي ﻣﺸﺨ‬
‫ي ﻛﻨﻴﺪ ﻛﻪ ﺻﻔﺤ‬
‫ﻲ و ﭘﻴﺎدهﺳﺎزي‬
‫اﺑﺘﺘﺪا ﺑﺎﻳﺪ ﻳﻚ ‪ Crawleer‬ﻃﺮاﺣﻲ‬
‫ﺐ ﺷﺪه ﻓﺮاﻫﻢ ﺷﺷﻮد‪.‬‬
‫ﻲ ﺻﻔﺤﺎت ﻣﺮﺗﺒﺒﻂ ﺑﺎ ﭘﺮﺳﻤﺎن ﺑﺑﻪ ﺻﻮرت ﻣﺮﺗﺐ‬
‫ﺻﻔﺤﺎت ﺻﻮرت ﮔﺮﻓﺘﻪﻪ و اﻣﻜﺎن ﺑﺎزﻳﺎﺑﻲ‬
‫ت‬
‫ﺷﺎﺎﺧﺺﮔﺬاري رووي اﻳﻦ‬
‫ﺖﻫﺎي زﻳﺮ ﻓﺮاﻫﻫﻢ ﺷﻮد‪:‬‬
‫ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﺑﺮاي اﻳﺠﺎد ﻣﻮﺗﻮر ﺟﺴﺘﺠﻮي ﻣﻮرددﻧﻈﺮ ﺑﺎﻳﺪ ﻗﺎﺑﻠﻴﺖ‬
‫ﭘﺮدازش ﺳﻨﺪ )ﺻﻔﺤﻪ وب(‪ ،‬اﺳﺘﺨﺮاج‬
‫ش‬
‫ج ﻟﻴﻨﻚﻫﺎي ﻣﻮﺟﺟﻮد در آن و ﻫﻫﻤﭽﻨﻴﻦ ﺗﺒﺪﻳﻞ ﻣﺤﺘﻮاي ﻣﺘﻨﻲ‬
‫أ‪ .‬ﭘﻴﺶﭘﺮﺮدازش‪ :‬ﻣﻨﻈﻮر از ﭘﻴﺶ‬
‫ﺻﻔﺤﻪ ﺑﻪ ﺻﻮرت دﻧﺒﺎﻟﻪاي از واژهﻫﺎﺳﺳﺖ‪ .‬در ﺑﺨﺶ ﭘﻴﺎدهﺳﺎزي ﺑﺮااي اﻳﻦ ﻣﻨﻈﻮر ‪ webScanner package‬در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬
‫ﺷﺪه اﺳﺳﺖ ﻛﻪ ﺷﺎﻣﻞ ددو ﻛﻼس اﺻﻠﻲ زﻳﺮ اﺳﺖ ﻛﻪ ﺑﺎﺎﻳﺴﺘﻲ ﺗﻜﻤﻴﻞ ﺷﺷﻮﻧﺪ‪ :‬‬
‫اﻃﻼﻋﺎت ‪40324‬‬
‫ت‬
‫ﭘﺮوژه دوم – ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﺮﻓﺘﻪي‬
‫ﻧﻴﻴﻤﺴﺎل اول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 10 :‬دي ‪91‬‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫‪ :WebReso‬اﻳﻳﻦ ﻛﻼس ﻣﺴﺌﻮﻮﻟﻴﺖ ‪ parse‬ﻛﻛﺮدن ﻣﺤﺘﻮاي ﻳﻚ ﺻﻔﺤﻪي ‪ html‬را ﺑﺮﻋﻬﺪه دارد‪ .‬ﺑﻪ اﻳﻦ‬
‫ ‪ourceScanneer‬‬‫ش ﻣﻲﻛﻨﺪ‪ .‬در اﻳﻦ ﭘﺮدازش اوﻻً ﻣﺤﺘﻮاي ﻣﺘﺘﻨﻲ ﻓﺎﻳﻞ اﺳﺘﺨﺮﺮاج ﻣﻲﺷﻮد و‬
‫ﺗﺮﺗﻴﺐ ﻛﻪ ﻓﺎﻳﻞ ﻫﺎي ‪ html‬دررﻳﺎﻓﺘﻲ را ﭘﺮدازش‬
‫ﺻﻔﺤﺎت دﻳﮕﺮ ))ﺗﮓ ﻫﺎي ‪ a‬درر ‪ (html‬ﺑﺮاي اداﻣﻪي ﺧﺰش‬
‫ﮓﻫﺎي اﺿﺎﻓﻪ دوور رﻳﺨﺘﻪ ﻣﻲﺷﻮﻮﻧﺪ و ﻧﻴﺰ ﻛﻠﻴﻪي آدرسﻫﺎي ﺻ‬
‫ﺗﮓ‬
‫ﺶ ﻣﻲﺗﻮاﻧﻴﺪ از ﻛﺘﺎﺑﺨﺎﻧﻪﻫﺎي آآﻣﺎدهي ﺟﺎوا ﻧﻈﻈﻴﺮ ‪ Jsoup‬ﻳﺎ ﻫﺮﻛﺘﺎﺑﺨﺎﻧﻪي ددﻳﮕﺮي اﺳﺘﻔﺎده‬
‫اﺳﺳﺘﺨﺮاج ﻣﻲﺷﻮد‪ .‬ﺑﺮاي اﻳﻦ ﺑﺨﺶ‬
‫ﻨﻴﺪ‪ .‬‬
‫ﻛﻨﻴ‬
‫ﺲ از اﺳﺘﺨﺮاج ﻣﺤﺘﻮاي ﻣﺘﻨﻲ در ﻣﺮﺣﻠﻪي ﻗﺒﺒﻞ‪ ،‬ﺣﺎﻻ ﺗﻮﺳﻂ ﻳﻚ ‪ tokkenizer‬ﻧﻈﻴﺮ آﻧﭽﻪ در ﭘﺮوژه اول‬
‫ ‪ :Tokenizeer‬ﭘﺲ‬‫ﺣﺬف ‪stopword‬‬
‫‪ stem‬و ف‬
‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﻛﻪ ﻧﻴﺎزي ﺑﻪ ‪mming‬‬
‫ﻪ‬
‫ﺪا ﻧﻤﺎﻳﻴﺪ‪ .‬ﻫﻤﭽﻨﻨﻴﻦ ﺗﻮﺟﻪ‬
‫داﺷﺷﺘﻴﻢ‪ token ،‬ﻫﺎي ﻣﺘﻦ را ﺟﺪ‬
‫ﺑﻊ ﭘﻴﺎدهﺳﺎزي ﺷﺷﺪه در ﭘﺮوژهي اول اﺳﺘﻔﺎده ﻛﻨﻨﻴﺪ‪ .‬‬
‫ﻫﺎ ﻧﻴﺴﺖ‪ .‬ﻣﻲﺗﻮاﻧﻴﻴﺪ از ﻫﻤﺎن ﺗﻮاﺑﻊ‬
‫‪ ‬‬
‫ب در داﻣﻨﻪاي ﻛﻪ در اﺧﺘﻴﺎر ﺷﻤﺎ ﮔﺬاﺷﺘﻪ ﺧﺧﻮاﻫﺪ ﺷﺪ‪ .‬ﺑﺮاي اﻳﻦ ﻣﻨﻈﻮر‬
‫ب‪ .‬ﺧﺰﺷﮕﺮﺮ )‪ (crawler‬ﺑﺮاي ﺟﻤﻊآوري ﺻﻔﺤﺎت وب‬
‫ي ﺷﻮد‪ :‬‬
‫ﺴﺘﻲ ﭘﻴﺎده ﺳﺎزي‬
‫ﻲ اﺳﺖ ﻛﻪ ﺑﺎﻳﺴ‬
‫ﻞ ‪ 3‬ﻛﻼس اﺻﻠﻲ‬
‫‪ ccrawler pacckage‬در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪه اﺳﺖ ﻛﻪ اﻳﻦ ﭘﻮﺷﻪ ﺷﺎﻣﻞ‬
‫ ‪ :WebCrawleer‬اﻳﻦ ﻛﻼس وﻇﻇﻴﻔﻪي ﺧﺰش ددر وب را ﺑﺮﻋﻬﻬﺪه دارد‪ .‬ﺑﺎ اﺳﺘﺘﻔﺎده از ﻳﻚ ﻓﺎﻳﻳﻞ ورودي ﻛﻪ ﺷﺎﻣﻞ ﺗﻌﺪادي‬‫ﺖ ﻛﺎر را ﺷﺮوع ﻛﺮده و ﻟﻴﻨﻚﻫﻫﺎي ﻣﻮﺟﻮد در ﻫﺮ ﺻﻔﺤﻪ را اﺳﺘﺨﺮاج ﻣﻲﻛﻨﺪ‬
‫آددرس اوﻟﻴﻪ اﺳﺖ‬
‫ﺪ‪ .‬ﺳﭙﺲ ﺑﺎ ﺑﻪﻛﻛﺎرﮔﻴﺮي روش‬
‫ﺗﺮﺗﻴﺐ ﻛﺎر را اداﻣﻪ ﻣﻣﻲدﻫﺪ‪:‬‬
‫ﺴﺘﺠﻮي ﺳﻄﺢ اول )‪ (BFS‬اﻳﻦ ﻟﻴﻨﻚﻫﺎ را ﭘﻴﻤﺎﻳﻳﺶ ﻣﻲﻧﻤﺎﻳﺪ و ﺑﻪ ﻫﻤﻴﻦ ﺐ‬
‫ﺟﺴ‬
‫‪ http:///en.wikiped‬ﺷﺮوع‬
‫ﺤﻪي اﺻﻠﻲ ‪dia.org/wiki/Main_Pagge‬‬
‫ﺑﻪ ﻋﻨﻮان ﻧﻤﻮﻧﻪ ﺑﺑﺮاي ‪ crawl‬ﻣﻣﻲﺗﻮاﻧﻴﺪ از ﺻﻔﺤ‬
‫ﺻﻔﺤﺎﺗﻲ ﻛﻪ ﺑﻪ ﻓﺮم ‪ htttp://en.wikkipedia.org/wiki/articlee_name‬ﻫﺴﺘﻨﺪ را ﭘﭘﺮدازش ﻛﻨﻴﺪ‪.‬‬
‫ﻨﻴﺪ و ﻫﻤﻪي ﺻ‬
‫ﻛﻨﻴ‬
‫ﻲﺷﻮﻧﺪ و ﻻزم‬
‫ﻲ ﻟﻴﻨﻚ داده ﻣﻲ‬
‫ﻚ داده ﺷﺪه ﺑﻪ ﺻﻮرت ﻧﺴﺒﻲ‬
‫ﺪ ﻛﻪ در ﺑﺴﻴﺎرري از ﺻﻔﺤﺎت آدرسﻫﺎي ﻟﻴﻨﻚ‬
‫ﺗﻮﺟﺟﻪ داﺷﺘﻪ ﺑﺎﺷﻴﺪ‬
‫اﺳﺳﺖ ‪ domain‬آآدرس ﻛﻨﻮﻧﻲ ررا ﺑﻪ اﺑﺘﺪاي آدررس ﺑﻪدﺳﺖ آﻣﻣﺪه اﺿﺎﻓﻪ ﻛﻨﻴﺪ ﺗﺎ ﻳﻚ آدرس ﻣﻌﺘﺒﺮ ﺑﺪﺳﺖ آآﻳﺪ‪ .‬‬
‫ﻲﻛﻨﺪ‪ .‬ﻫﺮﺑﺎر ﺑﺎ‬
‫‪ :U‬ﻫﻤﺎن ﻟﻴﺴﺖ ﻣﻮرد اﺳﺘﻔﺎده در اﻟﮕﻮرﻳﺘﻢ ‪ BFSS‬اﺳﺖ ﻛﻪ ‪ Crawler‬از آآن اﺳﺘﻔﺎده ﻣﻲ‬
‫ ‪URL_frontieer‬‬‫ﻲ ﺷﺪه از اﺑﺘﺪاي‬
‫ﻒ اﻓﺰوده ﺷﺪه و آدرس ﺑﺮرﺳﻲ‬
‫س‪ ،‬آدرسﻫﺎي ﻣﻮﺟﻮد در آن ﺑﻪ اﻧﺘﻬﺎي ﺻﻒ‬
‫ﺑﺮرﺳﻲ ﻳﻚ آدرس‬
‫ي ﺻﻒ ﺣﺬف‬
‫ﻲﺷﻮد‪ .‬‬
‫ﻣﻲ‬
‫ﻲ ﻛﻨﺪ ﻛﻪ آﻳﺎ ددو ﻣﺘﻦ ﺣﺎوي‬
‫ﻚ روش ﺑﺮرﺳﻲ‬
‫‪ :DoubleCon‬اﻳﻦ ﻛﻼس وﻇﻇﻴﻔﻪ دارد ﺑﺎ ﺑﻪﻪ ﻛﺎرﮔﻴﺮي ﻳﻚ‬
‫ ‪ntentCheckeer‬‬‫ﻚ ﺳﻨﺪ ﺟﺪﻳﺪ درر ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ‪.‬‬
‫ﺪ ﻣﺘﻦ ﻣﺮﺑﻮﻃﻪ ررا ﺑﻪ ﻋﻨﻮان ﻳﻚ‬
‫ﺤﺘﻮاي ﺗﻜﺮاري ﻫﻫﺴﺘﻨﺪ ﻳﺎ ﺧﻴﺮ‪ .‬در ﺻﻮرت ﺗﻜﺮاري ﺑﻮدن ﻧﺒﺎﻳﺪ‬
‫ﻣﺤ‬
‫ﻞ دﻧﺒﺎﻟﻪاي از‬
‫ﺤﺎت و ﭘﻴﺶﭘﺮددازش‪ ،‬ﺗﻌﺪادي ﺳﻨﺪ دارﻳﻢ ﻛﻪﻪ ﻫﺮﻛﺪام ﺷﺎﻣﻞ‬
‫ﺷﺎﺧﺺﮔﺬاري و ﺑﺎزﻳﻳﺎﺑﻲ‪ :‬ﭘﺲ از ﺟﺟﻤﻊآوري ﺻﻔﺤ‬
‫ﺺ‬
‫ج‪.‬‬
‫ﺸﺎﺑﻪ آﻧﭽﻪ در ﻓﺎﺎز ﻗﺒﻞ داﺷﺘﻴﻢ ﺑﺎﻳﺪ اﻳﻦ ﺳﻨﺪﻫﺎ ﺷﺎﺧﺺ ﮔﺬاري ﺷﺪه و ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﭘﺮﺳﻤﺎن ورودي اﺳﻨﺎد‬
‫‪ ttoken‬ﻣﻲﺑﺎﺷﻨﺪ‪ .‬ﻣﺸ‬
‫ﺪه اﺳﺖ ﻛﻪ ﺷﺎﻣﻞ ﻛﻼسﻫﺎي زﻳﺮ اﺳﺖ‪ :‬‬
‫‪ retrieval p‬درر ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪ‬
‫ﺪ‪ .‬ﺑﺮاي اﻳﻦ ﻣﻨﻈﻈﻮر ‪package‬‬
‫ﻣﺮﺗﺒﻂ ﺑﺎزﻳﺎﺑﻲ ﻣﻲﺷﻮﻧﺪ‬
‫اﻃﻼﻋﺎت ‪40324‬‬
‫ت‬
‫ﭘﺮوژه دوم – ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﺮﻓﺘﻪي‬
‫ﻧﻴﻴﻤﺴﺎل اول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 10 :‬دي ‪91‬‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫‪-‬‬
‫ﺪ ﺷﺎﺧﺺﮔﺬار ﭘﭘﺮوژهي اول‪ ،‬اﺳﺳﻨﺎد را ﺷﺎﺧﺺﮔﺬاري ﻣﻲﻛﻨﺪ‪ ..‬‬
‫‪ :Indexer‬اﻳﻦ ﻛﻼس ﻣﺎﻧﻨﺪ‬
‫‪-‬‬
‫ﺐﺳﺎزي اﺳﻨﺎد‬
‫ﺨﺶ ﺑﺮاي ﻣﺮﺗﺐ‬
‫ﻦ ﻛﻼس ﻣﺴﺌﻮل ﺑﺎزﻳﺎﺑﻲ اﻃﻼﻋﻋﺎت ﺗﺮﺗﻴﺐدار اﺳﺖ‪ .‬در اﻳﻦ ﺑﺨ‬
‫‪ :Ranked_Retreival‬اﻳﻦ‬
‫دو ﺣﺎﻟﺖ زﻳﺮﺮ را در ﻧﻈﺮ ﺑﮕﻴﻴﺮﻳﺪ‪ :‬‬
‫‪ ‬‬
‫‪ :cosine .a‬ﻣﺤﺎﺳﺒﻪ ﺷﺒﺎﻫﺖ ﭘﺮﺳﻤﺎن و ﺳﻨﺪ از ﻣﻌﻴﺎر ﻛﺴﻴﻨﻮس زاوﻳﻪﻪ ﺑﻴﻦ‬
‫ﺑﺮداري ‪) tf‐idf‬ﻣﺪل‬
‫ي‬
‫‪ ,‬در ﻓﻀﺎي‬
‫ﺨﺶ ﻣﻲﺗﻮاﻧﻴﺪ ازز ﻛﺪ ﭘﺮوژه اول اﺳﺘﻔﺎده ﻧﻤﺎﻳﻴﺪ‪ .‬‬
‫ﺪ‪ .‬ﺑﺮاي اﻳﻦ ﺑﺨﺶ‬
‫‪ (lnc.ltc‬اﺳﺘﻔﺎده ﻧﻤﺎﻳﻴﺪ‬
‫‪ ‬‬
‫ﻞ از ﭘﺮﺳﻤﺎن ﺑﺎ‬
‫ﻛﺴﻴﻨﻮﺳﻲ ﺑﺨﺶ )‪ (a‬و ﻣﻣﻌﻴﺎر ‪ PaggeRank‬ﻛﻪ ﻣﺴﺘﻘﻞ‬
‫ﻲ‬
‫‪ :comb‬ﺣﺎﻟﺖ ددوم ﺗﺮﻛﻴﺒﻲ از ﻣﻣﻌﻴﺎر‬
‫‪bined .b‬‬
‫اﺳﺖ‪ .‬‬
‫ﻦ ﺻﻔﺤﺎت ﻣﺤﺎﺳﺳﺒﻪ ﻣﻲﺷﻮد‪ ،‬ﺖ‬
‫ﺗﻮﺟﻪ ﺑﻪﻪ ﻟﻴﻨﻚﻫﺎي ﺑﻴﻦ‬
‫ﻋﺎت را در ﺟﺪاوول ﭘﺎﻳﮕﺎه داده ذذﺧﻴﺮه ﻛﻨﻴﺪ‪ .‬اﻃﻃﻼﻋﺎﺗﻲ ﻛﻪ در‬
‫د‪ .‬ذﺧﻴﺮه اﻃﻼﻋﺎت در دﻳﻳﺴﻚ‪ :‬در اﻳﻦ ﭘﭘﺮوژه ﺑﺎﻳﺪ ﻳﻚ ﺳﺮي از اﻃﻼﻋﺎ‬
‫اﻳﻦ ﺟﺪاول ذﺧﻴﺮه ﻣﻲﻛﻛﻨﻴﺪ ﺷﺎﻣﻞ دو ددﺳﺘﻪ اﺳﺖ‪:‬‬
‫‪-‬‬
‫ﻛﻪ ﻳﻚ ﺑﺎر ﭘﺲ از ﺷﺎﺧﺺﮔﺬااري‪ ،‬اﻃﻼﻋﺎت‬
‫ﺬاري اﺳﺖ‪ .‬ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﻪ‬
‫ﻼﻋﺎت ﻣﺮﺑﻮط ﺑﻪ ﺷﺎﺧﺺ ﮔﺬ‬
‫دﺳﺘﻪي اول اﻃﻼ‬
‫ﺷﺷﺎﺧﺺ در ﭘﺎﻳﮕﺎه داده ذﺧﻴﺮه ﻣﻣﻲﺷﻮد و در زﻣﺎﺎن ﺑﺎزﻳﺎﺑﻲ‪ ،‬اﻳﻦ اﻃﻼﻋﺎت از ﭘﺎﻳﻳﮕﺎه داده اﺳﺘﺨﺮﺮاج ﻣﻲﺷﻮد‪.‬‬
‫‪-‬‬
‫ﺑﺘﻮاﻧﻴﻢ ﺗﻌﺪاد زﻳﺎدي‬
‫ﻢ‬
‫ﻼﻋﺎت ﻣﺮﺑﻮط ﺑﻪ ‪ URL‬ﻫﺎ درر ﺣﻴﻦ ‪ craawling‬اﺳﺖ‪ .‬ﻧﻤﻲﺗﻮان اﻧﺘﻈﺎر داﺷﺷﺖ ﻛﻪ‬
‫دﺳﺘﻪي دوم اﻃﻼ‬
‫وﻗﺖ ﻳﻚ ﺑﺎر در‬
‫‪ U‬ﻫﺎ‪ ،‬ﻫﺮﭼﻨﺪ ﺖ‬
‫ﺴﺖ ﻣﺘﻦ اﺳﻨﺎد و ﻟﻴﺴﺖ ‪URL‬‬
‫ﻨﻴﻢ‪ .‬ﺑﻠﻜﻪ ﻣﻲﺑﺎﻳﺴ‬
‫ﺻﻠﻲ ‪ crawl‬ﻛﻨﻴ‬
‫ﺻﻔﺤﻪي وب را در ﺣﺎﻓﻈﻪي اﺻ‬
‫ﺻ‬
‫ﺣﺣﺎﻓﻈﻪي ﭘﺎﻳﮕﺎه دداده ذﺧﻴﺮه ﺷﻮﻮﻧﺪ ﺗﺎ ﺣﺎﻓﻈﻪي اﺻﻠﻲ ﺑﺮاي اداﻣﻪي ‪ craawling‬ﺧﺎﻟﻲ ﺷﻮد‪ .‬ﭘﺲ از اﺗﻤﺎم ‪ ) crawl‬ﻣﺜﻼً‬
‫ﻲﺷﻮﻧﺪ‪ .‬‬
‫ي وارد ﻣﺮﺣﻠﻪي ‪ Indexing‬ﻣﻲ‬
‫رﺳﻴﺪن ﺑﻪ ﺣﺪاﻛﺜﺜﺮ ﺗﻌﺪاد ﺳﻨﺪ ﻣﻣﻮرد ﻧﻈﺮ(‪ ،‬اﻳﻦ ﺳﻨﺪﻫﺎي ﺑﺮاي ﺷﺎﺧﺺ ﮔﺬاري‬
‫ﺪه اﺳﺖ‪ .‬‬
‫در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪ‬
‫ي اﻳﻦ ﻣﻨﻈﻮر ر‬
‫ﺶ ﭘﻴﺎدهﺳﺎزي ‪ DataBasse package‬ﺑﺮاي‬
‫در ﺑﺨﺶ‬
‫ﺠﻮ ﺑﺎﺷﺪ و ﺷﻤﺎ‬
‫‪ (button‬ﺟﺴﺘﺠ‬
‫ﻦ )‪ (textbox‬و ﻳﻚ دﻛﻤﻪ )‪n‬‬
‫ﻞ ﻳﻚ ﻗﺎب ﻣﺘﻦ‬
‫ه‪ .‬واﺳﻂ ﻛﺎﺎرﺑﺮي ﻣﺒﺘﻨﻲ ﺑﺮﺮ وب‪ :‬واﺳﻂ ﻛﺎرﺑﺮي ﺑﺎﻳﺪ ﺷﺎﻣﻞ‬
‫ﺖ )ج( ﺗﻮﺿﻴﺢ‬
‫ي ﻛﻪ در ﻗﺴﻤﺖ‬
‫ﺐ ﻧﺰوﻟﻲ ﻣﻌﻴﺎري‬
‫ﻟﻴﺴﺖ ااﺳﻨﺎد ﻣﺮﺗﺒﻂ ﺑﺎ ﻛﻠﻤﺎت ﭘﺮﺳﻤﺎﻧﻧﻲ ﻛﻪ در ﻗﺎب ﻣﺘﻦ وارد ﺷﺪههاﻧﺪ را ﺑﻪ ﺗﺮﺗﻴﺐ‬
‫ت ده ﺗﺎﻳﻲ ﻧﺸﺎن دﻫﻴﺪ(‪.‬‬
‫ﻲ را در ﺻﻔﺤﺎت‬
‫ﻲ ﺗﻮاﻧﻴﺪ ﺧﺮوﺟﻲ‬
‫ﺪ‪ ،‬در ﺧﺮوﺟﻲ ﻧﻧﺸﺎن دﻫﻴﺪ )ﻣﻲ‬
‫داده ﺷﺪ‬
‫ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺳﻤﺎن واارد ﺷﺪه را ﺑﻪ‬
‫ﻂ‬
‫ت را در ﻛﻨﺎر ﻫﻫﻢ ﻗﺮار داده و ﺻﻔﺤﺎت‬
‫ﺨﺘﻠﻒ ﺳﻴﺴﺘﻢ ﺑﺎزﻳﺎﺑﻲ اﻃﻼﻋﺎت‬
‫درر ﻧﻬﺎﻳﺖ ﺑﺎﻳﺪ ﺑﺘﺘﻮاﻧﻴﺪ اﺟﺰاي ﻣﺨ‬
‫ﺧﺮوﺟﻲ ﻧﺸﺎن دﻫﻴﺪ‪.‬‬
‫ﻲ‬
‫ﺗﺮﺮﺗﻴﺐ در‬
‫اﻃﻼﻋﺎت ‪40324‬‬
‫ت‬
‫ﭘﺮوژه دوم – ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﺮﻓﺘﻪي‬
‫ﻧﻴﻴﻤﺴﺎل اول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 10 :‬دي ‪91‬‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫ﮔﺰﺰارش‬
‫ﻫﻤﭽﻨﻴﻦ ﮔﺰارش ﻋﻤﻠﻜﻜﺮد ﺳﻴﺴﺘﻢ را ﻧﻴﺰ ﺗﺤﻮﻳﻞ دﻫﻴﻴﺪ‪ .‬در ﻗﺴﻤﺖ‬
‫ﻦ‬
‫ﻴﺴﺘﻢ و‬
‫ﻼوه ﺑﺮ ﻛﺪ ﺑﺮﻧﺎﻣﻣﻪ ﺑﺎﻳﺪ ﻣﺴﺘﻨﺪات ﻃﺮاﺣﻲ ﺳﻴﺴ‬
‫درر اﻳﻦ ﭘﺮوژه ﻋﻼ‬
‫ﺪه را ﻣﻌﺮﻓﻲ ﻧﻤﻤﺎﻳﻴﺪ‪ .‬ﻫﻤﭽﻨﻴﻦ در ﻣﻮرد ﻧﺤﻮه‬
‫ﻃﺮﺮاﺣﻲ ﺑﺎﻳﺪ ﻣﻌﻤﺎﺎري ﻛﻪ ﺑﺮاي ‪ Crawlerr‬در ﻧﻧﻈﺮ ﮔﺮﻓﺘﻪاﻳﺪ و داده ﺳﺎﺧﺘﺎرﻫﻫﺎي اﺳﺘﻔﺎده ﺷﺪ‬
‫ﺗﺮﻛﻴﺐ ‪ PageRank‬ﺑﺎ ﻣﻌﻴﺎر ﺷﺒﺎﻫﻫﺖ ﻛﺴﻴﻨﻮﺳﻲ‬
‫ﺐ‬
‫ﺤﺎﺳﺒﻪ ‪ ،PageeRank‬ﺳﺎﺧﺘﺎرﻫﻫﺎي درﻧﻈﺮ ﮔﺮﻓﻓﺘﻪ ﺷﺪه ﺑﺮاي اﻳﻦ ﻣﻨﻈﻮر و ﻧﺤﻮهي‬
‫ﻣﺤ‬
‫ﻛﻨﻴﺪ و ﻣﻘﺎﻳﺴﻪاي ﺑﺑﻴﻦ ﺑﺎزﻳﺎﺑﻲ ﺑﺮ‬
‫ﺪه را ذﻛﺮ ﺪ‬
‫ﺻﻠﻲ ‪ Crawler‬ﭘﻴﺎدهﺳﺎزي ﺷﺪ‬
‫ﺤﺪودﻳﺖﻫﺎي اﺻ‬
‫ﮔﺰارش ﻋﻤﻠﻜﺮد‪ ،‬ﻣﺤ‬
‫ش‬
‫ﺗﻮﺿﻴﺢ دﻫﻴﺪ‪ .‬درر ﻗﺴﻤﺖ‬
‫اﺳﺳﺎس ﻣﻌﻴﺎرﻫﺎي ﻣﻄﺮح ﺷﺪه در ﺑﺨﺶ ج اراﺋﻪ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫ﻣﻮﻓﻖ ﺑﺎﺷﻴﺪ‬