ﺑﺴﻤﻪ ﺗﻌﺎﻟ اﻟ ﻮﺷﻨﺎﺳ آﻣﺎری ﻧﯿﻢﺳﺎل دوم ٩١-٩٢ دﮐﺘﺮ رﺑﯿﻌ داﻧﺸ ﺪه ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ ﭘﺮ ﻭﮊﻩ ﭘﺎﯾﺎﻧﯽ ﺑﻪ ﻧ ﺎت زﯾﺮ ﺗﻮﺟﻪ ﮐﻨﯿﺪ: • اﯾﻦ ﭘﺮوژه در ﺳﻪ ﻓﺎز ﺧﻮاﻫﺪ ﺑﻮد ﮐﻪ زﻣﺎن اﺟﺮای ﻓﺎز اول آن از اﻣﺮوز ﺷﺮوع ﻣ ﺷﻮد .ﺿﻤﻨﺎ ٢٠ﻧﻤﺮه اﺿﺎﻓﻪ ﺑﺮای ﭘﯿﺎدهﺳﺎزی ﮐﺎﻣﻞ ﭘﺮوژه ) ٣ﻓﺎز( در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪه اﺳﺖ. • ﺑﺮای ﭘﯿﺎدهﺳﺎزیﻫﺎی ﺧﻮد ﺗﻨﻬﺎ از Matlabاﺳﺘﻔﺎده ﮐﻨﯿﺪ. • ﮔﺰارش ﺷﻤﺎ ﺑﺎﯾﺪ ﮐﺎﻣﻞ و ﺟﺎﻣ ﺑﻮده و ﺗﻤﺎﻣ ﻓﻌﺎﻟﯿﺖﻫﺎی ﺷﻤﺎ را ﭘﻮﺷﺶ دﻫﺪ .ﻧﺘﺎﯾ ﻣﻘﺎﯾﺴﺎت و ﺗﺤﻠﯿﻞﻫﺎ ﻧﻘﺶ ﻣﻬﻤ در ارزﯾﺎﺑ ﻓﻌﺎﻟﯿﺖ ﺷﻤﺎ دارﻧﺪ. اﻫﺪاف ﭘﺮوژه ﻣﻮﺿﻮع اﯾﻦ ﭘﺮوژه ،ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ ١در ﺷﺒ ﻪﻫﺎی ﭘﯿﭽﯿﺪه اﺳﺖ .ﺑﻪ ﺑﯿﺎن ﺳﺎده در اﯾﻦ ﻣﺴﺌﻠﻪ ،ﻫﻤﺎنﻃﻮر ﮐﻪ از ﻧﺎم آن ﭘﯿﺪاﺳﺖ ،ﺗﺸﺨﯿﺺ وﺟﻮد ﯾﺎ ﻋﺪم وﺟﻮد ﯾﺎل در ﮔﺮاف ﺷﺒ ﻪ ﮐﻪ ﺑﺨﺶ ﻫﺎﯾ از آن دﯾﺪه ﻧﺸﺪه اﺳﺖ ،ﻫﺪف اﺻﻠ اﺳﺖ .ﻣﺠﻤﻮﻋﻪ داده ﻣﻮرد ﻧﻈﺮ ﺑﺮای اﯾﻦ ﭘﺮوژه ،ﻣﺠﻤﻮﻋﻪ داده [١] NIPS ۱ − ۱۷اﺳﺖ ﮐﻪ ﻣ ﺗﻮاﻧﯿﺪ آن را ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﯿﺤﺎت از ﺳﺎﯾﺖ درس داﻧﻠﻮد ﮐﻨﯿﺪ .ﻫﺪف از اﯾﻦ ﭘﺮوژه، ﺑﺮرﺳ راهﺣﻞﻫﺎی ﻣﺨﺘﻠﻒ ﺑﺮای ﯾ ﻣﺴﺌﻠﻪ ﭘﺎﯾﻪای و ﻣﻘﺎﯾﺴﻪ روشﻫﺎی ﻣﻮﺟﻮد و ﺑﻪ روز ﺑﺮای ﺣﻞ آن اﺳﺖ .در اﻧﺘﻬﺎی ﭘﺮوژه اﻧﺘﻈﺎر ﻣ رود داﻧﺸﺠﻮ ﺑﺎ اﻧﻮاع روشﻫﺎی ﻣﻮﺟﻮد ﺑﺮای ﺣﻞ اﯾﻦ ﻣﺴﺌﻠﻪ آﺷﻨﺎ ﺑﻮده و ﺑﺘﻮاﻧﺪ ﺑﺎ اﺳﺘﺨﺮاج ﻣﺸﺨﺼﻪ و اﺳﺘﻔﺎده از ﻣﺪلﻫﺎی ﻣﻨﺎﺳﺐ، اﻟ ﻮﻫﺎی ﻣﻮﺟﻮد در ﻣﺠﻤﻮﻋﻪ داده را ﺑﺎزﮔﻮ ﮐﻨﺪ و ﺗﺤﻠﯿﻠ از ﺗﺎﺛﯿﺮ ﻋﻮاﻣﻞ ﻣﺨﺘﻠﻒ در ﮐﺎراﯾ روشﻫﺎ اراﺋﻪ دﻫﺪ. ﺗﻮﺿﯿﺤﺎﺗ در ارﺗﺒﺎط ﺑﺎ ﻣﺠﻤﻮﻋﻪ داده ﻣﺠﻤﻮﻋﻪ داده NIPS ۱ − ۱۷ﺷﺎﻣﻞ ﺗﻮزﯾ ﮐﻠﻤﺎت ﺑﻪ ﮐﺎر رﻓﺘﻪ در ﻣﻘﺎﻻت ﮐﻨﻔﺮاﻧﺲ NIPSدر ﺳﺎلﻫﺎی ١٩٨٧ﺗﺎ ٢٠٠٣اﺳﺖ. ﻓﺎﯾﻞ ﻣﺠﻤﻮﻋﻪ دادهای ﮐﻪ در اﺧﺘﯿﺎر دارﯾﺪ ﺷﺎﻣﻞ ۶ﺟﺪول اﺳﺖ .در ﺳﻪ ﺟﺪول ﭘﺎﯾﻪ ﻧﺎم ﻣﻘﺎﻻت ) ، (docs_namesﮐﻠﻤﺎت ﺑﻪ ﮐﺎر ﺑﺮده ﺷﺪه در ﻣﻘﺎﻻت )) (wordsﻓﺮﻫﻨ ﻟﻐﺎت ﻣﺠﻤﻮﻋﻪ داده ( ٢و ﻧﺎم ﻧﻮﯾﺴﻨﺪﮔﺎن ﻣﻘﺎﻻت ) (authors_namesآورده ﺷﺪه اﺳﺖ. ﺳﻪ ﺟﺪول ﺗﺮﮐﯿﺒ دﯾ ﺮ ﺑﻪ ﺗﺮﺗﯿﺐ ﺟﺪول ﻧﻮﯾﺴﻨﺪﮔﺎن-ﻣﻘﺎﻻت ) ، (docs_authorsﺟﺪول ﻧﻮﯾﺴﻨﺪﮔﺎن-ﮐﻠﻤﺎت ) (countsو ﺟﺪول ﻧﻮﯾﺴﻨﺪﮔﺎن-ﮐﻠﻤﺎت ﻧﺮﻣﺎل ﺷﺪه ) (aw_countsاﺳﺖ .ﻗﺪم ﭘﯿﺶﻧﯿﺎز ﺑﺮای اﻧﺠﺎم ﭘﺮوژه ،ﺗﺸ ﯿﻞ ﺷﺒ ﻪ ﻧﻮﯾﺴﻨﺪﮔﺎن ﻫﻤ ﺎر اﺳﺖ .ﺑﺪﯾﻦ ﺻﻮرت ﮐﻪ ﻫﻤﻪ ﻧﻮﯾﺴﻨﺪﮔﺎن ﺑﻪ ﻋﻨﻮان رﺋﻮس ﮔﺮاف ﺷﺒ ﻪ ﺷﻨﺎﺧﺘﻪ ﻣ ﺷﻮﻧﺪ و ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺟﺪول docs_authorsﻧﻮﯾﺴﻨﺪﮔﺎﻧ ﮐﻪ در ﯾ ﻣﻘﺎﻟﻪ ﻣﺸﺘﺮک ﺑﻮدهاﻧﺪ ،در اﯾﻦ ﺷﺒ ﻪ ﺑﻪ ﻫﻢ ﯾﺎل ﺧﻮاﻫﻨﺪ داﺷﺖ .در اﻧﺘﻬﺎ ﺷﻤﺎ ﺑﺎﯾﺴﺘ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺷﺒ ﻪ ﻣﻮرد ﻧﻈﺮ را ﺑﺮای ﻓﺎزﻫﺎی ﭘﺮوژه در اﺧﺘﯿﺎر داﺷﺘﻪ ﺑﺎﺷﯿﺪ .ﻫﻤﭽﻨﯿﻦ از ﺟﺪول aw_countsﺑﻪ ﻋﻨﻮان ﺑﺮدارﻫﺎی وﯾﮋﮔ ﺑﺮای ﻫﺮ ﻧﻮﯾﺴﻨﺪه اﺳﺘﻔﺎده ﺧﻮاﻫﯿﻢ ﮐﺮد .ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦﮐﻪ ﺷﺒ ﻪ ﺟﻬﺖدار ﻧﯿﺴﺖ و ﺑﻨﺎﺑﺮاﯾﻦ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺷﺒ ﻪ ﻣﺘﻘﺎرن ﺧﻮاﻫﺪ ﺑﻮد ،ﻧﯿﻤﻪ ﺑﺎﻻﯾ ﯾﺎ ﭘﺎﯾﯿﻨ ﻣﺎﺗﺮﯾﺲ ﻧﻬﺎﯾ را ﻓﻘﻂ ﻧ ﻪ ﻣ دارﯾﻢ. Link Prediction١ Dictionary٢ ١ ١ ﻓﺎز اول ) ۴٠ﻧﻤﺮه( -ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ١٣٩٢/٢/٧ : در ﻓﺎز اول ،ﺑﺎ اﺳﺘﻔﺎده از ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﻫﺮ ﻧﻮﯾﺴﻨﺪه ،ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ را اﻧﺠﺎم ﻣ دﻫﯿﻢ .ﺑﻪ ﻃﻮر دﻗﯿﻖﺗﺮ ،ﺑﺨﺸ از ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺷﺒ ﻪ را ﻧﺎدﯾﺪه ﮔﺮﻓﺘﻪ و ﺑﺎ اﺳﺘﻔﺎده از ﯾ ﮐﻼﺳﻪﺑﻨﺪ ﻣﻨﺎﺳﺐ ﺑﺮ روی ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﻫﺮ زوج ﻧﻮﯾﺴﻨﺪه ،ﯾ ﮐﻼﺳﻪﺑﻨﺪی دو ﮐﻼﺳﻪ ﺑﺮای زوج ﻧﻮﯾﺴﻨﺪهﻫﺎی ﻧﺎﻣﻌﻠﻮم )ﺻﻔﺮ ﻋﺪم وﺟﻮد ﻟﯿﻨ و ﯾ وﺟﻮد ﻟﯿﻨ ( اﻧﺠﺎم ﻣ دﻫﯿﻢ .ﺑﺮای اﯾﻦ ﻣﻨﻈﻮر اﺑﺘﺪا ﻧﯿﺎز ﺑﻪ ﺗﻌﺮﯾﻒ ﺑﺮدار وﯾﮋﮔ ﺑﺮای ﻫﺮ ﯾﺎل دارﯾﻢ .ﻣ ﺗﻮان ﺑﻪ ﻃﻮر ﺳﺎده ،ﺟﻤ ﺑﺮدار وﯾﮋﮔ ﻫﺎی دو ﺳﺮ ﯾﺎل را ﺑﻪ ﻋﻨﻮان ﺑﺮدار وﯾﮋﮔ ﯾﺎل داﻧﺴﺖ. ۵ ﮐﻼﺳﻪﺑﻨﺪﻫﺎی ﻣﻮرد اﺳﺘﻔﺎده در اﯾﻦ ﺑﺨﺶ ،ﮐﻼﺳﻪ ﺑﻨﺪ ﺑﯿﺰ ﺳﺎده ، ٣ﻧﺰدﯾ ﺗﺮﯾﻦ ﻫﻤﺴﺎﯾﻪ ۴و ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ﻣ ﺑﺎﺷﻨﺪ .ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﺑﻌﺎد ﺑﺎﻻی ﺑﺮدارﻫﺎی وﯾﮋﮔ ،ﺑﻪ ﮐﺎرﮔﯿﺮی روشﻫﺎی ﮐﺎﻫﺶ اﺑﻌﺎد ﺑﺎﯾﺴﺘ در اﯾﻦ ﻓﺎز ﺑﺮرﺳ ﺷﻮد .ﻫﻤﭽﻨﯿﻦ ﯾ از ﺑﺨﺶﻫﺎی ﻣﻬﻢ ارزﯾﺎﺑ در اﯾﻦ ﻓﺎز ،ﭼ ﻮﻧ ﺗﻌﯿﯿﻦ ﭘﺎراﻣﺘﺮ و ﺳﻨﺠﺶ دﻗﺖ اﺳﺖ .ﮔﺮﻓﺘﻦ ﻧﺘﺎﯾ روی ﺑﺮدارﻫﺎی وﯾﮋﮔ ﻓﻮق اﺟﺒﺎری اﺳﺖ .ﻣ ﺗﻮاﻧﯿﺪ اﯾﺪهﻫﺎی ﺧﻮد ﺑﺮای ﺗﻌﺮﯾﻒ وﯾﮋﮔ ﻫﺎی ﺟﺪﯾﺪ را ﻫﻤﺮاه ﺑﺎ دﻟﯿﻞ و ﻧﺘﺎﯾ ﻣﺮﺑﻮﻃﻪ ﺑﻪ ﮔﺰارش ﺧﻮد اﺿﺎﻓﻪ ﮐﻨﯿﺪ. ﺧﺮوﺟ ﻣﻮرد ﻧﻈﺮ در اﯾﻦ ﻓﺎز: • ﮔﺰارش ﻓﻌﺎﻟﯿﺖﻫﺎی اﻧﺠﺎم ﺷﺪه ﺷﺎﻣﻞ: – ﺗﻮﺿﯿ ﮐﺎﻣﻞ ﻣﻌﯿﺎرﻫﺎی ارزﯾﺎﺑ – ﻣﻘﺎﯾﺴﻪ ﮐﺎﻣﻞ ﻧﺘﺎﯾ و اراﺋﻪ ﺟﺪاول و ﻧﻤﻮدارﻫﺎی ﻣﻨﺎﺳﺐ – اراﺋﻪ دﻻﯾﻞ ﺑﻬﺒﻮد ﻋﻤﻠ ﺮد روشﻫﺎ و ﺑﺤﺚ در ﻣﻮرد ﻧﺘﺎﯾ – ذﮐﺮ ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﻫﺮ روش • ﮐﺪﻫﺎی ﭘﯿﺎدهﺳﺎزی ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﯾ ﻓﺎﯾﻞ main.mﺑﺪون ﭘﺎراﻣﺘﺮ ورودی .ﺑﺎ اﺟﺮای اﯾﻦ ﻓﺎﯾﻞ ،ﭘﺎراﻣﺘﺮﻫﺎی ورودی )ﻣﺜﻼ ﻧﻮع ﮐﻼﺳﻪﺑﻨﺪ و ﭘﺎراﻣﺘﺮﻫﺎی آن( در ﺻﻮرت ﻧﯿﺎز ﺑﺎﯾﺪ از ﮐﺎرﺑﺮ ﮔﺮﻓﺘﻪ ﺷﻮد .ﭘﯿﺸﻨﻬﺎد ﻣ ﺷﻮد ﺑﺮای ﭘﺎراﻣﺘﺮﻫﺎی ورودی ﻣﻘﺎدﯾﺮ ﭘﯿﺶﻓﺮض ﺗﻌﯿﯿﻦ ﺷﻮد ﺑﻪ ﮔﻮﻧﻪای ﮐﻪ ﻧﺘﯿﺠﻪ ﺑﺎ ﺳﺮﻋﺘ ﻣﻌﻘﻮل ﺑﺪﺳﺖ آﻣﺪه و ﺑﻪ ﻧﺘﺎﯾ داﺧﻞ ﮔﺰارش ﻧﺰدﯾ ﺑﺎﺷﺪ .ﻫﯿ ﻓﺎﯾﻞ داده ﻣﯿﺎﻧ از ﺷﻤﺎ ﭘﺬﯾﺮﻓﺘﻪ ﻧﻤ ﺷﻮد .ﺑﺮﻧﺎﻣﻪ ﺷﻤﺎ ﺑﺎﯾﺪ ﺗﻤﺎﻣ اﻋﻤﺎل ﺧﻮاﺳﺘﻪ ﺷﺪه از ﺟﻤﻠﻪ اﺳﺘﺨﺮاج وﯾﮋﮔ ،ﺗﺸ ﯿﻞ ﺷﺒ ﻪ ،ﮐﺎﻫﺶ اﺑﻌﺎد و ﮐﻼﺳﻪﺑﻨﺪی را اﻧﺠﺎم دﻫﺪ. ﺗﻮﺿﯿﺤﺎﺗ در ارﺗﺒﺎط ﺑﺎ ﻓﺎز دوم و ﺳﻮم روﺷ ﮐﻪ در ﻓﺎز ﻗﺒﻞ ﺑﺮرﺳ ﮐﺮدﯾﻢ ،ﺑﻪ ﻧﺎم ﻓﯿﻠﺘﺮﯾﻨ ﻣﺤﺘﻮا ۶در ﺳﯿﺴﺘﻢﻫﺎی ﭘﯿﺸﻨﻬﺎددﻫﻨﺪه ٧ﺷﻨﺎﺧﺘﻪ ﻣ ﺷﻮد ﮐﻪ در آن ﻓﻘﻂ ﺑﺮ اﺳﺎس وﯾﮋﮔ ﻫﺎی ﻫﺮ ﻋﻨﺼﺮ ،ﻟﯿﻨ ﻫﺎ ﭘﯿﺶﺑﯿﻨ ﻣ ﺷﻮﻧﺪ .راه دﯾ ﺮ ،اﺳﺘﻔﺎده از ﺳﺎﺧﺘﺎر ﺧﻮد ﺷﺒ ﻪ و ﺗﻌﺎﻣﻼت ﻣﯿﺎن ﻋﻨﺎﺻﺮ ﺷﺒ ﻪ اﺳﺖ ﮐﻪ از آن ﺑﻪ ﻋﻨﻮان ﻓﯿﻠﺘﺮﯾﻨ اﺷﺘﺮاﮐ ٨ﯾﺎد ﻣ ﺷﻮد .ﻣﺰﯾﺖ اﺻﻠ اﯾﻦ روش ،اﺳﺘﻔﺎده از ﺳﺎﺧﺘﺎر ﺷﺒ ﻪ ﺑﻪ ﺟﺎی وﯾﮋﮔ ﻫﺎی واﺑﺴﺘﻪ ﺑﻪ زﻣﯿﻨﻪ ﻣﻄﺎﻟﻌﻪ و ﺗﻮاﻧﺎﯾ ﮐﺸﻒ اﻟ ﻮﻫﺎی ﭘﻨﻬﺎن در ﺷﺒ ﻪ اﺳﺖ. روشﻫﺎی ﻓﯿﻠﺘﺮﯾﻨ اﺷﺘﺮاﮐ ﺑﻪ دو دﺳﺘﻪ روشﻫﺎی ﺑﺪونﻧﺎﻇﺮ و ﺑﺎﻧﺎﻇﺮ ﺗﻘﺴﯿﻢ ﻣ ﺷﻮﻧﺪ .روشﻫﺎی ﺑﺪون ﻧﺎﻇﺮ ﻋﻤﺪﺗﺎ ﺑﺎ ﺗﻌﺮﯾﻒ ﯾ ﻣﻌﯿﺎر ﺷﺒﺎﻫﺖ ﻣﯿﺎن ﻋﻨﺎﺻﺮ )ﻣﺎﻧﻨﺪ ﺗﻌﺪاد ﻫﻤﺴﺎﯾ ﺎن ﻣﺸﺘﺮک( اﻗﺪام ﺑﻪ ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ ﻣ ﮐﻨﻨﺪ .اﻣﺎ روشﻫﺎی ﺑﺎﻧﺎﻇﺮ ﺑﺎ درﻧﻈﺮ ﮔﺮﻓﺘﻦ ﯾ ﺳﺮی ﻓﺎﮐﺘﻮر ﭘﻨﻬﺎن ٩ﺑﺮای ﻋﻨﺎﺻﺮ ﺷﺒ ﻪ ،ﯾﻌﻨ ﺗﻌﺮﯾﻒ ﯾ ﺑﺮدار وﯾﮋﮔ ﺑﺮای آنﻫﺎ از روی ﺳﺎﺧﺘﺎر ﺷﺒ ﻪ ،ﺳﻌ ﻣ ﮐﻨﻨﺪ ﻣﺎﺗﺮﯾﺲ اﺻﻠ ﺷﺒ ﻪ را ﺑﺎ ﺿﺮب دو ﯾﺎ ﭼﻨﺪ ﻣﺎﺗﺮﯾﺲ ﺗﻘﺮﯾﺐ ﺑﺰﻧﻨﺪ .ﺑﺎ اﻧﺠﺎم اﯾﻦ ﺿﺮب ،ﻋﻨﺎﺻﺮ ﻧﺎﻣﻌﻠﻮم ﻣﺎﺗﺮﯾﺲ اﺻﻠ ﭘﯿﺶﺑﯿﻨ ﻣ ﺷﻮﻧﺪ .اﯾﻦ ﻓﺎﮐﺘﻮرﻫﺎی ﭘﻨﻬﺎن ﻣ ﺗﻮاﻧﻨﺪ ﻣﻌﺎﻧ ﮔﻮﻧﺎﮔﻮﻧ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺷﺒ ﻪ ﻣﻮرد ﻧﻈﺮ )ﻣﺜﻼ ﻓﯿﻠﺪ ﻣﻮرد ﻋﻼﻗﻪ ﻧﻮﯾﺴﻨﺪه در ﻣﺠﻤﻮﻋﻪ داده اﯾﻦ ﭘﺮوژه( داﺷﺘﻪ ﺑﺎﺷﻨﺪ .ﺑﻨﺎﺑﺮاﯾﻦ اﮔﺮ aijﯾ ﻋﻨﺼﺮ از ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺑﺎﺷﺪ و fiﺑﺮدار وﯾﮋﮔ ﻋﻨﺼﺮ iو fjﺑﺮدار وﯾﮋﮔ ﻋﻨﺼﺮ jﺑﺎﺷﺪ ،ﻫﺪف ﯾﺎﻓﺘﻦ اﯾﻦ ﺑﺮدار وﯾﮋﮔ ﻫﺎ ﺑﺮای ﻫﺮ زوج از ﻣﺎﺗﺮﯾﺲ اﺻﻠ اﺳﺖ ﺑﻪ ﻧﺤﻮی ﮐﻪ ﻋﺒﺎرت زﯾﺮ ﻣﯿﻨﯿﻤﻢ ﺷﻮد: ∑ ) loss(aij , fiT fj i,j Naive Bayes٣ Nearest Neighbour۴ Support Vector Machine۵ Content Filtering۶ Recommender Systems٧ Collaborative Filtering٨ Latent Factor٩ ٢ ﮐﻪ lossﯾ ﺗﺎﺑ ﻫﺰﯾﻨﻪ ﻣﺎﻧﻨﺪ ﻣﺠﺬور ﺧﻄﺎ اﺳﺖ .اﻃﻼﻋﺎت ﺑﯿﺸﺘﺮ در ﻣﻮرد ﭼ ﻮﻧ ﺑﻬﯿﻨﻪﺳﺎزی اﯾﻦ ﺗﺎﺑ ﻫﺪف و ﺗﻌﻤﯿﻢﻫﺎی روش ﻓﻮق )ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﭼ ﻮﻧ اﺿﺎﻓﻪ ﮐﺮدن ﺑﺮدار وﯾﮋﮔ ﻫﺎی اوﻟﯿﻪ ﺑﻪ ﺗﺎﺑ ﻫﺪف( را ﻣ ﺗﻮاﻧﯿﺪ در ] [٢ﺑﺒﯿﻨﯿﺪ .ﯾ از ﭼﺎﻟﺶﻫﺎی اﺳﺎﺳ ، ﺗﻌﯿﯿﻦ ﺑﻌﺪ وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن اﺳﺖ ﮐﻪ در اﯾﻦ ﭘﺮوژه ﻣﺎ آن را ﺑﻪ ﺻﻮرت دﺳﺘ و ﺑﻪ ﻋﻨﻮان ﭘﺎراﻣﺘﺮ ورودی ﻣﺴﺌﻠﻪ ﺗﻌﯿﯿﻦ ﻣ ﮐﻨﯿﻢ .ﺑﻌﺪ اﯾﻦ وﯾﮋﮔ ﻫﺎ در واﻗ رﺗﺒﻪ ﻣﺎﺗﺮﯾﺲ ﺗﻘﺮﯾﺐ زده ﺷﺪه ﺧﻮاﻫﺪ ﺑﻮد. ٢ ﻓﺎز دوم ) ۴٠ﻧﻤﺮه( -ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ١٣٩٢/٠٢/٣١ : اﮔﺮ ﺗﺎﺑ ﻫﺰﯾﻨﻪ ﻓﻮق را ﻣﺠﺬور ﺧﻄﺎ و اﺑﻌﺎد ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن را kدر ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ ،در ﺣﻀﻮر اﻃﻼﻋﺎت ﮐﺎﻣﻞ ﻣﺎﺗﺮﯾﺲ ،ﺗﺠﺰﯾﻪ SVD ﺑﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ kﺑﺰرﮔﺘﺮﯾﻦ ﻣﻘﺪار وﯾﮋه ﮐﻤﺘﺮﯾﻦ ﺧﻄﺎ را ﺧﻮاﻫﺪ داﺷﺖ .اﯾﻦ ﻣﺴﺌﻠﻪ ﻗﺒﻼ در PCAﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻮد .اﻣﺎ ﻣﺸ ﻞ اﺻﻠ ﻧﺒﻮد ﺗﻤﺎم دادهﻫﺎ اﺳﺖ .ﯾ روش ﺳﺎده ﻣ ﺗﻮاﻧﺪ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﻘﺪاری ﭘﯿﺶﻓﺮض ﺑﺮای دراﯾﻪﻫﺎی ﻧﺎﻣﻌﻠﻮم )ﻣﺜﻼ ﺻﻔﺮ( ﺑﺎﺷﺪ .اﯾﻦ روش ﺳﺎده را ﺑﺎ ﻣﻘﺪار ﭘﯿﺶﻓﺮض ﺻﻔﺮ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﺑﺎ ﻧﺘﺎﯾ ﻗﺒﻠ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ .ﺗﻮﺟﻪ ﮐﻨﯿﺪ ﮐﻪ ﻋﻨﺎﺻﺮ ﻣﺎﺗﺮﯾﺲ ﮐﻪ در اﻧﺘﻬﺎ ﭘﯿﺶﺑﯿﻨ ﻣ ﺷﻮﻧﺪ ﻣﻤ ﻦ اﺳﺖ ﻣﻘﺪار ﺣﻘﯿﻘ داﺷﺘﻪ ﺑﺎﺷﻨﺪ .در ﻣﻮرد ﺗﻌﯿﯿﻦ ﯾ ﺣﺪ ﭘﺎﯾﯿﻦ ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺟﻮد ﻟﯿﻨ ﺑﺤﺚ ﮐﻨﯿﺪ .اﯾﺪهﻫﺎی ﺧﻮد ﺑﺮای ﻣﻘﺎدﯾﺮ ﭘﯿﺶﻓﺮض ﺑﻬﺘﺮ را ﺑﺎ ذﮐﺮ دﻻﯾﻞ ﺧﻮد ﻧﯿﺰ ﻣ ﺗﻮاﻧﯿﺪ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ. اﯾﺪهای ﮐﻪ ﺑﻪ ﺗﺎزﮔ در ] [٣ﻣﻄﺮح ﺷﺪه ،ﺗﻌﺮﯾﻒ ﯾ ﻫﺴﺘﻪ ﺑﺮای ﻟﯿﻨ ﻫﺎ و اﺳﺘﻔﺎده از ﮐﻼﺳﻪﺑﻨﺪ SVMﺑﺮای ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ اﺳﺖ. اﯾﺪه ﻣﺬﮐﻮر ﺑﺮ اﯾﻦ اﺳﺎس اﺳﺖ ﮐﻪ ﻣ ﺗﻮان ﺑﯿﻦ ﻫﺮ دو ﮔﺮه ﻣﻌﯿﺎر ﺷﺒﺎﻫﺖ را ﺗﻌﺪاد ﻫﻤﺴﺎﯾﻪﻫﺎی ﻣﺸﺘﺮک در ﻧﻈﺮ ﮔﺮﻓﺖ .ﺣﺎل ﻫﺪف ﺗﻌﯿﯿﻦ ﯾ ﻫﺴﺘﻪ ﺑﺮای دو ﯾﺎل اﺳﺖ .ﻓﺮض ﮐﻨﯿﺪ دو ﯾﺎل ) (a, bو ) (c, dرا دراﺧﺘﯿﺎر دارﯾﻢ .ﺗﺎﺑ ﻫﺴﺘﻪ ﻣﯿﺎن دو ﯾﺎل ﻓﻮق را ﺑﻪ اﯾﻦ ﺻﻮرت ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ: )K ∗ ((a, b), (c, d)) = k(a, c)k(b, d) + k(a, d)k(b, c در واﻗ ﺷﺒﺎﻫﺖ دو ﺳﺮ ﯾﺎلﻫﺎ ﺑﻪ ﻫﻢ در اﯾﻦ ﺗﺎﺑ ﻫﺴﺘﻪ ﺟﺪﯾﺪ ﮔﻨﺠﺎﻧﺪه ﺷﺪه اﺳﺖ .ﺑﺮای اﻃﻼﻋﺎت ﺑﯿﺸﺘﺮ ﺑﺨﺶ ٢و ٣ﻣﻘﺎﻟﻪ ﻣﺬﮐﻮر را ﻣﻄﺎﻟﻌﻪ ﮐﻨﯿﺪ .اﯾﻦ روش را ﻧﯿﺰ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﻧﺘﺎﯾ را ﺑﺎ روشﻫﺎی ﻗﺒﻞ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ. ﺧﺮوﺟ ﻣﻮرد ﻧﻈﺮ در اﯾﻦ ﻓﺎز ﻣﺎﻧﻨﺪ ﻓﺎز ﻗﺒﻠ اﺳﺖ. ٣ ﻓﺎز ﺳﻮم ) ۴٠ﻧﻤﺮه( -ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ١٣٩٢/٠۴/٢٠ : در اﯾﻦ ﻓﺎز ﺑﻪ ﭘﯿﺎدهﺳﺎزی روﺷ ﻣﺸﺎﺑﻪ روش ﭘﯿﺸﻨﻬﺎدی در ] [۴ﻣ ﭘﺮدازﯾﻢ .اﯾﺪه اﺻﻠ در اﯾﻦ ﻣﻘﺎﻟﻪ ،ﺗﻌﺮﯾﻒ ﯾ ﺳﺮی ﭘﺎراﻣﺘﺮ و ﯾ ﺗﺎﺑ ﭼ ﺎﻟ اﺣﺘﻤﺎل ﺑﻪ ﻋﻨﻮان ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ١٠ﺑﺮای ﮔﺮاف ﻣﻮرد ﻧﻈﺮ اﺳﺖ .ﭘﺲ از ﺗﻌﺮﯾﻒ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ،ﻣﺴﺌﻠﻪ ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ را ﻣ ﺗﻮان ﺑﻪ ﻣﺴﺌﻠﻪ ﺗﺨﻤﯿﻦ ﻫﻤﺰﻣﺎن ﭘﺎراﻣﺘﺮﻫﺎی ﻣﻨﺎﺳﺐ اﯾﻦ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ و ﺑﻪ دﻧﺒﺎل آن ﭘﯿﺪا ﮐﺮدن ﻟﯿﻨ ﻫﺎی از دﺳﺖ رﻓﺘﻪ ﻧ ﺎﺷﺖ ﮐﺮد. ﻫﻤﺎنﻃﻮر ﮐﻪ ﻣ داﻧﯿﻢ ،ﻣﺴﺌﻠﻪ ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮ را ﺑﻪ روشﻫﺎی ﻣﺘﻔﺎوﺗ ﻣ ﺗﻮان ﺣﻞ ﮐﺮد .در اﯾﻦ ﻓﺎز ﻣﺎ روﺷ را ﺑﺮرﺳ ﻣ ﮐﻨﯿﻢ ﮐﻪ در آن ﻫﺪف ﭘﯿﺪا ﮐﺮدن ﭘﺎراﻣﺘﺮی اﺳﺖ ﮐﻪ درﺳﺘﻨﻤﺎﯾ را ﻣﺎﮐﺰﯾﻤﻢ ﻣ ﮐﻨﺪ .١١در واﻗ ﻣﺎ ﺑﻪ دﻧﺒﺎل ﺣﻞ ﻣﺴﺌﻠﻪ زﯾﺮ ﻫﺴﺘﯿﻢ: )argmaxθ P (A|θ ﺗﻌﺮﯾﻒ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ و ﺣﻞ ﻣﺴﺌﻠﻪ ﮐﻪ Aﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﮔﺮاف ﻣﺸﺎﻫﺪه ﺷﺪه و θﭘﺎراﻣﺘﺮﻫﺎی درﺳﺘﻨﻤﺎﯾ اﺳﺖ .در اداﻣﻪ ﭼ ﻮﻧ ﻓﻮق را ﺗﺸﺮﯾ ﺧﻮاﻫﯿﻢ ﮐﺮد. ﻓﺮض ﮐﻨﯿﺪ ﻫﺮ دراﯾﻪ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت را ﯾ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓ ﻧﺮﻣﺎل ﺑﻪ ﺷﺮط ﻣﻌﻠﻮم ﺑﻮدن ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ .وارﯾﺎﻧﺲ اﯾﻦ ﻣﺘﻐﯿﺮﻫﺎ را ﯾ ﺴﺎن و ﻣﯿﺎﻧ ﯿﻦ آنﻫﺎ را ﺑﺮاﺑﺮ ﺑﺎ ﻫﻤﺎن ﺿﺮب داﺧﻠ ﻓﺎﮐﺘﻮرﻫﺎی ﭘﻨﻬﺎن درﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ .ﺑﻪ ﻋﺒﺎرﺗ دﯾ ﺮ ،درﺳﺘﻨﻤﺎﯾ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺑﺮ ﺣﺴﺐ ﭘﺎراﻣﺘﺮﻫﺎی آن را ﺑﻪ ﺻﻮرت زﯾﺮ ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ: ) N (Aij |fiT fj , σ ۲ ∏ = ) P (A|θ) = P (A|F, σ ۲ i,j ﮐﻪ در آن Fﻣﺎﺗﺮﯾﺲ وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن اﺳﺖ. Likelihood Function١٠ Maximum Likelihood١١ ٣ ﺣﺎل ﺑﺮای ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ و ﺗﻮﻟﯿﺪ دوﺑﺎره ﺷﺒ ﻪ ،از روش ﻣﺎﮐﺰﯾﻤﻢ درﺳﺘﻨﻤﺎﯾ اﺳﺘﻔﺎده ﻣ ﮐﻨﯿﻢ اﻣﺎ ﺑﺮای اﯾﻦ ﮐﺎر ﻧﯿﺎز ﺑﻪ اﻃﻼﻋﺎت ﮐﺎﻣﻞ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت دارﯾﻢ .ﯾ اﯾﺪه ﻣ ﺗﻮاﻧﺪ اﯾﻦ ﺑﺎﺷﺪ ﮐﻪ درﺳﺘﻨﻤﺎﯾ ﻓﻮق را ﻓﻘﻂ ﺑﺮ روی دراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه ﻣﺎﮐﺰﯾﻤﻢ ﮐﻨﯿﻢ و از روی آنﻫﺎ ﭘﺎراﻣﺘﺮﻫﺎ را ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ .ﭘﺲ از ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎ ﻣ ﺗﻮان دراﯾﻪﻫﺎی ﻧﺎﻣﻌﻠﻮم را دوﺑﺎره ﺗﻮﻟﯿﺪ ﮐﺮد .ﺑﺮای اﯾﻦ ﮐﺎر ﺑﺎﯾﺪ درﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﻢ ﮐﻪ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ﻓﻮق ﺑﺮ ﺣﺴﺐ Fﻣﺤﺪب ﻧﯿﺴﺖ .ﺑﻨﺎﺑﺮاﯾﻦ ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد ﻧﻤ ﺗﻮان از روشﻫﺎی descentﯾﺎ ascentﺑﺮای ﺑﻬﯿﻨﻪﺳﺎزی ﻋﻤﻮﻣ آن اﺳﺘﻔﺎده ﮐﺮد .اﻣﺎ ﺑﺎ ﮐﻤ دﻗﺖ ﻣ ﺗﻮان درﯾﺎﻓﺖ ﮐﻪ ﺑﺎ ﺗﻐﯿﯿﺮ ﯾ fiو ﺛﺎﺑﺖ ﻧ ﻪداﺷﺘﻦ ﺑﻘﯿﻪ ،ﻣﺴﺌﻠﻪ ﻣﺤﺪب ﻣ ﺷﻮد .ﺑﻨﺎﺑﺮاﯾﻦ ﻣ ﺗﻮان از روشﻫﺎی ﻣﻌﻤﻮل ﺑﻬﯿﻨﻪﺳﺎزی ﻣﺤﺪب اﺳﺘﻔﺎده ﻧﻤﻮد ،ﻫﺮﭼﻨﺪ ﻫﻤﭽﻨﺎن ﻧﻤ ﺗﻮان ﺑﻬﯿﻨﻪ ﻋﻤﻮﻣ را ﻟﺰوﻣﺎ ﺑﺪﺳﺖ آورد .ﻧﺘﺎﯾ را ﺑﺮای اﯾﻦ اﯾﺪه ﺑﺪﺳﺖ آورده و ﺑﺎ ﻧﺘﺎﯾ ﻗﺒﻠ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ. اﯾﺪه ﺑﻌﺪی ،ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎ و ﯾﺎﻓﺘﻦ دراﯾﻪﻫﺎی ﻣﺠﻬﻮل ﺑﻪ ﺻﻮرت ﻫﻤﺰﻣﺎن اﺳﺖ .اﯾﻦ اﯾﺪه ﻫﻤﺎن اﻟ ﻮرﯾﺘﻢ ﺑﺮآورد-ﺑﯿﺸﯿﻨﻪﺳﺎزی ١٢ اﺳﺖ .در ﻣﺮﺣﻠﻪ ﺑﺮآورد ،ﻫﺪف اﺻﻠ ﭘﯿﺪا ﮐﺮدن ﻣﻘﺪار ﻣﻮرد اﻧﺘﻈﺎر ﺑﺮای درﺳﺘﻨﻤﺎﯾ )ﯾﺎ ﺑﻪ ﻃﻮر دﻗﯿﻖﺗﺮ ﻟ ﺎرﯾﺘﻢ درﺳﺘﻨﻤﺎﯾ ( ﺑﺮ ﺣﺴﺐ ﭘﺎراﻣﺘﺮﻫﺎی ﺗﺨﻤﯿﻦ زده ﺷﺪه ﻣﺮﺣﻠﻪ ﻗﺒﻞ و دادهﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه اﺳﺖ .اﯾﻦ ﻣﻘﺪار را ﺑﻪ ﻋﻨﻮان Qﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ: ) )Q(θ, θ(t−۱) ) = E(log P (Ao , Au |θ)|Ao , θ(t−۱ ﮐﻪ در آن Aoدراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه و Auدراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﻧﺸﺪه ﻫﺴﺘﻨﺪ و θﻣﺠﻤﻮﻋﻪ ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ )ﻫﻤﺎن Fو ( σاﺳﺖ. در ﻣﺮﺣﻠﻪ ﺑﯿﺸﯿﻨﻪﺳﺎزی ﻧﯿﺰ ﻣﻘﺪار اﺧﯿﺮ Qﻣﺎﮐﺰﯾﻤﻢ ﻣ ﺷﻮد و ﭘﺎراﻣﺘﺮﻫﺎی ﻣﺎﮐﺰﯾﻤﻢ ﮐﻨﻨﺪه اﺳﺘﺨﺮاج ﻣ ﺷﻮﻧﺪ. ﺣﺎل ﺳﻌ ﻣ ﮐﻨﯿﻢ ﻣﻘﺪار Qرا ﺑﺪﺳﺖ آورﯾﻢ .ﺑﻪ وﺿﻮح ﺑﺮای ﻫﺮ دراﯾﻪ ﺧﻮاﻫﯿﻢ داﺷﺖ: −۱ (Aij − fiT fj )۲ + C ۲σ ۲ = ) )E(log P (Aij |θ)|Ao , θ(t−۱ ﮐﻪ Cﯾ ﺛﺎﺑﺖ ﻣﺴﺘﻘﻞ اﺳﺖ .اﮔﺮ Aijﻧﺎﻣﻌﻠﻮم ﺑﺎﺷﺪ ،از آنﺟﺎ ﮐﻪ ) ، Aij ∼ N (fiT fj , σ ۲ﻣﻘﺪار ﻗﺎﺑﻞ اﻧﺘﻈﺎر ﺑﺮای آن ،ﺑﺮاﺑﺮ ﺑﺎ ﻫﻤﺎن fiT fjﻣﺮﺣﻠﻪ ﻗﺒﻞ ﺧﻮاﻫﺪ ﺑﻮد .ﺑﻨﺎﺑﺮاﯾﻦ در ﻣﺠﻤﻮع ﺧﻮاﻫﯿﻢ داﺷﺖ: − fiT fj )۲ )(t−۱ (fiT fj ∑ (Aij − fiT fj )۲ + Aij ∈Au ∑ Aij ∈Ao −۱ ۲σ ۲ = ) )Q(θ, θ(t−۱ ﻣﺎﮐﺰﯾﻤﻢﺳﺎزی Qرا ﻣﺎﻧﻨﺪ ﻣﺮﺣﻠﻪ ﻗﺒﻞ اﻧﺠﺎم ﻣ دﻫﯿﻢ .اﯾﻦ روش را ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﻧﺘﺎﯾ را ﮔﺰارش ﮐﻨﯿﺪ. ﻣﻮﻓﻖ ﺑﺎﺷﯿﺪ. ﻣﺮاﺟ [1] Euclidean Embedding of Co-occurrence Data. Amir Globerson, Gal Chechik, Fernando Pereira and Naftali Tishby, JMLR 8, 2007. [2] Matrix Factorization Techniques for Recommender Systems. Yehuda Koren, Robert Bell, and Chris Volinsky, Computer 42, 8, 30-37, 2009. [3] Latent Feature Kernels for Link Prediction on Sparse Graphs. Canh Hao Nguyen, Hiroshi Mamitsuka, IEEE Trans. Neural Netw. Learning Syst. 23(11): 1793-1804, 2012. [4] Probabilistic Matrix Factorization. Ruslan Salakhutdinov and Andriy Mnih, Neural Information Processing Systems 21 (NIPS), 2008. Expectation-Maximization١٢ ۴
© Copyright 2025 Paperzz