SPR-Spring2013-FinalProject.pdf

‫ﺑﺴﻤﻪ ﺗﻌﺎﻟ‬
‫اﻟ ﻮﺷﻨﺎﺳ آﻣﺎری‬
‫ﻧﯿﻢﺳﺎل دوم ‪٩١-٩٢‬‬
‫دﮐﺘﺮ رﺑﯿﻌ‬
‫داﻧﺸ ﺪه ﻣﻬﻨﺪﺳ ﮐﺎﻣﭙﯿﻮﺗﺮ‬
‫ﭘﺮ ﻭﮊﻩ ﭘﺎﯾﺎﻧﯽ‬
‫ﺑﻪ ﻧ ﺎت زﯾﺮ ﺗﻮﺟﻪ ﮐﻨﯿﺪ‪:‬‬
‫• اﯾﻦ ﭘﺮوژه در ﺳﻪ ﻓﺎز ﺧﻮاﻫﺪ ﺑﻮد ﮐﻪ زﻣﺎن اﺟﺮای ﻓﺎز اول آن از اﻣﺮوز ﺷﺮوع ﻣ ﺷﻮد‪ .‬ﺿﻤﻨﺎ ‪ ٢٠‬ﻧﻤﺮه اﺿﺎﻓﻪ ﺑﺮای ﭘﯿﺎدهﺳﺎزی ﮐﺎﻣﻞ‬
‫ﭘﺮوژه )‪ ٣‬ﻓﺎز( در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪه اﺳﺖ‪.‬‬
‫• ﺑﺮای ﭘﯿﺎدهﺳﺎزیﻫﺎی ﺧﻮد ﺗﻨﻬﺎ از ‪ Matlab‬اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪.‬‬
‫• ﮔﺰارش ﺷﻤﺎ ﺑﺎﯾﺪ ﮐﺎﻣﻞ و ﺟﺎﻣ ﺑﻮده و ﺗﻤﺎﻣ ﻓﻌﺎﻟﯿﺖﻫﺎی ﺷﻤﺎ را ﭘﻮﺷﺶ دﻫﺪ‪ .‬ﻧﺘﺎﯾ ﻣﻘﺎﯾﺴﺎت و ﺗﺤﻠﯿﻞﻫﺎ ﻧﻘﺶ ﻣﻬﻤ در ارزﯾﺎﺑ‬
‫ﻓﻌﺎﻟﯿﺖ ﺷﻤﺎ دارﻧﺪ‪.‬‬
‫اﻫﺪاف ﭘﺮوژه‬
‫ﻣﻮﺿﻮع اﯾﻦ ﭘﺮوژه‪ ،‬ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ ‪ ١‬در ﺷﺒ ﻪﻫﺎی ﭘﯿﭽﯿﺪه اﺳﺖ‪ .‬ﺑﻪ ﺑﯿﺎن ﺳﺎده در اﯾﻦ ﻣﺴﺌﻠﻪ‪ ،‬ﻫﻤﺎنﻃﻮر ﮐﻪ از ﻧﺎم آن ﭘﯿﺪاﺳﺖ‪ ،‬ﺗﺸﺨﯿﺺ‬
‫وﺟﻮد ﯾﺎ ﻋﺪم وﺟﻮد ﯾﺎل در ﮔﺮاف ﺷﺒ ﻪ ﮐﻪ ﺑﺨﺶ ﻫﺎﯾ از آن دﯾﺪه ﻧﺸﺪه اﺳﺖ‪ ،‬ﻫﺪف اﺻﻠ اﺳﺖ‪ .‬ﻣﺠﻤﻮﻋﻪ داده ﻣﻮرد ﻧﻈﺮ ﺑﺮای اﯾﻦ‬
‫ﭘﺮوژه‪ ،‬ﻣﺠﻤﻮﻋﻪ داده ‪ [١] NIPS ۱ − ۱۷‬اﺳﺖ ﮐﻪ ﻣ ﺗﻮاﻧﯿﺪ آن را ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﯿﺤﺎت از ﺳﺎﯾﺖ درس داﻧﻠﻮد ﮐﻨﯿﺪ‪ .‬ﻫﺪف از اﯾﻦ ﭘﺮوژه‪،‬‬
‫ﺑﺮرﺳ راهﺣﻞﻫﺎی ﻣﺨﺘﻠﻒ ﺑﺮای ﯾ ﻣﺴﺌﻠﻪ ﭘﺎﯾﻪای و ﻣﻘﺎﯾﺴﻪ روشﻫﺎی ﻣﻮﺟﻮد و ﺑﻪ روز ﺑﺮای ﺣﻞ آن اﺳﺖ‪ .‬در اﻧﺘﻬﺎی ﭘﺮوژه اﻧﺘﻈﺎر‬
‫ﻣ رود داﻧﺸﺠﻮ ﺑﺎ اﻧﻮاع روشﻫﺎی ﻣﻮﺟﻮد ﺑﺮای ﺣﻞ اﯾﻦ ﻣﺴﺌﻠﻪ آﺷﻨﺎ ﺑﻮده و ﺑﺘﻮاﻧﺪ ﺑﺎ اﺳﺘﺨﺮاج ﻣﺸﺨﺼﻪ و اﺳﺘﻔﺎده از ﻣﺪلﻫﺎی ﻣﻨﺎﺳﺐ‪،‬‬
‫اﻟ ﻮﻫﺎی ﻣﻮﺟﻮد در ﻣﺠﻤﻮﻋﻪ داده را ﺑﺎزﮔﻮ ﮐﻨﺪ و ﺗﺤﻠﯿﻠ از ﺗﺎﺛﯿﺮ ﻋﻮاﻣﻞ ﻣﺨﺘﻠﻒ در ﮐﺎراﯾ روشﻫﺎ اراﺋﻪ دﻫﺪ‪.‬‬
‫ﺗﻮﺿﯿﺤﺎﺗ در ارﺗﺒﺎط ﺑﺎ ﻣﺠﻤﻮﻋﻪ داده‬
‫ﻣﺠﻤﻮﻋﻪ داده ‪ NIPS ۱ − ۱۷‬ﺷﺎﻣﻞ ﺗﻮزﯾ ﮐﻠﻤﺎت ﺑﻪ ﮐﺎر رﻓﺘﻪ در ﻣﻘﺎﻻت ﮐﻨﻔﺮاﻧﺲ ‪ NIPS‬در ﺳﺎلﻫﺎی ‪ ١٩٨٧‬ﺗﺎ ‪ ٢٠٠٣‬اﺳﺖ‪.‬‬
‫ﻓﺎﯾﻞ ﻣﺠﻤﻮﻋﻪ دادهای ﮐﻪ در اﺧﺘﯿﺎر دارﯾﺪ ﺷﺎﻣﻞ ‪ ۶‬ﺟﺪول اﺳﺖ‪ .‬در ﺳﻪ ﺟﺪول ﭘﺎﯾﻪ ﻧﺎم ﻣﻘﺎﻻت )‪ ، (docs_names‬ﮐﻠﻤﺎت ﺑﻪ ﮐﺎر‬
‫ﺑﺮده ﺷﺪه در ﻣﻘﺎﻻت )‪) (words‬ﻓﺮﻫﻨ ﻟﻐﺎت ﻣﺠﻤﻮﻋﻪ داده ‪ ( ٢‬و ﻧﺎم ﻧﻮﯾﺴﻨﺪﮔﺎن ﻣﻘﺎﻻت )‪ (authors_names‬آورده ﺷﺪه اﺳﺖ‪.‬‬
‫ﺳﻪ ﺟﺪول ﺗﺮﮐﯿﺒ دﯾ ﺮ ﺑﻪ ﺗﺮﺗﯿﺐ ﺟﺪول ﻧﻮﯾﺴﻨﺪﮔﺎن‪-‬ﻣﻘﺎﻻت )‪ ، (docs_authors‬ﺟﺪول ﻧﻮﯾﺴﻨﺪﮔﺎن‪-‬ﮐﻠﻤﺎت )‪ (counts‬و ﺟﺪول‬
‫ﻧﻮﯾﺴﻨﺪﮔﺎن‪-‬ﮐﻠﻤﺎت ﻧﺮﻣﺎل ﺷﺪه )‪ (aw_counts‬اﺳﺖ‪ .‬ﻗﺪم ﭘﯿﺶﻧﯿﺎز ﺑﺮای اﻧﺠﺎم ﭘﺮوژه‪ ،‬ﺗﺸ ﯿﻞ ﺷﺒ ﻪ ﻧﻮﯾﺴﻨﺪﮔﺎن ﻫﻤ ﺎر اﺳﺖ‪ .‬ﺑﺪﯾﻦ‬
‫ﺻﻮرت ﮐﻪ ﻫﻤﻪ ﻧﻮﯾﺴﻨﺪﮔﺎن ﺑﻪ ﻋﻨﻮان رﺋﻮس ﮔﺮاف ﺷﺒ ﻪ ﺷﻨﺎﺧﺘﻪ ﻣ ﺷﻮﻧﺪ و ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺟﺪول ‪ docs_authors‬ﻧﻮﯾﺴﻨﺪﮔﺎﻧ ﮐﻪ در ﯾ‬
‫ﻣﻘﺎﻟﻪ ﻣﺸﺘﺮک ﺑﻮدهاﻧﺪ‪ ،‬در اﯾﻦ ﺷﺒ ﻪ ﺑﻪ ﻫﻢ ﯾﺎل ﺧﻮاﻫﻨﺪ داﺷﺖ‪ .‬در اﻧﺘﻬﺎ ﺷﻤﺎ ﺑﺎﯾﺴﺘ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺷﺒ ﻪ ﻣﻮرد ﻧﻈﺮ را ﺑﺮای ﻓﺎزﻫﺎی‬
‫ﭘﺮوژه در اﺧﺘﯿﺎر داﺷﺘﻪ ﺑﺎﺷﯿﺪ‪ .‬ﻫﻤﭽﻨﯿﻦ از ﺟﺪول ‪ aw_counts‬ﺑﻪ ﻋﻨﻮان ﺑﺮدارﻫﺎی وﯾﮋﮔ ﺑﺮای ﻫﺮ ﻧﻮﯾﺴﻨﺪه اﺳﺘﻔﺎده ﺧﻮاﻫﯿﻢ ﮐﺮد‪ .‬ﺑﺎ‬
‫ﺗﻮﺟﻪ ﺑﻪ اﯾﻦﮐﻪ ﺷﺒ ﻪ ﺟﻬﺖدار ﻧﯿﺴﺖ و ﺑﻨﺎﺑﺮاﯾﻦ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺷﺒ ﻪ ﻣﺘﻘﺎرن ﺧﻮاﻫﺪ ﺑﻮد‪ ،‬ﻧﯿﻤﻪ ﺑﺎﻻﯾ ﯾﺎ ﭘﺎﯾﯿﻨ ﻣﺎﺗﺮﯾﺲ ﻧﻬﺎﯾ را ﻓﻘﻂ‬
‫ﻧ ﻪ ﻣ دارﯾﻢ‪.‬‬
‫‪Link Prediction١‬‬
‫‪Dictionary٢‬‬
‫‪١‬‬
‫‪١‬‬
‫ﻓﺎز اول )‪ ۴٠‬ﻧﻤﺮه( ‪ -‬ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ‪١٣٩٢/٢/٧ :‬‬
‫در ﻓﺎز اول‪ ،‬ﺑﺎ اﺳﺘﻔﺎده از ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﻫﺮ ﻧﻮﯾﺴﻨﺪه‪ ،‬ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ را اﻧﺠﺎم ﻣ دﻫﯿﻢ‪ .‬ﺑﻪ ﻃﻮر دﻗﯿﻖﺗﺮ‪ ،‬ﺑﺨﺸ از ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت‬
‫ﺷﺒ ﻪ را ﻧﺎدﯾﺪه ﮔﺮﻓﺘﻪ و ﺑﺎ اﺳﺘﻔﺎده از ﯾ ﮐﻼﺳﻪﺑﻨﺪ ﻣﻨﺎﺳﺐ ﺑﺮ روی ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﻫﺮ زوج ﻧﻮﯾﺴﻨﺪه‪ ،‬ﯾ ﮐﻼﺳﻪﺑﻨﺪی دو ﮐﻼﺳﻪ ﺑﺮای‬
‫زوج ﻧﻮﯾﺴﻨﺪهﻫﺎی ﻧﺎﻣﻌﻠﻮم )ﺻﻔﺮ ﻋﺪم وﺟﻮد ﻟﯿﻨ و ﯾ وﺟﻮد ﻟﯿﻨ ( اﻧﺠﺎم ﻣ دﻫﯿﻢ‪ .‬ﺑﺮای اﯾﻦ ﻣﻨﻈﻮر اﺑﺘﺪا ﻧﯿﺎز ﺑﻪ ﺗﻌﺮﯾﻒ ﺑﺮدار وﯾﮋﮔ‬
‫ﺑﺮای ﻫﺮ ﯾﺎل دارﯾﻢ‪ .‬ﻣ ﺗﻮان ﺑﻪ ﻃﻮر ﺳﺎده‪ ،‬ﺟﻤ ﺑﺮدار وﯾﮋﮔ ﻫﺎی دو ﺳﺮ ﯾﺎل را ﺑﻪ ﻋﻨﻮان ﺑﺮدار وﯾﮋﮔ ﯾﺎل داﻧﺴﺖ‪.‬‬
‫‪۵‬‬
‫ﮐﻼﺳﻪﺑﻨﺪﻫﺎی ﻣﻮرد اﺳﺘﻔﺎده در اﯾﻦ ﺑﺨﺶ‪ ،‬ﮐﻼﺳﻪ ﺑﻨﺪ ﺑﯿﺰ ﺳﺎده ‪ ، ٣‬ﻧﺰدﯾ ﺗﺮﯾﻦ ﻫﻤﺴﺎﯾﻪ ‪ ۴‬و ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ﻣ ﺑﺎﺷﻨﺪ‪ .‬ﺑﺎ‬
‫ﺗﻮﺟﻪ ﺑﻪ اﺑﻌﺎد ﺑﺎﻻی ﺑﺮدارﻫﺎی وﯾﮋﮔ ‪ ،‬ﺑﻪ ﮐﺎرﮔﯿﺮی روشﻫﺎی ﮐﺎﻫﺶ اﺑﻌﺎد ﺑﺎﯾﺴﺘ در اﯾﻦ ﻓﺎز ﺑﺮرﺳ ﺷﻮد‪ .‬ﻫﻤﭽﻨﯿﻦ ﯾ از ﺑﺨﺶﻫﺎی‬
‫ﻣﻬﻢ ارزﯾﺎﺑ در اﯾﻦ ﻓﺎز‪ ،‬ﭼ ﻮﻧ ﺗﻌﯿﯿﻦ ﭘﺎراﻣﺘﺮ و ﺳﻨﺠﺶ دﻗﺖ اﺳﺖ‪ .‬ﮔﺮﻓﺘﻦ ﻧﺘﺎﯾ روی ﺑﺮدارﻫﺎی وﯾﮋﮔ ﻓﻮق اﺟﺒﺎری اﺳﺖ‪ .‬ﻣ ﺗﻮاﻧﯿﺪ‬
‫اﯾﺪهﻫﺎی ﺧﻮد ﺑﺮای ﺗﻌﺮﯾﻒ وﯾﮋﮔ ﻫﺎی ﺟﺪﯾﺪ را ﻫﻤﺮاه ﺑﺎ دﻟﯿﻞ و ﻧﺘﺎﯾ ﻣﺮﺑﻮﻃﻪ ﺑﻪ ﮔﺰارش ﺧﻮد اﺿﺎﻓﻪ ﮐﻨﯿﺪ‪.‬‬
‫ﺧﺮوﺟ ﻣﻮرد ﻧﻈﺮ در اﯾﻦ ﻓﺎز‪:‬‬
‫• ﮔﺰارش ﻓﻌﺎﻟﯿﺖﻫﺎی اﻧﺠﺎم ﺷﺪه ﺷﺎﻣﻞ‪:‬‬
‫– ﺗﻮﺿﯿ ﮐﺎﻣﻞ ﻣﻌﯿﺎرﻫﺎی ارزﯾﺎﺑ‬
‫– ﻣﻘﺎﯾﺴﻪ ﮐﺎﻣﻞ ﻧﺘﺎﯾ و اراﺋﻪ ﺟﺪاول و ﻧﻤﻮدارﻫﺎی ﻣﻨﺎﺳﺐ‬
‫– اراﺋﻪ دﻻﯾﻞ ﺑﻬﺒﻮد ﻋﻤﻠ ﺮد روشﻫﺎ و ﺑﺤﺚ در ﻣﻮرد ﻧﺘﺎﯾ‬
‫– ذﮐﺮ ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﻫﺮ روش‬
‫• ﮐﺪﻫﺎی ﭘﯿﺎدهﺳﺎزی ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﯾ ﻓﺎﯾﻞ ‪ main.m‬ﺑﺪون ﭘﺎراﻣﺘﺮ ورودی‪ .‬ﺑﺎ اﺟﺮای اﯾﻦ ﻓﺎﯾﻞ‪ ،‬ﭘﺎراﻣﺘﺮﻫﺎی ورودی )ﻣﺜﻼ ﻧﻮع‬
‫ﮐﻼﺳﻪﺑﻨﺪ و ﭘﺎراﻣﺘﺮﻫﺎی آن( در ﺻﻮرت ﻧﯿﺎز ﺑﺎﯾﺪ از ﮐﺎرﺑﺮ ﮔﺮﻓﺘﻪ ﺷﻮد‪ .‬ﭘﯿﺸﻨﻬﺎد ﻣ ﺷﻮد ﺑﺮای ﭘﺎراﻣﺘﺮﻫﺎی ورودی ﻣﻘﺎدﯾﺮ ﭘﯿﺶﻓﺮض‬
‫ﺗﻌﯿﯿﻦ ﺷﻮد ﺑﻪ ﮔﻮﻧﻪای ﮐﻪ ﻧﺘﯿﺠﻪ ﺑﺎ ﺳﺮﻋﺘ ﻣﻌﻘﻮل ﺑﺪﺳﺖ آﻣﺪه و ﺑﻪ ﻧﺘﺎﯾ داﺧﻞ ﮔﺰارش ﻧﺰدﯾ ﺑﺎﺷﺪ‪ .‬ﻫﯿ ﻓﺎﯾﻞ داده ﻣﯿﺎﻧ از ﺷﻤﺎ‬
‫ﭘﺬﯾﺮﻓﺘﻪ ﻧﻤ ﺷﻮد‪ .‬ﺑﺮﻧﺎﻣﻪ ﺷﻤﺎ ﺑﺎﯾﺪ ﺗﻤﺎﻣ اﻋﻤﺎل ﺧﻮاﺳﺘﻪ ﺷﺪه از ﺟﻤﻠﻪ اﺳﺘﺨﺮاج وﯾﮋﮔ ‪ ،‬ﺗﺸ ﯿﻞ ﺷﺒ ﻪ‪ ،‬ﮐﺎﻫﺶ اﺑﻌﺎد و ﮐﻼﺳﻪﺑﻨﺪی‬
‫را اﻧﺠﺎم دﻫﺪ‪.‬‬
‫ﺗﻮﺿﯿﺤﺎﺗ در ارﺗﺒﺎط ﺑﺎ ﻓﺎز دوم و ﺳﻮم‬
‫روﺷ ﮐﻪ در ﻓﺎز ﻗﺒﻞ ﺑﺮرﺳ ﮐﺮدﯾﻢ‪ ،‬ﺑﻪ ﻧﺎم ﻓﯿﻠﺘﺮﯾﻨ ﻣﺤﺘﻮا ‪ ۶‬در ﺳﯿﺴﺘﻢﻫﺎی ﭘﯿﺸﻨﻬﺎددﻫﻨﺪه ‪ ٧‬ﺷﻨﺎﺧﺘﻪ ﻣ ﺷﻮد ﮐﻪ در آن ﻓﻘﻂ ﺑﺮ اﺳﺎس‬
‫وﯾﮋﮔ ﻫﺎی ﻫﺮ ﻋﻨﺼﺮ‪ ،‬ﻟﯿﻨ ﻫﺎ ﭘﯿﺶﺑﯿﻨ ﻣ ﺷﻮﻧﺪ‪ .‬راه دﯾ ﺮ‪ ،‬اﺳﺘﻔﺎده از ﺳﺎﺧﺘﺎر ﺧﻮد ﺷﺒ ﻪ و ﺗﻌﺎﻣﻼت ﻣﯿﺎن ﻋﻨﺎﺻﺮ ﺷﺒ ﻪ اﺳﺖ ﮐﻪ از آن‬
‫ﺑﻪ ﻋﻨﻮان ﻓﯿﻠﺘﺮﯾﻨ اﺷﺘﺮاﮐ ‪ ٨‬ﯾﺎد ﻣ ﺷﻮد‪ .‬ﻣﺰﯾﺖ اﺻﻠ اﯾﻦ روش‪ ،‬اﺳﺘﻔﺎده از ﺳﺎﺧﺘﺎر ﺷﺒ ﻪ ﺑﻪ ﺟﺎی وﯾﮋﮔ ﻫﺎی واﺑﺴﺘﻪ ﺑﻪ زﻣﯿﻨﻪ ﻣﻄﺎﻟﻌﻪ‬
‫و ﺗﻮاﻧﺎﯾ ﮐﺸﻒ اﻟ ﻮﻫﺎی ﭘﻨﻬﺎن در ﺷﺒ ﻪ اﺳﺖ‪.‬‬
‫روشﻫﺎی ﻓﯿﻠﺘﺮﯾﻨ اﺷﺘﺮاﮐ ﺑﻪ دو دﺳﺘﻪ روشﻫﺎی ﺑﺪونﻧﺎﻇﺮ و ﺑﺎﻧﺎﻇﺮ ﺗﻘﺴﯿﻢ ﻣ ﺷﻮﻧﺪ‪ .‬روشﻫﺎی ﺑﺪون ﻧﺎﻇﺮ ﻋﻤﺪﺗﺎ ﺑﺎ ﺗﻌﺮﯾﻒ ﯾ‬
‫ﻣﻌﯿﺎر ﺷﺒﺎﻫﺖ ﻣﯿﺎن ﻋﻨﺎﺻﺮ )ﻣﺎﻧﻨﺪ ﺗﻌﺪاد ﻫﻤﺴﺎﯾ ﺎن ﻣﺸﺘﺮک( اﻗﺪام ﺑﻪ ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ ﻣ ﮐﻨﻨﺪ‪ .‬اﻣﺎ روشﻫﺎی ﺑﺎﻧﺎﻇﺮ ﺑﺎ درﻧﻈﺮ ﮔﺮﻓﺘﻦ‬
‫ﯾ ﺳﺮی ﻓﺎﮐﺘﻮر ﭘﻨﻬﺎن ‪ ٩‬ﺑﺮای ﻋﻨﺎﺻﺮ ﺷﺒ ﻪ‪ ،‬ﯾﻌﻨ ﺗﻌﺮﯾﻒ ﯾ ﺑﺮدار وﯾﮋﮔ ﺑﺮای آنﻫﺎ از روی ﺳﺎﺧﺘﺎر ﺷﺒ ﻪ‪ ،‬ﺳﻌ ﻣ ﮐﻨﻨﺪ ﻣﺎﺗﺮﯾﺲ‬
‫اﺻﻠ ﺷﺒ ﻪ را ﺑﺎ ﺿﺮب دو ﯾﺎ ﭼﻨﺪ ﻣﺎﺗﺮﯾﺲ ﺗﻘﺮﯾﺐ ﺑﺰﻧﻨﺪ‪ .‬ﺑﺎ اﻧﺠﺎم اﯾﻦ ﺿﺮب‪ ،‬ﻋﻨﺎﺻﺮ ﻧﺎﻣﻌﻠﻮم ﻣﺎﺗﺮﯾﺲ اﺻﻠ ﭘﯿﺶﺑﯿﻨ ﻣ ﺷﻮﻧﺪ‪ .‬اﯾﻦ‬
‫ﻓﺎﮐﺘﻮرﻫﺎی ﭘﻨﻬﺎن ﻣ ﺗﻮاﻧﻨﺪ ﻣﻌﺎﻧ ﮔﻮﻧﺎﮔﻮﻧ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺷﺒ ﻪ ﻣﻮرد ﻧﻈﺮ )ﻣﺜﻼ ﻓﯿﻠﺪ ﻣﻮرد ﻋﻼﻗﻪ ﻧﻮﯾﺴﻨﺪه در ﻣﺠﻤﻮﻋﻪ داده اﯾﻦ ﭘﺮوژه(‬
‫داﺷﺘﻪ ﺑﺎﺷﻨﺪ‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ اﮔﺮ ‪ aij‬ﯾ ﻋﻨﺼﺮ از ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺑﺎﺷﺪ و ‪ fi‬ﺑﺮدار وﯾﮋﮔ ﻋﻨﺼﺮ ‪ i‬و ‪ fj‬ﺑﺮدار وﯾﮋﮔ ﻋﻨﺼﺮ ‪ j‬ﺑﺎﺷﺪ‪ ،‬ﻫﺪف‬
‫ﯾﺎﻓﺘﻦ اﯾﻦ ﺑﺮدار وﯾﮋﮔ ﻫﺎ ﺑﺮای ﻫﺮ زوج از ﻣﺎﺗﺮﯾﺲ اﺻﻠ اﺳﺖ ﺑﻪ ﻧﺤﻮی ﮐﻪ ﻋﺒﺎرت زﯾﺮ ﻣﯿﻨﯿﻤﻢ ﺷﻮد‪:‬‬
‫∑‬
‫) ‪loss(aij , fiT fj‬‬
‫‪i,j‬‬
‫‪Naive Bayes٣‬‬
‫‪Nearest Neighbour۴‬‬
‫‪Support Vector Machine۵‬‬
‫‪Content Filtering۶‬‬
‫‪Recommender Systems٧‬‬
‫‪Collaborative Filtering٨‬‬
‫‪Latent Factor٩‬‬
‫‪٢‬‬
‫ﮐﻪ ‪ loss‬ﯾ ﺗﺎﺑ ﻫﺰﯾﻨﻪ ﻣﺎﻧﻨﺪ ﻣﺠﺬور ﺧﻄﺎ اﺳﺖ‪ .‬اﻃﻼﻋﺎت ﺑﯿﺸﺘﺮ در ﻣﻮرد ﭼ ﻮﻧ ﺑﻬﯿﻨﻪﺳﺎزی اﯾﻦ ﺗﺎﺑ ﻫﺪف و ﺗﻌﻤﯿﻢﻫﺎی روش ﻓﻮق‬
‫)ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﭼ ﻮﻧ اﺿﺎﻓﻪ ﮐﺮدن ﺑﺮدار وﯾﮋﮔ ﻫﺎی اوﻟﯿﻪ ﺑﻪ ﺗﺎﺑ ﻫﺪف( را ﻣ ﺗﻮاﻧﯿﺪ در ]‪ [٢‬ﺑﺒﯿﻨﯿﺪ‪ .‬ﯾ از ﭼﺎﻟﺶﻫﺎی اﺳﺎﺳ ‪،‬‬
‫ﺗﻌﯿﯿﻦ ﺑﻌﺪ وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن اﺳﺖ ﮐﻪ در اﯾﻦ ﭘﺮوژه ﻣﺎ آن را ﺑﻪ ﺻﻮرت دﺳﺘ و ﺑﻪ ﻋﻨﻮان ﭘﺎراﻣﺘﺮ ورودی ﻣﺴﺌﻠﻪ ﺗﻌﯿﯿﻦ ﻣ ﮐﻨﯿﻢ‪ .‬ﺑﻌﺪ اﯾﻦ‬
‫وﯾﮋﮔ ﻫﺎ در واﻗ رﺗﺒﻪ ﻣﺎﺗﺮﯾﺲ ﺗﻘﺮﯾﺐ زده ﺷﺪه ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬
‫‪٢‬‬
‫ﻓﺎز دوم )‪ ۴٠‬ﻧﻤﺮه( ‪ -‬ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ‪١٣٩٢/٠٢/٣١ :‬‬
‫اﮔﺮ ﺗﺎﺑ ﻫﺰﯾﻨﻪ ﻓﻮق را ﻣﺠﺬور ﺧﻄﺎ و اﺑﻌﺎد ﺑﺮدار وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن را ‪ k‬در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ‪ ،‬در ﺣﻀﻮر اﻃﻼﻋﺎت ﮐﺎﻣﻞ ﻣﺎﺗﺮﯾﺲ‪ ،‬ﺗﺠﺰﯾﻪ ‪SVD‬‬
‫ﺑﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ‪ k‬ﺑﺰرﮔﺘﺮﯾﻦ ﻣﻘﺪار وﯾﮋه ﮐﻤﺘﺮﯾﻦ ﺧﻄﺎ را ﺧﻮاﻫﺪ داﺷﺖ‪ .‬اﯾﻦ ﻣﺴﺌﻠﻪ ﻗﺒﻼ در ‪ PCA‬ﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻮد‪ .‬اﻣﺎ ﻣﺸ ﻞ اﺻﻠ‬
‫ﻧﺒﻮد ﺗﻤﺎم دادهﻫﺎ اﺳﺖ‪ .‬ﯾ روش ﺳﺎده ﻣ ﺗﻮاﻧﺪ در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﻘﺪاری ﭘﯿﺶﻓﺮض ﺑﺮای دراﯾﻪﻫﺎی ﻧﺎﻣﻌﻠﻮم )ﻣﺜﻼ ﺻﻔﺮ( ﺑﺎﺷﺪ‪ .‬اﯾﻦ روش‬
‫ﺳﺎده را ﺑﺎ ﻣﻘﺪار ﭘﯿﺶﻓﺮض ﺻﻔﺮ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﺑﺎ ﻧﺘﺎﯾ ﻗﺒﻠ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ‪ .‬ﺗﻮﺟﻪ ﮐﻨﯿﺪ ﮐﻪ ﻋﻨﺎﺻﺮ ﻣﺎﺗﺮﯾﺲ ﮐﻪ در اﻧﺘﻬﺎ ﭘﯿﺶﺑﯿﻨ‬
‫ﻣ ﺷﻮﻧﺪ ﻣﻤ ﻦ اﺳﺖ ﻣﻘﺪار ﺣﻘﯿﻘ داﺷﺘﻪ ﺑﺎﺷﻨﺪ‪ .‬در ﻣﻮرد ﺗﻌﯿﯿﻦ ﯾ ﺣﺪ ﭘﺎﯾﯿﻦ ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺟﻮد ﻟﯿﻨ ﺑﺤﺚ ﮐﻨﯿﺪ‪ .‬اﯾﺪهﻫﺎی ﺧﻮد‬
‫ﺑﺮای ﻣﻘﺎدﯾﺮ ﭘﯿﺶﻓﺮض ﺑﻬﺘﺮ را ﺑﺎ ذﮐﺮ دﻻﯾﻞ ﺧﻮد ﻧﯿﺰ ﻣ ﺗﻮاﻧﯿﺪ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ‪.‬‬
‫اﯾﺪهای ﮐﻪ ﺑﻪ ﺗﺎزﮔ در ]‪ [٣‬ﻣﻄﺮح ﺷﺪه‪ ،‬ﺗﻌﺮﯾﻒ ﯾ ﻫﺴﺘﻪ ﺑﺮای ﻟﯿﻨ ﻫﺎ و اﺳﺘﻔﺎده از ﮐﻼﺳﻪﺑﻨﺪ ‪ SVM‬ﺑﺮای ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ اﺳﺖ‪.‬‬
‫اﯾﺪه ﻣﺬﮐﻮر ﺑﺮ اﯾﻦ اﺳﺎس اﺳﺖ ﮐﻪ ﻣ ﺗﻮان ﺑﯿﻦ ﻫﺮ دو ﮔﺮه ﻣﻌﯿﺎر ﺷﺒﺎﻫﺖ را ﺗﻌﺪاد ﻫﻤﺴﺎﯾﻪﻫﺎی ﻣﺸﺘﺮک در ﻧﻈﺮ ﮔﺮﻓﺖ‪ .‬ﺣﺎل ﻫﺪف ﺗﻌﯿﯿﻦ‬
‫ﯾ ﻫﺴﺘﻪ ﺑﺮای دو ﯾﺎل اﺳﺖ‪ .‬ﻓﺮض ﮐﻨﯿﺪ دو ﯾﺎل )‪ (a, b‬و )‪ (c, d‬را دراﺧﺘﯿﺎر دارﯾﻢ‪ .‬ﺗﺎﺑ ﻫﺴﺘﻪ ﻣﯿﺎن دو ﯾﺎل ﻓﻮق را ﺑﻪ اﯾﻦ ﺻﻮرت‬
‫ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫)‪K ∗ ((a, b), (c, d)) = k(a, c)k(b, d) + k(a, d)k(b, c‬‬
‫در واﻗ ﺷﺒﺎﻫﺖ دو ﺳﺮ ﯾﺎلﻫﺎ ﺑﻪ ﻫﻢ در اﯾﻦ ﺗﺎﺑ ﻫﺴﺘﻪ ﺟﺪﯾﺪ ﮔﻨﺠﺎﻧﺪه ﺷﺪه اﺳﺖ‪ .‬ﺑﺮای اﻃﻼﻋﺎت ﺑﯿﺸﺘﺮ ﺑﺨﺶ ‪ ٢‬و ‪ ٣‬ﻣﻘﺎﻟﻪ ﻣﺬﮐﻮر را‬
‫ﻣﻄﺎﻟﻌﻪ ﮐﻨﯿﺪ‪ .‬اﯾﻦ روش را ﻧﯿﺰ ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﻧﺘﺎﯾ را ﺑﺎ روشﻫﺎی ﻗﺒﻞ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ‪.‬‬
‫ﺧﺮوﺟ ﻣﻮرد ﻧﻈﺮ در اﯾﻦ ﻓﺎز ﻣﺎﻧﻨﺪ ﻓﺎز ﻗﺒﻠ اﺳﺖ‪.‬‬
‫‪٣‬‬
‫ﻓﺎز ﺳﻮم )‪ ۴٠‬ﻧﻤﺮه( ‪ -‬ﻣﻬﻠﺖ ﺗﺤﻮﯾﻞ ﺗﺎ‪١٣٩٢/٠۴/٢٠ :‬‬
‫در اﯾﻦ ﻓﺎز ﺑﻪ ﭘﯿﺎدهﺳﺎزی روﺷ ﻣﺸﺎﺑﻪ روش ﭘﯿﺸﻨﻬﺎدی در ]‪ [۴‬ﻣ ﭘﺮدازﯾﻢ‪ .‬اﯾﺪه اﺻﻠ در اﯾﻦ ﻣﻘﺎﻟﻪ‪ ،‬ﺗﻌﺮﯾﻒ ﯾ ﺳﺮی ﭘﺎراﻣﺘﺮ و ﯾ‬
‫ﺗﺎﺑ ﭼ ﺎﻟ اﺣﺘﻤﺎل ﺑﻪ ﻋﻨﻮان ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ‪ ١٠‬ﺑﺮای ﮔﺮاف ﻣﻮرد ﻧﻈﺮ اﺳﺖ‪ .‬ﭘﺲ از ﺗﻌﺮﯾﻒ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ‪ ،‬ﻣﺴﺌﻠﻪ ﭘﯿﺶﺑﯿﻨ ﻟﯿﻨ را‬
‫ﻣ ﺗﻮان ﺑﻪ ﻣﺴﺌﻠﻪ ﺗﺨﻤﯿﻦ ﻫﻤﺰﻣﺎن ﭘﺎراﻣﺘﺮﻫﺎی ﻣﻨﺎﺳﺐ اﯾﻦ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ و ﺑﻪ دﻧﺒﺎل آن ﭘﯿﺪا ﮐﺮدن ﻟﯿﻨ ﻫﺎی از دﺳﺖ رﻓﺘﻪ ﻧ ﺎﺷﺖ ﮐﺮد‪.‬‬
‫ﻫﻤﺎنﻃﻮر ﮐﻪ ﻣ داﻧﯿﻢ‪ ،‬ﻣﺴﺌﻠﻪ ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮ را ﺑﻪ روشﻫﺎی ﻣﺘﻔﺎوﺗ ﻣ ﺗﻮان ﺣﻞ ﮐﺮد‪ .‬در اﯾﻦ ﻓﺎز ﻣﺎ روﺷ را ﺑﺮرﺳ ﻣ ﮐﻨﯿﻢ ﮐﻪ در آن‬
‫ﻫﺪف ﭘﯿﺪا ﮐﺮدن ﭘﺎراﻣﺘﺮی اﺳﺖ ﮐﻪ درﺳﺘﻨﻤﺎﯾ را ﻣﺎﮐﺰﯾﻤﻢ ﻣ ﮐﻨﺪ ‪ .١١‬در واﻗ ﻣﺎ ﺑﻪ دﻧﺒﺎل ﺣﻞ ﻣﺴﺌﻠﻪ زﯾﺮ ﻫﺴﺘﯿﻢ‪:‬‬
‫)‪argmaxθ P (A|θ‬‬
‫ﺗﻌﺮﯾﻒ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ و ﺣﻞ ﻣﺴﺌﻠﻪ‬
‫ﮐﻪ ‪ A‬ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﮔﺮاف ﻣﺸﺎﻫﺪه ﺷﺪه و ‪ θ‬ﭘﺎراﻣﺘﺮﻫﺎی درﺳﺘﻨﻤﺎﯾ اﺳﺖ‪ .‬در اداﻣﻪ ﭼ ﻮﻧ‬
‫ﻓﻮق را ﺗﺸﺮﯾ ﺧﻮاﻫﯿﻢ ﮐﺮد‪.‬‬
‫ﻓﺮض ﮐﻨﯿﺪ ﻫﺮ دراﯾﻪ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت را ﯾ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓ ﻧﺮﻣﺎل ﺑﻪ ﺷﺮط ﻣﻌﻠﻮم ﺑﻮدن ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ‪ .‬وارﯾﺎﻧﺲ‬
‫اﯾﻦ ﻣﺘﻐﯿﺮﻫﺎ را ﯾ ﺴﺎن و ﻣﯿﺎﻧ ﯿﻦ آنﻫﺎ را ﺑﺮاﺑﺮ ﺑﺎ ﻫﻤﺎن ﺿﺮب داﺧﻠ ﻓﺎﮐﺘﻮرﻫﺎی ﭘﻨﻬﺎن درﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ‪ .‬ﺑﻪ ﻋﺒﺎرﺗ دﯾ ﺮ‪ ،‬درﺳﺘﻨﻤﺎﯾ‬
‫ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت ﺑﺮ ﺣﺴﺐ ﭘﺎراﻣﺘﺮﻫﺎی آن را ﺑﻪ ﺻﻮرت زﯾﺮ ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫) ‪N (Aij |fiT fj , σ ۲‬‬
‫∏‬
‫= ) ‪P (A|θ) = P (A|F, σ ۲‬‬
‫‪i,j‬‬
‫ﮐﻪ در آن ‪ F‬ﻣﺎﺗﺮﯾﺲ وﯾﮋﮔ ﻫﺎی ﭘﻨﻬﺎن اﺳﺖ‪.‬‬
‫‪Likelihood Function١٠‬‬
‫‪Maximum Likelihood١١‬‬
‫‪٣‬‬
‫ﺣﺎل ﺑﺮای ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ و ﺗﻮﻟﯿﺪ دوﺑﺎره ﺷﺒ ﻪ‪ ،‬از روش ﻣﺎﮐﺰﯾﻤﻢ درﺳﺘﻨﻤﺎﯾ اﺳﺘﻔﺎده ﻣ ﮐﻨﯿﻢ اﻣﺎ ﺑﺮای اﯾﻦ ﮐﺎر ﻧﯿﺎز ﺑﻪ‬
‫اﻃﻼﻋﺎت ﮐﺎﻣﻞ ﻣﺎﺗﺮﯾﺲ ﻣﺠﺎورت دارﯾﻢ‪ .‬ﯾ اﯾﺪه ﻣ ﺗﻮاﻧﺪ اﯾﻦ ﺑﺎﺷﺪ ﮐﻪ درﺳﺘﻨﻤﺎﯾ ﻓﻮق را ﻓﻘﻂ ﺑﺮ روی دراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه ﻣﺎﮐﺰﯾﻤﻢ‬
‫ﮐﻨﯿﻢ و از روی آنﻫﺎ ﭘﺎراﻣﺘﺮﻫﺎ را ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ‪ .‬ﭘﺲ از ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎ ﻣ ﺗﻮان دراﯾﻪﻫﺎی ﻧﺎﻣﻌﻠﻮم را دوﺑﺎره ﺗﻮﻟﯿﺪ ﮐﺮد‪ .‬ﺑﺮای اﯾﻦ ﮐﺎر‬
‫ﺑﺎﯾﺪ درﻧﻈﺮ داﺷﺘﻪ ﺑﺎﺷﯿﻢ ﮐﻪ ﺗﺎﺑ درﺳﺘﻨﻤﺎﯾ ﻓﻮق ﺑﺮ ﺣﺴﺐ ‪ F‬ﻣﺤﺪب ﻧﯿﺴﺖ‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد ﻧﻤ ﺗﻮان از روشﻫﺎی ‪ descent‬ﯾﺎ‬
‫‪ ascent‬ﺑﺮای ﺑﻬﯿﻨﻪﺳﺎزی ﻋﻤﻮﻣ آن اﺳﺘﻔﺎده ﮐﺮد‪ .‬اﻣﺎ ﺑﺎ ﮐﻤ دﻗﺖ ﻣ ﺗﻮان درﯾﺎﻓﺖ ﮐﻪ ﺑﺎ ﺗﻐﯿﯿﺮ ﯾ ‪ fi‬و ﺛﺎﺑﺖ ﻧ ﻪداﺷﺘﻦ ﺑﻘﯿﻪ‪ ،‬ﻣﺴﺌﻠﻪ‬
‫ﻣﺤﺪب ﻣ ﺷﻮد‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ ﻣ ﺗﻮان از روشﻫﺎی ﻣﻌﻤﻮل ﺑﻬﯿﻨﻪﺳﺎزی ﻣﺤﺪب اﺳﺘﻔﺎده ﻧﻤﻮد‪ ،‬ﻫﺮﭼﻨﺪ ﻫﻤﭽﻨﺎن ﻧﻤ ﺗﻮان ﺑﻬﯿﻨﻪ ﻋﻤﻮﻣ را ﻟﺰوﻣﺎ‬
‫ﺑﺪﺳﺖ آورد‪ .‬ﻧﺘﺎﯾ را ﺑﺮای اﯾﻦ اﯾﺪه ﺑﺪﺳﺖ آورده و ﺑﺎ ﻧﺘﺎﯾ ﻗﺒﻠ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ‪.‬‬
‫اﯾﺪه ﺑﻌﺪی‪ ،‬ﺗﺨﻤﯿﻦ ﭘﺎراﻣﺘﺮﻫﺎ و ﯾﺎﻓﺘﻦ دراﯾﻪﻫﺎی ﻣﺠﻬﻮل ﺑﻪ ﺻﻮرت ﻫﻤﺰﻣﺎن اﺳﺖ‪ .‬اﯾﻦ اﯾﺪه ﻫﻤﺎن اﻟ ﻮرﯾﺘﻢ ﺑﺮآورد‪-‬ﺑﯿﺸﯿﻨﻪﺳﺎزی ‪١٢‬‬
‫اﺳﺖ‪ .‬در ﻣﺮﺣﻠﻪ ﺑﺮآورد‪ ،‬ﻫﺪف اﺻﻠ ﭘﯿﺪا ﮐﺮدن ﻣﻘﺪار ﻣﻮرد اﻧﺘﻈﺎر ﺑﺮای درﺳﺘﻨﻤﺎﯾ )ﯾﺎ ﺑﻪ ﻃﻮر دﻗﯿﻖﺗﺮ ﻟ ﺎرﯾﺘﻢ درﺳﺘﻨﻤﺎﯾ ( ﺑﺮ ﺣﺴﺐ‬
‫ﭘﺎراﻣﺘﺮﻫﺎی ﺗﺨﻤﯿﻦ زده ﺷﺪه ﻣﺮﺣﻠﻪ ﻗﺒﻞ و دادهﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه اﺳﺖ‪ .‬اﯾﻦ ﻣﻘﺪار را ﺑﻪ ﻋﻨﻮان ‪ Q‬ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫) )‪Q(θ, θ(t−۱) ) = E(log P (Ao , Au |θ)|Ao , θ(t−۱‬‬
‫ﮐﻪ در آن ‪ Ao‬دراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﺷﺪه و ‪ Au‬دراﯾﻪﻫﺎی ﻣﺸﺎﻫﺪه ﻧﺸﺪه ﻫﺴﺘﻨﺪ و ‪ θ‬ﻣﺠﻤﻮﻋﻪ ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾ )ﻫﻤﺎن ‪ F‬و ‪ ( σ‬اﺳﺖ‪.‬‬
‫در ﻣﺮﺣﻠﻪ ﺑﯿﺸﯿﻨﻪﺳﺎزی ﻧﯿﺰ ﻣﻘﺪار اﺧﯿﺮ ‪ Q‬ﻣﺎﮐﺰﯾﻤﻢ ﻣ ﺷﻮد و ﭘﺎراﻣﺘﺮﻫﺎی ﻣﺎﮐﺰﯾﻤﻢ ﮐﻨﻨﺪه اﺳﺘﺨﺮاج ﻣ ﺷﻮﻧﺪ‪.‬‬
‫ﺣﺎل ﺳﻌ ﻣ ﮐﻨﯿﻢ ﻣﻘﺪار ‪ Q‬را ﺑﺪﺳﺖ آورﯾﻢ‪ .‬ﺑﻪ وﺿﻮح ﺑﺮای ﻫﺮ دراﯾﻪ ﺧﻮاﻫﯿﻢ داﺷﺖ‪:‬‬
‫‪−۱‬‬
‫‪(Aij − fiT fj )۲ + C‬‬
‫‪۲σ ۲‬‬
‫= ) )‪E(log P (Aij |θ)|Ao , θ(t−۱‬‬
‫ﮐﻪ ‪ C‬ﯾ ﺛﺎﺑﺖ ﻣﺴﺘﻘﻞ اﺳﺖ‪ .‬اﮔﺮ ‪ Aij‬ﻧﺎﻣﻌﻠﻮم ﺑﺎﺷﺪ‪ ،‬از آنﺟﺎ ﮐﻪ ) ‪ ، Aij ∼ N (fiT fj , σ ۲‬ﻣﻘﺪار ﻗﺎﺑﻞ اﻧﺘﻈﺎر ﺑﺮای آن‪ ،‬ﺑﺮاﺑﺮ ﺑﺎ ﻫﻤﺎن‬
‫‪ fiT fj‬ﻣﺮﺣﻠﻪ ﻗﺒﻞ ﺧﻮاﻫﺪ ﺑﻮد‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ در ﻣﺠﻤﻮع ﺧﻮاﻫﯿﻢ داﺷﺖ‪:‬‬
‫‪‬‬
‫‪− fiT fj )۲ ‬‬
‫)‪(t−۱‬‬
‫‪(fiT fj‬‬
‫∑‬
‫‪(Aij − fiT fj )۲ +‬‬
‫‪Aij ∈Au‬‬
‫∑‬
‫‪Aij ∈Ao‬‬
‫‪‬‬
‫‪−۱ ‬‬
‫‪۲σ ۲‬‬
‫= ) )‪Q(θ, θ(t−۱‬‬
‫ﻣﺎﮐﺰﯾﻤﻢﺳﺎزی ‪ Q‬را ﻣﺎﻧﻨﺪ ﻣﺮﺣﻠﻪ ﻗﺒﻞ اﻧﺠﺎم ﻣ دﻫﯿﻢ‪ .‬اﯾﻦ روش را ﭘﯿﺎدهﺳﺎزی ﮐﻨﯿﺪ و ﻧﺘﺎﯾ را ﮔﺰارش ﮐﻨﯿﺪ‪.‬‬
‫ﻣﻮﻓﻖ ﺑﺎﺷﯿﺪ‪.‬‬
‫ﻣﺮاﺟ‬
‫‪[1] Euclidean Embedding of Co-occurrence Data. Amir Globerson, Gal Chechik, Fernando Pereira‬‬
‫‪and Naftali Tishby, JMLR 8, 2007.‬‬
‫‪[2] Matrix Factorization Techniques for Recommender Systems. Yehuda Koren, Robert Bell, and‬‬
‫‪Chris Volinsky, Computer 42, 8, 30-37, 2009.‬‬
‫‪[3] Latent Feature Kernels for Link Prediction on Sparse Graphs. Canh Hao Nguyen, Hiroshi Mamit‬‬‫‪suka, IEEE Trans. Neural Netw. Learning Syst. 23(11): 1793-1804, 2012.‬‬
‫‪[4] Probabilistic Matrix Factorization. Ruslan Salakhutdinov and Andriy Mnih, Neural Information‬‬
‫‪Processing Systems 21 (NIPS), 2008.‬‬
‫‪Expectation-Maximization١٢‬‬
‫‪۴‬‬

Download Report

SPR-Spring2013-FinalProject.pdf

Paperzz.com

Your Paperzz