ASR_HW3.pdf

‫ﺑﺎزﺷﻨﺎﺳﯽ ﮔﻔﺘﺎر‬
‫ﺑﻪ ﻧﺎم ﺧﺪا‬
‫ﻧﯿﻢﺳﺎل دوم ‪94-95‬‬
‫دﮐﺘﺮ ﺻﺎﻣﺘی‬
‫ﺗﻤﺮﯾﻦ ﺳﺮي ﺳﻮم ]ﺑﺨﺶ اول[‬
‫‪ HMM‬و ‪GMM‬‬
‫داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ ﮐﺎﻣﭙﯿﻮﺗﺮ‬
‫زﻣﺎن ﺗﺤﻮﯾﻞ‪ 13 :‬اردﯾﺒﻬﺸﺖ ‪1395‬‬
‫ﻟﻄﻔﺎ ﻣﻮارد ذﮐﺮﺷﺪه در ﺳﺮﺑﺮگ ﺗﻤﺮﯾﻦ اول را ﻣﻄﺎﻟﻌﻪ ﺑﻔﺮﻣﺎﯾﯿﺪ‪ .‬در ﺻﻮرت داﺷﺘﻦ ﺳﻮال از ﻃﺮﯾﻖ ‪ [email protected]‬ﺑﺎ‬
‫آﻗﺎی رﺟﺒﻠی ﺗﻤﺎس ﺑگﯿﺮﯾﺪ‪.‬‬
‫ﺗﻤﺮﯾﻦﻫﺎی ﺗﺌﻮری‬
‫ﺳﻮال ‪ .١‬ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣیداﻧﯿﺪ روش ‪ Expected Maximization‬ﮐﺎرﺑﺮد ﻓﺮاواﻧی در آﻣﻮزش ﻣﺪلﻫﺎی اﺣﺘﻤﺎﻻﺗی دارد‪ .‬در زﯾﺮ ﺑﻪ‬
‫دو ﻣﻮرد از ﮐﺎﺳﺘیﻫﺎی اﯾﻦ روش اﺷﺎره ﺷﺪه اﺳﺖ‪ .‬ﺑﺮای ﺣﻞ آن ﭼﻪ ﭘﯿﺸﻨﻬﺎداﺗی دارﯾﺪ؟‬
‫اﻟﻒ( ﻫﻤگﺮاﯾﯽ در ﻣﯿﻨﯿﻤﻢ ﻣﺤﻠی‬
‫ب( ﺣﺴﺎﺳﯿﺖ ﺑﻪ ﺷﺮاﯾﻂ اوﻟﯿﻪ‬
‫ﺳﻮال ‪ .٢‬ﺑﺎ ﺟﺴﺘﺠﻮ در ﻣﻘﺎﻻت ﻣﻮﺟﻮد روﺷی ﺑﺮای ﻫﺮ ﯾک ﻣﻮارد زﯾﺮ اراﺋﻪ دﻫﯿﺪ‪:‬‬
‫اﻟﻒ( ﺗﺨﻤﯿﻦ ﻣﻨﺎﺳﺐ ﺗﻌﺪاد ﺣﺎﻻت ﻣﺨﻔی ﺑﺮای ‪HMM‬‬
‫ب( ﺗﺨﻤﯿﻦ ﺗﻌﺪاد ﮔﺎوﺳﯿﻦﻫﺎی ﻻزم ﺑﺮای ﺗﻘﺮﯾﺐ زدن ﺗﻮزﯾﻊ در ‪GMM‬‬
‫ﺳﻮال ‪ .٣‬اﮔﺮ دﻧﺒﺎﻟﻪی داﯾﻔﻮنﻫﺎ و ﯾﺎ ﺗﺮاﯾﻔﻮنﻫﺎی ﯾک ﺳﺨﻨﺮاﻧی ﻃﻮﻻﻧی را اﺳﺘﺨﺮاج ﮐﺮده ﺑﺎﺷﯿﺪ‪ ،‬ﺑﺎ ﻫﺮ ﯾک از ﻣﻔﺮوﺿﺎت زﯾﺮ راهﺣﻠی‬
‫ﺑﺮای ﺷﻨﺎﺳﺎﯾﯽ زﺑﺎن ﮔﻮﯾﻨﺪه ﻃﺮح ﮐﻨﯿﺪ‪:‬‬
‫اﻟﻒ( داﺷﺘﻦ ‪ HMM‬ﺑﺮای داﯾﻔﻮنﻫﺎ و ﯾﺎ ﺗﺮاﯾﻔﻮنﻫﺎی ﻫﺮ ﯾک از زﺑﺎنﻫﺎی ﻣﻤکﻦ‬
‫ب( داﺷﺘﻦ ‪ GMM‬ﺗﻮزﯾﻊ داﯾﻔﻮنﻫﺎ و ﯾﺎ ﺗﺮاﯾﻔﻮنﻫﺎی ﻫﺮ ﯾک از زﺑﺎنﻫﺎی ﻣﻤکﻦ‬
‫ﺗﻤﺮﯾﻦ ﺑﺮﻧﺎﻣﻪﻧﻮﯾﺴی‬
‫در ﭘﯿﻮﺳﺖ اﯾﻦ ﺗﻤﺮﯾﻦ‪ ،‬ﻓﺎﯾﻠی ﺑﻪ ﻧﺎم "‪ ١ "Emo-DB.7z‬وﺟﻮد دارد‪ .‬اﯾﻦ آرﺷﯿﻮ ﺷﺎﻣﻞ ‪ ۵٣۵‬ﻓﺎﯾﻞ ﺻﻮﺗی اﺳﺖ ﮐﻪ ﻫﺮ ﮐﺪام ﺷﺎﻣﻞ ﯾک‬
‫ﺟﻤﻠﻪ ﺑﻪ زﺑﺎن آﻟﻤﺎﻧی اﺳﺖ ﮐﻪ ﺑﺎ ﺣﺎﻟﺖ اﺣﺴﺎﺳی ﺧﺎﺻی ﺑﯿﺎن ﺷﺪه اﺳﺖ‪ .‬ﻧﺎﻣگﺬاری ﻫﺮ ﯾک از اﯾﻦ ﻓﺎﯾﻞﻫﺎ ﺑﻪ ﮔﻮﻧﻪای اﺳﺖ ﮐﻪ ﺑﺎ ﻧﮕﺎه‬
‫ﮐﺮدن ﺑﻪ ﺟﺪول ‪ ١‬و ﺟﺪول ‪ ٢‬ﻣیﺗﻮان اﻃﻼﻋﺎت ﮐﺎﻣﻠی از ﺗﻘﺮﯾﺮ ﻓﺎﯾﻞ ﻣﺮﺑﻮﻃﻪ ﺑﻪ دﺳﺖ آورد‪.‬‬
‫‪http://emodb.bilderbar.info/start.html ١‬‬
‫اﻟﻒ( ﺑﺎ داﻧﺶ ﺧﻮد ﻓﺎﯾﻞﻫﺎی ﺻﻮﺗی ﻣﻮﺟﻮد را ﺑﻪ دو دﺳﺘﻪی آﻣﻮزش و آزﻣﻮن ﺗﻘﺴﯿﻢ ﮐﻨﯿﺪ‪.‬‬
‫ب( ﻓﺎﯾﻞﻫﺎی ﺻﻮﺗی ﻣﺠﻤﻮﻋﻪی آﻣﻮزش را ﺑﻪ ﻓﺮﯾﻢﻫﺎی ‪ ٢۵‬ﻣﯿﻠیﺛﺎﻧﯿﻪای ﺗﻘﺴﯿﻢ ﮐﻨﯿﺪ‪ .‬در ﻫﺮ ﻓﺮﯾﻢ‪ ،‬اﻃﻼﻋﺎﺗی از ﺟﻤﻠﻪ‬
‫ﻓﺮﻣﻨﺖﻫﺎ‪ ،‬اﻧﺮژی ﺳﯿگﻨﺎل‪ ،‬ﮔﺎم ﺻﺪا‪ LPC ،‬ﻣﺮﺗﺒﻪ ‪ MFCC ،١٠‬ﻣﺮﺗﺒﻪ ‪ ١٢‬را اﺳﺘﺨﺮاج ﮐﻨﯿﺪ‪.‬‬
‫پ( ﻓﺮﯾﻢﻫﺎ را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻃﻼﻋﺎت اﺳﺘﺨﺮاج ﺷﺪه ﺧﻮﺷﻪﺑﻨﺪی ﮐﻨﯿﺪ )ﺑﺎ اﻟگﻮرﯾﺘﻤی ﺳﺎده ﻧﻈﯿﺮ ‪.(k-means‬‬
‫دﻫﯿﺪ‪.‬‬
‫ت( ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ دﻧﺒﺎﻟﻪی ﺧﻮﺷﻪﻫﺎی ﺑﻪ دﺳﺖ آﻣﺪه‪ ،‬ﺑﺮای ﻫﺮ ﺣﺎﻟﺖ اﺣﺴﺎﺳی در ﻣﺠﻤﻮﻋﻪی آﻣﻮزش ﯾک ‪ HMM‬آﻣﻮزش‬
‫ث( دﻧﺒﺎﻟﻪی ﺧﻮﺷﻪﻫﺎی ﻓﺎﯾﻞﻫﺎی ﻣﺠﻤﻮﻋﻪی آزﻣﻮن را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﺪلﻫﺎی ﺑﻪ دﺳﺖ آﻣﺪه در ﻗﺴﻤﺖ ﻗﺒﻞ دﺳﺘﻪﺑﻨﺪی ﮐﻨﯿﺪ‬
‫و درﺻﺪ ﺧﻄﺎ را ﮔﺰارش ﮐﻨﯿﺪ‪.‬‬
‫ﺟﺪول ‪ .١‬ﭘﺮوﺗﮑﻞ ﻧﺎﻣگﺬاری ﻓﺎﯾﻞﻫﺎی ﺻﻮﺗی در دادﮔﺎن ‪Emo-DB‬‬
‫ﮐﺎراﮐﺘﺮ اول و دوم‬
‫ﺷﻨﺎﺳﻪی ﮔﻮﯾﻨﺪه‬
‫ﮐﺎراﮐﺘﺮ ﺳﻮم ﺗﺎ ﭘﻨﺠﻢ‬
‫ﺷﻨﺎﺳﻪی ﺟﻤﻠﻪ‬
‫ﮐﺎراﮐﺘﺮ ﻫﻔﺘﻢ‬
‫ﺷﻨﺎﺳﻪی ﻧﺴﺨﻪ )اﮔﺮ ﺑﯿﺶ از ﯾک ﻧﺴﺨﻪ از ﯾک ﺗﻘﺮﯾﺮ‬
‫ﮐﺎراﮐﺘﺮ ﺷﺸﻢ‬
‫ﺣﺎﻟﺖ اﺣﺴﺎﺳی‬
‫وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ‪ ،‬اﯾﻦ ﮐﺎراﮐﺘﺮ ﺗﻤﯿﯿﺰدﻫﻨﺪه اﺳﺖ(‬
‫ﺟﺪول ‪ .٢‬ﺟﺰﺋﯿﺎت ﻣﺮﺑﻮط ﺑﻪ ﺑﺨﺶﻫﺎی ﻣﺨﺘﻠﻒ ﭘﺮوﺗﮑﻞ ﻧﺎﻣگﺬاری ﻓﺎﯾﻞﻫﺎی ﺻﻮﺗی در دادﮔﺎن ‪Emo-DB‬‬
‫ﺷﻨﺎﺳﻪی ﮔﻮﯾﻨﺪه‬
‫‪ ‑ 03‬ﻣﺬﮐﺮ‪ ٣١ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 08‬ﻣﺆﻧﺚ‪ ٣۴ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 09‬ﻣﺆﻧﺚ‪ ٢١ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 10‬ﻣﺬﮐﺮ‪ ٣٢ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 11‬ﻣﺬﮐﺮ‪ ٢۶ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 12‬ﻣﺬﮐﺮ‪ ٣٠ ،‬ﺳﺎﻟﻪ‬
‫ﺷﻨﺎﺳﻪی ﺟﻤﻠﻪ‬
‫‪a01 - Der Lappen liegt auf dem Eisschrank.‬‬
‫ﻋﺼﺒﺎﻧﯿﺖ ‪W - Ärger (Wut) -‬‬
‫‪a04 - Heute abend könnte ich es ihm sagen.‬‬
‫اﻧﺰﺟﺎر ‪E - Ekel -‬‬
‫‪a02 - Das will sie am Mittwoch abgeben.‬‬
‫‪a05 - Das schwarze Stück Papier befindet sich da‬‬
‫‪oben neben dem Holzstück.‬‬
‫‪a07 - In sieben Stunden wird es soweit sein.‬‬
‫‪ ‑ 13‬ﻣﺆﻧﺚ‪ ٣٢ ،‬ﺳﺎﻟﻪ‬
‫‪b01 - Was sind denn das für Tüten, die da unter‬‬
‫‪ ‑ 15‬ﻣﺬﮐﺮ‪ ٢۵ ،‬ﺳﺎﻟﻪ‬
‫‪b02 - Sie haben es gerade hochgetragen und jetzt‬‬
‫‪ ‑ 14‬ﻣﺆﻧﺚ‪ ٣۵ ،‬ﺳﺎﻟﻪ‬
‫‪ ‑ 16‬ﻣﺆﻧﺚ‪ ٣١ ،‬ﺳﺎﻟﻪ‬
‫ﺣﺎﻟﺖ اﺣﺴﺎﺳی‬
‫?‪dem Tisch stehen‬‬
‫‪gehen sie wieder runter.‬‬
‫‪b03 - An den Wochenenden bin ich jetzt immer‬‬
‫‪nach Hause gefahren und habe Agnes besucht.‬‬
‫‪b09 - Ich will das eben wegbringen und dann mit‬‬
‫‪Karl was trinken gehen.‬‬
‫‪b10 - Die wird auf dem Platz sein, wo wir sie‬‬
‫‪immer hinlegen.‬‬
‫ﺑﯽﺣﻮﺻﻠگی ‪L - Langeweile -‬‬
‫ﺗﺮس‪/‬ﻫﯿﺠﺎن – ‪A - Angst‬‬
‫ﺷﺎدی ‪F - Freude -‬‬
‫ﻧﺎراﺣﺘی ‪T - Trauer -‬‬
‫ﺧﻨﺜی ‪N - Neutral -‬‬