Seminar-Pres.pptx

‫تعریف مسأله‬
‫روش مرسوم در شناسایی گوینده‬
‫دسته بندی گفتار تلفنی به قطعات تک گوینده‬
‫روش ارزیابی سیستم‬
‫آزمایشها‬
‫منابع‬
‫‪2‬‬
‫شناسایی دو گویندهی ناشناس‬
‫‪ .1‬نمونهی گفتار از مجموعهای متناهی از گویندگان‬
‫ناشناس‬
‫‪3‬‬
‫‪ .2‬گفتارمستقل از متن‪ ،‬از مکاملهی تلفنی دو گویندهی‬
‫‪ .1‬گفتار مستقل از متن‬
‫•شناسایی گروه بسته‬
‫‪ .2‬عدم محدودیت گویندهی ناشناس‬
‫‪ .3‬محدودیت فرکانس ی گفتار تلفنی‬
‫‪ .4‬گفتار تلفنی حاصل مکامله است‬
‫•شناسایی گروه باز‬
‫پارامتری‬
‫سازی گفتار‬
‫مدلسازی‬
‫آماری‬
‫‪4‬‬
‫پارامتری‬
‫سازی گفتار‬
‫انتخاب پارامترهای‬
‫هنجارسازی و سطوح آستانه‬
‫پارامتری‬
‫سازی گفتار‬
‫آزمایش‬
‫هنجارسازی و انتخاب‬
‫محتملترین مدل‬
‫مقایسه با سطح‬
‫آستانه‬
M  m1, m2,
, mN  , M
Y   y1, y2,
, yT 
m
fm (m1)  fm (m2 ) 
 fm (mN ),
fm (M )  Nfm (mi )  1,
i
f  m Y   f  Y m  f  m  f Y 
 Y , mi   log f Y mi   log f Y mW 
mi
mW
5
‫معموال از ضرایب کپسترال مقیاس فرکانس مل یا ضرایب پیشگویی خطی استفاده میشود‬
‫از انرژی گفتار و مشتقات اول تا سوم اطالعات باال نیز استفاده میشود‪.‬‬
‫‪6‬‬
‫مدل مخلوط گوس ی از تعدادی توزیع گوس ی وزندار با میانگین و کوواریانس معلوم تشکیل‬
‫شده است‪ .‬برای آموزش این مدل از الگوریتم بیشنهسازی امیدریاض ی (‪ )EM‬استفاده‬
‫میشود‪.‬‬
‫از ماشین پشتیبان بردار و ترکیب آن‬
‫‪i‬‬
‫با مدل مخلوط گوس ی نیز استفاده‬
‫‪M‬‬
‫شده است‪.‬‬
‫‪i‬‬
‫‪wi‬‬
‫‪1‬‬
‫‪x‬‬
‫‪M‬‬
‫‪w‬‬
‫‪i‬‬
‫‪i 1‬‬
‫‪M‬‬
‫) ‪p ( x )   wi pi ( x‬‬
‫‪i 1‬‬
‫) ‪i1 ( x  ‬‬
‫‪7‬‬
‫) ‪ (1 2)( x  ‬‬
‫‪e‬‬
‫‪12‬‬
‫‪T‬‬
‫‪1‬‬
‫‪(2 ) D 2 i‬‬
‫‪pi ( x ) ‬‬
‫‪ ‬تصمیمها با مقایسهی بیشینهی امتیاز مدلها و سطح آستانهی تصمیم گیری‬
‫اتخاذ می شود‪.‬‬
‫‪ ‬تنظیم سطح آستانه به دلیل تغییر امتیازها میان آزمونها بسیار مشکل است؛‬
‫تغییر امتیازات بین آزمونها به دو دلیل رخ می دهد‪:‬‬
‫‪‬‬
‫‪‬‬
‫یکم‪ :‬تفاوت میان دادههای آموزش ی گویندگان مختلف‬
‫دوم‪ :‬تفاوت میان دادهی زمان آموزش و دادهی زمان آزمایش‬
‫‪‬‬
‫‪‬‬
‫‪8‬‬
‫تفاوت گفتار یک گوینده به علت تفاوت در حاالت جسمی‪ ،‬عاطفی و افزایش‬
‫سن‬
‫تغییرات در شرایط کانال ارسال‪ ،‬وسیلهی ضبط‪ ،‬یا محیط آکوستیک‬
‫‪ ‬ایدهی اصلی هنجارسازی تمرکز توزیع امتیازات گوینگان غیرهدف است‪.‬‬
‫باشد در این صورت امتیاز‬
‫‪ ‬فرض کنیم ) ‪Lm (Y‬امتیاز سیگنال گفتار به‪ Y‬ازای مدل‬
‫‪m‬‬
‫است از‪:‬‬
‫هنجار شده‪،‬‬
‫ت‪Lm‬‬
‫عبار‪(Y‬‬
‫)‬
‫‪Lm ( X )  m‬‬
‫‪m‬‬
‫‪Lm (Y ) ‬‬
‫‪ ‬که در آن ‪m‬و‪ ‬پا‪m‬ر‪‬امترهای هنجارسازی به ازای مدل گوینده است‪m .‬‬
‫‪9‬‬
‫‪ ‬امتیازات هنجار شده به شکل نسبتی از درستینمایی هاست‪.‬‬
‫مدل گوینده‬
‫بردارهای ویژگی از گوینده‬
‫ناشناس‬
‫امتیازمدل جهانی‬
‫امتیاز‬
‫) ‪L ( X‬‬
‫‪L ( X ) ‬‬
‫) ‪L ( X‬‬
‫آموزش‬
‫آزمایش‬
‫مدل جهانی‬
‫‪10‬‬
‫بردارهای ویژگی ازتمام‬
‫گویندگان‬
‫‪ ‬مدل جهانی می تواند از گفتار گویندگان مرد یا زن به دست آید‪.‬‬
‫‪ ‬آزمایشات نشان می دهند که استفاده از این مدل ها به بهبودی پایدار می انجامد‬
‫مدل جهانی مرد‬
‫وفق دادن‬
‫آموزش‬
‫گفتارگوینده مرد‬
‫مردان‬
‫وفق دادن‬
‫آموزش‬
‫مدل جهانی زن‬
‫‪11‬‬
‫گفتارگوینده زن‬
‫بردارهای ویژگی‬
‫زنان‬
‫امتیازات خام برای پنج بار ادای گفتار از گویندهی متناظر با مدل ‪7‬‬
‫‪12‬‬
‫نتایج هنجارسازی به کمک مدل جهانی بر روی همان امتیازات‬
‫‪13‬‬
‫‪(Zero Normalization) Znorm ‬‬
‫‪ ‬میانگین و واریانس در فاز یادگیری محاسبه می شوند‪.‬‬
‫‪Lm (Y )  m‬‬
‫‪m‬‬
‫‪14‬‬
‫‪Lm (Y ) ‬‬
‫نتایج هنجارسازی صفر بر روی همان امتیازات‬
‫‪15‬‬
‫‪(Test Normalization) Tnorm ‬‬
‫‪ ‬هنجارسازی در زمان آزمایش انجام می شود و به مدل گویندگان غیر هدف نیاز دارد‪.‬‬
‫‪ ‬گفتار ورودی به مدل گویندگان غیرهدف اعمال می شود و در نتیجه یک توزیع برای امتیاز‬
‫گویندگان غیرهدف به دست می آید‪.‬‬
‫‪Lm (Y )  m‬‬
‫‪m‬‬
‫‪16‬‬
‫‪Lm (Y ) ‬‬
‫‪ ‬معموال یک سطح آستانه در زمان یادگیری انتخاب میشود و در طول فاز آزمایش‬
‫از آن استفاده میشود‪.‬‬
‫‪ ‬انتخاب سطح آستانه به گونهای انجام میشود که تعداد تشخیصهای درست را‬
‫در زمان یادگیری بیشینه کند‬
‫‪ ‬دو راهکار وجود دارد‪:‬‬
‫‪ ‬انتخاب یک سطح آستانهی مستقل از مدل‬
‫‪ ‬انتخاب یک سطح آستانه به ازای هر مدل‬
‫‪17‬‬
‫‪ ‬دو روش دستهبندی درونی و بیرونی برای افراز گفتار تلفنی به بخشهای گوینده‬
‫همگن وجود دارد‬
‫‪ ‬روش درونی‪:‬‬
‫‪ ‬هر قاب از گفتار به کمک مدلهای سیستم شناسایی گوینده امتیازدهی میشود‬
‫‪ ‬قابهای با امتیازهای مشابه در یک دسته قرار میگیرند‬
‫‪ ‬روش بیرونی‪:‬‬
‫‪ ‬سیگنال صوتی به کمک یک روش دستهبندی مستقل به محدودههای گوینده همگن‬
‫دستهبندی میشود‬
‫‪18‬‬
‫‪ ‬دو نوع خطا می تواند رخ دهد‪:‬‬
‫‪ ‬پذیرش اشتباه (متناظر با سطح آستانهی پایین) ‪Pfa‬‬
‫‪ ‬تشخیص اشتباه (متناظر با سطح آستانهی باال) ‪Pmiss‬‬
‫‪ ‬نمودار مشخصهی کارکرد سیستم‬
‫‪ ‬رسم ‪Pfa‬در مقابل‬
‫‪ ‬نموداری هم نوا و نزو لی‬
‫‪ ‬رسم منحنی خطا بر روی یک مقیاس انحراف نرمال‪ ،‬استاندارد شده است‪.‬‬
‫‪Pmiss‬‬
‫‪ ‬تابع هزینه ‪C  C fa Pfa  C fr Pfr‬‬
‫‪19‬‬
‫‪ 29 ‬گوینده‪ 13 ،‬گویندهی هدف‪ 16 ،‬گویندهی غیر هدف‪ ،‬از پایگاه دادهی فارسدت‬
‫تلفنی بزرگ‬
‫‪ 2 ‬دقیقه داده آموزش‪ 10 ،‬نمونه گفتار جهت آزمایش (‪ 290‬نمونه در مجموع)‬
‫‪ ‬پارامترها‪ 12 :‬ضریب ‪ + MFCC‬انرژی ‪ +‬مشتق اول و دوم ‪CMS +‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪20‬‬
‫مدل گویندگان‪ :‬مدل مخلوط گوس ی از مرتبهی ‪256‬‬
‫مدل جهانی مرد (زن)‪ :‬دادهی گفتار از ‪ 20‬گویندهی مرد (زن)‬
‫تعداد تکرارهای آموزش‪13 :‬‬
‫روش وفق مدل‪ :‬تخمین بیشینهی پسینی (‪)MAP‬‬
‫‪ ‬این آزمایش بر روی قطعات زمانی ‪،3‬‬
‫‪ ،9 ،6‬و ‪ 12‬ثانیهای انجام شده است‪.‬‬
‫‪ ‬هر منحنی به کمک نتایج آزمایش بر‬
‫روی ‪ 290‬نمونه و با تغییر سطح آستانه‬
‫مستقل از مدل به دست آمدا است‪.‬‬
‫‪21‬‬
‫‪ ‬در این آزمایش سه روش هنجارسازی با‬
‫یکدیگر مقایسه شدهاند‪ .‬در روش اول از‬
‫‪ ،Znorm‬در روش دوم از ‪ Tnorm‬و در‬
‫روش سوم پس از اعمال ‪ Znorm‬از‬
‫‪ Tnorm‬استفاده شده است‪.‬‬
‫‪ ‬هر منحنی به کمک نتایج آزمایش بر روی‬
‫تمام طولهای ‪ 3‬تا ‪ 15‬ثانیه (‪ 1450‬نمونه)‬
‫به دست آمده است‪.‬‬
‫‪22‬‬
‫‪ ‬در هر دو مورد سطوح آستانه در زمان‬
‫یادگیری محاسبه میشوند و در زمان‬
‫آزمایش از آنها استفاده میشود‪.‬‬
‫‪ ‬دقت سیستم در طولهای زمانی ‪ 6‬تا ‪ 9‬ثانیه‬
‫تقریبا ثابت و باال است‪.‬‬
‫‪23‬‬
‫طول قطعهی‬
‫گفتار (ثانیه)‬
‫دقت سطح‬
‫دقت سطح‬
‫آستانهی مستقل آستانهی وابسته‬
‫(درصد)‬
‫(درصد)‬
‫‪3‬‬
‫‪74.8‬‬
‫‪84.5‬‬
‫‪6‬‬
‫‪78.3‬‬
‫‪89.0‬‬
‫‪9‬‬
‫‪82.1‬‬
‫‪89.3‬‬
‫‪12‬‬
‫‪83.8‬‬
‫‪89.3‬‬
‫‪15‬‬
‫‪81.4‬‬
‫‪89.3‬‬
‫‪ ‬یکی از مزیتهای استفاده از مدل وفق داده‬
‫شده آن است که زمان یادگیری کاهش‬
‫مییابد‪.‬‬
‫‪ ‬میتوان این کاهش زمان را با افزایش مرتبهی‬
‫مدل مخلوط گوس ی در جهت افزایش کارایی‬
‫سیستم استفاده کرد‪.‬‬
‫‪24‬‬
‫طول قطعهی‬
‫گفتار (ثانیه)‬
‫دقت مدل وفق‬
‫داده نشده‬
‫(درصد)‬
‫دقت مدل وفق‬
‫یافته (درصد)‬
‫‪3‬‬
‫‪70.3‬‬
‫‪76.9‬‬
‫‪6‬‬
‫‪79.3‬‬
‫‪81.4‬‬
‫‪9‬‬
‫‪82.4‬‬
‫‪83.8‬‬
‫‪12‬‬
‫‪84.1‬‬
‫‪85.2‬‬
‫‪15‬‬
‫‪84.1‬‬
‫‪84.8‬‬
‫‪25‬‬
‫ردیف‬
‫فعالیت‬
‫میزان پیشرفت (درصد)‬
‫مدت زمان (ماه)‬
‫‪1‬‬
‫مطالعه و بررس ی‬
‫‪100‬‬
‫‪2‬‬
‫‪2‬‬
‫پیاده سازی روش‬
‫‪100‬‬
‫‪2‬‬
‫‪3‬‬
‫طراحی روش خاص‬
‫‪30‬‬
‫‪3‬‬
‫‪4‬‬
‫انجام آزمایشات‬
‫‪50‬‬
‫‪3‬‬
‫‪5‬‬
‫نگارش پایان نامه‬
‫‪0‬‬
‫‪2‬‬
1.
2.
3.
4.
5.
Xuang, Lu, Jianwu, Dang, “An Investigation of Dependencies between
Frequency Components and Speaker Characteristics for TextIndependent Speaker Identification,” Speech Communication, No. 50,
pp. 312-322, 2008.
Dunn, Robert B., Reynolds, Douglas A., and Quatieri, Thomas F.,
“Approaches to Speaker Detection and Tracking in Conversational
Speech,” Digital Signal Processing 10, pp. 93-112, 2000.
Bimbot, Frederic et-al, “A Tutorial on Text-Independent Speaker
Verification,” EURASIP Journal on Applied Signal Processing 2004:4,
pp. 430-451
Young, Steve et al, The HTK Book 3.1, 2002
Auckenthaler, Roland, Carey, Michael, and Lloyd-Thomas, Harvey,
“Score Normalization for Text-Independent Speaker Verification
Systems,” Digital Signal Processing 10, pp. 42-54, 2000.
26
6.
7.
Reynolds, Douglas A., and Rose, R. C., “Robust Text-Independent
Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE
Trans. Speech and Audio Processing, Vol. 3, No. 1, pp. 72-83, 1995.
Martin, A., Doddington, G., Kamm, T., and Przybocki, M., “The DET
Curve in Assessment of Detection Task Performance,” in Proc.
European Conference on Speech Communication and Technology
(Eurospeech ’97), Vol. 4, pp. 1895-1898, Rhodes, Greece, September
1997.
27
‫ارامترهای گفتار‬
‫تبدیل‬
‫کپسترال‬
‫|‪20log|FFT‬‬
‫پنجره بندی‬
‫پیش تأکید‬
‫از انرژی گفتار و مشتقات اول تا سوم اطالعات باال نیز استفاده میشود‪.‬‬
‫‪28‬‬
‫قاب گفتار‬
‫‪ ‬با داشتن بردارهای آموزش ی به ازای هر گوینده‪ ،‬پارامترهای مدل به وسیلهی‬
‫الگوریتم بیشنهسازی امیدریاض ی (‪ )EM‬به دست میآیند‪.‬‬
‫‪ ‬الگوریتم ‪ EM‬از طریق تکرار‪ ،‬پارامترهای مدل را اصالح میکند تا به صورت‬
‫صعودی احتمال مدل تخمینزده شده را برای بردارهای آموزش ی افزایش دهد‪.‬‬
‫‪‬‬
‫‪k‬‬
‫‪ ‬‬
‫‪ p Y m‬‬
‫‪k 1‬‬
‫‪‬‬
‫‪p Y m‬‬
‫‪ ‬مدل مخلوط گوس ی آمیزهای از مدلهای چگالی پارامتری و غیرپارامتری است‪.‬‬
‫‪29‬‬