تعریف مسأله روش مرسوم در شناسایی گوینده دسته بندی گفتار تلفنی به قطعات تک گوینده روش ارزیابی سیستم آزمایشها منابع 2 شناسایی دو گویندهی ناشناس .1نمونهی گفتار از مجموعهای متناهی از گویندگان ناشناس 3 .2گفتارمستقل از متن ،از مکاملهی تلفنی دو گویندهی .1گفتار مستقل از متن •شناسایی گروه بسته .2عدم محدودیت گویندهی ناشناس .3محدودیت فرکانس ی گفتار تلفنی .4گفتار تلفنی حاصل مکامله است •شناسایی گروه باز پارامتری سازی گفتار مدلسازی آماری 4 پارامتری سازی گفتار انتخاب پارامترهای هنجارسازی و سطوح آستانه پارامتری سازی گفتار آزمایش هنجارسازی و انتخاب محتملترین مدل مقایسه با سطح آستانه M m1, m2, , mN , M Y y1, y2, , yT m fm (m1) fm (m2 ) fm (mN ), fm (M ) Nfm (mi ) 1, i f m Y f Y m f m f Y Y , mi log f Y mi log f Y mW mi mW 5 معموال از ضرایب کپسترال مقیاس فرکانس مل یا ضرایب پیشگویی خطی استفاده میشود از انرژی گفتار و مشتقات اول تا سوم اطالعات باال نیز استفاده میشود. 6 مدل مخلوط گوس ی از تعدادی توزیع گوس ی وزندار با میانگین و کوواریانس معلوم تشکیل شده است .برای آموزش این مدل از الگوریتم بیشنهسازی امیدریاض ی ( )EMاستفاده میشود. از ماشین پشتیبان بردار و ترکیب آن i با مدل مخلوط گوس ی نیز استفاده M شده است. i wi 1 x M w i i 1 M ) p ( x ) wi pi ( x i 1 ) i1 ( x 7 ) (1 2)( x e 12 T 1 (2 ) D 2 i pi ( x ) تصمیمها با مقایسهی بیشینهی امتیاز مدلها و سطح آستانهی تصمیم گیری اتخاذ می شود. تنظیم سطح آستانه به دلیل تغییر امتیازها میان آزمونها بسیار مشکل است؛ تغییر امتیازات بین آزمونها به دو دلیل رخ می دهد: یکم :تفاوت میان دادههای آموزش ی گویندگان مختلف دوم :تفاوت میان دادهی زمان آموزش و دادهی زمان آزمایش 8 تفاوت گفتار یک گوینده به علت تفاوت در حاالت جسمی ،عاطفی و افزایش سن تغییرات در شرایط کانال ارسال ،وسیلهی ضبط ،یا محیط آکوستیک ایدهی اصلی هنجارسازی تمرکز توزیع امتیازات گوینگان غیرهدف است. باشد در این صورت امتیاز فرض کنیم ) Lm (Yامتیاز سیگنال گفتار به Yازای مدل m است از: هنجار شده، تLm عبار(Y ) Lm ( X ) m m Lm (Y ) که در آن mو پاmرامترهای هنجارسازی به ازای مدل گوینده استm . 9 امتیازات هنجار شده به شکل نسبتی از درستینمایی هاست. مدل گوینده بردارهای ویژگی از گوینده ناشناس امتیازمدل جهانی امتیاز ) L ( X L ( X ) ) L ( X آموزش آزمایش مدل جهانی 10 بردارهای ویژگی ازتمام گویندگان مدل جهانی می تواند از گفتار گویندگان مرد یا زن به دست آید. آزمایشات نشان می دهند که استفاده از این مدل ها به بهبودی پایدار می انجامد مدل جهانی مرد وفق دادن آموزش گفتارگوینده مرد مردان وفق دادن آموزش مدل جهانی زن 11 گفتارگوینده زن بردارهای ویژگی زنان امتیازات خام برای پنج بار ادای گفتار از گویندهی متناظر با مدل 7 12 نتایج هنجارسازی به کمک مدل جهانی بر روی همان امتیازات 13 (Zero Normalization) Znorm میانگین و واریانس در فاز یادگیری محاسبه می شوند. Lm (Y ) m m 14 Lm (Y ) نتایج هنجارسازی صفر بر روی همان امتیازات 15 (Test Normalization) Tnorm هنجارسازی در زمان آزمایش انجام می شود و به مدل گویندگان غیر هدف نیاز دارد. گفتار ورودی به مدل گویندگان غیرهدف اعمال می شود و در نتیجه یک توزیع برای امتیاز گویندگان غیرهدف به دست می آید. Lm (Y ) m m 16 Lm (Y ) معموال یک سطح آستانه در زمان یادگیری انتخاب میشود و در طول فاز آزمایش از آن استفاده میشود. انتخاب سطح آستانه به گونهای انجام میشود که تعداد تشخیصهای درست را در زمان یادگیری بیشینه کند دو راهکار وجود دارد: انتخاب یک سطح آستانهی مستقل از مدل انتخاب یک سطح آستانه به ازای هر مدل 17 دو روش دستهبندی درونی و بیرونی برای افراز گفتار تلفنی به بخشهای گوینده همگن وجود دارد روش درونی: هر قاب از گفتار به کمک مدلهای سیستم شناسایی گوینده امتیازدهی میشود قابهای با امتیازهای مشابه در یک دسته قرار میگیرند روش بیرونی: سیگنال صوتی به کمک یک روش دستهبندی مستقل به محدودههای گوینده همگن دستهبندی میشود 18 دو نوع خطا می تواند رخ دهد: پذیرش اشتباه (متناظر با سطح آستانهی پایین) Pfa تشخیص اشتباه (متناظر با سطح آستانهی باال) Pmiss نمودار مشخصهی کارکرد سیستم رسم Pfaدر مقابل نموداری هم نوا و نزو لی رسم منحنی خطا بر روی یک مقیاس انحراف نرمال ،استاندارد شده است. Pmiss تابع هزینه C C fa Pfa C fr Pfr 19 29 گوینده 13 ،گویندهی هدف 16 ،گویندهی غیر هدف ،از پایگاه دادهی فارسدت تلفنی بزرگ 2 دقیقه داده آموزش 10 ،نمونه گفتار جهت آزمایش ( 290نمونه در مجموع) پارامترها 12 :ضریب + MFCCانرژی +مشتق اول و دوم CMS + 20 مدل گویندگان :مدل مخلوط گوس ی از مرتبهی 256 مدل جهانی مرد (زن) :دادهی گفتار از 20گویندهی مرد (زن) تعداد تکرارهای آموزش13 : روش وفق مدل :تخمین بیشینهی پسینی ()MAP این آزمایش بر روی قطعات زمانی ،3 ،9 ،6و 12ثانیهای انجام شده است. هر منحنی به کمک نتایج آزمایش بر روی 290نمونه و با تغییر سطح آستانه مستقل از مدل به دست آمدا است. 21 در این آزمایش سه روش هنجارسازی با یکدیگر مقایسه شدهاند .در روش اول از ،Znormدر روش دوم از Tnormو در روش سوم پس از اعمال Znormاز Tnormاستفاده شده است. هر منحنی به کمک نتایج آزمایش بر روی تمام طولهای 3تا 15ثانیه ( 1450نمونه) به دست آمده است. 22 در هر دو مورد سطوح آستانه در زمان یادگیری محاسبه میشوند و در زمان آزمایش از آنها استفاده میشود. دقت سیستم در طولهای زمانی 6تا 9ثانیه تقریبا ثابت و باال است. 23 طول قطعهی گفتار (ثانیه) دقت سطح دقت سطح آستانهی مستقل آستانهی وابسته (درصد) (درصد) 3 74.8 84.5 6 78.3 89.0 9 82.1 89.3 12 83.8 89.3 15 81.4 89.3 یکی از مزیتهای استفاده از مدل وفق داده شده آن است که زمان یادگیری کاهش مییابد. میتوان این کاهش زمان را با افزایش مرتبهی مدل مخلوط گوس ی در جهت افزایش کارایی سیستم استفاده کرد. 24 طول قطعهی گفتار (ثانیه) دقت مدل وفق داده نشده (درصد) دقت مدل وفق یافته (درصد) 3 70.3 76.9 6 79.3 81.4 9 82.4 83.8 12 84.1 85.2 15 84.1 84.8 25 ردیف فعالیت میزان پیشرفت (درصد) مدت زمان (ماه) 1 مطالعه و بررس ی 100 2 2 پیاده سازی روش 100 2 3 طراحی روش خاص 30 3 4 انجام آزمایشات 50 3 5 نگارش پایان نامه 0 2 1. 2. 3. 4. 5. Xuang, Lu, Jianwu, Dang, “An Investigation of Dependencies between Frequency Components and Speaker Characteristics for TextIndependent Speaker Identification,” Speech Communication, No. 50, pp. 312-322, 2008. Dunn, Robert B., Reynolds, Douglas A., and Quatieri, Thomas F., “Approaches to Speaker Detection and Tracking in Conversational Speech,” Digital Signal Processing 10, pp. 93-112, 2000. Bimbot, Frederic et-al, “A Tutorial on Text-Independent Speaker Verification,” EURASIP Journal on Applied Signal Processing 2004:4, pp. 430-451 Young, Steve et al, The HTK Book 3.1, 2002 Auckenthaler, Roland, Carey, Michael, and Lloyd-Thomas, Harvey, “Score Normalization for Text-Independent Speaker Verification Systems,” Digital Signal Processing 10, pp. 42-54, 2000. 26 6. 7. Reynolds, Douglas A., and Rose, R. C., “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans. Speech and Audio Processing, Vol. 3, No. 1, pp. 72-83, 1995. Martin, A., Doddington, G., Kamm, T., and Przybocki, M., “The DET Curve in Assessment of Detection Task Performance,” in Proc. European Conference on Speech Communication and Technology (Eurospeech ’97), Vol. 4, pp. 1895-1898, Rhodes, Greece, September 1997. 27 ارامترهای گفتار تبدیل کپسترال |20log|FFT پنجره بندی پیش تأکید از انرژی گفتار و مشتقات اول تا سوم اطالعات باال نیز استفاده میشود. 28 قاب گفتار با داشتن بردارهای آموزش ی به ازای هر گوینده ،پارامترهای مدل به وسیلهی الگوریتم بیشنهسازی امیدریاض ی ( )EMبه دست میآیند. الگوریتم EMاز طریق تکرار ،پارامترهای مدل را اصالح میکند تا به صورت صعودی احتمال مدل تخمینزده شده را برای بردارهای آموزش ی افزایش دهد. k p Y m k 1 p Y m مدل مخلوط گوس ی آمیزهای از مدلهای چگالی پارامتری و غیرپارامتری است. 29
© Copyright 2026 Paperzz