|
|
|
|
|
|
|
فصل ششم مدلسازي سيگنال
|
|
|
|
|
|
|
|
1-
اهميت مدلسازي سيگنال
تشخيص كامپيوتري صحبت در واقع بر
دارندة دو نوع عمل اصلي تشخيص است: تشخيص صحبت و تشخيص گوينده. با تحليل يك موج
صوتي ميتوان خصيصه[1]هاي
اندامهاي گفتاري گوينده را تخمين زد كه اين خصيصهها راهكاري براي تشخيص هويت و
تصديق آن به روش زيستسنجي فراهم ميآورند. در مقابل، سيستمهاي تشخيص صحبت براي
درك مفهوم موج صوتي گفته شده تلاش ميكنند. جهت بيشتر تحقيقات فعلي در فنآوري
تشخيص صحبت به سمت ايجاد سيستمهاي مستقل از گوينده است كه توانايي تبديل صحبت
همة گويندگان را داشته باشد. در حالي كه اهداف اين دو نوع سيستم كاملاً متفاوت
به نظر ميرسند هر دو عميقاً از آبشخوري به نام الگوريتمهاي پردازش سيگنال براي
استخراج خصيصهها تغذيه ميشوند. در هر دو زمينه تلاش براي پيدا كردن دستهاي از
خصيصهها كه در مقابل تغييرات محيطي پايدار باشند ادامه دارد. اين قسمت مروري
خواهد داشت بر الگوريتمهاي استخراج خصيصهها[2]
كه در هر دو زمينه استفاده شدهاند و شامل ارزيابي كوتاهي از الگوريتمهاي گوناگون
مدلسازي سيگنال با آزمايشهاي تشخيصي كوچك ميباشد. 2-
آشنايي با مدلسازي سيگنال
هدف سيستمهاي تشخيص
گوينده بازشناسي خصيصههاي اندامهاي گفتاري و حالت صحبت كردن با استفاده از صداي
گوينده به منظور اهداف تشخيص هويتي ميباشد. ساختار اندامهاي صوتي، اندازة چالة بيني
و ويژگيهاي تارهاي صوتي همگي با استفاده از تحليل سيگنال قابل تخمين هستند.
تشخيص گوينده اصطلاحي كلي است كه به اعمال تشخيص هويت گوينده و تأييد هويت
گوينده اطلاق ميگردد. براي تشخيص، خصيصههاي تخميني گوينده با خصيصههاي موجود
در يك پايگاه دادهها از كاربران ثبت شده براي يافتن نزديكترين خصيصههاي قابل
تطبيق مقايسه ميشوند. براي تأييد هويت، ادعاي هويتي گوينده بر اساس امضاي زيستسنجي
وي پذيرفته ميشود و يا رد ميگردد. شكل شمارة 1 – وظايف مختلف تشخيص صحبت تلاش دارد تا
يك سيگنال صوتي صحبت را به واژهها تبديل كند. انسانها واژهها را با حركت دادن
اندامهاي صوتي به يك سري از مكانهاي قابل پيشبيني ادا ميكنند. اگر اين دنبالهها
از سيگنال استخراج گردند واژههاي گفته شده ميتوانند تشخيص داده شوند. بسياري
از كاربردهاي تشخيص صحبت نيازمند سيستمهاي مستقل از گوينده ميباشند اين توليدات
ميتوانند صحبت هر گويندهاي را تشخيص دهند. اگر چه اين دو هدف
كاملاً متفاوت به نظر ميرسند هر دوي آنها بر روي دادههاي صحبت تشخيص الگو را
اعمال ميكنند. بعضي از سيستمهاي موجود مانند Nuance 6 server هم تشخيص صحبت و هم تأييد هويت گوينده را به صورت همزمان اعمال
ميكنند. به خاطر همين شباهت رويه هر دوي اين فنآوريها از يك نقطه ضربه ميخورند:
يك تنزل كارايي شديد در اثر تفاوتهاي محيطهاي آموزشي و آزمايشي به وجود ميآيد.
به طور خلاصه كارايي اين فنآوريها شديداً به محيطي كه در آن توسعه مييابند
وابسته است و بنابراين حالات پر از نويز جهان واقعي آنها را به كارايي زير
كارايي بهينه راهبري ميكند. الگوريتمهايي مورد
استفادة محصولات پردازش كنندة صحبت بر اساس مدل صوتي ناحية صوتي و كانال گوش
استوارند. بخش بعدي اهميت استخراج خصيصهها را با يك مرور كلي از تشخيص الگو
روشن ميكند و سپس با توصيف الگوريتمهاي رايج در محصولات پراستفاده ادامه پيدا
ميكند. 3-
تشخيص الگو
يك سيستم تشخيص الگو
شامل دو جزء است: يك استخراج كنندة خصيصهها و يك طبقهبندي كننده. ايدهآل آن است
كه وقتي دادهها به فضاي دادههاي خصيصهها انتقال پيدا كرد به سمت طبقهاي
كشيده شود كه از همه به آن نزديكتر است و از طرف طبقه[3]هاي
متفاوت ديگر بازپس زده شود. وقتي كه به طبقهبندي كننده[4]
آموزش داده شد كه بين طبقهها در اين فضاي انتقال داده شده از خصيصهها تمايز
قائل شود يك سيستم تشخيص نيازمند آن است كه تنها دادههاي ورودي را از طريق همان
سيستم استخراج خصيصهها انتقال دهد و مشخص كند كه در كدام طبقه يك مشاهدة جديد
رخ ميدهد. دو مشكل مهم در اعمال
اين راهكار به پردازش صحبت وجود دارد. اولي آن است كه هيچ التزامي وجود ندارد كه
محيط آموزش و محيط آزمايش قابل مقايسه باشند. استفاده از يك ميكروفون متفاوت،
نويز پسزمينه و كانالهاي انتقال ميتواند باعث كاهش كارايي جدي شود (يك معيار
اساسي براي قضاوت در مورد يك مجموعه از خصيصهها پايداري آن در مقابل چنين
تغييرات كانالي ميباشد) . دومين مشكل آن است كه كه برهمنهي زيادي بين طبقههاي
موجود در فضاي خصيصهها وجود دارد. ژائو[5]
نمودارهايي براي نشان دادن اين برهمنهي در دودسته دادههاي صحبت جمعآوري شده
از طريق شبكة تلفن ارائه ميكند. موتورهاي تشخيص صحبت براي غلبه بر اين مشكل
برهمنهي از پردازشهاي آماري توانمند براي يكسانسازي مدل زبان استفاده ميكنند
كه فراتر از حد اين نوشتار است. 4-
الگوريتمهاي مدلسازي سيگنال
هدف مدلسازي سيگنال (كه
اغلب از آن با عنوان استخراج خصيصهها ياد ميشود) انتقال دادههاي صوتي به
فضايي است كه مشاهدات مربوط به يك طبقه با هم در يك گروه قرار گيرند و مشاهدات
مربوط به طبقات متفاوت از هم جدا شوند. اين انتقالها بر اساس مطالعات زيستشناختي
سيستمهاي صوتي و اندامهاي گفتاري انسان انتخاب ميشوند. براي مثال اندامهاي
گفتاري نميتوانند از يك مكان به مكان ديگر در كمتر از حدود پنج ميليثانيه جابهجا
شوند لذا سيستمهاي عملي ميتوانند از طيف 100 بار در ثانيه نمونهبرداري كنند در
حالي كه از دقت عمليات فقط مقدار بسيار كمي كاسته شود. صحبت يك سيگنال پوياست
لذا ما علاقمند به آزمون طيف بازة كوچك هستيم. زمان استمرار يك قاب به صورت طول
زماني كه يك مجموعه از پارامترها معتبر هستند تعريف ميشوند. با وجود اين كه
قابها همپوشاني ندارند ما معمولاً از پنجرة تحليل داراي همپوشاني براي در نظر
داشتن تعداد بيشتري از نمونههاي سيگنال براي هر اندازهگيري طيف استفاده ميكنيم.
اعمال مستقيم تحليل طيفي بر روي چنين مقدار كمي از دادهها معادل با اعمال يك
پنجرة مستطيلي تيز به سيگنال است كه باعث ايجاد اعوجاج طيفي ميشود. پاسخ
فركانسي پالس مستطيلي يك تابع sinc ميباشد( (sinc x=sin x/x
كه داراي يك باند عبور منحني شكل و مقدار زيادي ناهمواري در باند توقف ميباشد.
شكلهاي مختلف براي پنجرهها از طريق اعمال يك تابع وزن به دست ميآيند. پنجرة
همينگ[6]
با رابطة w(n)= (a-(1-a)cos(2p/(N-1))/ b يك نمونة ويژه از پنجرة هنينگ[7]
با=0.54 a ميباشد. پارامتر b براي هنجارسازي به گونهاي انتخاب ميشود كه انرژي
سيگنال در خلال آزمايش بدون تغيير باقي بماند. شكل پنجرة همينگ يك تحليل طيفي با
باند عبور هموارتر و باند توقف به طور قابل ملاحظهاي بدون اعوجاج به دست ميدهد
كه هر دوي اين خصوصيات براي به دست آوردن تخمينهاي پارامتري متغير مهم هستند.
بيشتر سيستمهاي امروزي از يك از يك فريم با اندازة زماني 10 ميليثانيه و يك
پنجره با اندازة زماني 25 ميليثانيه استفاده ميكنند. يك خصيصة استخراج شده
از سيگنال انرژي مطلق سيگنال است. دستة ديگر، اندازهگيري طيفي انرژي فركانسهاي
خاص است. اين اندازهها مشابه حالات اولية حركات دستگاه صوتي انسان هستند
(سلولهاي مو در حلزون گوش براي دستيابي به هدف مشابهي استفاده ميشوند). سه راه
براي دستيابي به اين اندازههاي صوتي وجود دارد: اعمال مستقيم يك بانك فيلتر
ديجيتال در دامنة زمان، استفاده از تبديل فوريه و تحليل پيشگويانة خطي. دو روش
اخير به لحاظ كارايي محاسباتي در سيستمهاي امروزي رايجترند. از آنجا كه شنوايي
انسان در طول يك اندازة خطي به صورت مساوي حساس نيست، ما طيف را به يك اندازة
فركانسي قابل درك[8] نقش ميكنيم.
تجربيات در مورد ادراك انسان نشان دادهاند كه فركانسهايي با يك پهناي باند
معينِ يك فركانس اسمي كه به پهناي باند بحراني معروف است نميتوانند به صورت
جداگانه از هم تشخيص داده شوند. اندازة مل[9]
يك تقريب سادهتر است كه پيچ قابل مشاهدة يك صدا را به اندازة خطي نقش ميكند.
استيونز[10] و فولكمن[11]
در سال 1940 به صورت تجربي نگاشتي بين اندازة مل و فركانسهاي واقعي تعيين كردند.
تفاوت اندازه به سختي به صورت خطي زير 1000هرتز و به صورت لگاريتمي بالاي
1000هرتز ميباشد. شكل شمارة 2- بانكهاي فيلتر
با فضاي مثلثي مل بانكهاي فيلتر مبتني بر
تبديل فورية ساده كه براي خصيصههاي نهايي طراحي شدهاند دقت فركانسي دلخواه را
بر اساس مقياس مل[12]
به دست ميدهند. براي پيادهسازي اين بانك فيلتر پنجرة دادههاي صحبت با استفاده
از تبديل فوريه به دامنة فركانس انتقال مييابد. در دامنة فركانس ضرايب دامنة هر
بانك فيلتر با اعمال يك تركيب خطي از طيف و پاسخ فركانسي فيلتر دلخواه پيدا ميشوند.
در عمل بانكهاي فيلتر مثلثي داراي برهمنهي استفاده ميشوند كه در آن از فركانس
مركزي يك فيلتر به عنوان نقاط انتهايي دو فيلتر مجاور استفاده ميشود. بنابراين
ضرايب دامنة هر بانك فيلتر مقدار متوسط طيف در كانال فيلتر را نشان ميدهند: كه در آن N(s)
تعداد نمونههاي استفاده شده براي دستيابي به مقدار متوسط و W(n)
تابع وزنيابي (مشابه تابع مثلثي كه قبلاً توضيح داده شد) ميباشد و S(f) مقدار پاسخ فركانسي است كه با تبديل فوريه
محاسبه ميشود. تحليل پيشگويانه خطي [13]
وسيلهاي براي به دست آوردن پوشش طيفي هموار P(w)
از يك مدل تمام- قطب طيف توان است. ضرايب خطي پيشگو همبستگي مستقيمي با نسبتهاي
ناحية لگاريتمي كه پارامترهاي هندسي مدل لولهاي نقصان براي توليد صحبت هستند
دارد. دامنههاي بانك فيلتر با نمونهبرداري از مدل طيفي پيشگويانة خطي در
فركانسهاي بانك فيلتر مناسب به دست ميآيند. اين كار ميتواند با ارزيابي مستقيم
مدل ال.پي.سي انجام شود ولي در عمل تبديل فوريه بر روي ضرايب پيشگو اعمال ميشود.
چون تعداد ضرايب ال.پي.سي كمتر از نمونههاي صوت است اين روش از لحاظ محاسباتي
كاراست. ضرايب دامنة بانك فيلتر همان گونه كه از طيف حاصل از تبديل فوريه[14]
به دست ميآمدند از طيف حاصل از پيشگويانة خطي[15]
به دست ميآيند. يك سيستم همريخت[16]
براي پردازش صحبت قابل استفاده است زيرا روشي براي جدا كردن سيگنال آشفتگي از
شكل ناحية صوتي فراهم ميآورد. يك فضاي داراي اين ويژگي سپستروم[17]
است كه با محاسبة عكس تبديل فورية گسستة لگاريتم انرژي به دست ميآيد.ضرايب
سپسترال[18] با محاسبة
دامنههاي بانك فيلتر با استفاده از معادلة زير به دست ميآيند: كه S(avg) مقدار متوسط سيگنال در كانال kام فيلتر است. در عمل تبديل
كسينوسي گسسته به خاطر كارايي محاسباتي استفاده ميشود. ضرايب سپسترال اغلب براي
كمينه كردن تغييراتي كه منجر به ايجاد اطلاعات نميشوند وزنيابي ميگردند كه اين
پردازه ليفترينگ[19]
ناميده ميشود. جالب است بدانيم كه در ادبيات تشخيص صحبت خصيصههاي مربوط به
گوينده به عنوان تغييرات غير دادهزا حذف ميگردند ولي سيستمهاي تشخيص گوينده
نيز از ليفترينگ استفاده ميكنند. هر دو نوع سيستم تشخيص
صحبت و تشخيص گوينده اطلاعات موضعي زمان كوتاه را با گرفتن مشتق خصوصيات اوليه
نسبت به زمان به دست ميدهند. به عنوان مثال يك صوت صدادار ميتواند با پيدا شدن
فرمانتهاي[20] آن در طيف
تشخيص داده شود، حال آن كه يك صوت بيصدا (سايشي) با استفاده از انتقال طيف مدل
ميشود. مقادير مشتق مرتبة اول خصائص ضرايب دلتا[21]
و مقادير مشتق مرتبة دوم آن شتاب[22]
يا ضرايب دلتا- دلتا[23]
ناميده ميشوند.مشتق زماني با استفاده از يك رابطة رگرسيون كه يك مجموعه فريم را
پيش و پس از فريم كنوني ميكشد تقريب زده ميشود. سيستمهاي تشخيص گوينده
از يك پيمانة انتخاب خصيصه نيز در چارچوب تشخيص الگو استفاده ميكنند. براي
تشخيص صحبت تمامي سيگنال بايد به يك نمايش متني نگاشته شود حال آن كه سيستم
تشخيص گوينده نيازي به كار تحت اين اجبار ندارد. بنابراين پيمانة انتخاب خصيصه
فقط خصيصهها مربوط به اصوات صدادار را ذخيره ميكند. اصوات صدادار مستقيماً
فرضيات مدلسازي پيشگويانة خطي را برآورده ميسازند و كمتر تحت تأثير نويز صوتي
قرار ميگيرند. 5-
منابع فصل
1) Richard
Duncan, Mississippi State University, A Description And Comparison Of The
Feature Sets Used In Speech Processing |
|
|
|
|
[1] feature
[2] feature extraction
[3] class
[4] classifier
[5] Zhao
[6] Hamming window
[7] Hanning window
[8] perceptual
[9] mel scale
[10] Stevens
[11] Volkman
[12] Mel frequency
[13] Linear Predictive (LP) anlaysis
[14] FT-deriven spectrum
[15] LP-deriven spectrum
[16] homomorphic
[17] cepstrum
[18] cepstral
[19] liftering
[20] formants
[21] delta coefficients
[22] acceleration
[23] delta-delta coefficients