قسمت بعدي

قسمت قبلي

 

فهرست مطالب

صفحة فعاليتها

 

 

 

 

 

 

 

فصل ششم

 

مدلسازي سيگنال

 

1- اهميت مدلسازي سيگنال

2- آشنايي با مدلسازي سيگنال

3- تشخيص الگو

4- الگوريتمهاي مدلسازي سيگنال

5- منابع فصل

 

 

 

 

 

 

 

 

1-     اهميت مدلسازي سيگنال

 

 تشخيص كامپيوتري صحبت در واقع بر دارندة دو نوع عمل اصلي تشخيص است: تشخيص صحبت و تشخيص گوينده. با تحليل يك موج صوتي مي‌توان خصيصه[1]‌هاي اندامهاي گفتاري گوينده را تخمين زد كه اين خصيصه‌ها راهكاري براي تشخيص هويت و تصديق آن به روش زيست‌سنجي فراهم مي‌آورند. در مقابل، سيستمهاي تشخيص صحبت براي درك مفهوم موج صوتي گفته شده تلاش مي‌كنند. جهت بيشتر تحقيقات فعلي در فن‌آوري تشخيص صحبت به سمت ايجاد سيستمهاي مستقل از گوينده است كه توانايي تبديل صحبت همة گويندگان را داشته باشد. در حالي كه اهداف اين دو نوع سيستم كاملاً متفاوت به نظر مي‌رسند هر دو عميقاً از آبشخوري به نام الگوريتمهاي پردازش سيگنال براي استخراج خصيصه‌ها تغذيه مي‌شوند. در هر دو زمينه تلاش براي پيدا كردن دسته‌اي از خصيصه‌ها كه در مقابل تغييرات محيطي پايدار باشند ادامه دارد. اين قسمت مروري خواهد داشت بر الگوريتمهاي استخراج خصيصه‌ها[2] كه در هر دو زمينه استفاده شده‌اند و شامل ارزيابي كوتاهي از الگوريتمهاي گوناگون مدلسازي سيگنال با آزمايشهاي تشخيصي كوچك مي‌باشد.

 

2-     آشنايي با مدلسازي سيگنال

 

هدف سيستمهاي تشخيص گوينده بازشناسي خصيصه‌هاي اندامهاي گفتاري و حالت صحبت كردن با استفاده از صداي گوينده به منظور اهداف تشخيص هويتي مي‌باشد. ساختار اندامهاي صوتي، اندازة چالة بيني و ويژگيهاي تارهاي صوتي همگي با استفاده از تحليل سيگنال قابل تخمين هستند. تشخيص گوينده اصطلاحي كلي است كه به اعمال تشخيص هويت گوينده و تأييد هويت گوينده اطلاق مي‌گردد. براي تشخيص، خصيصه‌هاي تخميني گوينده با خصيصه‌هاي موجود در يك پايگاه داده‌ها از كاربران ثبت شده براي يافتن نزديك‌ترين خصيصه‌هاي قابل تطبيق مقايسه مي‌شوند. براي تأييد هويت، ادعاي هويتي گوينده بر اساس امضاي زيست‌سنجي وي پذيرفته مي‌شود و يا رد مي‌گردد.

 

شكل شمارة 1 – وظايف مختلف

 

تشخيص صحبت تلاش دارد تا يك سيگنال صوتي صحبت را به واژه‌ها تبديل كند. انسانها واژه‌ها را با حركت دادن اندامها‌ي صوتي به يك سري از مكانهاي قابل پيشبيني ادا مي‌كنند. اگر اين دنباله‌ها از سيگنال استخراج گردند واژه‌هاي گفته شده مي‌توانند تشخيص داده شوند. بسياري از كاربردهاي تشخيص صحبت نيازمند سيستمهاي مستقل از گوينده مي‌باشند اين توليدات مي‌توانند صحبت هر گوينده‌اي را تشخيص دهند.

اگر چه اين دو هدف كاملاً متفاوت به نظر مي‌رسند هر دوي آنها بر روي داده‌هاي صحبت تشخيص الگو را اعمال مي‌كنند. بعضي از سيستمهاي موجود مانند Nuance 6 server هم تشخيص صحبت و هم تأييد هويت گوينده را به صورت همزمان اعمال مي‌كنند. به خاطر همين شباهت رويه هر دوي اين فن‌آوريها از يك نقطه ضربه مي‌خورند: يك تنزل كارايي شديد در اثر تفاوتهاي محيطهاي آموزشي و آزمايشي به وجود مي‌آيد. به طور خلاصه كارايي اين فن‌آوريها شديداً به محيطي كه در آن توسعه مي‌يابند وابسته است و بنابراين حالات پر از نويز جهان واقعي آنها را به كارايي زير كارايي بهينه راهبري مي‌كند.

الگوريتمهايي مورد استفادة محصولات پردازش كنندة صحبت بر اساس مدل صوتي ناحية صوتي و كانال گوش استوارند. بخش بعدي اهميت استخراج خصيصه‌ها را با يك مرور كلي از تشخيص الگو روشن مي‌كند و سپس با توصيف الگوريتمهاي رايج در محصولات پراستفاده ادامه پيدا مي‌كند.

 

3-    تشخيص الگو

 

يك سيستم تشخيص الگو شامل دو جزء است: يك استخراج كنندة خصيصه‌ها و يك طبقه‌بندي كننده. ايده‌آل آن است كه وقتي داده‌ها به فضاي داده‌هاي خصيصه‌ها انتقال پيدا كرد به سمت طبقه‌اي كشيده شود كه از همه به آن نزديك‌تر است و از طرف طبقه[3]‌هاي متفاوت ديگر بازپس زده شود. وقتي كه به طبقه‌بندي كننده[4] آموزش داده شد كه بين طبقه‌ها در اين فضاي انتقال داده شده از خصيصه‌ها تمايز قائل شود يك سيستم تشخيص نيازمند آن است كه تنها داده‌هاي ورودي را از طريق همان سيستم استخراج خصيصه‌ها انتقال دهد و مشخص كند كه در كدام طبقه يك مشاهدة جديد رخ مي‌دهد.

دو مشكل مهم در اعمال اين راهكار به پردازش صحبت وجود دارد. اولي آن است كه هيچ التزامي وجود ندارد كه محيط آموزش و محيط آزمايش قابل مقايسه باشند. استفاده از يك ميكروفون متفاوت، نويز پس‌زمينه و كانالهاي انتقال مي‌تواند باعث كاهش كارايي جدي شود (يك معيار اساسي براي قضاوت در مورد يك مجموعه از خصيصه‌ها پايداري آن در مقابل چنين تغييرات كانالي مي‌باشد) . دومين مشكل آن است كه كه برهم‌نهي زيادي بين طبقه‌هاي موجود در فضاي خصيصه‌ها وجود دارد. ژائو[5] نمودارهايي براي نشان دادن اين برهم‌نهي در دودسته داده‌هاي صحبت جمع‌آوري شده از طريق شبكة تلفن ارائه مي‌كند. موتورهاي تشخيص صحبت براي غلبه بر اين مشكل برهم‌نهي از پردازشهاي آماري توانمند براي يكسان‌سازي مدل زبان استفاده مي‌كنند كه فراتر از حد اين نوشتار است.

 

4-    الگوريتمهاي مدلسازي سيگنال

 

هدف مدلسازي سيگنال (كه اغلب از آن با عنوان استخراج خصيصه‌ها ياد مي‌شود) انتقال داده‌هاي صوتي به فضايي است كه مشاهدات مربوط به يك طبقه با هم در يك گروه قرار گيرند و مشاهدات مربوط به طبقات متفاوت از هم جدا شوند. اين انتقالها بر اساس مطالعات زيست‌شناختي سيستمهاي صوتي و اندامهاي گفتاري انسان انتخاب مي‌شوند. براي مثال اندامهاي گفتاري نمي‌توانند از يك مكان به مكان ديگر در كمتر از حدود پنج ميلي‌ثانيه جابه‌جا شوند لذا سيستمهاي عملي مي‌توانند از طيف 100 بار در ثانيه نمونه‌برداري كنند در حالي كه از دقت عمليات فقط مقدار بسيار كمي كاسته شود.

صحبت يك سيگنال پوياست لذا ما علاقمند به آزمون طيف بازة كوچك هستيم. زمان استمرار يك قاب به صورت طول زماني كه يك مجموعه از پارامترها معتبر هستند تعريف مي‌شوند. با وجود اين كه قابها همپوشاني ندارند ما معمولاً از پنجرة تحليل داراي همپوشاني براي در نظر داشتن تعداد بيشتري از نمونه‌هاي سيگنال براي هر اندازه‌گيري طيف استفاده مي‌كنيم. اعمال مستقيم تحليل طيفي بر روي چنين مقدار كمي از داده‌ها معادل با اعمال يك پنجرة مستطيلي تيز به سيگنال است كه باعث ايجاد اعوجاج طيفي مي‌شود. پاسخ فركانسي پالس مستطيلي يك تابع sinc  مي‌باشد( (sinc x=sin x/x كه داراي يك باند عبور منحني شكل و مقدار زيادي ناهمواري در باند توقف مي‌باشد. شكلهاي مختلف براي پنجره‌ها از طريق اعمال يك تابع وزن به دست مي‌آيند. پنجرة همينگ[6] با رابطة

 

w(n)= (a-(1-a)cos(2p/(N-1))/ b

 

يك نمونة ويژه از پنجرة هنينگ[7] با=0.54  a مي‌باشد. پارامتر b براي هنجارسازي به گونه‌اي انتخاب مي‌شود كه انرژي سيگنال در خلال آزمايش بدون تغيير باقي بماند. شكل پنجرة همينگ يك تحليل طيفي با باند عبور هموارتر و باند توقف به طور قابل ملاحظه‌اي بدون اعوجاج به دست مي‌دهد كه هر دوي اين خصوصيات براي به دست آوردن تخمينهاي پارامتري متغير مهم هستند. بيشتر سيستمهاي امروزي از يك از يك فريم با اندازة زماني 10 ميلي‌ثانيه و يك پنجره با اندازة زماني 25 ميلي‌ثانيه استفاده ميكنند.

يك خصيصة استخراج شده از سيگنال انرژي مطلق سيگنال است. دستة ديگر، اندازه‌گيري طيفي انرژي فركانسهاي خاص است. اين اندازه‌ها مشابه حالات اولية حركات دستگاه صوتي انسان هستند (سلولهاي مو در حلزون گوش براي دستيابي به هدف مشابهي استفاده مي‌شوند). سه راه براي دستيابي به اين اندازه‌هاي صوتي وجود دارد: اعمال مستقيم يك بانك فيلتر ديجيتال در دامنة زمان، استفاده از تبديل فوريه و تحليل پيشگويانة خطي. دو روش اخير به لحاظ كارايي محاسباتي در سيستمهاي امروزي رايج‌ترند.

از آنجا كه شنوايي انسان در طول يك اندازة خطي به صورت مساوي حساس نيست، ما طيف را به يك اندازة فركانسي قابل درك[8] نقش مي‌كنيم. تجربيات در مورد ادراك انسان نشان داده‌اند كه فركانسهايي با يك پهناي باند معينِ يك فركانس اسمي كه به پهناي باند بحراني معروف است نمي‌توانند به صورت جداگانه از هم تشخيص داده شوند. اندازة مل[9] يك تقريب ساده‌تر است كه پيچ قابل مشاهدة يك صدا را به اندازة خطي نقش مي‌كند. استيونز[10] و فولكمن[11] در سال 1940 به صورت تجربي نگاشتي بين اندازة مل و فركانسهاي واقعي تعيين كردند. تفاوت اندازه به سختي به صورت خطي زير 1000هرتز و به صورت لگاريتمي بالاي 1000هرتز مي‌باشد.

 

شكل شمارة 2- بانكهاي فيلتر با فضاي مثلثي مل

 

بانكهاي فيلتر مبتني بر تبديل فورية ساده كه براي خصيصه‌هاي نهايي طراحي شده‌اند دقت فركانسي دلخواه را بر اساس مقياس مل[12] به دست مي‌دهند. براي پياده‌سازي اين بانك فيلتر پنجرة داده‌هاي صحبت با استفاده از تبديل فوريه به دامنة فركانس انتقال مي‌يابد. در دامنة فركانس ضرايب دامنة هر بانك فيلتر با اعمال يك تركيب خطي از طيف و پاسخ فركانسي فيلتر دلخواه پيدا مي‌شوند. در عمل بانكهاي فيلتر مثلثي داراي برهم‌نهي استفاده مي‌شوند كه در آن از فركانس مركزي يك فيلتر به عنوان نقاط انتهايي دو فيلتر مجاور استفاده مي‌شود. بنابراين ضرايب دامنة هر بانك فيلتر مقدار متوسط طيف در كانال فيلتر را نشان مي‌دهند:

 

 

كه در آن N(s) تعداد نمونه‌هاي استفاده شده براي دستيابي به مقدار متوسط و W(n) تابع وزنيابي (مشابه تابع مثلثي كه قبلاً توضيح داده شد) مي‌باشد و S(f) مقدار پاسخ فركانسي است كه با تبديل فوريه محاسبه مي‌شود.

تحليل پيشگويانه خطي [13] وسيله‌اي براي به دست آوردن پوشش طيفي هموار P(w) از يك مدل تمام- قطب طيف توان است. ضرايب خطي پيشگو همبستگي مستقيمي با نسبتهاي ناحية لگاريتمي كه پارامترهاي هندسي مدل لوله‌اي نقصان براي توليد صحبت هستند دارد. دامنه‌هاي بانك فيلتر با نمونه‌برداري از مدل طيفي پيشگويانة خطي در فركانسهاي بانك فيلتر مناسب به دست مي‌آيند. اين كار مي‌تواند با ارزيابي مستقيم مدل ال.پي.سي انجام شود ولي در عمل تبديل فوريه بر روي ضرايب پيشگو اعمال مي‌شود. چون تعداد ضرايب ال.پي.سي كمتر از نمونه‌هاي صوت است اين روش از لحاظ محاسباتي كاراست. ضرايب دامنة بانك فيلتر همان گونه كه از طيف حاصل از تبديل فوريه[14] به دست مي‌آمدند از طيف حاصل از پيشگويانة خطي[15] به دست مي‌آيند.

يك سيستم همريخت[16] براي پردازش صحبت قابل استفاده است زيرا روشي براي جدا كردن سيگنال آشفتگي از شكل ناحية صوتي فراهم مي‌آورد. يك فضاي داراي اين ويژگي سپستروم[17] است كه با محاسبة عكس تبديل فورية گسستة لگاريتم انرژي به دست مي‌آيد.ضرايب سپسترال[18] با محاسبة دامنه‌هاي بانك فيلتر با استفاده از معادلة زير به دست ميآيند:

 

 

كه  S(avg) مقدار متوسط سيگنال در كانال kام فيلتر است. در عمل تبديل كسينوسي گسسته به خاطر كارايي محاسباتي استفاده مي‌شود. ضرايب سپسترال اغلب براي كمينه كردن تغييراتي كه منجر به ايجاد اطلاعات نمي‌شوند وزنيابي مي‌گردند كه اين پردازه ليفترينگ[19] ناميده مي‌شود. جالب است بدانيم كه در ادبيات تشخيص صحبت خصيصه‌هاي مربوط به گوينده به عنوان تغييرات غير داده‌زا حذف مي‌گردند ولي سيستمهاي تشخيص گوينده نيز از ليفترينگ استفاده مي‌كنند.

هر دو نوع سيستم تشخيص صحبت و تشخيص گوينده اطلاعات موضعي زمان كوتاه را با گرفتن مشتق خصوصيات اوليه نسبت به زمان به دست مي‌دهند. به عنوان مثال يك صوت صدادار مي‌تواند با پيدا شدن فرمانتهاي[20] آن در طيف تشخيص داده شود، حال آن كه يك صوت بي‌صدا (سايشي) با استفاده از انتقال طيف مدل مي‌شود. مقادير مشتق مرتبة اول خصائص ضرايب دلتا[21] و مقادير مشتق مرتبة دوم آن شتاب[22] يا ضرايب دلتا- دلتا[23] ناميده مي‌شوند.مشتق زماني با استفاده از يك رابطة رگرسيون كه يك مجموعه فريم را پيش و پس از فريم كنوني مي‌كشد تقريب زده مي‌شود.

سيستمهاي تشخيص گوينده از يك پيمانة انتخاب خصيصه نيز در چارچوب تشخيص الگو استفاده مي‌كنند. براي تشخيص صحبت تمامي سيگنال بايد به يك نمايش متني نگاشته شود حال آن كه سيستم تشخيص گوينده نيازي به كار تحت اين اجبار ندارد. بنابراين پيمانة انتخاب خصيصه فقط خصيصه‌ها مربوط به اصوات صدادار را ذخيره مي‌كند. اصوات صدادار مستقيماً فرضيات مدلسازي پيشگويانة خطي را برآورده مي‌سازند و كمتر تحت تأثير نويز صوتي قرار مي‌گيرند.

 

5-    منابع فصل

 

1)     Richard Duncan, Mississippi State University, A Description And Comparison Of The Feature Sets Used In Speech Processing

 

 

 

 

 

 



[1] feature

[2] feature extraction

[3] class

[4] classifier

[5] Zhao

[6] Hamming window

[7] Hanning window

[8] perceptual

[9] mel scale

[10] Stevens

[11] Volkman

[12] Mel frequency

[13] Linear Predictive (LP) anlaysis

[14] FT-deriven spectrum

[15] LP-deriven spectrum

[16] homomorphic

[17] cepstrum

[18] cepstral

[19] liftering

[20] formants

[21] delta coefficients

[22] acceleration

[23] delta-delta coefficients