قسمت بعدي

قسمت قبلي

 

فهرست مطالب

صفحة فعاليتها

 

 

 

 

 

 

 

فصل پنجم

 

پردازش صحبت

 

1- تركيب و تشخيص صحبت

2- مدلي براي توصيف روش توليد صحبت

3- آيندة فن‌آوريهاي پردازش صحبت

4- منابع فصل

 

 

 

 

 

 

 

 

1-     تركيب و تشخيص صحبت

 

كاربردهاي نيازمند پردازش صحبت اغلب در دو دستة تركيب صحبت[1] و تشخيص صحبت[2] مورد بررسي قرار مي‌گيرند.

تركيب صحبت عبارت است از فن‌آوري توليد مصنوعي صحبت به وسيلة ماشين و به طور عمده از پرونده‌هاي متني به عنوان ورودي آن استفاده مي‌گردد. در اينجا بايد به يك نكتة مهم اشاره شود كه بسياري از توليدات تجاري كه صداي شبيه به صحبت انسان ايجاد مي‌كنند در واقع تركيب صحبت انجام نمي‌دهند بلكه تنها يك تكة ضبط شده به صورت ديجيتال از صداي انسان را پخش مي‌كنند. اين روش كيفيت صداي بالايي ايجاد مي‌كند اما به واژه‌ها و عبارات از پيش ضبط شده محدود است. از كاربردهاي عمدة تركيب صحبت مي‌توان به ايجاد ابزارهايي براي افراد داراي ناتواني بينايي براي مطلع شدن از آنچه بر روي صفحة كامپيوتر مي‌گذرد اشاره كرد.

تشخيص صحبت عبارت است از تشخيص كامپيوتري صحبت توليد شده توسط انسان و تبديل آن به يك سري فرامين يا پرونده‌هاي متني. كاربردهاي عمدة موجود براي اين گونه سيستمها دربرگيرندة بازة گسترده‌اي از سيستمها وكاربردها از سيستمهاي ديكتة كامپيوتري كه در سيستمهاي آموزشي و همچنين سيستمهاي پردازش واژه كاربرد دارد گرفته تا سيستمهاي كنترل كامپيوترها به وسيلة صحبت و به طور خاص سيستمهاي فراهم‌ آورندة امكان كنترل كامپيوترها براي افراد ناتوان از لحاظ بينايي يا حركتي مي‌باشد.

كاربرد مورد نظر ما يعني تشخيص گوينده از لحاظ نحوة پياده‌سازي و استفاده تناسب فراواني با خانوادة دوم يعني تشخيص كامپيوتري صحبت دارد، ولي از لحاظ اهداف و كاربردها مي‌تواند در خانواده‌اي جداگانه از كاربردهاي نيازمند پردازش صحبت قرار گيرد.

تركيب و تشخيص كامپيوتري صحبت مسائل دشواري هستند. روشهاي مختلفي مورد آزمايش قرار گرفته‌اند كه موفقيت كمي داشته‌اند. اين زمينه از زمينه‌هاي فعال در تحقيقات پردازش سيگنال ديجيتال (دي.اس.پي) بوده و بدون شك سالها اين گونه خواهد ماند. در حال حاضر از ابزارهاي برنامه‌نويسي جاافتاده در زمينه‌هاي برشمرده شده مي‌توان به اي.پي.آي صحبت شركت مايكروسافت[3] اشاره نمود كه داراي تواناييهاي عمده‌اي در زمينه‌هاي تشخيص و تركيب صحبت است و توانايي آن تا حدي گسترده است كه در محصول بزرگ و توانمند MS Office XP از آن استفادة عملي شده است. ابزار عمدة ديگر توليد شركت آي.بي.ام است و ViaVoice نام دارد كه به لحاظ پشتيباني آن براي سيستم‌عاملهاي متعدد و زبانهاي گوناگون از اهميت و كاربرد خاصي برخوردار است.

 

2-     مدلي براي توصيف روش توليد صحبت

 

تقريباً تمام تكنيكهاي تركيب و تشخيص صحبت بر اساس مدل توليد صحبت انسان كه در شكل شمارة 3 نشان داده شده است ايجاد شده‌اند. بيشتر صداهاي مربوط به صحبت انسان به دو دستة صدادار[4] و سايشي[5] تقسيم مي‌شوند. اصوات صدادار وقتي كه هوا از ريه‌ها و از مسير تارهاي صوتي به بيرون دهان يا بيني رانده مي‌شوند ايجاد ميگردند. تارهاي صوتي دو رشتة آويخته از بافت هستند كه در مسير جريان هوا كشيده شده‌اند. در پاسخ به كشش ماهيچه‌اي متفاوت تارهاي صوتي با فركانسي بين 50 تا 1000هرتز ارتعاش مي‌كنند كه باعث انتقال حركتهاي متناوب هوا به ناي مي‌شود. در شكل شمارة 3 اصوات صدادار  با يك مولد پالس ترِين[6] با پارامتر قابل تنظيم پيچ (فركانس پاية موج صوتي) نشان داده شده است.

در مقايسه، اصوات سايشي به صورت نويز تصادفي و نه حاصل از ارتعاش تارهاي صوتي به وجود مي‌آيند. اين حادثه زماني رخ مي‌دهد كه تقريباً جريان هوا به وسيلة زبان و لبها يا دندانها حبس مي‌شود كه اين امر باعث ايجاد اغتشاش هوا در نزديكي محل فشردگي مي‌گردد.

 

شكل شمارة 3 -  مدل صحبت انسان. در يك تكه زمان كوتاه، حدود 2 تا 40 ميلي‌ثانيه صحبت مي‌تواند با استفاده از سه پارامتر مدلسازي شود: 1- انتخاب يك آشفتگي متناوب يا نويزوار. 2- پيچ آشفتگي متناوب 3-  ضرايب يك فيلتر خطي بازگشتي كه پاسخ اثر صوتي را تقليد مي‌كند.

 

اصوات سايشي زبان انگليسي عبارتند از s، f، sh، z، v و th. در مدل شكل شمارة 3 اصوات سايشي با استفاده از يك مولد نويز نشان داده شده‌اند.

هر دو نوع اين اصوات، توسط چاله‌هاي صوتي كه از زبان، لبها، دهان، گلو و گذرگاههاي بيني تشكيل شده‌اند دچار تغيير مي‌شوند. چون انتشار صدا در اين ساختارها يك فرايند خطي است مي‌تواند با استفاده از يك فيلتر خطي با يك پاسخ ضربة مناسب نمايش داده شود. در بيشتر موارد از يك فيلتر بازگشتي كه ضرايب بازگشتي آن ويژگيهاي فيلتر را مشخص مي‌كند استفاده مي‌شود. به خاطر اين كه چاله‌هاي صوتي ابعادي به اندازة چند سانتيمتر دارند پاسخ فركانسي يك دنباله از تشديدها با اندازه‌هاي كيلوهرتزي است. در اصطلاح پردازش صوت اين قله‌هاي تشديد فركانسهاي فرمانت[7] خوانده مي‌شوند. با تغيير جايگاه نسبي زبان و لبها فركانسهاي فرمانت هم از لحاظ دامنه و هم از لحاظ فركانس ممكن است تغيير كنند.

شكل شمارة 4 (صفحة بعد) يك روش معمول براي نمايش سيگنالهاي صحبت را نشان مي‌دهد كه طيف‌نگاره[8] يا اثر صوت[9] خوانده مي‌شود. سيگنال صوتي به تكه‌هاي كوچك به اندازة 2 تا 40 ميلي‌ثانيه تقسيم مي‌شوند و از الگوريتم اف.اف.تي براي يافتن طيف فركانسي هر تكه استفاده مي‌شود. اين طيفها در كنار هم قرار داده شده تبديل به يك تصوبر سياه و سفيد[10] مي‌شود (دامنه‌هاي پايين روشن و دامنه‌هاي بالا تيره مي‌شوند). اين كار يك روش گرافيكي براي مشاهدة اين كه چگونه محتويات فركانسي صحبت با زمان تغيير مي‌كند به وجود مي‌آورد. اندازة هر تكه بر اساس اعمال يك بده‌بستان بين دقت فركانسي (كه با تكه‌هاي بزرگ‌تر بهتر مي‌شود) و دقت زماني (كه با تكه‌هاي كوچك‌تر بهتر مي‌شود) انتخاب مي‌گردد.

همچنانكه در شكل 4 ديده مي‌شود اصوات صدا دار مثل a در rain داراي موج صوتي متناوبي مانند آنچه در شكل a نشان داده شده و طيف فركانسي آنها كه

 شكل شمارة 4-  طيف صوت. شكلهاي a و b ويژگيهاي عمومي اصوات صدادار و شكلهاي c و d ويژگيهاي عمومي اصوات سايشي را نمايش مي‌دهند.

 

عبارت است از يك دنباله از همسازهاي با اندازة منظم  مانند شكل b مي‌باشد در مقابل، اصوات سايشي مانند s در storm داراي يك سيگنال نويزي در دامنة زمان مانند شكل c و يك طيف نويزي مانند شكل d هستند.اين طيفها همچنين شكل فركانسهاي فرمانت براي هر دو نوع صوت نشان مي‌دهند. همچنين به اين نكته توجه كنيد كه نمايش زمان-فركانس كلمة rain در هر دو باري كه ادا شده شبيه به هم است.

در يك دورة كوتاه براي نمونه 25 ميلي‌ثانيه يك سيگنال صحبت مي‌تواند با مشخص كردن سه پارامتر تقريب زده شود:

1)      انتخاب يك اغتشاش متناوب يا نويزوار

2)      فركانس موج متناوب (اگر مورد استفاده قرار گرفته باشد)

3)      ضرايب فيلتر ديجيتالي كه براي تقليد پاسخ تارهاي صوتي استفاده شده است.

صحبت پيوسته با بروزآوري اين سه پارامتر به صورت پيوسته به اندازة 40 بار در ثانيه تركيب شود. اين راهكار براي يكي از كاربردهاي تجاري دي.اس.پي كه «صحبت و املا» ناميده مي‌شود و يك وسيلة الكترونيكي پرفروش براي بچه‌هاست مناسب است. كيفيت صداي اين نوع تركيب كنندة صحبت پايين است و بسيار مكانيكي و متفاوت با صداي انسان به نظر مي‌رسد. ولي در هر صورت نرخ دادة خيلي پاييني در حدود چند كيلوبيت بر ثانيه نياز دارد.

همچنين اين راهكار پايه‌اي براي روش كدگذاري پيشگويانة خطي[11] (ال.پي.سي) در فشرده‌سازي صحبت فراهم مي‌آورد. صحبت ضبط شدة ديجيتالي انسان به تكه‌هاي كوچك تقسيم مي‌شود و هر كدام با توجه به سه پارامتر مدل توصيف مي‌شود. اين عمل به طور معمول نياز به يك دوجين بايت براي هر تكه دارد كه نرخ داده‌اي برابر با 2 تا 6 كيلوبايت بر ثانيه را طلب مي‌كند. اين تكة اطلاعاتي ارسال مي‌شود و در صورت لزوم ذخيره مي‌گردد و سپس توسط تركيب كنندة صحبت بازسازي مي‌شود.

الگوريتمهاي تشخيص صحبت با تلاش براي شناسايي الگوهاي پارامترهاي استخراج شده از اين روش نيز پيش‌تر مي‌روند. اين روشها معمولاً شامل مقايسة تكه‌هاي اطلاعاتي با قالبهاي صداي از پيش ذخيره شده در تلاش براي تشخيص كلمات گفته شده مي‌باشند. مشكلي كه در اينجا وجود دارد اين است كه اين روش هميشه به درستي كار نمي‌كند. اين روش براي بعضي كاربردها قابل استفاده است اما با تواناييهاي شنوندگان انساني خيلي فاصله دارد.

 

3-    آيندة فن‌آوريهاي پردازش صحبت

 

ارزش ايجاد فن‌آوريهاي تركيب و تشخيص صحبت بسيار زياد است. صحبت سريع‌ترين و كاراترين روش ارتباط انسانهاست. تشخيص صحبت پتانسيل جايگزيني نوشتن، تايپ، ورود صفحه‌كليد و كنترل الكترونيكي را كه توسط كليدها و دكمه‌ها اعمال مي‌شود را داراست و فقط نياز به آن دارد كه كمي براي پذيرش توسط بازار تجاري بهتر كار كند.

تركيب صحبت علاوه بر آن كه همانند تشخيص صحبت مي‌تواند استفاده از كامپيوتر را براي كلية افراد ناتوان بدني كه داراي تواناييهاي شنوايي و گفتاري مناسب هستند آسان‌تر سازد به عنوان يك وسيلة خروجي كاربرپسند در محيطهاي مختلف مي‌تواند با جايگزين كردن بسياري از علائم ديداري (انواع چراغها و...) و شنوايي (انواع زنگهاي اخطار و ...) با گفتارهاي بيان كنندة كامل پيامها استفاده از و رسيدگي به سيستمهاي نيازمند اين گونه پيامها را بهينه كند.

  در اينجا لازم است به اين نكته اشاره شود كه پيشرفت در فن‌آوري تشخيص صحبت (و همچنين تشخيص گوينده) همان قدر كه محدودة دي.اس.پي را در بر مي‌گيرد نيازمند دانش به دست آمده از محدوده‌هاي هوش مصنوعي و شبكه‌هاي عصبي است. شايد اين تنوع دانشهاي مورد نياز به عنوان عامل دشواري مطالعة مبحث پردازش صحبت در نظر گرفته شود حال آن كه اين گونه نيست و اين تنوع راهكارها بخت رسيدن به سيستم با كارايي مطلوب را افزايش مي‌دهد.

تواناييهاي ابزارهايي كه در بخش اول اين فصل به آنها اشاره شد اميدواريهاي فراواني را در زمينة موفقيت ابزارهاي موجود فراهم مي‌آورد و دامنة وسيع شركتها و مراكز دانشگاهي كه در اين زمينه فعاليت مي‌كنند بر تنوع در قابليتها و كاربردهاي پياده‌سازي شدة اين ابزارها مي‌افزايد.

 

4-    منابع فصل

 

1-     Steven W. Smith,The Scientist and Engineer’s Guide to Digital Signal Processing, Chapter 22: Audio Processing, from www.dspguide.com

 

 

 

 

 



[1] speech sysnthesis

[2] speech recognition

[3] Microsoft SAPI

[4] voiced

[5] fricative

[6] pulse train generator

[7] formant frequencies

[8] specrogram

[9] voice print

[10] grayscale

[11] Linear Predictive Coding