|
|
|
|
|
|
|
فصل پنجم پردازش صحبت
2- مدلي براي توصيف روش توليد صحبت 3- آيندة فنآوريهاي پردازش صحبت |
|
|
|
|
|
|
|
1-
تركيب و تشخيص صحبت
كاربردهاي نيازمند
پردازش صحبت اغلب در دو دستة تركيب صحبت[1]
و تشخيص صحبت[2] مورد بررسي
قرار ميگيرند. تركيب صحبت عبارت است از
فنآوري توليد مصنوعي صحبت به وسيلة ماشين و به طور عمده از پروندههاي متني به
عنوان ورودي آن استفاده ميگردد. در اينجا بايد به يك نكتة مهم اشاره شود كه
بسياري از توليدات تجاري كه صداي شبيه به صحبت انسان ايجاد ميكنند در واقع
تركيب صحبت انجام نميدهند بلكه تنها يك تكة ضبط شده به صورت ديجيتال از صداي
انسان را پخش ميكنند. اين روش كيفيت صداي بالايي ايجاد ميكند اما به واژهها و
عبارات از پيش ضبط شده محدود است. از كاربردهاي عمدة تركيب صحبت ميتوان به
ايجاد ابزارهايي براي افراد داراي ناتواني بينايي براي مطلع شدن از آنچه بر روي
صفحة كامپيوتر ميگذرد اشاره كرد. تشخيص صحبت عبارت است
از تشخيص كامپيوتري صحبت توليد شده توسط انسان و تبديل آن به يك سري فرامين يا
پروندههاي متني. كاربردهاي عمدة موجود براي اين گونه سيستمها دربرگيرندة بازة
گستردهاي از سيستمها وكاربردها از سيستمهاي ديكتة كامپيوتري كه در سيستمهاي
آموزشي و همچنين سيستمهاي پردازش واژه كاربرد دارد گرفته تا سيستمهاي كنترل
كامپيوترها به وسيلة صحبت و به طور خاص سيستمهاي فراهم آورندة امكان كنترل
كامپيوترها براي افراد ناتوان از لحاظ بينايي يا حركتي ميباشد. كاربرد مورد نظر ما
يعني تشخيص گوينده از لحاظ نحوة پيادهسازي و استفاده تناسب فراواني با خانوادة
دوم يعني تشخيص كامپيوتري صحبت دارد، ولي از لحاظ اهداف و كاربردها ميتواند در
خانوادهاي جداگانه از كاربردهاي نيازمند پردازش صحبت قرار گيرد. تركيب و تشخيص
كامپيوتري صحبت مسائل دشواري هستند. روشهاي مختلفي مورد آزمايش قرار گرفتهاند
كه موفقيت كمي داشتهاند. اين زمينه از زمينههاي فعال در تحقيقات پردازش سيگنال
ديجيتال (دي.اس.پي) بوده و بدون شك سالها اين گونه خواهد ماند. در حال حاضر از
ابزارهاي برنامهنويسي جاافتاده در زمينههاي برشمرده شده ميتوان به اي.پي.آي
صحبت شركت مايكروسافت[3]
اشاره نمود كه داراي تواناييهاي عمدهاي در زمينههاي تشخيص و تركيب صحبت است و
توانايي آن تا حدي گسترده است كه در محصول بزرگ و توانمند MS Office XP از آن استفادة عملي شده است. ابزار عمدة ديگر توليد شركت آي.بي.ام است
و ViaVoice نام دارد كه به لحاظ پشتيباني آن براي سيستمعاملهاي متعدد و
زبانهاي گوناگون از اهميت و كاربرد خاصي برخوردار است. 2-
مدلي براي توصيف روش توليد صحبت
تقريباً تمام تكنيكهاي
تركيب و تشخيص صحبت بر اساس مدل توليد صحبت انسان كه در شكل شمارة 3 نشان داده
شده است ايجاد شدهاند. بيشتر صداهاي مربوط به صحبت انسان به دو دستة صدادار[4]
و سايشي[5] تقسيم
ميشوند. اصوات صدادار وقتي كه هوا از ريهها و از مسير تارهاي صوتي به بيرون
دهان يا بيني رانده ميشوند ايجاد ميگردند. تارهاي صوتي دو رشتة آويخته از بافت
هستند كه در مسير جريان هوا كشيده شدهاند. در پاسخ به كشش ماهيچهاي متفاوت
تارهاي صوتي با فركانسي بين 50 تا 1000هرتز ارتعاش ميكنند كه باعث انتقال
حركتهاي متناوب هوا به ناي ميشود. در شكل شمارة 3 اصوات صدادار با يك مولد پالس ترِين[6]
با پارامتر قابل تنظيم پيچ (فركانس پاية موج صوتي) نشان داده شده است. در مقايسه، اصوات سايشي
به صورت نويز تصادفي و نه حاصل از ارتعاش تارهاي صوتي به وجود ميآيند. اين
حادثه زماني رخ ميدهد كه تقريباً جريان هوا به وسيلة زبان و لبها يا دندانها
حبس ميشود كه اين امر باعث ايجاد اغتشاش هوا در نزديكي محل فشردگي ميگردد. شكل شمارة 3
- مدل صحبت انسان. در يك تكه زمان
كوتاه، حدود 2 تا 40 ميليثانيه صحبت ميتواند با استفاده از سه پارامتر مدلسازي
شود: 1- انتخاب يك آشفتگي متناوب يا نويزوار. 2- پيچ آشفتگي متناوب 3- ضرايب يك فيلتر خطي بازگشتي كه پاسخ اثر
صوتي را تقليد ميكند. اصوات سايشي زبان
انگليسي عبارتند از s، f، sh، z،
v و th.
در مدل شكل شمارة 3 اصوات سايشي با استفاده از يك مولد نويز نشان داده
شدهاند. هر دو نوع اين اصوات،
توسط چالههاي صوتي كه از زبان، لبها، دهان، گلو و گذرگاههاي بيني تشكيل شدهاند
دچار تغيير ميشوند. چون انتشار صدا در اين ساختارها يك فرايند خطي است ميتواند
با استفاده از يك فيلتر خطي با يك پاسخ ضربة مناسب نمايش داده شود. در بيشتر
موارد از يك فيلتر بازگشتي كه ضرايب بازگشتي آن ويژگيهاي فيلتر را مشخص
ميكند استفاده ميشود. به خاطر اين كه چالههاي صوتي ابعادي به اندازة چند
سانتيمتر دارند پاسخ فركانسي يك دنباله از تشديدها با اندازههاي كيلوهرتزي است.
در اصطلاح پردازش صوت اين قلههاي تشديد فركانسهاي فرمانت[7]
خوانده ميشوند. با تغيير جايگاه نسبي زبان و لبها فركانسهاي فرمانت هم از لحاظ
دامنه و هم از لحاظ فركانس ممكن است تغيير كنند. شكل شمارة 4 (صفحة بعد)
يك روش معمول براي نمايش سيگنالهاي صحبت را نشان ميدهد كه طيفنگاره[8]
يا اثر صوت[9] خوانده ميشود.
سيگنال صوتي به تكههاي كوچك به اندازة 2 تا 40 ميليثانيه تقسيم ميشوند و از
الگوريتم اف.اف.تي براي يافتن طيف فركانسي هر تكه استفاده ميشود. اين طيفها در
كنار هم قرار داده شده تبديل به يك تصوبر سياه و سفيد[10]
ميشود (دامنههاي پايين روشن و دامنههاي بالا تيره ميشوند). اين كار يك روش
گرافيكي براي مشاهدة اين كه چگونه محتويات فركانسي صحبت با زمان تغيير ميكند به
وجود ميآورد. اندازة هر تكه بر اساس اعمال يك بدهبستان بين دقت فركانسي
(كه با تكههاي بزرگتر بهتر ميشود) و دقت زماني (كه با تكههاي كوچكتر
بهتر ميشود) انتخاب ميگردد. همچنانكه
در شكل 4 ديده ميشود اصوات صدا دار مثل a در rain داراي موج صوتي متناوبي مانند آنچه
در شكل a نشان داده شده و طيف فركانسي آنها كه شكل
شمارة 4- طيف صوت. شكلهاي a و b ويژگيهاي عمومي اصوات صدادار و
شكلهاي c
و d ويژگيهاي عمومي
اصوات سايشي را نمايش ميدهند. عبارت است از يك دنباله از همسازهاي
با اندازة منظم مانند شكل b ميباشد در مقابل، اصوات سايشي مانند s در storm داراي يك
سيگنال نويزي در دامنة زمان مانند شكل c و يك طيف نويزي مانند شكل d هستند.اين طيفها همچنين شكل فركانسهاي فرمانت براي هر دو نوع صوت نشان
ميدهند. همچنين به اين نكته توجه كنيد كه نمايش زمان-فركانس كلمة rain در هر دو باري كه ادا شده شبيه به هم است. در يك دورة كوتاه براي
نمونه 25 ميليثانيه يك سيگنال صحبت ميتواند با مشخص كردن سه پارامتر تقريب زده
شود: 1)
انتخاب يك اغتشاش متناوب يا نويزوار 2)
فركانس موج متناوب (اگر مورد استفاده قرار گرفته باشد) 3)
ضرايب فيلتر ديجيتالي كه براي تقليد پاسخ تارهاي صوتي استفاده شده است. صحبت پيوسته با
بروزآوري اين سه پارامتر به صورت پيوسته به اندازة 40 بار در ثانيه تركيب شود.
اين راهكار براي يكي از كاربردهاي تجاري دي.اس.پي كه «صحبت و املا» ناميده ميشود
و يك وسيلة الكترونيكي پرفروش براي بچههاست مناسب است. كيفيت صداي اين نوع
تركيب كنندة صحبت پايين است و بسيار مكانيكي و متفاوت با صداي انسان به نظر ميرسد.
ولي در هر صورت نرخ دادة خيلي پاييني در حدود چند كيلوبيت بر ثانيه نياز دارد. همچنين اين راهكار پايهاي
براي روش كدگذاري پيشگويانة خطي[11]
(ال.پي.سي) در فشردهسازي صحبت فراهم ميآورد. صحبت ضبط شدة ديجيتالي انسان به
تكههاي كوچك تقسيم ميشود و هر كدام با توجه به سه پارامتر مدل توصيف ميشود.
اين عمل به طور معمول نياز به يك دوجين بايت براي هر تكه دارد كه نرخ دادهاي
برابر با 2 تا 6 كيلوبايت بر ثانيه را طلب ميكند. اين تكة اطلاعاتي ارسال ميشود
و در صورت لزوم ذخيره ميگردد و سپس توسط تركيب كنندة صحبت بازسازي ميشود. الگوريتمهاي تشخيص صحبت
با تلاش براي شناسايي الگوهاي پارامترهاي استخراج شده از اين روش نيز پيشتر ميروند.
اين روشها معمولاً شامل مقايسة تكههاي اطلاعاتي با قالبهاي صداي از پيش ذخيره
شده در تلاش براي تشخيص كلمات گفته شده ميباشند. مشكلي كه در اينجا وجود دارد
اين است كه اين روش هميشه به درستي كار نميكند. اين روش براي بعضي كاربردها
قابل استفاده است اما با تواناييهاي شنوندگان انساني خيلي فاصله دارد. 3-
آيندة فنآوريهاي پردازش صحبت
ارزش ايجاد فنآوريهاي
تركيب و تشخيص صحبت بسيار زياد است. صحبت سريعترين و كاراترين روش ارتباط
انسانهاست. تشخيص صحبت پتانسيل جايگزيني نوشتن، تايپ، ورود صفحهكليد و كنترل
الكترونيكي را كه توسط كليدها و دكمهها اعمال ميشود را داراست و فقط نياز به
آن دارد كه كمي براي پذيرش توسط بازار تجاري بهتر كار كند. تركيب صحبت علاوه بر آن
كه همانند تشخيص صحبت ميتواند استفاده از كامپيوتر را براي كلية افراد ناتوان
بدني كه داراي تواناييهاي شنوايي و گفتاري مناسب هستند آسانتر سازد به عنوان يك
وسيلة خروجي كاربرپسند در محيطهاي مختلف ميتواند با جايگزين كردن بسياري از
علائم ديداري (انواع چراغها و...) و شنوايي (انواع زنگهاي اخطار و ...) با
گفتارهاي بيان كنندة كامل پيامها استفاده از و رسيدگي به سيستمهاي نيازمند اين
گونه پيامها را بهينه كند. در اينجا لازم است به اين نكته اشاره شود كه
پيشرفت در فنآوري تشخيص صحبت (و همچنين تشخيص گوينده) همان قدر كه محدودة
دي.اس.پي را در بر ميگيرد نيازمند دانش به دست آمده از محدودههاي هوش مصنوعي و
شبكههاي عصبي است. شايد اين تنوع دانشهاي مورد نياز به عنوان عامل دشواري
مطالعة مبحث پردازش صحبت در نظر گرفته شود حال آن كه اين گونه نيست و اين تنوع
راهكارها بخت رسيدن به سيستم با كارايي مطلوب را افزايش ميدهد. تواناييهاي ابزارهايي
كه در بخش اول اين فصل به آنها اشاره شد اميدواريهاي فراواني را در زمينة موفقيت
ابزارهاي موجود فراهم ميآورد و دامنة وسيع شركتها و مراكز دانشگاهي كه در اين
زمينه فعاليت ميكنند بر تنوع در قابليتها و كاربردهاي پيادهسازي شدة اين
ابزارها ميافزايد. 4-
منابع فصل
1- Steven W. Smith,The Scientist
and Engineer’s Guide to Digital Signal Processing, Chapter 22: Audio
Processing, from www.dspguide.com |
|
|
|
|