قسمت بعدي

قسمت قبلي

 

فهرست مطالب

صفحة فعاليتها

 

 

 

 

 

 

 

فصل سوم

 

پردازش صوت : پيش‌زمينه‌هاي تئوري

 

 

1- دستگاه شنوايي انسان

2- ويژگيهاي امواج صوتي

3- روشهاي ديجيتالي ذخيرة صدا

4- منابع فصل

 

 

 

 

 

 

 

 

1-     دستگاه شنوايي انسان

 

پردازش صوت محدوده‌هاي گوناگوني را در بر مي‌گيرد كه همه به منظور ارائة صدا به شنوندگان انساني ابداع شده‌اند. سه محدودة تكثير موسيقي با كيفيتي به خوبي اصل همانند آنچه در سي‌دي‌هاي صوتي وجود دارد ،ارتباط صوتي از راه دور كه نام ديگر شبكة تلفني است و ،تركيب صحبت1 كه در آن كامپيوترها الگوهاي صوتي انسان را توليد كرده يا تشخيص مي‌دهند از ديگر قلمروهاي دانش پردازش صوت مهم‌ترند. با وجود اين كه اهداف و مسائل اين كاربردها متفاوتند همگي در يك نقطة مشترك به هم مي‌رسند و آن گوش انسان است.

گوش انسان يك عضو به گونه‌اي فزاينده پيچيده است. قضيه وقتي پيچيده‌تر مي‌شود كه اطلاعات ارسالي از دو گوش در يك شبكة پيچيدة گيج كننده كه همانا مغز انسان باشد با هم تركيب مي‌شوند. به ياد داشته باشيم كه بيان فوق يك گذر كلي بر قضيه است و تعداد زيادي از پديده‌ها و آثار دقيق مرتبط با گوش انسان هنوز به درستي درك نشده‌اند.

شكل 1 قسمت اعظم ساختارها و پردازشهايي را كه گوش انسان را در بر دارند به تصوير مي‌كشد. گوش خارجي از دو بخش تشكيل شده است: نرمي پوست قابل مشاهده و غضروف متصل به كنار سر و كانال گوش كه لوله‌ايست به قطر تقريبي 0.5 سانتيمتر و تا حدود 3 سانتيمتر در داخل سر فرو مي‌رود. اين ساختارها صداهاي محيط را به بخشهاي حساس گوش مياني و گوش داخلي كه در درون استخوانهاي جمجمه محافظت مي‌شود راهبري مي‌كنند. در انتهاي كانال گوش يك ورقة نازك از نسوج كه پردة صماخ[1] يا طبل گوش ناميده مي‌شود كشيده شده است. امواج صدا با برخورد به پردة صماخ باعث لرزش آن مي‌شوند. گوش مياني مجموعه‌اي از استخوانهاي كوچك است كه لرزش مزبور را به حلزون گوش[2] (گوش داخلي) انتقال مي‌دهند و در آنجا اين لرزشها تبديل به ضربه‌هاي عصبي مي‌گردند. حلزون گوش يك لولة پر از مايع است كه به زحمت قطر آن به 2 ميليمتر و طول آن به 3 سانتيمتر مي‌رسد. اگر چه حلزون گوش در شكل شمارة 1 به صورت يك لولة مستقيم نشان داده شده اما در واقع به دور خودش همانند صدف حلزون پيچ خورده است و وجه تسمية آن كه ريشه در كلمه‌اي يوناني به معناي حلزون دارد نيز اين واقعيت است.

وقتي يك موج صوتي سعي دارد از هوا وارد مايع شود تنها كسر كوچكي از آن از بين دو محيط عبور مي‌كند و باقيماندة انرژي آن بازتابيده مي‌شود. دليل اين امر مقاومت مكانيكي پايين هوا (ناشي از پايين بودن ميزان فشار صوتي و سرعت بالاي ذرات هوا كه به نوبة خود از چگالي پايين و تراكم‌پذيري بالاي آنها نشأت مي‌گيرد) در برابر مقاومت مكانيكي بالاي مايع است. به عبارت ساده‌تر دليل اين امر مشابه دليل اين موضوع است كه براي ايجاد موج با دست در درون آب به تلاش بيشتري به نسبت انجام اين كار در هوا نيازمنديم. تفاوت موجود باعث بازتابش قسمت اعظم صوت در مرز هوا/مايع مي‌گردد.

گوش مياني يك شبكة تطبيق مقاومت[3] است كه كسر انرژي صوتي وارد شده به مايع گوش داخلي را زياد مي‌كند. براي نمونه ماهي پردة صماخ يا گوش مياني ندارد چرا كه نيازي به شنيدن در هوا ندارد. تغيير شدت، بيشتر ناشي از تفاوت مساحت پردة صماخ (كه صدا را از هوا دريافت مي‌كند) و دريچه بيضوي[4] (كه مطابق شكل 1صدا را به داخل مايع انتقال مي‌دهد) مي‌باشد. مساحت پردة صماخ حدوداً 60 ميليمتر مربع است حال آن كه دريچة بيضوي حدوداً 4 ميليمتر مربع مساحت دارد. از آنجا كه فشار برابر است با نسبت نيرو به مساحت، اين تفاوت مساحت فشار موج صدا را حدوداً 15 برابر افزايش مي‌دهد.

در داخل حلزون گوش پردة اصلي[5] قرار دارد كه ساختاري را براي 12000 سلول حسي كه شكل‌دهندة عصب حلزوني است ايجاد مي‌كند. پردة اصلي در نزديكي دريچة بيضوي بسيار سفت است و در انتهاي ديگر انعطاف‌پذير‌تر است كه اين امر به اين عضو كمك مي‌كند تا به عنوان تحليلگر طيف فركانسي عمل كند. وقتي پردة اصلي در معرض يك سيگنال با فركانس بالا قرار مي‌گيرد در قسمت سفت‌تر طنين مي‌اندازد كه سبب تحريك سلولهاي عصبي نزديك به دريچة بيضوي مي‌گردد. به همين ترتيب فركانسهاي پايين موجب تحريك انتهاي دورتر پردة اصلي مي‌شوند. اين امر موجب پاسخگويي رشته‌هاي خاص عصب حلزوني در برابر فركانسهاي خاص مي‌گردد. اين سازوكار اصل مكان[6] ناميده مي‌شود و در سراسر مسير به سمت مغز حفظ مي‌شود.

طرح كدگذاري اطلاعات ديگري نيز در شنوايي انسان به كار مي‌رود كه اصل رگبار[7] ناميده مي‌شود. سلولهاي عصبي اطلاعات را با توليد پالسهاي الكتريكي كوچكي كه پتانسيل كنش[8] ناميده مي‌شوند انتقال مي‌دهد. يك سلول عصبي واقع بر پردة پاييني مي‌تواند اطلاعات صوتي را با توليد يك پتانسيل كنش در پاسخ هر سيكل لرزش كدگذاري كند. براي نمونه يك موج صداي 200 هرتزي مي‌تواند توسط يك نورون ايجاد كنندة 200 پتانسيل كنش در ثانيه نشان داده شود. در هر صورت اين روش تنها در فركانسهاي زير حدوداً 500 هرتز – بالاترين سرعت ممكن توليد پتانسيل كنش در نورونها – به كار مي‌آيد. گوش انسان براي غلبه بر اين مشكل به نورونها اجازه مي‌دهد كه براي انجام اين كار دسته‌جمعي عمل كنند. براي نمونه يك صداي 3000 هرتزي مي‌تواند توسط ده سلول عصبي كه هر كدام 300 ضربه در ثانيه علامت مي‌دهند نشان داده شود. اين پديده بازة كارايي اصل رگبار را تا 4 كيلوهرتز گسترش مي‌دهد كه بالاتر از بازة عملياتي اصل مكان مي‌باشد.

 

شكل شمارة 1-  توضيحات مربوط به شكل: نمودار كاركردي گوش انسان. گوش خارجي امواج صوتي را از محيط مي‌گيرد و آنها را به سوي پردة صماخ (طبل گوش) كه ورقة نازكي از بافت است و هماهنگ با شكل موج هوا مي‌لرزد راهبري مي‌كند. استخوانهاي گوش مياني (استخوانهاي چكشي، سنداني و ركابي) اين لرزشها را به دريچة بيضوي كه پرده‌اي منعطف واقع در حلزون گوش پر از مايع است انتقال مي‌دهند. در داخل حلزون گوش پردة اصلي قرار دارد كه ايجاد كنندة ساختاري براي 12000 سلول عصبي شكل‌دهندة عصب حلزون گوش است. بسته به سفتي متغير پردة پاييني، هر سلول فقط به بازة كوچكي از فركانسهاي صدا پاسخ مي‌دهد كه اين پديده گوش را تبديل به يك تحليلگر طيف فركانسي مي‌نمايد.

 

شكل شمارة 2 رابطة بين شدت صدا و بلندي مشاهده شده را نشان مي‌دهد. غالباً شدت صدا را با يك اندازة لگاريتمي كه دسي‌بل اس.پي.ال.[9] (سطح توان صدا) ناميده مي‌شود نشان مي‌دهند. در اين معيار 0 دسي‌بل اس.پي.ال موج صدايي با قدرت ده به توان منفي شانزده وات بر سانتيمتر مربع است كه حدوداً ضعيف‌ترين صداي قابل تشخيص توسط گوش انسان است. صحبت معمولي حدوداً 60 دسي‌بل اس.پي.ال است و صدايي با شدت 140 دسي‌بل اس.پي.اي براي گوش دردناك و زيان‌آور است.

 

 

شكل شمارة 2 -  واحدهاي شدت صدا. شدت صدا به صورت توان بر واحد مساحت تعريف مي‌شود (مثلاُ وات بر سانتيمتر مربع) يا به صورت معمول‌تر با استفاده از يك اندازة لگاريتمي كه دسي‌بل اس.پي.ال خوانده مي‌شود. همچنان كه اين جدول نشان مي‌دهد قوة شنوايي انسان بيشتر به صداهاي بين 1كيلوهرتز تا 4 كيلوهرتز حساس است.

 

اختلاف بلندترين و ضعيف‌ترين صداهايي كه انسان مي‌تواند بشنود 120 دسي‌بل است كه از لحاظ دامنه معادل بازه‌اي حدود يك ميليون است. شنونده تغيير بلندي صدا را وقتي صدا حدود 1 دسي‌بل (12% در دامنه) تغيير كند تشخيص مي‌دهد به عبارت ديگر تنها 120 سطح بلندي صدا از ملايم‌ترين نجوا تا بلندترين تندر قابل تشخيص است. حساسيت گوش آنقدر جالب توجه است كه هنگام شنيدن به ضعيف‌ترين صداها پردة صماخ به اندازه‌اي كمتر از قطر يك ملكول به لرزش در‌مي‌آيد!

احساس بلندي صدا با توان صدا رابطة تواني با نماي  1/3 دارد. به عنوان نمونه اگر شما توان صدا را ده برابر كنيد شنوندگان آن صدا دو برابر شدن بلندي صدا را احساس و گزارش مي‌كنند.

 اين مسأله يك مشكل بزرگ براي حذف صداهاي محيطي ناخواسته به وجود مي‌آورد. براي نمونه فرض كنيد كه شما 99% ديوار را با عايق صوتي پوشانده‌ايد و تنها 1% كه مربوط به درها، گوشه‌ها، منافذ و... هستند باقي مانده‌اند. با وجود آن كه توان صدا تا اندازة 1% مقدار اولية آن كاسته شده بلندي صدا تنها به اندازة 20% كاهش پيدا كرده‌است.

بازة شنيداري انسان بين 20 هرتز تا 20 كيلوهرتز در نظر گرفته مي‌شود، حال آن كه بيشتر صداهاي قابل حس در بازة 1 كيلوهرتز تا 4 كيلوهرتز قرار دارند. براي نمونه شنوندگان مي‌توانند صدايي به ميزان صفر دسي‌بل را در فركانس 3 كيلوهرتز بشنوند حال آن كه براي شنيدن يك صداي 100 هرتزي حداقل مقدار آن بايد 40 دسي‌بل باشد. شنوندگان مي‌توانند بگويند كه دو صدا متفاوتند اگر فركانس آنها بيش از حدود 0.3% در 3 كيلوهرتز متفاوت باشد. به عنوان نمونه كليدهاي كنار هم در پيانو به اندازة حدود 6% تفاوت فركانس دارند.

مهم‌ترين مزيت داشتن دو گوش تشخيص جهت صداست. شنوندگان انساني مي‌توانند تفاوت بين دو منبع صدا را كه فاصله‌اي به كمي 3 درجه دارند (حدوداً برابر با عرض يك انسان در فاصلة ده متري) تشخيص دهند. اين اطلاعات جهتي به دو روش جداگانه به دست مي‌آيند. اولاً فركانسهاي حدوداً بالاي 1 كيلوهرتز به شدت زير ساية سر قرار مي‌گيرند. به بيان ديگر گوشي كه به منبع نزديك‌تر است سيگنال قوي تري را به نسبت گوشي كه در جهت مخالف دارد دريافت مي‌كند. روش ديگر تشخيص جهت آن است كه گوش دورتر به خاطر فاصلة بيشترش از منبع صدا را كمي ديرتر از گوش نزديك‌تر دريافت مي‌كند. به واسطة اندازة معمول سر (حدوداً 22 سانتيمتر) و سرعت صوت (حدود 340 متر در ثانيه) تفاوت‌گذاري زاويه‌اي سه درجه دقت زماني حدود 30 ميكروثانيه نياز دارد. چون اين فاصلة زماني نيازمند اصل رگبار است اين روش جهت‌يابي براي صداهاي داراي فركانس كم‌تر از حدود 1 كيلوهرتز به كار مي‌رود.

در حالي كه قوة شنوايي انسان مي‌تواند جهت صدا را تشخيص دهد در نشخيص فاصلة منبع صدا مشكل دارد. اين امر بدان علت است كه چيزهاي كمي در موج صدا وجود دارد كه اطلاعات اين گونه را در اختيار بگذارد. شنوايي انسان به صورت ضعيفي در مي‌يابد كه منابع صداهاي با فركانس بالا نزديكند و صداهاي با فركانس پايين از فاصلة دورتري پخش مي‌شوند. اين به آن دليل است كه صداها در فاصله‌هاي دور از ميزان فركانسشان كاسته مي‌شود. پژواك روش ضعيف ديگري براي تشخيص فاصله است و با استفاده از آن مثلاً مي‌توان ابعاد يك اتاق را حدس زد. براي نمونه صداهاي موجود در يك تالار بزرگ پژواكهايي با وقفة 100 ميلي ثانيه دارند، حال آن كه براي يك دفتر كار كوچك اين مقدار 10 ميلي ثانيه است. بعضي از موجودات با استفاده از دستگاه طبيعي تشخيص فاصلة صوتي[10] مسألة فاصله‌يابي را حل كرده‌اند. مثلاً خفاشها و دلفينها صداهايي مثل تيك و جيغ توليد مي‌كنند كه از سوي اشياء نزديك بازتابيده مي‌شوند. با اندازه‌گيري ميزان وقفة بازتاب اين صدا‌ها اين جانوران مي‌توانند با دقت 1سانتيمتر اشياء را مكانيابي كنند. تجربيات نشان داده‌اند كه بعضي انسانها به خصوص نابينايان تا حد كمي از روش مكانيابي با استفاده از پژواك استفاده مي‌كنند.

 

2-     ويژگيهاي امواج صوتي

 

غالباً براي درك يك صوت پيوسته مثل نت يك ابزار موسيقيايي سه بخش مجزا را بايد تشخيص داد: بلندي صدا، زيري يا بمي صدا (پيچ)[11] و طنين[12] صدا. بلندي همانگونه كه قبلاً توضيح داده شد معياري براي شدت موج صوتي است. پيچ، فركانس جزء اصلي صدا – فركانسي تكرار موج صوتي توسط خودش – مي‌باشد.

طنين صدا از دو جزء قبلي پيچيده‌تر است و با تعيين محتواي همساز[13] صدا تعيين مي‌گردد. شكل شمارة 3 دو موج را كه هر دو از جمع يك موج سينوسي يك كيلوهرتزي با دامنة يك و يك موج سينوسي سه كيلوهرتزي با دامنة يك دوم به وجود آمده‌اند نشان مي‌دهد. تفاوت آنها در آن است كه در شكل b جزء با فركانس بالاتر ابتدا معكوس شده و سپس با موج دوم جمع شده است. علي‌رغم موجهاي در دامنة زمان بسيار متفاوت اين دو صوت يكسان به نظر مي‌رسند. اين به خاطر آن است كه شنوايي انسان بر اساس دامنة فركانسهاست و نسبت به فاز آنها بسيار غير حساس است. شكل موج صوتي در دامنة زمان فقط به صورت غير مستقيم با شنوايي رابطه دارد و معمولاُ در سيستمهاي صوتي در نظر گرفته نمي‌شود.

عدم حساسيت گوش به فاز صدا با توجه به روش پخش شدن آن در محيط قابل درك است. فرض كنيد كه شما در يك اتاق به صحبتهاي فردي گوش مي‌دهيد. بيشتر صداهايي كه گوش شما دريافت مي‌كند حاصل بازتاب صداي اصلي از ديوارها، سقف و كف اتاق است. از آنجا كه انتشار صدا بستگي به فركانس آن دارد و ميرايي ،بازتاب و مقاومت در برابر صدا بر روي آن تأثيرگذار است فركانسهاي متفاوتي از مسيرهاي متفاوت به گوش مي‌رسد. اين به اين معني است كه وقتي شما جاي خود را در اتاق عوض مي‌كنيد فاز هر يك از فركانسها تغيير مي‌كند. چون گوش اين تغيير فازها را ناديده مي‌انگارد با وجود تغيير مكان شما تغييري در صداي شخص صحبت كننده احساس نمي‌كنيد. از ديدگاه فيزيكي فاز يك سيگنال صدا در هنگام پخش در يك محيط پيچيده به صورت تصادفي تغيير مي‌كند. از طرف ديگر گوش به فاز صدا غير حساس است زيرا اين جزء داراي اطلاعات قابل استفادة بسيار كمي مي‌باشد.

 

شكل شمارة 3 – تشخيص فاز توسط گوش انسان. گوش انسان نسبت به فاز نسبي سينوسيهاي مركب بسيار غير حساس است. براي نمونه اين دو موج يكسان به نظر خواهند رسيد، زير دامنة اجزاء آنها يكسان است اگر چه فاز نسبي آنها متفاوت است.

 

در حالت كلي نمي‌توان گفت كه گوش نسبت به فاز كاملاً ناشنواست. چرا كه تغيير فاز مي‌تواند باعث تغيير آرايش زماني يك سيگنال صوتي شود. اما چنين امري يك پديدة نادر است كه در محيطهاي شنيداري طبيعي اتفاق نمي‌افتد.

فرض كنيد از يك نوازندة ويولون خواسته‌ايم نتي را بنوازد. وقتي كه موج صوتي ايجاد شده بر روي اسيلوسكوپ نشان داده شود يك موج دندانه‌اره‌اي مانند شكل شمارة 4 (a) مشاهده مي‌شود. شكل شمارة 4 (b) نشان مي‌دهد كه اين صوت چگونه توسط گوش دريافت مي‌شود. گوش يك فركانس اساسي (در مثال شكل 220 هرتز) را و همسازهايي را در 440، 660، 880 و... هرتز دريافت مي‌كند. اگر اين نت بر روي ابزار ديگري نواخته شود گوش هنوز هم همان 220 هرتز (همان فركانس اساسي) را دريافت مي‌كند. و از اين لحاظ دو صوت مشابهند كه گفته مي‌شود اين دو صوت پيچ يكساني دارند ولي چون دامنة همسازها متفاوت است دو صوت يكسان نيستند و گفته مي‌شود كه طنين دو صوت متفاوت است.

 

شكل شمارة 4 – موج صوتي ويولن. ويولن موج دندانه‌اره‌اي ايجاد مي‌كند (شكل a)، صداي دريافت شده شامل فركانس اساسي و همسازهاي آن است (شكل b)

 

اغلب گفته مي‌شود كه طنين صدا از روي شكل موج صوتي تعيين مي‌گردد. اين مسأله درست است ولي كمي گمراه كننده است. احساس طنين صدا از روي ميزان هارمونيكهاي تشخيص داده شده توسط گوش تعيين مي‌گردد. در حالي كه هارمونيكها از روي شكل موج صوتي تعيين مي‌گردد عدم حساسيت گوش به فاز رابطه را بسيار يك طرفه مي‌كند. به همين دليل هر موج صوتي فقط يك طنين دارد حال آن كه يك زنگ خاص متعلق به تعداد بي‌نهايتي از موجهاي صوتي است.

گوش بيشتر براي شنيدن هارمونيكهاي اساسي تنظيم شده است. اگر يك شنونده به صدايي كه حاصل تركيب دو موج صوتي سينوسي 1 كيلوهرتز و 3 كيلوهرتز است گوش دهد آن را مطلوب و طبيعي توصيف خواهد كرد حال آن كه اگر از موجهاي 1 كيلوهرتزي و 3.1 كيلوهرتزي استفاده شود براي شنونده شكايت برانگيز خواهد بود. اين مسأله اساسي براي اندازه‌ها و اختلافهاي استاندارد ابزارهاي موسيقيايي فراهم مي‌آورد.

 

3-    روشهاي ديجيتالي ذخيرة صدا

 

در طراحي يك سيستم صوتي ديجيتال دو پرسش وجود دارند كه بايد پاسخ داده شوند: 1- چقدر لازم است صوت خوب به نظر برسد؟ 2- چه نرخ داده‌اي قابل تحمل است؟ جواب به اين پرسشها غالباً به يكي از اين سه انتخاب منجر مي‌شود: اول موسيقي با وفاداري بالا[14] كه در آن كيفيت صدا مهم‌ترين چيز است و تقريباً هر نرخ داده‌اي قابل قبول است. دوم ارتباط تلفني[15] كه نيازمند طبيعي به نظر رسيدن صحبت و يك نرخ دادة پايين براي كاهش هزينة سيستم است. سوم صحبت فشرده شده[16] كه در آن كاهش نرخ داده بسيار مهم است و مقداري غير طبيعي به نظر رسيدن كيفيت صدا قابل تحمل است. اين مورد در بر دارندة ارتباطات نظامي، تلفنهاي سلولي و صحبت ذخيره شده به صورت ديجيتال براي پست الكترونيكي صوتي يا كاربردهاي چند رسانه‌اي است.

شكل شمارة 3 بده بستانهاي موجود در انتخاب هر يك از اين سه روش را نشان مي‌دهد.

در حالي كه موسيقي نيازمند پهناي باند 20 كيلوهرتز است صحبتي كه طبيعي به نظر برسد فقط به پهناي باندي در حدود 3.2 كيلوهرتز نيازمند است. در اين حال هر چند پهناي باند به اندازة 16% مقدار اوليه محدود مي‌شود ولي فقط 20% اطلاعات اوليه از دست مي‌رود. 

سيستمهاي ارتباط راه‌دور اغلب از نرخ نمونه‌برداري در حدود 8 كيلوهرتز استفاده مي‌كنند كه اجازة انتقال صحبت را با كيفيتي در حد طبيعي مي‌دهد ولي اگر از آن براي انتقال موسيقي استفاده شود تا ميزان بالايي از كيفيت آن از دست مي‌رود. شما احتمالاً با تفاوت اين دو ميزان آشنايي داريد: ايستگاههاي راديويي اف.ام با پهناي باندي در حدود 20 كيلوهرتز اقدام به پخش مي‌كنند حال آن كه ايستگاههاي اي.ام محدود به 3.2 كيلوهرتز هستند. صحبت و صداهاي معمول روي ايستگاههاي نوع دوم طبيعي به نظر مي‌رسد حال آن كه موسيقي اين گونه نيست.

 

شكل شمارة 3 -  نرخ دادة صوتي در برابر كيفيت صدا. كيفيت صداي يك سيگنال صوتي ديجيتال به نرخ دادة آن كه برابر با حاصل‌ضرب نرخ نمونه‌برداري آن در تعداد بيتهاي آن در هر نمونه بستگي دارد كه به سه بخش تقسيم مي‌شود: موسيقي باوفاداري بالا (706كيلوبيت بر ثانيه)، صحبت با كيفيت تلفن (64كيلوبيت بر ثانيه) وصحبت فشرده شده (4 كيلوبيت بر ثانيه)

 

سيستمهايي كه فقط با صدا (و نه موسيقي) سر و كار دارند مي‌توانند مقدار دقت را از 16 بيت به 12 بيت بدون از دست رفتن دقتي قابل توجه كاهش دهند. اين ميزان مي‌تواند با انتخاب اندازة نامتساوي براي گام مقدارگزيني[17] مي‌تواند به 8 بيت در هر نمونه نيز كاهش يابد. يك نرخ نمونه‌برداري 8 كيلوهرتز با دقت اي.دي.سي 8 بيت در هر نمونه به نرخ دادة 64كيلوبيت بر ثانيه مي‌انجامد. اين يك حد نهايي براي طبيعي به نظر رسيدن صحبت است. دقت كنيد كه صحبت نيازمند نرخ داده‌اي معادل 10% نرخ دادة موسيقي با وفاداري بالاست.

نرخ دادة 64 كيلو بيت بر ثانيه نمايانگر كاربرد نهايي نظرية نمونه‌برداري و مقدارگزيني براي سيگنالهاي صوتي است. روشهاي كاهش نرخ داده به اندازه‌اي بيشتر از اين مبتني بر فشرده‌سازي جريان داده با حذف تكرارهاي ذاتي سيگنال صحبت است. يكي از كاراترين روشهاي موجود ال.پي.سي[18] است كه انواع و زيرگروههاي متعدد دارد. بر اساس كيفيت سيگنال صحبت مورد نياز اين روش مي‌تواند نرخ داده را تا اندازه‌اي بين 2 تا 6 كيلو بيت بر ثانيه كاهش دهد.

 

4-    منابع فصل

 

1)     Steven W. Smith,The Scientist and Engineer’s Guide to Digital Signal Processing, Chapter 22: Audio Processing, from www.dspguide.com

 

 

 

 

 

 



[1] tympanic membrane

[2] cochlea

[3] impedance matching

[4] oval windows

[5] basilar membrane

[6] place principle

[7] volley principle

[8] action potential

[9] decibel SPL

[10] sonar

[11] pitch

[12] timbre

[13] harmonic content

[14] high fidelity music

[15] telephone communication

[16] compressed speech

[17] quantization step

[18] LPC (Linear Predictive Coding)