فصل چهارم

پردازش صوت : برنامه‌نويسي و پياده‌سازي

1- ساختار مورد نياز براي نگهداري ويژگيهاي صدا

2- انجام پردازش صدا به صورت يك رشتة مستقل

1- ساختار مورد نياز برای نگهداری ويژگيهای صدا

همچنان که در فصل پيش اشاره شد برای ذخيره يا بازخوانی يک نمونه صدا به صورت ديجيتال نيازمند آنيم که برخی ويژگيهای خاص صدای ديجيتالی از قبيل نرخ نمونه‌برداری، تعداد بيت هر نمونه و يك‌كاناله يا دوكاناله بودن صدا را مشخص كنيم.

براي اين منظور در محيط برنامه‌نويسي مورد نظر ما (ويندوز) از ساختاري به نام WAVEFORMATEX استفاده مي‌گردد كه به صورت زير تعريف مي‌گردد:

typedef struct {

    WORD  wFormatTag;

    WORD  nChannels;

    DWORD nSamplesPerSec;

    DWORD nAvgBytesPerSec;

    WORD  nBlockAlign;

    WORD  wBitsPerSample;

    WORD  cbSize;

} WAVEFORMATEX;

در اين ساختار فيلد wFormatTag فرمت فايل را كه نشان دهندة نوع الگوريتمهاي به كار گرفته شده براي فشرده‌سازي صدا و... است را مشخص مي‌كند. براي استفادة مورد نظر ما فرمت خاصي كه با ثابت WAVE_FORMAT_PCM مشخص مي‌گردد و فرمت پي.سي.ام[1] ناميده مي‌شود مناسب است. علاوه بر آن فيلد cbSize براي فرمتهاي غير پي.سي.ام استفاده مي‌شود و ما همواره مقدار آن را صفر در نظر خواهيم گرفت.

از آنجا كه پردازش اين ساختار در برنامه‌نويسي صدا براي پروژة مورد نظر بارها صورت مي‌گيرد و از آنجا كه يك شيوة طراحي شيءگرا (شيوة ام.اف.سي[2])براي پياده‌سازي پروژه در نظر گرفته شده بود و از آنجا كه پردازش اين ساختار نياز به برخي محاسبات تكراري (تعيين nBlockAlign و nAvgBytesPerSec) دارد و به چند دليل ديگر تصميم گرفته شد كه اين ساختار و پردازش آن به صورت يك كلاس با نام HSound پياده سازي گردد كه ضمن خودكار نمودن پردازش اين ساختار كلاسهايي كه به اعمال پخش و ضبط را بر عهده دارند از اين كلاس ارث‌بري نموده برنامه نويسي را آسان‌تر و كد به دست آمده را خواناتر نمايند.

تعريف اين كلاس به صورت زير است:

class HSound

{

public:

//constructor and destructor:

HSound();

virtual ~HSound();

//setting wave data:

void SetBitsPerSample(int bps);

void SetSamplesPerSecond(int sps);

void SetNumberOfChannels(int nchan);

//retrieving wave data:

WAVEFORMATEX* GetFormat();

int GetSamplesPerSecond();

int GetBitsPerSample();

int GetNumberOfChannels();

protected:

WAVEFORMATEX m_wfData;

private:

void Update();

};

قبل از هر چيز بايد به اين نكته اشاره شود كه اين كلاس براي پردازش فرمت پي.سي.ام در نظر گرفته شده، لذا ضمن تعريف مقادير پيش‌فرض لازم براي اين فرمت و استفاده از روشهاي خاص اين فرمت براي محاسبة فيلدهاي مختلف امكان تغيير فرمت و استفاده از ساير فرمتها را به برنامه‌نويس نمي‌دهد و به منظور پردازش ساير فرمتها ساختار كلاس مي‌بايست تغيير كند.

فيلد wBitsPerSample تعداد بيتِ هر نمونه را مشخص ميكند كه براي فرمت پي.سي.ام فقط مي‌تواند يكي از دو مقدار 8 و 16 را داشته باشد و براي ساير فرمتها مقادير ممكن بستگي به مشخصات منتشر شده توسط شركتهاي به وجود آورنده و پشتيباني‌كنندة آنها دارد.

متدي كه در پي مي‌آيند آن را مقدارگذاري مي‌كند (در مورد متد Update و علت فراخواني آن در ادامه توضيح داده خواهد شد) :

void HSound::SetBitsPerSample(int bps)

{

m_wfData.wBitsPerSample = bps;

Update();

}

و متد زير مقدار انتخاب شده را برمي‌گرداند:

int HSound::GetBitsPerSample()

{

return m_wfData.wBitsPerSample;

}

فيلد nSamplesPerSec تعداد نمونه‌ها در هر ثانيه (نرخ نمونه‌برداري) را مشخص مي‌كند. براي فرمت پي.سي.ام مقادير معمول 8كيلوهرتز (8000)، 11.025كيلوهرتز (11025)، 22.05كيلوهرتز (22050) و 44.1كيلوهرتز (44100) مي‌باشد و براي ساير فرمتها مقادير ممكن بستگي به مشخصات منتشر شده توسط شركتهاي به وجود آورنده و پشتيباني‌كنندة آنها دارد.

متد مقدارگذاري اين فيلد:

void HSound::SetSamplesPerSecond(int sps)

{

m_wfData.nSamplesPerSec = sps;

Update();

}

و متد دريافت مقدار آن:

int HSound::GetSamplesPerSecond()

{

return m_wfData.nSamplesPerSec;

}

فيلد nChannels تعداد كانالهاي موج صوتي را مشخص مي‌كنند. صداهاي تك كانال (مقدار فيلد برابر با 1) مونو و صداهاي دوكاناله (مقدار فيلد برابر با 2) استريو خواهند بود.

متد مقدار‌گذاري اين فيلد:

void HSound::SetNumberOfChannels(int nchan)

{

m_wfData.nChannels = nchan;

Update();

}

و متد دريافت مقدار آن:

int HSound::GetNumberOfChannels()

{

return m_wfData.nChannels;

}

هر چند تعداد كانالهاي صدا در اين كلاس قابل تغييراست اما در كلاسهاي مشتق شده همواره الگوريتمها براي موج صوتي تك‌كاناله نوشته شده‌اند و استفاده از آنها براي پردازش موج صوتي دو كاناله نيازمند دستكاري كد اين كلاسهاست كه به لحاظ استفاده‌اي كه ما از اين كلاسها نموده‌ايم يك كار اضافي و غيرضروري به نظر مي‌رسد.

فيلد nBlockAlign كمينة تعداد واحد داده را براي فرمت انتخاب شده تعييد مي‌كند كه اگر فرمت انتخاب شده پي.سي.ام باشد برابر با حاصل ضرب تعداد كانالها (nChannels) در تعداد بيتِ هر نمونه (nBitsPerSample) تقسيم بر تعداد بيتهاي موجود در هر بايت (8) خواهد بود و براي ساير فرمتها بستگي به مشخصات منتشر شده توسط شركتهاي به وجود آورنده و پشتيباني‌كنندة آنها دارد. فيلد nAvgBytesPerSec نيز تعداد متوسط بايتهاي موجود در هر ثانية صدا را مشخص مي‌كند و براي فرمت پي.سي.ام برابر با تعداد نمونه‌هاي موجود در هر ثانيه (nSamplesPerSec) در كمينة تعداد واحد داده (nBlockAlign) خواهد بود و براي ساير فرمتها بستگي به مشخصات منتشر شده توسط شركتهاي به وجود آورنده و پشتيباني‌كنندة آنها دارد.

متد Update كه در كد مقدار‌گذاري ساير فيلد‌ها محاسبات توضيح داده شدة بالا را انجام مي‌دهد:

void HSound::Update()

{

m_wfData.nBlockAlign=

m_wfData.nChannels

(m_wfData.wBitsPerSample/8);

m_wfData.nAvgBytesPerSec=

m_wfData.nSamplesPerSec

m_wfData.nBlockAlign;

}

در صورتي كه نياز باشد با ساختار اصلي WAVEFORMATEX كار شود متد زير مقدار عضوي از كلاس را كه از اين نوع است باز مي‌گرداند:

WAVEFORMATEX* HSound::GetFormat()

{

return &m_wfData;

}

در متد سازندة اين كلاس به طور پيش‌فرض براي نمونة صوتي مورد نظر نرخ نمونه‌برداري 44.1كيلوهرتز با 16 بيت در هر نمونه در نظر گرفته شده و فرض بر آن است كه نمونة صوتي يك كاناله است:

HSound::HSound()

{

m_wfData.wFormatTag = WAVE_FORMAT_PCM;

m_wfData.cbSize = 0;

SetBitsPerSample(16);

SetSamplesPerSecond(44100);

SetNumberOfChannels(1);

}

همچنانكه از روي تعريف كلاس قابل فهم است اين كلاس در واقع تمامي اعمال را روي عضو دادة محافظت شدة m_wfData اِعمال مي‌نمايد و با غير مستقيم نمودن دسترسي به اين عضو داده براي برنامة استفاده كننده ضمن رعايت اصل پنهانسازي اطلاعات به فراخواني روية Update در متدهاي تغيير دهندة اعضاي مرتبط با nBlockAlign و nAvgBytesPerSec تغييرات لازم را به آنها اعمال مي‌كند.

2- انجام پردازش صدا به صورت يك رشتة [3] مستقل

مي‌توان با استفاده از توابع كار با صداي ويندوز به گونه‌اي برنامه‌نويسي نمود كه نيازي به ايجاد رشته‌هاي مستقل براي پردازنده‌هاي صدا نباشد، اما وجود دلايلي از قبيل عدم انعطاف‌پذيري اين روش و تك‌وظيفه‌اي شدن برنامه در حين انجام عمليات پردازش صدا باعث مي‌شود كه روش استفاده از رشته‌هاي مستقل مورد توجه ما قرار گيرد.

از آغاز در نظر داشتيم كه رابط برنامه به گونه طراحي شود كه كاربر در هنگام كار با برنامه و انجام عملياتي نظير ضبط صدا از عملكرد برنامه مطمئن باشد. به اين معني كه مثلاً در حين هنگام صدا با استفاده از يك رابط گرافيكي مانند يك نمايشگر اسيلوسكوپي از اين كه برنامه واقعاً و به درستي در حال ضبط صداي اوست و يا به لحاظ فاصلة نامتناسب با ميكروفن يا عدم اتصال درست آن به كارت صوتي يا خرابي آن بيشتر آنچه ضبط مي‌شود سكوت و يا نويز است مطلع گردد. يك روش مناسب براي ايجاد چنين رابطي استفاده از پيام فرستاده شده براي پردازش صدا توسط يك رشته براي فعال شدن يك تابع رسم‌كنندة نمودار اسيلوسكوپي است كه نياز به آن دارد كه بدون قطع شدن جريان ضبط پردازش ديگري صورت گيرد. به اين منظور و با استفاده از كد اوليه‌اي كه در منبع شمارة 2 به آن اشاره شده كلاسي به نام HSoundRunner را از كلاس HSound اعضاي داده و متدهاي مرتبط با پردازش صوت و از كلاس ام.اف.سي CwinThread اعضاي داده و متدهاي لازم براي يك رشته را ارث‌بري مي‌كند به صورت زير تعريف نموديم:

class HSoundRunner:

public CWinThread,

public HSound

{

public:

DECLARE_DYNCREATE(HSoundRunner)

HSoundRunner();

~HSoundRunner();

void SetBufferSize(int nSamples);

int GetBufferSize();

//this metheods should be overriden:

void AddBuffer();

BOOL Start(WAVEFORMATEX* pwfex=NULL);

BOOL Stop();

//for graphical display:

void SetOwner(CWnd* pWnd);

void ClearOwner(COLORREF crBkColor=0x000000);

public:

//{{AFX_VIRTUAL(HSoundRecorder)

public:

virtual BOOL InitInstance();

//}}AFX_VIRTUAL

protected:

DWORD m_dwThreadID;

int m_iBufferSize; // number of samples per each period

int m_nBuffers; //number of buffers remained to be run

int m_nSamples; //number of samples stored

short* m_pSamples; //samples stored

BOOL m_bRunning; //indicated running or not

//if graphical display is intended set this value

CWnd* m_pOwner;

void DrawBuffer(

int nSamples,

short* pSamples,

COLORREF crBkColor=0x000000,

COLORREF crLineColor=0x00FF00

);

};

اعضاي دادة اين كلاس در روند انجام عمليات توسط كلاسهاي مشتق شده از آنها نقش خود را نشان خواهند داد و به عنوان نمونه عضو دادة m_iBufferSize كه نشان دهندة آن است كه بعد از ضبط با پخش چند نمونه تابع پزدازندة پيام در كلاس پنجرة كنترل كننده بايد فراخواني شود در اين هيچكدام از متدهاي اين كلاس نقش عملي پيدا نمي‌كند و فقط مقدارگذاري آن از طريق متد SetBufferSize و ديافت مقدار فعلي آن از طريق GetBufferSize صورت مي‌گيرد:

void HSoundRunner::SetBufferSize(int nSamples)

{

m_iBufferSize=nSamples;

}

int HSoundRunner::GetBufferSize()

{

return m_iBufferSize;

}

عضو دادة m_dwThreadID مقدار شناسة رشتة ايجاد شده را كه در كلاس سازنده با فراخواني CreateThead ايجاد مي‌شود در بر مي‌گيرد كه در كلاسهاي مشتق شده براي كار با فراخوانيهاي اي.پي.آي پردازش صدا كاربرد پيدا مي‌كند. مقدار اين عضو داده در متد بازنويسي[4] شدة InitInstance و به صورت زير تعيين مي‌گردد:

BOOL HSoundRunner::InitInstance()

{

m_dwThreadID = ::GetCurrentThreadId();

return TRUE;

}

اعضاي دادة m_nSamples و m_pSamples به ترتيب تعداد نمونه‌هاي ضبط شده يا آماده براي پخش و آراية حاوي آنها -كه به لحاظ آسان‌تر شدن كار با كتابخانه‌اي كه براي پردازش سيگنال صحبت استفاده شده و همسان با آن از نوع short در نظر گرفته شده- را نشان مي‌دهند. اين دو عضو داده به صورت پويا پس از انجام عمليات ضبط مقدارگذاري مي‌شوند و براي عمليات پخش بايد قبلاً مقدارگذاري شده باشند.

آنچه اين كلاس انجام مي‌دهد غير از ايجاد يك رشته براي انجام پردازش صدا فراهم آوردن روشي براي نمايش اسيلوسكوپي صداست كه از طريق متد DrawBuffer انجام مي‌شود.

اين متد در توابع پيامهاي مربوط به پردازش صوت خود به خود فراخواني مي‌گردد و در صورتي كه مقدار m_pOwner اشاره‌گر به يك پنجره يا كنترل انتخاب شود (توسط متد SetOwner) آراية ورودي كه معمولاً يك تكة تازه ضبط با پخش شده از كل صداست متناسب با طول و عرض پنجرة مورد نظر بر روي آن كشيده مي‌شود. اين كار با ايجاد يك ابزار متن[5] و يك بيتمپ متناسب با ابزار متن پنجرة مورد نظر، كشيدن طرح لازم با استفاده از اين دو و در نهايت نمايش تصوير ايجاد شده بر روي پنجرة مقصد و مطابق با كد زير انجام مي‌شود:

void HSoundRunner::DrawBuffer(

int nSamples,

short* pSamples,

COLORREF crBkColor,

COLORREF crLineColor

)

{

if(m_pOwner==NULL)

return;

CRect rc;

m_pOwner->GetClientRect(&rc);

int iWidth=rc.Width();

int iHeight=rc.Height();

CDC* pDC=m_pOwner->GetDC();

CBitmap Bitmap;

Bitmap.CreateCompatibleBitmap(pDC, iWidth, iHeight);

CDC dc;

dc.CreateCompatibleDC(pDC);

dc.SelectObject(&Bitmap);

CBrush Brush(crBkColor);

dc.FillRect(&rc,&Brush);

CPen Pen(PS_SOLID,1,crLineColor);

dc.SelectObject(&Pen);

dc.SetBkColor(crBkColor);

if(GetBitsPerSample()==16)

{

float fx=iWidth/float(nSamples);

float fy=float(iHeight/32767.0);

dc.MoveTo(0, iHeight/2);

int i=0;

for(

float f=0; f<iWidth&&i<nSamples; f+=fx, i++

)

dc.LineTo(

int(f), int(iHeight/2+fy*pSamples[i])

);

pDC->BitBlt(

0, 0,

iWidth, iHeight,

&dc,

0, 0,

SRCCOPY

);

}

متد ClearBuffer يك روش قابل دسترسي توسط برنامه براي پاك كردن پنجرة مورد استفاده به وجود مي‌آورد و شامل يك فراخواني متد محافظت شدة DrawBuffer با يك آراية به طول صفر است:

void HSoundRunner::ClearOwner(COLORREF crBkColor)

{

DrawBuffer(0,NULL,crBkColor);

}

عضو دادة m_nBuffers تعداد بافرهاي اختصاص داده شده و استفاده نشده را نشان مي‌دهد كه در متد AddBuffer اين كلاس و بازنويسي شدة آن براي كلاسهاس مشتق شده مقدار آن به ازاي هر بار فراخواني يك واحد افزوده مي‌شود و در پيامهاي پردازش صدا كه از طرف سيستم عامل فعال مي‌شوند و نشانگر استفاده شدن بافر مورد نظر است (در كلاسهاي مشتق شده) يك واحد كاهش مي‌يابد. در نهايت صفر نبودن اين عضو داده نشانگر استفادة ناكامل از بافرهاي اختصاص داده شده (معادل با كامل انجام نشدن فرايند ضبط يا پخش) است كه مي‌تواند پردازش مناسب براي آن صورت گيرد:

void HSoundRunner::AddBuffer()

{

m_nBuffers++;

}

عضو دادة m_bRunning به منظور تشخيص اين كه برنامه در حال اجراي عمليات پردازش صداست و يا نه به منظور جلوگيري از ايجاد اشكال با فراخوانيهاي تكراري در نظر گرفته شده كه در هنگام آغاز عمليات مقدار آن برابر با TRUE و در پايان آن برابر با FALSE انتخاب مي‌گردد. همچنان كه در ادامه توضيح داده خواهد شد كلاسهاي مشتق شده متدهايي از لحاظ نام متناسب با عملي كه براي آن در نظر گرفته شده‌اند (ضبط يا پخش) براي بازگرداندن اين مقدار به برنامه‌نويس كاربر اين كلاسها دارند:

BOOL HSoundRunner::Start(WAVEFORMATEX* pwfex)

{

if(m_bRunning)

return FALSE;

if(pwfex != NULL)

m_wfData = *pwfex;

return TRUE;

}

BOOL HSoundRunner::Stop()

{

if(m_bRunning)

{

m_bRunning=FALSE;

Sleep(500);

return TRUE;

}

return FALSE;

}

فراخواني استاندارد Sleep در متد Stop براي مصرف كامل بافر ايجاد شده انجام مي‌گردد. در ضمن متد Start روشي براي جايگزيني مقدار پيش‌فرض m_wfData (عضو كلاس Hsound) با مقدار جديد در اختيار مي‌گذارد.

در متد سازنده اعضاي داده با مقادير پيش‌فرض مقدارگذاري شده و رشتة مورد نظر با فراخواني CreateThead ايجاد مي‌گردد:

HSoundRunner::HSoundRunner()

{

m_iBufferSize= 2048;

m_nBuffers = 0;

m_bRunning = FALSE;

m_nSamples=0;

m_pSamples=NULL;

m_pOwner=NULL;

CreateThread();

}

در متد ويرانگر[6] نيز در صورتي كه شيء از نوع اين كلاس در حال انجام عمليات پردازش صوت باشد متوقف خواهد شد:

HSoundRunner::~HSoundRunner()

{

if(m_bRunning)

Stop();

}

به لحاظ آن كه آراية داده‌ها (m_pSamples) در اين كلاس ايجاد نمي‌گردد در متد ويرانگر آزاد شدن آن پيشبيني نشده است.

ادامة فصل

1- ساختار مورد نياز برای نگهداری ويژگيهای صدا

2- انجام پردازش صدا به صورت يك رشتة[3] مستقل

2- انجام پردازش صدا به صورت يك رشتة [3] مستقل