|
|
|
|
|
|
|
فصل دوم سيستمهاي امنيتي مبتني بر تشخيص گوينده 2- انواع سيستمهاي تشخيص گوينده |
|
|
|
|
|
|
|
1-
تعريف و كاربردها
تشخيص گوينده[1]
عبارت است از فرايند تشخيص خودكار هويت شخص صحبتكننده بر اساس اطلاعات يكتاي
موجود در موج صوتي صحبت او. اين فنآوري امكان تشخيص هويت شخص
گوينده و در نتيجه امكان كنترل دسترسي او در هنگام استفاده از خدماتي همانند
شمارهگيري صوتي، بانكداري تلفني، خريد تلفني، خدمات دسترسي به پايگاه دادهها،
خدمات اطلاعاتي، پست الكترونيكي صوتي، كنترل امنيتي براي ورود به قلمروهاي اطلاعاتي
محرمانه و دسترسي از راه دور به كامپيوترها را فراهم ميآورد. علاوه بر موارد
فوق كه عموماً با كامپيوتر و كاربران آن سروكار دارند اين فنآوري در مسائل
قضايي نيز كاربردهاي خاص خود را دارد. 2-
انواع سيستمهاي تشخيص گوينده
سيستمهاي تشخيص گوينده از لحاظ روش
استفاده، همانند آنچه براي كلية سيستمهاي امنيتي مبتني بر زيستسنجي در فصل پيش
بيان شد[2]،
عموماً در دودستة سيستمهاي تأييد هويت گوينده[3]
و سيستمهاي بازشناسي هويت گوينده[4]
قرار ميگيرند. در يك سيستم تأييد هويت گوينده، شخص
عموماً با انتخاب يا وارد كردن نام يكي از كاربران خاص سيستم ادعا ميكند كه او
همان كاربر ثبتشدة سيستم است. در اين حالت سيستم وظيفه دارد ويژگيهاي صوتي شخص
مدعي را با ويژگيهاي صوتي ذخيره شدة كاربر ثبت شدة مورد ادعا مقايسه نموده و با
استفاده از نتيجة به دست آمده ادعاي شخص را بپذيرد يا رد كند. در يك سيستم بازشناسي هويت گوينده، شخص
صحبت كننده ادعاي هويت يك كاربر خاص ثبت شده را نمينمايد و اين سيستم است كه
وظيفه دارد كه او را در ميان كاربران ثبت شدة سيستم بازشناسي نمايد و يا تشخيص
دهد كه ويژگيهاي صوتي او با هيچ يك از كاربران ثبت شده همخواني ندارد. به نظر ميرسد در آينده كاربردهاي
سيستمهاي نوع دوم در سيستمهاي بزرگ چند كاربره چشمگيرتر از كاربردهاي سيستم نوع
اول باشد[5]،
هر چند كه در اساس اين دو سيستم تفاوتهاي چشمگيري مشاهده نميشود. شكل شمارة 1 ساختار اساسي اين دو نوع
سيستم تشخيص گوينده را به تصوير ميكشد. شكل شمارة 1- ساختار اساسي سيستمهاي بازشناسي هويت و تأييد هويت گوينده
(منبع شمارة 1) سيستمهاي تشخيص گوينده
از ديدگاه ديگري به دو دستة سيستمهاي تشخيص گويندة وابسته به متن[6]
و سيستمهاي تشخيص گويندة مستقل از متن[7]
تقسيم ميشوند. روش اول نيازمند آن است كه گوينده كلمات كليدي يا جملههاي ثابتي
را چه در مرحلة يادگيري و چه در آزمونهاي تشخيصي بيان كند، در حالي كه دومي
وابسته به جمله يا كلمة خاصي نيست. هر دو روش داراي يك
مشكل هستند و آن اين است كه ميتوان از صداي ضبط شدة كاربران ثبتشده براي ورود به سيستم استفاده نمود و به آساني
سيستم را فريب داد. براي غلبه بر اين مشكل روشهايي وجود دارند مثلاً ميتوان از
يك مجموعة كوچك از كلمات مانند ارقام به عنوان كلمات كليدي استفاده نمود و در هر
زمان به صورت تصادفي از كاربر خواست كه يك دنباله از آنها را بيان كند. حتي اين
روش هم كاملاً قابل اطمينان نيست چرا كه ميتواند با استفاده از تجهيزات پيشرفتة
الكترونيكي كه توانايي توليد دنبالههاي عبارات را دارند فريب داده شود.
سيستمهاي داراي ساختار اخير به سيستمهاي تشخيص گويندة اعلان متن[8]
(متن توليد شده توسط ماشين) معروفند. 3-
روشهاي پيادهسازي
تقريباُ در تمامي
سيستمهاي تشخيص هويت با استفاده از فرايندي كه به تشخيص الگو[9]
شهرت دارد شباهت هر زوج نمونه نمرهگذاري ميشود. استفاده از اين روش نيازمند
وجود دستهاي از خصايص منحصر به فرد و قابل مقايسه كه از ويژگي انتخاب شده به
عنوان ورودي سيستم استخراج شده ميباشد. ويژگيهاي فيزيكي افراد
نظير ساختار اندامهاي صوتي، اندازة چالة بيني و ويژگيهاي تارهاي صوتي منحصر به
فرد بوده و از طريق الگوريتمهاي پردازش سيگنال به صورت پارامترهاي خصيصهاي[10]
يا مجموعة خصايص[11]
قابل استخراج ميباشند. اين حقيقت پاية روشهاي پيادهسازي سيستمهاي تشخيص صحبت
ميباشند. مهمترين گلوگاه
سيستمهاي تشخيص گوينده (و به تبع هم خانواده بودن مهمترين گلوگاه سيستمهاي تشخيص
صحبت) نحوة عملكرد آنها در مكانهاي داراي شرايط متفاوت با شرايط آزمايشگاهي كه
از ويژگيهاي عمدة آنها ميتوان به حضور نويز در سيستم اشاره كرد ميباشد. براي
غلبه بر اين مشكل از روشهاي هنجارسازي[12]
استفاده ميگردد كه اين روشها نيز انواع مختلفي دارند و در سيستمهاي تجاري
موجود، اغلب نمود پيدا ميكنند. 4-
منابع فصل
1)
Sadaoki Furui, NTT Human Interface Laboratories, Tokyo, Japan, Speaker
Recognition, from clsu.cs.ogj.edu 2)
Martin Cultenbruner, Audiotry User Interfaces for
Desktop, Mobile and Embeded Applications 3)
Richard Duncan, Mississipi State University, A
Description And Comparison Of The Feature Sets Used In Speech Processing |
|
|
|
|
[1] speaker recognition
[3] speaker
verification systems
[4] speaker identification systems
[6]
text-dependent speaker recognition systems
[7] text-independent speaker recognition systems
[8] text-prompted speaker recognition systems
[9] pattern recognition
[10] feature parameters
[11] feature set
[12] normalization