ماشینهای صاحبنظر یک ضعف مهم دارند و احتمالاً راه حل شکست دادن آنها تکیه بر همین ضعف است. آن ضعف مهم آن است که آنها آدم نیستند! بله! آنها خیلی از تواناییهای یک انسان را ندارند. تواناییهای بسیاری از این روباتها محدود به پیدا کردن جعبههای متنی، تشخیص نوع دادهای که باید آنها را با آن پر کنند و ارسال خودکار دادههای هرز است. بنابراین میتوان با ملزم کردن کاربری که فرم را پر میکند (مثلاً در حال ثبت نام برای ایجاد یک حساب ایمیل است یا در حال نظر دادن در یک وبلاگ است) به انجام کاری که به طور طبیعی از عهدهی یک انسان برمیآید و از عهدهی یک روبات برنمیآید کاری کنیم که روباتها نتوانند فرمها را پرکنند. این اساس روشی برای مقابله با اسپمها در قلمرو فرمهای الکترونیکی است که «کپچا» (CAPTCHA سرواژهی حروف ابتدایی عبارتی انگلیسی با ترجمهی آزمایش تورینگ [نام شخصی است، با تست تورینگ دانشجویان نرمافزار آشنایی دارند] کاملاً خودکار عمومی برای جداسازی انسان از کامپیوتر) نامیده میشود.
«کپچای تصویر متن» متداولترین نوع کپچاست. نرمافزارهای ارسال اسپم معمولاً توانایی پردازش تصویرها را ندارند. آنها حداکثر میتوانند الگوهای سادهی متنی را پیدا کنند. پس ما اگر در هر بار نمایش فرم یک تصویر تصادفی به کاربر نشان دهیم و از او بخواهیم برای ما بگوید داخل آن تصویر چه میبیند، کاربران انسانی -چون توانایی پردازش تصویرها را دارند- میتوانند مسئلهی «چه چیزی داخل تصویر است» را به آسانی حل کنند و نرمافزار ارسال اسپم نه. سادهترین چیزی که داخل تصاویر میتوان گذاشت متون سادهی چند حرفی یا تک کلمهای است که با ترفندهایی همچون مخدوش کردن تصویر با خطوط، نویز و اعوجاج زمینه از حالت متن ساده خارج شده است. در ضمن چون نرمافزاری که این تصویر را ایجاد میکند جواب مسأله را میداند آزمایش درستی پاسخ کاربر هم کاری ندارد. این روش، اساس کپچای تصویر متن است که این روزها در خیلی از سایتها در انواع مختلف جلوی چشممان ظاهر میشود.
البته دستهای از کاربران انسانی هم هستند که به دلیل نابینایی توانایی حل کردن مسألهی کپچای تصویر متن را ندارند. برای حل مشکل این کاربران که معمولاً با کمک نرمافزارهای صفحهخوان (نرمافزاری است که با تکیه بر فناوری متن به صدا اتفاقات روی صفحهی کامپیوتر را برای کاربر شرح میدهد) از اینترنت استفاده میکنند در کنار کپچاهای تصویر متن، کپچاهای صوتی معادل نیز ایجاد شدند تا به این طریق مشکل این دسته از کاربران نیز حل شود.
راستی! تا حالا فکرش را کردهاید که تا به حال با چند کپچا برخورد کردهاید، چند تا از آنها را (به دلیل مخدوش بودن بیش از حد) نادرست جواب دادهاید و در مجموع چقدر وقت برای حل آنها تلف کردهاید؟! هر چند زمان تلف شده برای تک تک کاربران اینترنت احتمالاً ناچیز است، اما فکرش را بکنید که جمع زمانی که کل کاربران اینترنت برای حل کپچاها صرف میکنند چقدر است (البته احتمالاً در یکی از نوشتههایی بعدی از کسانی برایتان صحبت خواهم کرد که روزانه حداقل هشت ساعت کپچا حل میکنند!). واقعاً اگر اسپم نبود و اگر نرمافزارهای ارسال اسپم نبودند لازم نبود این سؤالهای احمقانه را پاسخ دهیم. جالب اینجاست که عدهای به همین موضوع فکر کردهاند و به ایدهای رسیدهاند که با استفاده از آن میتوان کاری کرد که حل کپچاها دیگر بیهوده نباشد و از آن سودی به همگان برسد.
مسألهای که حل کپچای تصویر متن به آن شباهت دارد او.سی.آر است. در این فرایند یک برنامهی کامپیوتری تلاش میکند تصویر اسکن شدهی متن را به متن قابل ویرایش یا جستجو تبدیل کند. اما درصد موفقیت نرمافزارها در تبدیل تصویر به متن همیشه بالا نیست. خیلی وقتها متن کاغذی مخدوش است یا کیفیت خوبی ندارد. بنابراین برنامهی او.سی.آر آن را با دقت خوبی نمیخواند، اما برنامه متوجه این قضیه میشود و میتواند قسمتهایی از متن را که خوب نخوانده جدا کند تا یک کاربر انسانی آنها را بازبینی و تأیید یا تصحیح کند. اما همیشه کاربران انسانی برای تصحیح خطاهای او.سی.آر در دسترس نیستند. مخصوصاً برای پروژههای عمومی تبدیل کتابهای کاغذی به متون دیجیتالی همیشه بودجهی کافی برای استخدام مصححان در دسترس نیست. سایتی به نام ریکپچا تلاش دارد با ارائهی سرویس کپچای رایگان، در کنار کلمات ایجاد شده توسط کامپیوتر -که پاسخ آنها برای نرمافزار کپچا مشخص است- کلماتی را که نرمافزارهای او.سی.آر «با دقت پایین» تشخیصشان دادهاند در دسترس کاربر انسانی قرار دهد و از او بخواهد درست آن را تایپ کند. به این ترتیب سایت یا سرویسی که از این روش استفاده میکند از کاربر میخواهد دو کلمه را وارد کند که جواب یکی را میداند و نتیجهی ورودی کاربر برای کلمهی دیگر را ذخیره میکند تا با دریافت چند جواب دیگر از کاربران دیگر راجع به متن آن اطمینان حاصل کند و نهایتاً دقت متون او.سی.آر شده را بالا ببرد. روش مشابهی نیز برای کپچاهای صوتی و تبدیل صداهای ضبط شدهی از دهههای گذشته به متن ارائه شده است.
در مورد انواع کپچا شاید این صفحه هم اطلاعات جدید و مفیدی داشته باشد.
فهرست سری نوشتههای من دربارهی هرزنامهها:
قسمت اول: ریشهی نام اسپم
قسمت دوم: هرزنامهها
قسمت سوم: کدامیک هرزنامههای بیشتری میگیرند: «علی» یا «زهرا»؟
قسمت چهارم: بگذارید «اسپم»ها را آنها بخورند!
قسمت پنجم: درآمدزایی هرزنامهها
قسمت ششم: ماشینهای صاحبنظر
قسمت هفتم: کپچا: «تو آدمی؟!»
قسمت هشتم: او.سی.آر: قاتل کپچای تصویر متن
قسمت نهم: صنعت حل کپچای هند و راهحلهای مقابله با اسپم با تکیه بر تحلیل محتوی