Р

ReCAPTCHA

reCAPTCHA — это система, которая была изначально разработана в университете Карнеги Мелон и базируется на использовании CAPTCHA для оцифровки текстов книг заодно с защитой веб-сайтов от доступа ботами к ограниченным ресурсам. 16 сентября 2009 Google приобрел reCAPTCHA. В это время reCAPTCHA оцифровывает архивы газеты New York Times. Уже обработано выпуски The New York Times за двадцать лет и ожидается, что в 2010-м будет оцифровано архивы еще за 110 лет.

reCAPTCHA поставляет предоплаченные сайты изображения слов, которые не могут распознании с помощью программного обеспечения для оптического распознавания символов. Подписанные сайты, которые обычно не связаны с проектами оцифровки книг, предлагают эти изображения людям для распознавания как слова CAPTCHA, является частью обычного процесса валидации. Затем они отсылают результаты к сервису reCAPTCHA, который в свою очередь отсылает их к проектам оцифровки.

Заявлено, что система решает 200000000 капч ежедневно, и насчитывает такие популярные сайты как Facebook, TicketMaster, Twitter и StumbleUpon среди подписчиков. Craigslist начал использовать reCAPTCHA в июле 2008-го.

Происхождение

Программа reCAPTCHA происходит от гватемальского компьютерного ученого Луис фон Ана, лауреата стипендии Макартура. Как раннее разработчик CAPTCHA, он понял, что «он самопроизвольно создал систему, транжирит десяти-секундными кусками миллионы часов ценного ресурса: мозговую деятельность человека.»

Процесс

Отсканированный текст анализируется двумя различными программами оптического распознавания символов; в случае, когда программы дают разный результат, сомнительное слово конвертируется в CAPTCHA. Слово отображается вместе с уже известным контрольным словом. Система делает предположение, что если человек вводит контрольное слово правильно, то и сомнительное слово тоже введено верно. Идентификации, проведенной каждой из OCR-программ, придается значение 0.5, а каждой интерпретации человека — 1. Как только в сумме набирается 2.5, то слово рассматривается как распознано. Такие слова в дальнейшем используются повторно в качестве контрольных.

Реализация

Тесты reCAPTCHA берут с центрального сайта проекта reCAPTCHA так как они содержат неопознанные слова. Это выполняется через JavaScript API с обратным вызовом сервера в reCAPTCHA после сделанного запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы сделать этот процесс проще. reCAPTCHA является бесплатным сервисом (т.е. изображение CAPTCHA предоставляются сайтам бесплатно взамен за помощь в оцифровке), однако программное обеспечение reCAPTCHA не является open source-ным.

Также reCAPTCHA предлагает плагины к различным веб-платформ, как ASP.NET или PHP, чтобы упростить реализацию сервиса.

Mailhide

reCAPTCHA также создал проект Mailhide, что защищает адреса электронной почты на веб-страницах от сбора спамботов. Адрес e-mail ковертуеться в формат, не позволяет «пауку» увидеть полный адрес. Например, «noreply@example.com» будет преобразовано в «nor…@example.com». Чтобы увидеть полный адрес, посетителю нужно будет нажать на «…» и пройти CAPTCHA.

Показать больше

Похожие статьи

Добавить комментарий

Проверьте также
Закрыть
Кнопка «Наверх»
Закрыть
Закрыть