Как антиботы помогут оцифровать все книги в мире

Луис вон Ан проектирует системы, которые объединяют возможности компьютеров и людей для решения глобальных задач. Он придумал, как антиботы помогут оцифровать все книги в мире.

Исследователь Луис вон Ан проектирует системы, которые объединяют возможности компьютеров и людей для решения глобальных задач. Каждый день миллиарды людей совершают одни и те же действия в интернете, так почему же не сделать их полезными: программа распознавания ботов reCaptcha выдает слово из оцифровываемой книги, а образовательный сайт Duolingo предлагает переводить статьи из Википедии на другие языки.

Всем интернет-пользователям приходится время от времени доказывать, что они не компьютерные программы — и самый распространенный способ этой идентификации заключается в распознавании искаженных символов. В русском языке для такого рода заданий нет специального термина, а в английском он обозначается Captcha — в честь одноименного теста, в разработке которого участвовал Луис вон Ан.

Причина, почему это работает, заключается в том, что большинство людей обладают константностью восприятия — и могут распознать букву А вне зависимости от того, каким цветом она будет нарисована, будет ли жирной или, например, написана курсивом. Компьютерные программы сегодня в принципе способны распознать искаженный символ, но справляются с этим заданием гораздо менее эффективно.

 

В этом примере компьютер не смог распознать слово morning, поэтому система предложила его юзеру. Чтобы успешно выполнить свою основную функцию — не допустить регистрации бота на сайте — reCaptcha предлагает ему второе слово, которое компьютер распознать смог, а значит сможет оценить корректность вводимого пользователем ответа.

На расшифровку одного Captcha тратится в среднем 10 секунд, и если принять во внимание, что каждый день примерно 200 миллионов людей по всему миру вводят хотя бы один Captcha, то окажется, что ежедневно теряется 500 000 часов человеческого времени.

Вон Ан придумал, а Ticketmaster, Facebook, Twitter подхватили идею совместить неизбежное с полезным — раз уж вы расшифровываете искаженные символы, то почему вы должны расшифровывать абстрактные, никому не нужные знаки? Вместо этого вы можете потратить 10 секунд, чтобы помочь программе распознать непонятное слово из книги, которую нужно оцифровать для проекта Google Books, или старого издания The New York Times.

Тут нужно заметить, что чем старше книга, тем больше в ней слов, которые вызывают затруднения у программ при оцифровке — страницы желтеют, печать выцветает; это приводит к тому, что у книг старше 50 лет примерно 30% слов программы не могут распознать. Именно эти слова сегодня предлагает распознать программа reCaptcha, которую придумал вон Ан — и именно ее виджеты используются на сайтах Ticketmaster, Facebook, Twitter, благодаря чему распознается примерно 100 миллионов слов в день и 2,5 миллиона книг в год.

Участники проекта составили невероятно большую аудиторию — примерно 750 млн человек, то есть примерно каждый 10 человек в мире, и эту аудиторию вон Ан решил использовать для решения другой, не менее важной задачи при создании проекта Duolingo. Исследователь выяснил, что с одной стороны, интернет обладает огромным ресурсом, с другой стороны, доступ к этому ресурсу зачастую может быть затруднен по причине языкового барьера — едва ли кто поспорит, что существование каждого сайта на любом языке оказалось бы безусловным благом, однако перевести интернет-информацию на все возможные языки оказывается достаточно затратно — например, чтобы перевести объем одной только англоязычной Википедии на испанский потребуется 50 миллионов долларов и непомерное количество переводчиков.

Чтобы избежать финансовых затрат, потребуется много людей, которые владеют двумя языками достаточно хорошо, но в то же время не используют их профессионально — билингвов, которых совершенно непонятно, как заинтересовать. Единственной категорией, заинтересованной в подобной работе, оказываются люди, которые учат иностранный язык — и поэтому выполняют такие задания в огромном количестве. Предложения, которые нужно переводить, вон Ан расположил в порядке возрастания сложности — новичкам предлагаются самые простые предложения, с подстрочным переводом каждого слова. Перевод можно будет сверить с переводом других людей — и тем самым совершить работу над ошибками.

Чем лучше вы будете переводить, тем более сложные предложения предложит вам Duolingo. Результаты тестов показали, что перевод предложений от Duolingo приносит свои результаты — и вполне может служить еще одним способом освоения иностранного языка (эффективность была доказана на материале проведенного постфактум тестирования). Это, впрочем, не кажется особо удивительным — каждый вид систематической работы с иностранным языком должен рано или поздно оказаться эффективным, самым удивительным в случае этой программы оказалось быстрое и высокое, сопоставимое с профессиональным, качество перевода.

Источник:T&P