В Яндексе разрабатывается собственная технология распознавания текста (OCR). С помощью этой технологии прямо в камере телефона пользователи Яндекс Переводчика могут перевести надпись на памятнике или меню с 47 языков, пользователи Алисы и Яндекс Картинок могут по фотографии найти сообщение об ошибке, скопировать текст документа, перейти по ссылке с плаката и даже озвучить надпись мелким шрифтом на магазинной упаковке. Помимо этого, технология используется во многих других сервисах и процессах в компании, а также доступна внешним пользователям через Yandex Cloud.
Наши задачи лежат на стыке технологий CV — ведь на входе мы работаем с картинками — и NLP — потому что в конечном счёте мы работаем с текстом. Мы развиваем как базовую технологию распознавания текста, так и технологию семантического анализа изображений документов.
Критически важной частью технологии является сильная языковая модель, при этом значимая часть информации кодируется и визуальной структурой или вёрсткой документа. Ищем разработчика, который поможет строить мультимодальную модель для одновременного анализа структуры и контента документа.