Переводчик со знанием интернета

4 июля, 17:40

В интернете можно найти материалы на какую угодно тему, но не всегда на русском языке. Для таких случаев в Яндекс.Браузере есть автоматический переводчик. Он удобен тем, что всегда под рукой: чтобы перевести веб-страницу, достаточно нажать на кнопку. Недавно переводчик обновился — в нём появилось сразу несколько новшеств, которые обеспечивают более точный и быстрый перевод.

Перевод с помощью нейронных сетей

Технологию перевода текстов с помощью нейросетей разработали в Яндекс.Переводчике: там она применяется с 2017 года.

Раньше переводчик в Браузере переводил тексты пофразово: разделял каждое предложение на фрагменты, обрабатывал их, а затем собирал обратно. Теперь в нём используется новая модель перевода, в основе которой лежат нейронные сети. Модель переводит не отдельные слова и фразы, а предложения целиком, — за счёт этого перевод получается более естественным.

Ещё одно достоинство перевода с помощью нейронных сетей — возможность учесть контекст предложения. Например, переводчик поймёт, что в статье про чемпионат мира по футболу фразу scores and fixtures следует перевести как «результаты и расписание», а не как «десятки и светильники».

Анализ структуры веб-страниц

Браузерный переводчик пропускает через себя весь текст, который имеется на веб-странице. Он переводит как её основное содержание — скажем, статью, — так и интерфейс: навигационные ссылки, названия разделов и кнопок. Теперь переводчик умеет распознавать разные типы текстов и учитывать их особенности.

Интерфейсные тексты на многих сайтах одинаковые: например, почти везде есть кнопки «Войти» и «Подписаться». Мы составили базу из двух тысяч самых распространённых слов и фраз и их переводов — переводчик сверяется с ней, когда работает с интерфейсом. База позволяет ему не путаться: благодаря ей он понимает, что Back — это «назад», а не «спина», а Home  — «главная страница», а не «дома».

Страница сайта NASA, переведённая Яндекс.Браузером

Своя специфика есть и у заголовков. Грамматика в них отличается от традиционной — например, английским заголовкам свойственно обилие инфинитивов. Раньше переводчик переводил заголовки по тем же правилам, что и основной текст, — из-за этого возникали ошибки. Сейчас за перевод заголовков отвечает отдельная модель, которая учитывает их лексические и грамматические особенности.

Слева — оригинальный текст на сайте BBC News, в центре — старая версия перевода, справа — новая версия перевода. Нажмите на изображение, чтобы посмотреть его увеличенную версию

Ускоренный перевод

Иногда веб-страница содержит огромный объём информации: например, длинную научную статью или все главы книги. В такой ситуации на перевод могут потребоваться десятки секунд. Чтобы пользователям не приходилось долго ждать, переводчик начал переводить страницы частями. Он обрабатывает не весь текст сразу, а только тот фрагмент, который видит пользователь. Это позволило в разы ускорить процесс: перевод теперь выдаётся практически моментально.

***

Новый переводчик доступен в Яндекс.Браузере для компьютеров и для устройств на базе Android. Вскоре он появится и на iOS. Десктопный Браузер обновится автоматически в ближайшие дни, но обновление можно установить и вручную — нажмите ☰, откройте раздел «Дополнительно» и выберите пункт «О браузере».

8 комментариев
aleshamanakin
4 июля, 19:58
Сравнил Ваш перевод и перевод Гугл переводчика. В Гугле перевод на красивый русский язык в отличие от яндекса, где перевод получился топорным. Тестировал перевод вот этой статьи. https://www.independent.co.uk/news/uk/crime/amesbury-inciden…
Качество перевода вполне себе на уровне, но я всё жду не дождусь, когда наконец переводчик в Яндекс.Браузере научится переводить описания к видео и комментарии на Youtube.
Каждый раз приходится уходить для этого в Хром. Доколе, Яндекс?
Предложите услуги переводчика Али. А то там совсем беда)
Anastasiia.ya.ru Anastasiia.ya.ru Anastasiia.ya.ru Anastasiia.ya.ru Anastasiia.ya.ru
5 июля, 13:38
Круто! 
На иллюстрации статьи есть ошибка перевода. 
Подпись к рисунку где новость BBC:
Science photo library - Научной библиотеке фотографий

Видимо нужен отдельный модуль и для подписей к рисункам...
Александр Жуланов
13 июля, 04:59
Умная  система  должна работать на Русском языке. Алгоритм должен видеть картинку как смысловую нагрузку. Это психология и ментальность нашего народа. Профиль ментальной памяти у системы лежит в конфигурации волнового импульса. Прямая картинка носит корень в положительном или отрицательном поле. Двухмерный перевод через эмоцию в объёмный интерес, интерфейс должен работать на силе бит нравственной записи. За родной язык умной системы, работа открывание окон от голограммы конфигурации в электромагнитном поле. Редактирование профиль слово на корне нашего языка в электронном дереве.
очень хороший переводчик ,гораздо лучше гугловского. молодцы.
И на столько сложный текст способен понять ваш переводчик?