Спиннер, вейп, свитшот: как Яндекс.Переводчик учит «хайповые» слова

31 января 2018, 10:00

Язык постоянно пополняется новыми словами. Одни остаются в лексиконе надолго, другие быстро забываются. Благодаря интернету освоение новых слов происходит стремительно: сначала неологизм появляется в речи блогеров, затем его подхватывают журналисты, телеведущие и чиновники. Очень скоро слово начинает звучать в эфире, мелькать в новостях и соцсетях, использоваться в переписке. Раз неологизм вошёл в язык, пусть даже ненадолго, Яндекс.Переводчик должен понимать, что он означает, — и уметь его правильно переводить.

Почему автоматическим переводчикам сложно быстро выучивать новые слова

Розеттский камень — самый известный пример параллельных текстов. Изображение с сайта Британского музея.

Многие системы автоматического перевода, включая наш Переводчик, обучаются с помощью параллельных текстов. Это тексты, одинаковые по содержанию, но написанные на разных языках. Совокупность таких текстов называют параллельным корпусом. Корпус регулярно пополняется: в него можно добавлять, например, книги, статьи, новости — все эти материалы часто выходят на разных языках.

В параллельных текстах встречаются неологизмы. Проблема в том, что обновление корпуса занимает много времени. Во-первых, тексты могут слегка различаться по смыслу. Перед добавлением в корпус их необходимо «выровнять»: найти соответствия между предложениями, фразами и отдельными словами. Во-вторых, после добавления новых текстов нужно заново подсчитать для всего корпуса коэффициенты вероятности переводов. Корпус — это огромный массив текстов, поэтому подсчёт идёт довольно долго.

Получается, что переводить новые слова система начинает лишь спустя месяцы после их появления. Для неологизмов, которые умирают так же быстро, как и рождаются, это недопустимо долгий срок.

Новые слова в поиске

Чтобы Переводчик быстрее реагировал на появление новых слов, мы начали использовать дополнительный источник данных — поиск. Услышав новое слово в теле- или радиоэфире или встретив в интернете, люди уточняют его значение в поиске. Слова, которые мало искали (или вообще не искали) раньше и стали много искать сейчас, — кандидаты на роль неологизмов.

Что такое всплеск интереса и как его определить

Далеко не все кандидаты — действительно неологизмы. Всплеск интереса вызывают и премьеры фильмов, и герои новостей, и сезонные темы: на Пасху ищут куличи, а в преддверии Нового года спрашивают про ёлки. Чтобы отсеять лишнее, мы используем лингвистические фильтры: проверяем, является ли слово именованной сущностью и можно ли определить его грамматические признаки. Поскольку неологизмы часто ищут с целью узнать их значение, в запросах с ними нередко встречаются уточнения: [хайп что это значит], [блокчейн что это такое простыми словами]. Их тоже можно использовать как признак.

В результате фильтрации большая часть кандидатов в неологизмы отсеивается. Например, из 78 тысяч кандидатов, которых мы получили в первом полугодии 2017 года, после фильтрации осталась только тысяча.

Как получить перевод

Составить список вероятных неологизмов — лишь полдела. Необходимо научить Переводчик их правильно переводить. Около 85% новых слов — заимствования, в основном из английского языка. Обычно они получаются в результате записи кириллицей чего-то похожего на произношение иностранного слова. Запись при этом далеко не всегда соответствует нормативной транскрипции — как, например, в случае со словом «свитшот» [ˈswetʃɜːrt].

Яндекс.Переводчик может работать в двух режимах: переводчика и машинного словаря. Если вы введёте в поле фразу или текст, вы получите перевод, а если одно слово или устойчивое выражение — словарную статью. В машинном словаре накопилось много слов-заимствований и их готовых переводов. Мы создали модель, которая обучается на этих примерах и выдаёт несколько возможных вариантов перевода нового заимствованного слова. Например, для слова «свитшот» вероятными переводами будут «sweatshirt», «sweetshot», «sweetshirt».

Что такое CatBoost и как он работает

Вероятные переводы ранжирует классификатор на основе метода машинного обучения CatBoost. Он составляет список вариантов, где вверху находятся наиболее вероятные переводы, а внизу — наименее вероятные.

Словарная статья должна содержать не только перевод слова, но и грамматическую информацию, а также примеры использования. Здесь на помощь опять приходят данные из поиска. В поисковых запросах одно и то же слово, как правило, встречается в разных формах. Проанализировав их, можно выявить, к какой части речи оно принадлежит.

Примеры использования — это фразы из поисковых запросов. Они могут быть информативными и неинформативными. Скажем, к слову «хайповый» хорошим примером будет «хайповый шмот», а неудачным — «хайповый что это». Неудачные примеры отбрасывает автоматический фильтр.

Перевод неологизма, грамматические пометы и примеры использования составляют черновик словарной статьи. Она поступает на финальную проверку, которую проводят сотрудники Яндекса. После проверки слово добавляется в базу Переводчика. С этого момента сервис будет верно переводить неологизм в текстах и показывать для него словарную статью. Поскольку новые явления моментально находят отражение в поиске, Переводчик выучивает неологизмы очень быстро — спустя несколько дней после того, как о них начали спрашивать у Яндекса.

32 комментария

Авторизуйтесь, чтобы оставить комментарий

coth

2 февраля 2018, 14:05

Ребят, исправьте маршрутизацию общественным транспортом на картах. Ни один маршрут не может нормально построить. Есть маршруты автобусов идут прямо от точки а до точки б, но вместо них строит крюки с пешими прогулками в километры.

Татьяна Степанова

3 февраля 2018, 13:19

Очень интересно! Неолингвистика!))

Иван Кожаков

3 февраля 2018, 18:48

Я недавно тоже слово придумал. Осабеттиться. Это значит акклиматизироваться в Сабетте (Ямало-Ненецкий АО).

Наше старе село

21 февраля 2018, 01:41

Не надо употреблять людям эти американизмы, а надо придумывать свои слова на основе своего языка

Данил Жауров

24 ноября 2018, 07:10

Наше старе село,

согласен

m4harova

16 августа 2019, 20:14

Наше старе село,

может быть нужно и слово "шорты" из нашего языка убрать?
Пазл? Парковка?

Наше старе село

16 августа 2019, 20:22

m4harova,

Да, нужно. Вот чехи так делали, чтобы развить свой язык

getstatus

8 марта 2020, 20:09

Наше старе село,

, беспомощный призыв в дно

Иван Бурлаченко

12 сентября 2020, 20:17

Наше старе село,

ну, или хотя бы переводить американизмы. Причём так, чтобы получалось понятнее и короче. А потом активно использовать. Можно самому, а лучше с группой единомышленников (если надумаете - зовите). Если перевод будет удачным то всё получится. Распространилось же слово "рукалицо"! И это несмотря на, казалось бы, крепко укоренившийся "фейспалм".

Александр Чернов

24 сентября 2018, 11:56

кешбек,менеджер

Илья Нейтронов

26 сентября 2018, 18:54

эщкере

Таня

1 мая 2020, 11:47

Илья Нейтронов,

да))

doroga.oppoi

15 октября 2018, 12:26

Килл ми

елена

24 декабря 2018, 22:07

doroga.oppoi,

плиз

Таня

1 мая 2020, 11:48

doroga.oppoi,

очень знакомо)

Таня

1 мая 2020, 11:48

елена,

плиз и фенькью

alyo.malkowa

31 декабря 2018, 15:21

угадайте
🐹 🔛 ⛰ 🌐❔ 🐄 🐑 & 🤝 🥛

Таня

не знаю даже

Хомячок на горе, где пасутся коровы и дают молоко

сергей иванов

4 января 2019, 11:56

Хотелось бы, чтобы слово mod переводил нормально а не как в faslon или в maud (И да, я понимаю что эти слова в русском языке почти также говорится мод)

n0vikov.vadik

19 января 2019, 18:07

стрим