Давайте поговорим о серьёзном 😂. Ладно, на самом деле, о несерьёзном — об эмодзи. С помощью эмодзи люди решают разные задачи. Кто-то использует их как смайлики — чтобы выразить своё отношение к написанному. Кто-то заменяет ими отдельные слова («Хочу 🍕») — чтобы добавить тексту наглядности. А иногда можно обойтись и вовсе без слов, одними эмодзи — например, «➡🎬❓ 2⃣1⃣:0⃣0⃣».
В каком-то смысле эмодзи — отдельный язык с пиктографическим письмом, как у древних шумеров. Теперь этим языком владеет и Яндекс.Переводчик. Введите в Переводчик отдельное слово, словосочетание или целую фразу, и он представит их в виде эмодзи. Или наоборот: можно перевести на русский набор картинок, который вам прислали в чат, — возможно, при этом откроется новый смысл послания.
Как Переводчик выучил эмодзи
Переводчик учит языки путём анализа параллельных текстов. В случае с эмодзи такой подход не работает. Параллельные тексты, в принципе, существуют — например, в 2015 году пресс-релиз о новой модели «Шевроле» вышел одновременно и на английском и на эмодзи, — но их крайне мало. Зато в интернете есть «словари» — сайты, где собраны всевозможные эмодзи, их описания и толкования.
Эмодзи не так много — счёт идёт на тысячи. Поэтому подобрать прямое соответствие в словарях можно далеко не для всех слов. Скажем, вы вряд ли найдёте пиктограммы, обозначающие слово «квас» (потому что эмодзи придумали в Японии, а квас распространён в России) или слово «клавесин» (потому что это древний инструмент, а эмодзи появились относительно недавно). Чтобы адекватно передавать такие слова с помощью эмодзи, важно понимать их смысл. Квас — напиток, значит, его можно изобразить, например, вот так: 🍷. Клавесин — клавишный музыкальный инструмент, поэтому самым подходящим по смыслу эмодзи будет 🎹.
Поиск Яндекса уже умеет искать по смыслу — мы рассказывали в блоге про поисковые алгоритмы «Палех» и «Королёв». Похожий подход мы задействовали и для эмодзи. Когда вы хотите перевести на эмодзи ту или иную фразу, Переводчик разбивает её на отдельные элементы: слова и комбинации слов. Каждый элемент представляется в виде вектора — иными словами, записывается в виде набора чисел. Аналогичная операция проводится и с описаниями эмодзи. Затем векторы сопоставляются. Чем ближе друг к другу находятся векторные представления, тем точнее смысловое соответствие между словами и эмодзи.
***
Переводчик может переводить на эмодзи и обратно слова и фразы на любом из известных ему 94 языков. Перевод работает в веб-версии сервиса и в приложениях для iOS и Android. Понимание смысла позволяет Переводчику подбирать эмодзи-эквиваленты практически для любых понятий 🖖.