Китайская грамота

8 сентября 2014, 13:47

На сервисе Яндекс.Перевод появились китайский и тайский языки. Теперь вы можете перевести описание товара в китайском интернет-магазине на русский или изучить историю достопримечательностей Таиланда на местных сайтах, если собираетесь в путешествие и решили вооружиться информацией до зубов. В мобильном приложении Яндекс.Перевод для iOS китайский и тайский языки уже доступны, скоро появятся и в приложении для Android.


 


 

 


 

Команда Яндекс.Перевода регулярно получает от пользователей просьбы о добавлении новых языков, и китайский был одним из тех, о которых просили больше всего. На Яндекс.Переводе уже есть азиатские языки – в апреле появились вьетнамский, индонезийский и малайский. Дальше корпус азиатских языков будет ещё пополняться.

Всего Яндекс.Перевод знает уже 44 языка, и у каждого свои «трудности перевода», которые приходится учитывать разработчикам сервиса. В китайском, например, нет пробелов, и сочетание иероглифов 松鼠 может быть как одним словом, «белка», так и двумя отдельными словами — «сосна» и «мышь». Значит, прежде чем переводить текст с китайского, его нужно сначала правильно разбить на слова. Здесь могла бы помочь морфология, например окончания, но их в китайском языке тоже нет. На помощь приходит статистика — анализируя тексты, машина составляет представление о сочетаемости иероглифов и использует эти знания в переводе.

Статистический подход используется не только при работе с китайским — технология статистического машинного перевода лежит в основе работы всего сервиса Яндекс.Перевод. Специальный алгоритм обрабатывает огромное количество текстов на разных языках и определяет, какие пары слов и фраз лучше всего соответствуют друг другу. Больше об этой технологии вы можете прочесть здесь.

 

12 комментариев
Шохрух, здравствуйте! Вы о приложении под АйОС или о чём?
CTAC-mail,

Скорее всего, shohruhuz указывал на неправильное написание аббревиатуры  "iOS" в тексте этого анонса )
Просьба исправить перевод словосочетаний:
"pro-German rebels"
"pro-ukrainian rebels"
"pro-russian rebels"
когда добавите эсперанто? Я не шучу!
oran1987,
эсперанто пока не планировали.
Японский когда?
yatony,
работаем.
Латынь в планах есть?
А вот почему с русского на китайский эта самая белка переводится как  蛋白质 (что означает "белок", в смысле вещество), а вовсе не сочетанием иероглифов 松鼠 (сонг шу), как положено?
omamchueva,
у нас неправильно сработала морфология, опознав "белка" как родительный падеж слова "белок". Мы работаем над проблемой разрешения омонимии в переводе.
Пожалуйста, добавьте эсперанто!