Мы запустили машинный перевод для марийского и горномарийского языков. Теперь пользователи могут переводить слова и фразы с любого из этих языков на 86 других — и наоборот.
Марийский (или лугово-восточный марийский) и горномарийский языки — это, как и русский, государственные языки Республики Марий Эл. На них разговаривают также в Башкортостане, Татарстане, Кировской области и некоторых других регионах России. Хотя марийский и горномарийский языки похожи, одно и то же слово может звучать в этих языках совсем по-разному, есть отличия в правилах грамматики, не совпадают и алфавиты. Поэтому работа над машинными переводами для этих двух языков велась параллельно. Пока оба перевода работают в бета-версии, так что возможны недочёты.
Работа по созданию марийско-русского перевода велась с тесном сотрудничестве с региональными организациями – Марийским научно-исследовательским институтом языка, литературы и истории им. В.М. Васильева (МарНИИЯЛИ) и Республиканским центром марийской культуры (РЦМК), обеспечивших лингвистическую поддержку и подготовку эталонных марийско-русских переводов для оценки качества перевода. Помимо этого, руководство МарНИИЯЛИ (директор А.С.Казимов) предоставило права на использование большой словарной базы Марийско-Русского Словаря, а Андрей Чемышев вместе с группой сотрудников РЦМК собрал дополнительный корпус двуязычных русско-марийских текстов. Благодаря этим лексическим ресурсам, нам удалось значительно увеличить объем и качество данных, используемых для построения статистических моделей, и, тем самым, повысить итоговое качество машинного перевода.