Блог Переводчика

У нас очередное пополнение: коса и амхарский



Только в одном месте на земле есть языки, в которых есть так называемые «щелкающие» звуки, или «кликсы». Это языки бушменов и готтентотов (сейчас эту семью принято называть койсанской), аборигенных жителей Южной Африки, и самые южные языки банту, в которых кликсы появились в результате контактов с койсанскими языками. Самые крупные из этих языков — это зулу (12 миллионов) и коса (8 миллионов человек); они входят в число 11 официальных языков Южно-Африканской Республики.

Кликсы — это примерно такие звуки, которые мы производим, когда щелкаем языком, только в этих языках они используются как обычные согласные. Они произносятся не на выдохе, как все остальные звуки, а на вдохе. В транскрипции их принято обозначать специальными знаками в зависимости от того, где во рту они образуются — например, ǃ (это не восклицательный знак, а специальный символ), ǀ, ǁ. Кроме того, они могут быть носовыми, придыхательными, глоттализованными и так далее. В коса различается 18 щелкающих согласных, в зулу — 15 (это далеко не предел — в некоторых койсанских языках их число доходит до 80). В орфографии для них используют более привычные буквы c, x, q в сочетании с n для обозначения носового произношения, h для придыхания и т. д. Щелкающий согласный есть в названии самого языка коса (isiXhosa), — латеральный (то есть произносимый боковой частью языка, как наше «л») придыхательный кликс, ничего сложного.

В отношении грамматики коса — типичный язык банту. Сам язык называется isiXhosa, народ коса будет amaXhosa, а один его представитель — umXhosa. Самым, по-видимому, известным umXhosa был борец с апартеидом и первый чернокожий президент ЮАР Нельсон Мандела.

Амхарский язык — официальный язык Эфиопии; семитский язык, близкий к арабском и ивриту. Он записывается с помощью особого эфиопского письма — слоговой системы письменности, которая существует уже более тысячи лет. В ней каждый символ соответствует сочетанию согласного и гласного: например, ባ — это ba, ቤ — be, ቦ — bo, ቧ — bwa и так далее. С другой стороны, в принятой орфографии не обозначается удвоение согласных, которое важно для амхарского языка. Все это, конечно, создавало особые проблемы при сборке машинного перевода. Но по крайней мере, в отличие от некоторых других систем письма, на слова текст делится легко — двоеточием.

Амхарский считают своим священным языком растафарианцы. Само слово «Растафари» — это амхарское ራስ፡ተፈሪ, сочетание титула ras ራስ, буквально «голова» и täfäri ተፈሪ — мирского имени последнего императора Эфиопии Хайле Селассие I.

30 комментариев
Вы бы Российскими языками занялись. Карельским, Коми ,например. И качество существующих подняли. А то доверять финскому переводу, например, .... опасно. Неправильно переводит отрицания, инифитивы простейшие врёт. И куча всего.
boris.shirokolov,
здравствуйте! Одно другому не мешает, мы ведём работу в разных направлениях :) 
Спасибо за интересную вводную статью.


Чтобы не голословно хвалить, попробовал скормить что-нибудь переводчику. Например, родовую деревню Нельсона Манделы Qunu, где он и похоронен. Qunu не переводится. В предложении из википедии про эту деревню «iQunu yilali eMzantsi Afrika» переводчик узнал только Африку — спасибо, мы тоже её узнали. Что-то не очень пока что работает.
Обновлено 14 ноября 2016, 19:48
Сергей,
здравствуйте! Спасибо, что оценили наш пост. 


По поводу качества машинного перевода для новых языков – пока что мы добавили их в бета-режиме, планируем постепенно улучшать. 
Удалённый пользователь
10 января 2017, 03:43
Фарерский бы... Мечта
Скажите пожалуйста, а ведётся ли работа по добавлению чувашского языка? Очень хотелось бы его видеть здесь...
ArtViburnum,
здравствуйте!
Да, такая работа ведётся. Следите за нашими обновлениями. 
Сейчас работаю с Септуагинтой в Яндекс браузере, думал будет переводить греческий текст, но не тут то было, диакритические знаки не воспринимаются, но если их убирать, перевод получается, но это очень не удобно. При переводе страниц с греческого хромает согласованность слов в предложении, т.е. перевод почти дословный, текстовый редактор мог бы это исправить, но лучше было бы это автоматически.
RHrisanf,
добрый день!
Не могли бы вы привести пример текста? 
Добрый вечер! Приведу отдельные слова непереводимые сервисом (с диакритическими знаками): ἐγένετο - не переводится; εγένετο - сервис переводит "сделались"; υἱοὶ - не переводится; υιοὶ - раньше вроде бы переводилось "сыновья" (не буду утверждать) теперь не переводится; υιος - сервис переводит "сын", а с окончанием "οὶ" - это множественное число - не переводится и т.п.
Далее привожу "несогласованный текст" результат перевода и оригинал:
"Круглый год, расположенные слишком много культурной жизни, как спектакли, концерты, фестивали и художественные выставки, во всех частях острова, которые очень внушить местным жителям, но и гостям. " переведено со страницы "Όλο το χρόνο, διοργανώνονται πάρα πολλά πολιτιστικά δρώμενα, όπως θεατρικές παραστάσεις, συναυλίες, πανηγύρια και εκθέσεις τέχνης, σε όλα τα μέρη του νησιού, τα οποία είναι πολύ προσφιλή στους ντόπιους, αλλά και στους επισκέπτες."
RHrisanf,
спасибо за примеры!
Примем во внимание и постараемся поправить. На данном этапе развития технологий статистический машинный перевод не может гарантировать 100% точного результата, некоторые ошибки возможны, однако вы правы – это не повод их игнорировать. 
Будем благодарны, если вы сможете указывать на некорректный перевод в интерфейсе сервиса. Для этого необходимо нажать на карандаш в поле перевода и предложить свой вариант. 
translate-blog,
, пожалуйста! Я бы рад воспользоваться интерфейсом, но в "мои правки" пока что ничего не отображается, не вижу там своих вариантов. "Обратная связь" работает как готовые вопросы и ответы, получается общаться можно только тут.
Буквы с диакритиками можно было бы автоматически заменять на буквы без таковых. А немогли бы вы также технически проанализировать греческую классику например: Гомера, Геродота, Эпикура, Платона и др.; там может быть много интересных слов, которые пока не переводятся сервисом. Спасибо Вам за внимание!
RHrisanf,
пока что в "моих правках" отображаются жалобы только на словарную выдачу, но в будущем мы планируем добавить туда и перевод. Однако все правки попадают к нам, так что эта работа не остаётся незамеченной :)
Спасибо за советы! 
translate-blog,
, то есть я могу, хорошо зная русский язык, редактировать перевод целого абзаца? Как скоро это может отразиться на результате перевода? И какое это оказывает влияние на перевод других текстов с подобными фразами?
RHrisanf,
верно.
Насчёт скорости сориентировать вас пока что не сможем. Все правки попадают к нашим модераторам, они просматривают их и, если возможно, применяют. Некоторые проблемы сложно разрешить, т.к. они касаются принципов работы системы на более высоком уровне, но для каждой, о которой нам сообщают пользователи, мы ищем пути решения. 
Является ли удобным для статистики машинного перевода например славянский, церковнославянский, старорусский например 19-го века? Было бы интересно увидеть это в сервисе. Дело в том, что отдельные слова или фразы старорусского вызывают затруднение в понимании при чтении например Нового Завета в синодальном переводе 19-го века. Есть другие переводы (современные) с греческого, но в них отличается порядок слов, некоторые слова отсутствуют или добавлены по сравнению с синодальным текстом. Т.е. например сервис для перевода устаревших слов в целом тексте, чтобы не искать значение отдельных слов.
RHrisanf,
спасибо за идею! Да, теоретически сделать машинный перевод для этих языков можно. 
Попробовал перевести фразу на греческий и обратно, вот что получилось:
взяв необходимое

λαμβάνοντας απαιτείται

принимая требуется

мне интересно являются ли на греческом языке слова "взяв" и "принимая" омонимами, или в чем секрет такого перевода
Яндекс браузер с функцией перевода помогает в обучении, можно переводить термины с английского прямо на странице, выделив нужное слово, очень удобно. Еще бы так же давались определения для русских слов, чтобы не открывать отдельную страницу в браузере.
Добрый день! Почему в Яндекс-браузере неактивна функция перевода с PDF страниц?
RHrisanf,
здравствуйте! Не могли бы вы описать проблему подробнее? 
translate-blog,
пожалуйста: при нажатии правой клавишей мыши на выделенный текст предлагается в частности "перевести на русский" - ок - это для открытых веб-страниц. Если же в браузере я открываю страницу в PDF формате то выделяя текст и нажимая правую кнопку я вижу ту же надпись "перевести на русский" - но неактивную бледного серого цвета, которую нельзя кликнуть.
RHrisanf,
это нормальное поведение, такие страницы браузер не может переводить. 
Добавьте, пожалуйста, в сервис перевода страниц: перевод греческих слов, набраных английскими буквами и отображаемыми как греческие при помощи специального шрифта: например: anwqen этим шрифтом отображается как греческое ανωθεν, но естественного не переводится сервисом. А ανωθεν - сервис переводит как "был", чтобы получить этот перевод потребовалось ввести это слово вручную при помощи экранной клавиатуры.
Ярослав Янович
19 марта 2017, 11:38
Перешёл на гугл потому что там встроили нейронные сети.
Ярослав Янович,
если использовать гугл в качестве словаря, то качество также оставляет желать лучшего, есть слова которые гугл не знает а яндекс знает. А вот контекстный перевод: гугл дает более читабельный результат.
Безусловно, внедрение в переводчик языков коса и амхарский крайне важно для аудитории яндекса, но, возьму на себя смелость предположить, что возможность экспорта избранного словарей пользователей была бы не менее востребована. А пока, к сожалению, приходится пользоваться сервисом конкурента.
nik-14.muravjov.nikita
29 августа 2018, 09:38
У эфиопских христиан священным языком является геэз, а у растаманов какой священный язы? Амхарский, геэз или оромо?
nik-14.muravjov.nikita
2 сентября 2018, 13:03
Добавьте церковнославянский и свати завтра, пожалуйста.
Почему нет чувашского языка в переводчике? Марийский, удмуртский языки присутствуют, а чувашского нет. Это какая то дискриминация или расизм? Чуваши 3 по численности нация в России после русских и татар. Чувашский язык является одним из самых древних ветвей тюркско-булгарского языка , оставшийся единственным живым в этой языковой группе на сегодняшний день. На этом языке говорили Гунны (Аттила), Хазары и древние Болгары. Пожалуйста добавьте ЧУВАШСКИЙ язык в переводчик.