Какой язык самый сложный в плане обработки его ИИ?

ОбразованиеТехнологии+3

Рубин ТеймурадзеФилология

17 января 2023 · 6,3 K

Дэйта сайенс, преподавания, популяризация науки. · 17 янв 2023

Во-первых "ИИ" как-бы нет, это такой немного "маркетинговый" термин. С т.з. науки лучше говорить об "интеллектуальных системах" или "алгоритмах вычислительной лингвистики" и т.п. Причина в том, что на сегодняшний день у нас нет достаточно формального определения собственно понятия "интеллект", не привязанного к его биологическим носителям.

Далее, "обработка языка", точнее текстов на нем написанных производится с некоторой целью. Например, отображение текста на экране "ворда" - тоже результат обработки. В этом плане все языки равны, по крайней мере те, которые "вордом" поддерживаются. Сложность может быть тут не для алгоритма, а для программиста в чем-то.

Но, понятно что имеется в виду "интеллектуальная" обработка. Это машинный перевод, полнотекстовое индексирование, вопросно-ответные системы и т.п. И тут вопрос распадается на 2 подвопроса, т.к. ответ зависит от способа обработки, а их по большому счету 2.

Первый - системы основанные на правилах. Это более ранние системы, но не исчезнувшие по сей день. Тут сложными будут те языки, которые плохо кодифицированы лингвистами или для которых эти самые правила сложны для понимания и формализации людьми. Т.е. относительно редкие, малоизученные языки. Ну или те, в которых не сложилось хорошей лингвистической школы по той или иной причине.

Второй - системы основанные на статистике и машинном обучении. Здесь человек может даже не знать, какой язык система обрабатывает, а для машины он - просто набор байтов. И, вроде бы, тогда все языки одинаково сложны. Отчасти это верно, но есть нюансы.

а) Для машинного обучения надо много данных, т.е. много оцифрованных текстов.

б) Часто перед тем, как начнет работать нейросеть (или что-то ей подобное), требуется предобработка, например разбивка текста на "токены". Этот процесс часто основан на правилах языка, а если они неизвестны или сложны - см п.1.

Таким образом, для систем второго рода устаревшие, малоизученные, редкие языки тоже в некотором роде сложны. Но тут важный момент. Самой-то программе всё равно. Программисту тоже.

Просто нам результат не понравится.

В качестве примера. Для русского языка в python есть pymorphy2 и rutermextract, а для, допустим, белорусского нет ничего похожего. Т.е. его надо или обрабатывать как русский с неизбежными ошибками, или разрабатывать аналог. А это в той или иной степени сложно.

Самостоятельно оценить это можно, воспользовавшись любым (лучше несколькими) сервисом машинного перевода, выполнив циклический перевод текста с родного языка на исследуемый и обратно. Там, где содержание текста исказится сильнее всего - там и выше "сложность".

Вот примеры:

а) Через английский: "мой дядя установил самые честные правила, когда был серьезно болен, Он заставил себя уважать себя и не смог бы придумать лучшего".

б) Через сербский: "мой дядя самых честных правил, когда он не в шутку ботаник, заставил его уважать себя и не мог придумать лучшего".

в) Через эмодзи: "мой дядя принимает самые справедливые решения, когда он называет приколы, свою энергию он смирил сам и не мог получить совет так хорошо, как 1".

г) Через латынь: "Патрик был самым почетным, и когда он был суров, он был очень тяжелым и очень недовольным, и не мог найти лучшего".

Сурен Айк

2 февраля 2023

…Там, где содержание текста исказится сильнее всего - там и выше "сложность"… Отчасти Вы правы, но это справедливо... Читать дальше

Евген Лобанов

отшельник, схимник, человек · 17 янв 2023

Чем хуже вы знаете грамматику какого-либо языка, тем более он без(!) ассоциативен. Для оперирования двумя и более языками, само собой надо знать их грамматики. Например для меня, «заставить говорилку» читать приемлемо русский текст, достаточно просто. Английский – потрудней. Украинский и белорусский – геморрой. Но не потому что они сложней, например английского, а... Читать далее

Ilya

Немного обо всём · 19 июн 2023

Сложность обработки языка для искусственного интеллекта зависит от нескольких факторов, таких как грамматика языка, семантика, лексика, контекст и т.д. Однако, можно выделить несколько языков, которые считаются особенно сложными для обработки ИИ. 1. Японский язык - японский язык имеет сложную грамматику, которая включает в себя большое количество окончаний и падежей, а... Читать далее

Первый

Алексей С.

машинное обучение, нейросети, теория сознания, компьютерная лингвистика, социолингвистика... · 17 янв 2023

Чем выше перплексия в языке, тем он сложней для обработки. Например, языки синтаксического строя. Но зависит не только от языка, сам текст может быть сложным.

1 эксперт согласен