Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Как подсчитывается количество слов в языке?

ЛингвистикаСлова+2
Михаил Хромцов
  · 1,9 K

Единого верного способа абсолютно точно подсчитать количество слов в любом языке не существует. Все имеющиеся подходы можно разделить на две большие группы.

  1. Спросить квалифицированных специалистов.

В данном случае, лексикографов -- специалистов, которые составляют словари. По идее, в Большой Словарь Какого Угодно Языка должны войти все слова на этом языке. Но на практике, конечно, этого не происходит. Составление словаря -- сложная редакторская работа, в ходе которой необходимо принимать много авторских решений, зависящих от концепции каждого отдельного словаря. В результате складываются определённые традиции, характерные для лексикографии определённых языков и даже для отдельных лексикографических школ в рамках описания одного языка. (Именно поэтому при пользовании словарём очень важно отмечать, под чьей редакцией он выпущен.) 

В языках, где развито словообразование с помощью специальных морфем (как в русском) довольно бессмысленно описывать и объяснять в отдельности каждое регулярное образование. Поэтому в словарях русского языка нет, например, большинства уменьшительных слов (вроде диванчик) или названий жителей городов.

Но это не значит, что таких слов нет в языке. Получается, что такие словари занижают количество слов в языке.

Другой источник значительных расхождений в цифрах -- решение о том, какие функциональные стили и регистры языка включать с словарь. В русскоязычной лексикографии сложилась традиция описывать в толковых словарях только обиходный язык, то есть такой, которым каждый день мог бы пользоваться каждый носитель. Как следствие, в толковых словарях русского языка нет терминологии или неологизмов (для подобных слов создаются отдельные словари). В англоязычной традиции, напротив, в словари попадают и очень узкоспециальные термины, и устаревшие слова (которые на самом деле почти никем не используются), и новейшие интернет-окказионализмы (которые, возможно, через пару лет выйдут из употребления, так и не став частью обиходного языка). 

Относительно этого решения трудно сказать, где истина, но очевидно, что не следует принимать за чистую монету ни самые маленькие, ни самые большие числа. 

Пожалуй, можно утверждать, что в живых европейских языках с несколькими десятками миллионов носителей (английском, русском, французском, немецком, испанском...) точно не меньше 200 тысяч слов и навряд ли больше 400 тысяч.

  1. Сделать выводы на основе текстов.

Грубо говоря, метод состоит в следующем: нужно взять все тексты, написанные на каком-то языке и посчитать в них количество последовательностей от пробела до пробела. Если в языке есть словоизменение, стоит провести лемматизацию (то есть, привести слова к начальной форме) и потом посчитать. 

Этот метод хорош для мёртвых и для малых языков, поскольку есть возможность взять действительно все тексты и тщательно их обработать -- оценка получится очень точной.

Однако применение подобного метода к живым языкам, использующимся большим количеством людей, приводит к совершенно нелепым результатам. Так, активисты проекта The Global Language Monitor насчитали в английском миллиард слов (то есть, в две тысячи раз больше, чем самые смелые эксперты). При ближайшем рассмотрении оказывается, что посчитаны и имена людей, в том числе иностранцев (причём как три слова посчитаны, например, Vladimir, Putin и Vladimir_Putin как "слово, состоящее из двух"), и коммерческие названия (миллиардным словом стало Web 2.0 -- через пробел, с цифрами и с точкой), и слова с опечатками, употреблённые кем-то в интернете. Стоит ли говорить о какой бы то ни было надёжности таких подсчётов... 

Тем не менее, подобным способом можно посчитать слова живого языка, используемые в определённом типе текстов или определёнными лицами. В частности, именно так оценивается словарный запас писателей.

Приезжайте в ЛЛЛ в августе — будем читать, задумываться, обсуждать ;)Перейти на vk.com/@lit_lager-lll-2020-vse-chto-nuzhno-znat