Одной из задач компьютерной лингвистики является определение словарной формы слова. Для решения этой задачи Яндекс в 2006 году выпустил для некоммерческого использования морфологический анализатор русского языка mystem. Это небольшая консольная программа, которая производит морфологический анализ слов, причем как известных словарю, так и неизвестных.
Сегодня мы представляем новую версию программы, в которую внесли большое количество изменений и улучшений. В первую очередь они коснулись словаря и интерфейса. Основные алгоритмы и принципы работы остались теми же.
По сравнению с предыдущей версией словарь увеличился более чем в два раза (в том числе благодаря помощи проекта AOT). Также мы добавили в mystem частотный словарь русского языка, созданный сотрудниками Института им. В. В. Виноградова на основе Национального корпуса русского языка.
Обратите внимание, поскольку словарный запас программы стал больше, разбор текста в этой версии будет отличаться от разбора того же текста в старой версии.
В интерфейсе мы добавили поддержку различных кодировок и упразднили некоторые устаревшие опции.
Найти всю необходимую справочную информацию, а также загрузить новую версию вы можете на странице проекта. Ждем ваших отзывов, замечаний и предложений.
Команда отдела лингвистики, заботимся о родном языке.