Обновляем морфологический анализатор

3 марта 2010, 22:08

Одной из задач компьютерной лингвистики является определение словарной формы слова. Для решения этой задачи Яндекс в 2006 году выпустил для некоммерческого использования морфологический анализатор русского языка mystem. Это небольшая консольная программа, которая производит морфологический анализ слов, причем как известных словарю, так и неизвестных.

Сегодня мы представляем новую версию программы, в которую внесли большое количество изменений и улучшений. В первую очередь они коснулись словаря и интерфейса. Основные алгоритмы и принципы работы остались теми же.

По сравнению с предыдущей версией словарь увеличился более чем в два раза (в том числе благодаря помощи проекта AOT). Также мы добавили в mystem частотный словарь русского языка, созданный сотрудниками Института им. В. В. Виноградова на основе Национального корпуса русского языка.

Обратите внимание, поскольку словарный запас программы стал больше, разбор текста в этой версии будет отличаться от разбора того же текста в старой версии.

В интерфейсе мы добавили поддержку различных кодировок и упразднили некоторые устаревшие опции.

Найти всю необходимую справочную информацию, а также загрузить новую версию вы можете на странице проекта. Ждем ваших отзывов, замечаний и предложений.

Команда отдела лингвистики, заботимся о родном языке.

10 комментариев
Подписаться на комментарии к посту
Если бы Вы библиотеку с API выпустили или сделали бы то же самое в виде веб-сервиса, то цены бы ей небыло. А консольная программка это что-то глубоко архаичное. 
Если есть толковые прогеры, они допилят самостоятельно до внутреннего веб-сервиса, за примерами в личку =)
СПАСИБО!!!1111111111

не хватает Канешно АПИ, я свое уже написал теже слова и тажа частотность, смысла в консольной программе нет вообще, так как если это в потоках спрашивать получаеться медлено (


Напишите реализацию на питоне и на других языках, тогда цены не будет. )


А так канешно приятно что за два года вы поняли что майстем говно )

А что есть частота это канешно плюс

здорово, Вань!

Если бы хоть кто-то действительно заботился о родном языке, то давно бы уже исключили из рейтингов мат.
Cool! :)
Уважаемые разработчики Mystem-а, а также все им интересующиеся!
Приглашаю
вас для обсуждения mystem-а на форум
http://www.nalaps.ru/forum/viewtopic.php?f=5&t=7
на
сайте системы Nalaps.
К сожалению, разработчики Mystem до сих пор не
ответили на мои вопросы, заданные по почте, так что пришлось написать
сюда и создать открытый форум для обсуждения.
На форуме регистрация с
ручной активацией пользователей админом, так что, возможно, придется
подождать с после регистрации.

С уважением,
Андремонiй.

яндекс полное дерьмо педрилы