mystem

Павел Браславский еще напишет про первый этап «Интернет-математики 2007», завершившийся только что, но я хотел бы сделать небольшое объявление, связанное с этим конкурсом. Уже довольно давно для разных некоммерческих научных проектов мы бесплатно распространяем программу морфологического разбора русского языка mystem. Началось это еще при работе над Национальным Корпусом Русского Языка, и продолжилось в программе стипендий Интернет-Математика цикла 2004-2005 гг. В этом цикле «Интернет-Математики» мы окончательно решили сделать mystem доступным публично, на условиях некоммерческого использования. mystem — это отдельный модуль, работающий как консольное приложение. Первая версия создана еще в 1996 году. Его функция — производить морфологический анализ русских слов, причем не только известных словарю программы, но и незнакомых. Хотя это не просто «стеммер», то есть не программа, отрезающая от слов окончания, а полнофункциональный русский морфологический разбор (а в нынешней «внутренней» версии Яндекса еще и поддерживающий два десятка других языков), тем не менее, в название mystem мне хотелось спрятать идею «быть таким же легким и быстрым», как стеммер, именно таким в свое время был стеммер Портера для английского языка. Принципы работы mystem описан в этой статье. А на этой странице вы можете скачать программу и прочитать, как она используется. Коммерчески mystem не распространяется и к распространению не планируется. Об ошибках в программе пишите, пожалуйста, по адресу mystem@yandex-team.ru
Илья Сегалович, в роли программиста
5 комментариев
Ссылка на статью - битая.
у меня открывается )

Не работает ссылка на скачивание.

Проект закрыт?? 

Там вместо http://company.yandex.ru/technology/mystem/
http://company.yandex.ru/technologies/search/

Надо бы поправить линк, наверное?! 

Да, спасибо!
Только что это такое, и зачем было мне нужно?o_O