Павел Браславский еще напишет про первый этап «Интернет-математики 2007», завершившийся только что, но я хотел бы сделать небольшое объявление, связанное с этим конкурсом.
Уже довольно давно для разных некоммерческих научных проектов мы бесплатно распространяем программу морфологического разбора русского языка mystem. Началось это еще при работе над Национальным Корпусом Русского Языка, и продолжилось в программе стипендий Интернет-Математика цикла 2004-2005 гг.
В этом цикле «Интернет-Математики» мы окончательно решили сделать mystem доступным публично, на условиях некоммерческого использования.
mystem — это отдельный модуль, работающий как консольное приложение. Первая версия создана еще в 1996 году. Его функция — производить морфологический анализ русских слов, причем не только известных словарю программы, но и незнакомых.
Хотя это не просто «стеммер», то есть не программа, отрезающая от слов окончания, а полнофункциональный русский морфологический разбор (а в нынешней «внутренней» версии Яндекса еще и поддерживающий два десятка других языков), тем не менее, в название mystem мне хотелось спрятать идею «быть таким же легким и быстрым», как стеммер, именно таким в свое время был стеммер Портера для английского языка.
Принципы работы mystem описан в этой статье. А на этой странице вы можете скачать программу и прочитать, как она используется.
Коммерчески mystem не распространяется и к распространению не планируется. Об ошибках в программе пишите, пожалуйста, по адресу mystem@yandex-team.ru