Использование mystem

Mystem — консольная программа. Ее следует запускать в терминале.

Программу можно использовать так:

Вызов

$ mystem [опции] [входной файл] [выходной файл]

В результате mystem будет читать ввод и записывать результат своей работы в указанные файлы. Если имена файлов опущены, или если вместо имени указано "-", то будет использоваться стандартный ввод/вывод, соответственно.

Примеры

$ mystem

на входе - стандартный ввод, на выходе -
стандартный вывод

$ mystem input

на входе - файл input, на выходе -
стандартный вывод

$ mystem - output

на входе - стандартный ввод, на выходе -
файл output

$ mystem input output

на входе - файл input, на выходе -
файл output

Стандартный ввод и вывод, естественно, можно тоже перенаправлять:

$ mystem <input>output

Опции

Опции надо указывать по правилам UNIX - до имен файлов, при этом можно склеивать, комбинировать, и т.д.

`-n`	Построчный режим; каждое слово печатается на новой строке.
`-c`	Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки. Опция необходима для возврата к полному представлению текста. В случае построчного вывода (когда задана опция `n`) межсловные промежутки вытягиваются в одну строку, символы перевода строки заменяются на `\r` и/или `\n`. Пробел для большей видимости заменяется на подчеркивание. Символ `\` заменяется на `\\`, подчеркивание на `\_`. Таким образом можно однозначно восстановить исходный текст.
`-w`	Печатать только словарные слова.
`-l`	Не печатать исходные словоформы, только леммы и граммемы.
`-i`	Печатать грамматическую информацию, расшифровка ниже.
`-g`	Склеивать информацию словоформ при одной лемме (только при включенной опции -i).
`-s`	Печатать маркер конца предложения (только при включенной опции -c).
`-e`	Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию).
`-d`	Применить контекстное снятие омонимии.
`--eng-gr`	Печатать английские обозначения граммем.
`--filter-gram`	Строить разборы только с указанными граммемами.
`--fixlist`	Использовать файл с пользовательским словарём.
`--format`	Формат вывода. Возможные варианты: `text`, `xml`, `json`. Значение по умолчанию — `text`.
`--generate-all`	Генерировать все возможные гипотезы для несловарных слов.
`--weight`	Печатать бесконтекстную вероятность леммы.

Была ли статья полезна?

Примеры вызова