Использование mystem
Mystem — консольная программа. Ее следует запускать в терминале.
Программу можно использовать так:
Вызов
$ mystem [опции] [входной файл] [выходной файл]
В результате mystem будет читать ввод и записывать результат своей работы в указанные файлы. Если имена файлов опущены, или если вместо имени указано "-", то будет использоваться стандартный ввод/вывод, соответственно.
Примеры
$ mystem
на входе - стандартный ввод, на выходе -
стандартный вывод
$ mystem input
на входе - файл input, на выходе -
стандартный вывод
$ mystem - output
на входе - стандартный ввод, на выходе -
файл output
$ mystem input output
на входе - файл input, на выходе -
файл output
Стандартный ввод и вывод, естественно, можно тоже перенаправлять:
$ mystem <input>output
Опции
Опции надо указывать по правилам UNIX - до имен файлов, при этом можно склеивать, комбинировать, и т.д.
-n | Построчный режим; каждое слово печатается на новой строке. |
-c | Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки. Опция необходима для возврата к полному представлению текста. В случае построчного вывода (когда задана опция Пробел для большей видимости заменяется на подчеркивание. Символ Таким образом можно однозначно восстановить исходный текст. |
-w | Печатать только словарные слова. |
-l | Не печатать исходные словоформы, только леммы и граммемы. |
-i | Печатать грамматическую информацию, расшифровка ниже. |
-g | Склеивать информацию словоформ при одной лемме (только при включенной опции -i). |
-s | Печатать маркер конца предложения (только при включенной опции -c). |
-e | Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию). |
-d | Применить контекстное снятие омонимии. |
--eng-gr | Печатать английские обозначения граммем. |
--filter-gram | Строить разборы только с указанными граммемами. |
--fixlist | Использовать файл с пользовательским словарём. |
--format | Формат вывода. Возможные варианты: text, xml, json. Значение по умолчанию — text. |
--generate-all | Генерировать все возможные гипотезы для несловарных слов. |
--weight | Печатать бесконтекстную вероятность леммы. |
-n | Построчный режим; каждое слово печатается на новой строке. |
-c | Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки. Опция необходима для возврата к полному представлению текста. В случае построчного вывода (когда задана опция Пробел для большей видимости заменяется на подчеркивание. Символ Таким образом можно однозначно восстановить исходный текст. |
-w | Печатать только словарные слова. |
-l | Не печатать исходные словоформы, только леммы и граммемы. |
-i | Печатать грамматическую информацию, расшифровка ниже. |
-g | Склеивать информацию словоформ при одной лемме (только при включенной опции -i). |
-s | Печатать маркер конца предложения (только при включенной опции -c). |
-e | Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию). |
-d | Применить контекстное снятие омонимии. |
--eng-gr | Печатать английские обозначения граммем. |
--filter-gram | Строить разборы только с указанными граммемами. |
--fixlist | Использовать файл с пользовательским словарём. |
--format | Формат вывода. Возможные варианты: text, xml, json. Значение по умолчанию — text. |
--generate-all | Генерировать все возможные гипотезы для несловарных слов. |
--weight | Печатать бесконтекстную вероятность леммы. |