Томита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка.
Исходный код проекта открыт и выложен на GitHub.
Записи докладов
Открытый код Томита-парсера
Томита-парсер — инструмент извлечения структурированных данных из текста на естественном языке. Он позволяет разработчикам-лингвистам создавать и быстро прототипировать системы извлечения фактов с помощью контекстно-свободных грамматик. В 2012 году Томита-парсер был выложен в открытый доступ с лицензией, позволяющей коммерческое использование. Теперь мы передаём его опенсорс-сообществу на условиях открытой лицензии. Я расскажу о том, как парсер используют вне Яндекса, и о том, что с ним можно и нужно делать.