Войти

Томита-парсер

Предназначен для извлечения структурированных данных из текста на естественном языке.

Томита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка.

Исходный код проекта открыт и выложен на GitHub.

Где используется

Яндекс.Работа

Сервис для поиска вакансий. Поиск ведётся по объявлениям, размещенным на популярных рекрутинговых сайтах.

Яндекс.Новости

Самый популярный новостной сервис в России.

Записи докладов

Открытый код Томита-парсера

Томита-парсер — инструмент извлечения структурированных данных из текста на естественном языке. Он позволяет разработчикам-лингвистам создавать и быстро прототипировать системы извлечения фактов с помощью контекстно-свободных грамматик. В 2012 году Томита-парсер был выложен в открытый доступ с лицензией, позволяющей коммерческое использование. Теперь мы передаём его опенсорс-сообществу на условиях открытой лицензии. Я расскажу о том, как парсер используют вне Яндекса, и о том, что с ним можно и нужно делать.