Томита-парсер

Предназначен для извлечения структурированных данных из текста на естественном языке.
Томита-парсер создан для извлечения структурированных данных из текста на естественном языке. Вычленение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет писать свои грамматики и добавлять словари для нужного языка.

Исходный код проекта открыт и выложен на GitHub.

Примеры извлекаемых фактов

  • дата рождения (Ричард Гир родился 31 августа 1949 года);
  • родственные связи (Ричард Гир женат на Кэри Лоуэлл);
  • роли в кино (Ричард Гир — звезда фильма «Красотка»);
  • адреса организаций (офис Яндекса находится на улице Льва Толстого в доме 16).
Записи докладов
Открытый код Томита-парсера
Томита-парсер — инструмент извлечения структурированных данных из текста на естественном языке. Он позволяет разработчикам-лингвистам создавать и быстро прототипировать системы извлечения фактов с помощью контекстно-свободных грамматик. В 2012 году Томита-парсер был выложен в открытый доступ с лицензией, позволяющей коммерческое использование. Теперь мы передаём его опенсорс-сообществу на условиях открытой лицензии. Я расскажу о том, как парсер используют вне Яндекса, и о том, что с ним можно и нужно делать.