Клуб Я.Субботника

Автоматический сбор данных по примерам

фото автора
Владимир Батыгин. Санкт-Петербург, 26 февраля 2011 года
Студент 6 курса ИТМО, факультет информационных технологий и программирования. В Яндексе занимается исследованием и разработкой систем для автоматического сбора данных.

О докладе
Автоматический сбор данных по примерам.

В настоящее время в интернете можно найти огромное количество полезной информации. Повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В докладе представлен новый инструмент для управляемого извлечения структурированных данных. Пользователь указывает примеры интересующей его информации на нескольких страницах сайта. Система автоматически строит шаблоны специального вида для поиска такой же информации на всех страницах сайта. Повествуем об используемых алгоритмах и проблемах, с которыми пришлось столкнуться при их реализации. Также даем обзор нерешённых задач и перспектив их развития.





презентация, pdf видео, 127.93 Мб