Текстовые коллекции для научных исследований

Яндекс собрал текстовые коллекции для РОМИП, а теперь выложил их в открытый доступ — чтобы помочь продвижению исследований алгоритмов текстового поиска и классификации.

Коллекция BY.web

Собрана в 2007 году. Представляет собой выборку из страниц домена .by, которые были в поисковом индексе Яндекса к маю 2007 года. Она включает все страницы с известных сайтов домена .by на глубину трёх ссылок от стартовой. Описание коллекции и список дорожек, в которых она использовалась: romip.ru/ru/collections/by.web-2007

Коллекция Яндекс.Новостей

Собрана в 2006 году. Содержит данные новостных источников за три недели в 2003 и 2004 годах. Описание коллекции и список дорожек, в которых она использовалась: romip.ru/ru/collections/news-collection

Thu Jun 10 2021 18:04:29 GMT+0300 (Moscow Standard Time)