Яндекс собрал текстовые коллекции для РОМИП, а теперь выложил их в открытый доступ — чтобы помочь продвижению исследований алгоритмов текстового поиска и классификации.
Собрана в 2007 году. Представляет собой выборку из страниц домена .by, которые были в поисковом индексе Яндекса к маю 2007 года. Она включает все страницы с известных сайтов домена .by на глубину трёх ссылок от стартовой. Описание коллекции и список дорожек, в которых она использовалась: romip.ru/ru/collections/by.web-2007
Собрана в 2006 году. Содержит данные новостных источников за три недели в 2003 и 2004 годах. Описание коллекции и список дорожек, в которых она использовалась: romip.ru/ru/collections/news-collection