Толока

Открытые датасеты Яндекс.Толоки

6 июня, 15:00

31 мая на встрече с партнёрами нашу команду спрашивали о датасетах, собранных с помощью Толоки. Толока — это крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день десятки тысяч исполнителей производят более 5 миллионов оценок в 500 заданиях. Эти оценки могут быть полезны специалистам, которые работают с большими массивами данных. Поэтому мы решили опубликовать открытые датасеты для исследований и экспериментов, связанных с машинным обучением.

Мы готовы поделиться с исследователями шестью датасетами:

  • Toloka Persona Chat Rus — чат-боты и реальные диалоги людей;
  • Toloka Aggregation Relevance 2 и 5 — алгоритмы консенсуса и агрегирования оценок исполнителей;
  • Toloka Business ID Recognition — компьютерное зрение;
  • Lexical Relations from the Wisdom of the Crowd и Human-Annotated Sense-Disambiguated Word Contexts for Russian — лингвистические исследования.

Мы планируем выкладывать новые датасеты на странице Открытые датасеты Яндекс.Толоки. Пользуйтесь ими, рассказывайте о результатах и пишите нам, если тоже хотите поделиться своими датасетами!