Толока

июль 2019
Яндекс открывает датасеты Толоки для исследователей
3 июля, 16:00

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях. 

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

Интересный факт: чем сложнее технология искусственного интеллекта, тем больше ей нужна помощь человека. Люди размечают изображения по категориям, чтобы натренировать компьютерное зрение; люди оценивают релевантность страниц поисковым запросам; люди преобразуют речь в текст, чтобы голосовой помощник научился понимать и говорить. Человеческие оценки нужны машине, чтобы дальше она работала без людей и лучше людей.

Раньше многие компании собирали такие оценки исключительно с помощью специально обученных сотрудников — асессоров. Но со временем задач в области машинного обучения стало слишком много, а сами задачи в массе своей перестали требовать особых знаний и опыта. Так появился спрос на помощь «толпы» (crowd). Но самостоятельно найти большое количество случайных исполнителей и работать с ними не каждому под силу. Краудсорсинговые платформы решают эту проблему. 

Яндекс.Толока́ (правильно произносить именно так, с ударением на последний слог) — одна из крупнейших в мире краудсорсинговых платформ. У нас более 4 млн зарегистрированных пользователей. Более 500 проектов каждый день собирают оценки с нашей помощью. Приятный факт: в этом году на секции Data Labeling на конференции Data Fest все шесть докладчиков из разных компаний упоминали Толоку как источник разметки для своих проектов.

О применении Толоки в бизнесе уже много сказано. Сегодня мы поговорим о другом нашем направлении, которое считаем не менее полезным. 

Читать дальше
Толока,ПроКрауд,датасеты,исследования
Открытые датасеты Яндекс.Толоки
4 июля, 11:00

Толока — это крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день десятки тысяч исполнителей производят более 5 миллионов оценок в 500 заданиях. Эти оценки могут быть полезны специалистам, которые работают с большими массивами данных. Поэтому мы решили опубликовать открытые датасеты для исследований и экспериментов, связанных с машинным обучением.

Читать дальше
Толока,краудсорсинг,датасеты,исследования