Как устроены Яндекс Задания
Напишите нам, если не нашли ответ в Справке. Вы можете приложить скриншоты или видео, чтобы ускорить помощь:
Написать в чат Написать в Telegram
Яндекс Задания — платформа для разметки любых объемов данных с помощью исполнителей. После разметки эти данные можно использовать для машинного обучения и разработки ИИ.
Яндекс Задания подходят для:
- сбора, классификации и аннотирования текста, изображений, аудио и видео;
- сбора и проверки офлайн-данных;
- проведения опросов;
- других целей, связанных с разметкой данных.
Разметка данных в Яндекс Заданиях опирается на краудсорсинг и технологии для управления краудом (от английского «crowd» — «толпа»). Давайте посмотрим, как это работает.
Что такое краудсорсинг?
Краудсорсинг — это способ получения информации или услуг от большой разнородной группы людей. Каждый из этих людей выполняет часть работы для достижения общей цели. Например, они могут классифицировать изображения по категориям, а полученные данные потом можно использовать для улучшения релевантности поиска или рекомендательных систем.
Обычно в краудсорсинге участвуют три стороны: заказчики, участники крауда (или исполнители) и платформа, которая их объединяет и выступает посредником.
Заказчиками могут быть как отдельные лица, так и компании, которые размещают задания для сбора или разметки данных.
Исполнители — это люди со всего мира, которые получают оплату за выполнение этих заданий. Этих людей обычно называют «краудом», отсюда и слово «краудсорсинг».
Яндекс Задания — открытая платформа, на которой заказчики могут давать задания, а исполнители их выполнять.
Процесс разметки данных в Заданиях
Процесс разметки данных в Заданиях выглядит следующим образом:
-
Сначала вы регистрируетесь в Яндекс Заданиях в качестве заказчика.
-
Затем нужно создать проект для разметки данных. Целью проекта является какая-то конкретная задача, например, классификация изображений по категориям.
-
В проекте вы объясняете исполнителям, что им предстоит сделать. Вы настраиваете интерфейс задания (в нашем примере, вы назначаете категории кнопкам для разметки изображений) и пишете подробные инструкции.
-
Для каждого набора данных, который вы хотите разметить (в нашем примере это может быть сет фотографий с дорожными знаками), вы создаете пул заданий. В проекте может быть любое количество пулов.
-
Вы загружаете свои данные в пул и запускаете разметку.
-
Исполнители получают доступ к своему собственному интерфейсу Яндекс Заданий, выбирают задания, которые они хотят выполнить, и получают оплату за выполненные задания.
-
После того как исполнители завершат все задания в пуле, вы скачиваете размеченные данные. Их можно проверить или обработать с помощью агрегации или использовать как есть.
Для запуска проекта необходимо создать три основные сущности: проект, пул и задания.
Проект
Проект в Заданиях представляет собой конкретную цель по разметке данных. Это может быть модерация комментариев, классификация изображений, расшифровка аудиозаписей или что-то еще.
У всех заданий в проекте одинаковый интерфейс и инструкции для исполнителей. При необходимости вы можете загружать новые наборы заданий.
Подробнее о настройке проекта в разделе Создание проекта.
Пул
Пул — это набор данных, которые нужно разметить в рамках проекта. Вы можете использовать настройки пула для отбора исполнителей, установки цены за задания и добавления различных правил контроля качества.
Наличие нескольких пулов в одном проекте удобно тем, что вы можете повторно использовать одни и те же настройки проекта, когда вам нужно разметить больше данных. При этом настраивать каждый пул вы можете отдельно.
Подробнее о настройке пула в разделе Создание пула.
Задание
Задание создается для одной единицы данных, которую нужно разметить. Например, это может быть фото для классификации или комментарий для проверки.
В Яндекс Заданиях есть три типа заданий:
- Основные задания
- Обучающие задания
- Контрольные задания
Яндекс Задания поддерживают загрузку заданий в файлах TSV-формата.
Подробнее о файлах с заданиями в разделе Создание файла с заданиями.
Страница заданий
Страница заданий — это несколько заданий, которые исполнитель должен выполнить за один раз. Например, вы можете показать четыре изображения на одной странице.
Подробнее о страницах заданий в разделе Способы распределения заданий.
Как это выглядит у исполнителей
Исполнители видят свой интерфейс платформы в браузере и в мобильном приложении: список заданий, которые они могут выбрать, прочитать инструкцию и приступить к выполнению. Ваши задания становятся доступными исполнителям, когда вы запускаете пул.
У исполнителей нет разделения на пулы, задания и страницы заданий. Все это они могут называть словом «задание».
Подробнее в разделе Как исполнители видят пулы.
API Яндекс Заданий
Если вам надо часто размещать похожие задания, автоматизируйте это с помощью API Яндекс Заданий.
Если вам не хватает гибкости при размещении заданий, то в API Яндекс Заданий есть дополнительные возможности, которых еще нет в интерфейсе. Например, через API вы сможете указывать перекрытие для отдельных заданий и добавлять несколько правильных ответов на контрольные задания.
Что дальше
- Зарегистрируйтесь в Яндекс Заданиях.
См. также
Частые вопросы
Подходит ли мой проект для Яндекс Заданий?
На странице Какие задания нельзя размещать в Яндекс Заданиях написано, какие задания разрешены для публикации в Яндекс Заданиях. Проекты, с которыми заказчики приходят к нам чаще всего, перечислены на странице Туториалы для популярных задач.
С чего мне лучше начать работу в Яндекс Заданиях?
На странице Первый проект описано, как можно самостоятельно создать проект в Яндекс Заданиях. Кроме того, вы можете выбрать один из подробных туториалов, в которых пошагово расписаны действия от создания проекта до получения результата.
Человек, выполняющий задания в Яндекс Заданиях и получающий за это оплату. Все вместе исполнители обычно называются «крауд» (коллектив, толпа).
Определенная цель для разметки. Например, модерация комментариев, классификация изображений, транскрипция аудиозаписей или еще что-то.
Внешний вид задания для исполнителя и логика обработки ответов. Чаще всего настраивается с помощью конструктора шаблонов.
Набор данных, которые нужно разметить в проекте. Можно использовать настройки пула для выбора исполнителей, установки цены за задание и добавления правил контроля качества. Задания в пуле объединены общими свойствами (например, настройки отбора исполнителей, плата за страницу заданий) и отправляются на выполнение единовременно.
Вопрос или задача, которое требует ответа от исполнителя в Яндекс Заданиях.
Задание, для которого не указано ни подсказки, ни правильного ответа. Ответы должны будут давать исполнители. Это основные задания, которые вы будете загружать в пул, чтобы отдать исполнителям.
Задание, которое содержит правильный ответ и подсказку. Если исполнитель ответит неправильно, он увидит подсказку и не сможет перейти к следующей странице заданий, пока не ответит правильно на все задания. В контроле качества и при расчете навыков учитывается только первый ответ на задание.
Задание, которое содержит правильный ответ. Контрольные задания нужны, чтобы следить за качеством ответов исполнителя.
Файл, содержащий данные, которые нужно разметить. Заказчики используют эти файлы для загрузки заданий. В Яндекс Заданиях поддерживаются файлы в формате TSV.
Tab-separated values — текстовый формат файла, в котором данные разделены знаком табуляции, а строки — знаком перевода строки.
Независимые правила, из которых состоит контроль качества. Блок контроля качества в настройках пула позволяет установить правила и настроить их.
Количество исполнителей, которые должны выполнить каждое задание пула. Перекрытие используется для того, чтобы убедиться, что результатам можно доверять.
Добавление информативных тегов к данным. Например, указание того, что на фото есть определенные объекты (светофоры, автомобили, пешеходы), транскрипция аудиофайлов, классификация текстовых или видеофайлов и другая подобная информация.