Добро пожаловать в блог Яндекс.Толоки

Toloka Kit — Python-библиотека для интеграции крауд-проектов в процессы машинного обучения

Толока — гибкий инструмент со множеством настроек и опций в интерфейсе. Но когда вы строите сложный, масштабируемый, автоматизированный ML-пайплайн, гораздо удобнее иметь все возможности платформы под рукой — прямо в среде разработки. Мы опубликовали Python-библиотеку Toloka Kit, которая позволяет программно управлять разметкой в Толоке. Благодаря ей интегрировать краудсорсинговые проекты в процессы машинного обучения станет ещё проще.

Почему стоит использовать Toloka Kit

  • Проекты по разметке данных можно просто копировать и вставлять, не настраивая их каждый раз в интерфейсе Толоки.
  • Библиотека позволяет обучать ML-модели и готовить данные в одной среде, не переключаясь.
  • Toloka Kit обладает всеми преимуществами open-source-решений: библиотека бесплатна, любой пользователь может доработать её, адаптировав под свои нужды.

С чего начать

Чтобы вам было проще разобраться и начать применять Toloka Kit, мы подготовили пример. Подробно рассказали, как создать проект с помощью библиотеки, как запустить разметку и получить датасет. Для иллюстрации мы использовали пайплайн, представленный на конференции CVPR 2020. Это решение популярной задачи в области компьютерного зрения — сегментация изображений для обучения алгоритмов, которые помогают беспилотным автомобилям «видеть» дорожные знаки. Код примера написан в Jupyter Notebook.

Пробуйте, пользуйтесь, обращайтесь, если возникнут вопросы или предложения!