Толока — гибкий инструмент со множеством настроек и опций в интерфейсе. Но когда вы строите сложный, масштабируемый, автоматизированный ML-пайплайн, гораздо удобнее иметь все возможности платформы под рукой — прямо в среде разработки. Мы опубликовали Python-библиотеку Toloka Kit, которая позволяет программно управлять разметкой в Толоке. Благодаря ей интегрировать краудсорсинговые проекты в процессы машинного обучения станет ещё проще.
Почему стоит использовать Toloka Kit
- Проекты по разметке данных можно просто копировать и вставлять, не настраивая их каждый раз в интерфейсе Толоки.
- Библиотека позволяет обучать ML-модели и готовить данные в одной среде, не переключаясь.
- Toloka Kit обладает всеми преимуществами open-source-решений: библиотека бесплатна, любой пользователь может доработать её, адаптировав под свои нужды.
С чего начать
Чтобы вам было проще разобраться и начать применять Toloka Kit, мы подготовили пример. Подробно рассказали, как создать проект с помощью библиотеки, как запустить разметку и получить датасет. Для иллюстрации мы использовали пайплайн, представленный на конференции CVPR 2020. Это решение популярной задачи в области компьютерного зрения — сегментация изображений для обучения алгоритмов, которые помогают беспилотным автомобилям «видеть» дорожные знаки. Код примера написан в Jupyter Notebook.
Пробуйте, пользуйтесь, обращайтесь, если возникнут вопросы или предложения!