Как и зачем управлять данными о клиентах для Machine Learning

Всем привет. С вами Людмила — маркетолог компании Altcraft.

Рада вам сообщить, что у нас появился Telegram-канал. Там вы найдёте самые интересные тренды и новости в сфере маркетинга и технологий. Подписывайтесь и будьте в теме :)

Сегодня расскажем про цепочку поставок данных в машинном обучении.

Цепочка поставки данных — это сбор, обработка и преобразование данных в основу, которую алгоритмы машинного обучения берут для прогнозов и решений. Точность моделей ML зависит от качества и количества данных в цепочке.

Шаг 1: Сбор

На первом шаге информация собирается из разных источников: баз данных, датчиков, платформ, соцсетей и других. Нужна релевантная и надёжная информация со сценариями и проблемами, которые решают модели ML.

Подготовка данных о клиентах для проектов машинного обучения — не всегда простая задача. Особенно с разрозненными источниками информации вне и внутри организации. Для точности выберите данные, которые с большей вероятностью доведут до цели — предсказания для решения бизнес-задачи. Это не просто возможность реагировать на брошенные корзины или выдавать рекомендации, не сбор последней информации и её усреднение, а предсказание будущего.

Для брендов входные данные включают сведения о веб-активности, покупках и взаимодействии со службой поддержки, поведении пользователей в мобильных приложениях.

Сценарии, в которых информацию не так просто получить, дополняют слоем информации (Data Layer) из слоя хоста (Hosted Data Layer). Статические данные работают как дополнение динамического слоя данных на странице сайта, где информацию собирают в режиме real-time.

Также с учётом новых правил (GDPR и других) компании должны получать согласие на использование персональных данных. Убедитесь, что информация для машинного обучения собирается правильно и законно.

Шаг 2: Стандартизация и нормализация

После сбора данные стандартизируют и преобразовывают в формат, который умеют обрабатывать алгоритмы машинного обучения. Приводят к единообразию независимо от источника или типа. Удаляются дубликаты, неактуальные сведения, заполняют недостающие значения. Данные преобразуют в стандартный формат: CSV или JSON, который умеют обрабатывать алгоритмы машинного обучения.

Для точных результатов алгоритмам машинного обучения нужна последовательная и единообразная информация. Иначе появляются ошибки или смещение в моделях. Например, если данные содержат недостающие значения или несовместимые форматы, алгоритмы ML выдадут неточные или ненадёжные прогнозы.

На этап очистки и нормализации «грязных» данных у дата сайентистов уходят десятки часов. Даже приходится принимать решения по неполной и некорректной информации, которую исследователи не всегда понимают.

Специальные расширения на стороне клиента манипулируют данными и стандартизируют в источнике информацию, которая не подходят для ML. Правильно делать это в браузере клиента по мере поступления сведений со стороны сервера.

Спецификации событий — проверка качества входящих наборов данных в real-time режиме. Запускается, когда возникают новые события. За минуты тестируется чистота информации и соответствие требованиям ML.

Узнайте подробнее о том, на какие этапы делится процесс машинного обучения и почему так важно качество собранных данных.