Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Приведите несколько примеров «лучших практик» в data science?

ПрограммированиеData science+2
Анонимный вопрос
Data Science
  · 3,1 K
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 7 дек 2021
  1. Понять бизнес-требования
Распространенное заблуждение о специалистах по обработке данных состоит в том, что они просто собирают данные, запускают модели и затем производят результаты. Пока они делают все это, самая важная часть работы - сначала установить и понять вариант использования для конкретной модели. Проще говоря, какую бизнес-проблему необходимо решить? Для специалистов по данным этот процесс сводится к преобразованию бизнес-задачи в математическую. Но для этого они должны хорошо понимать болевые точки бизнеса или клиента, поскольку от этого будут зависеть наборы данных, используемые для построения моделей. Специалисты по обработке данных могут понять бизнес-проблему только в том случае, если полностью понимают рынок, на котором работает бизнес. Специалисты по обработке данных также должны тесно сотрудничать с бизнес-группами, такими как менеджеры по продуктам, чтобы точно понимать, как клиент видит свою проблему.
===================
  1. Эффективное общение
Общение с бизнес-командой - важная передовая практика проекта в области науки о данных, но здесь есть свои трудности. Специалисты по обработке данных обычно имеют более технический опыт, чем менеджеры по продуктам, поэтому эффективное сообщение сложных математических решений, то есть таким образом, чтобы их можно было понять и передать клиентам, представляет собой проблему. Они не могут просто указать на набор формул и сказать: «Они соответствуют требованиям заказчика, поэтому мы готовы приступить к работе».
Правильное представление того, как модель может решить бизнес-проблему, - это мягкий навык, который следует развивать специалистам по данным. Поступая таким образом, бизнес-команда может помочь задать правильные вопросы, которые позволят специалистам по обработке данных определять правильные наборы данных для моделей.«Нам нужен эффективный способ сделать X» - это упрощенная, но типичная отправная точка для любого проекта данных. Но есть понимание, что «X» никогда не определяется четко. Это когда специалисты по обработке данных работают с бизнес-группами, чтобы устранить двусмысленность и уточнить вариант использования.Никогда не недооценивайте силу «Почему?» Иногда бывает так, что спрос клиента не решает проблему. Специалист по анализу данных может не иметь доступных наборов данных для достижения наилучшей модели, поэтому может потребоваться альтернативный и работоспособный ответ. В этом случае очень важно адаптировать цель к возможному, и, опять же, требуется эффективное взаимодействие с бизнес-командой, чтобы технические ограничения могли быть доведены до сведения клиента.
===================
  1. Избегайте ненужных вещей.
Специалисты по обработке данных сталкиваются со многими внутренними ограничениями, когда дело доходит до получения информации, необходимой для моделей, от получения необходимых разрешений на доступ к определенным наборам данных и нормативных вопросов, связанных с конфиденциальными данными, до разрозненных местоположений и форматов требуемых данных. Собрав эту информацию в одном месте, они манипулируют данными, чтобы определить особенности, которые станут входными данными для моделей.Этот процесс может занять до 90% времени специалиста по обработке данных, поскольку ему необходимо очистить данные, найти аномалии и отсутствующие значения и объединить наборы данных. Часто инструменты и алгоритмы, необходимые для создания определенного варианта использования, уже существуют через библиотеки с открытым исходным кодом, такие как Python, Tensorflow и PyTorch. Вот почему разработка функций, комплексная проверка и обработка данных являются наиболее трудоемкими частями работы. Процесс разработки функций, конечно же, основан на их знании бизнес-проблемы, поэтому первый шаг - понимание бизнес-требований - является жизненно важным передовым опытом проекта в области науки о данных. Качество данных, которые специалисты по обработке данных вводят в алгоритм, в конечном итоге определяет успех проекта в области науки о данных, а качество определяется точностью самих данных, а также их соответствием требованиям бизнеса. Специалисты по обработке данных осознают, что дефицит данных и неточные данные являются нормой, когда они приступают к проекту. Даже когда речь идет о данных, записанных с помощью передовых инструментов мониторинга, фундаментальный принцип физики состоит в том, что измерения никогда не бывают точными на 100%, и это также необходимо учитывать. Каждая модель в чем-то «неправильна», но модели позволяют командам специалистов по анализу данных достаточно близко найти ответы на бизнес-проблемы, чтобы можно было принимать эффективные решения на основе данных. В какой-то момент специалисты по обработке данных должны решить, что у них достаточно данных, чтобы создать работоспособную модель. Но данные работают как валюта - вы максимально приближаетесь к тому, что хотите, используя то, что у вас есть.
=================
  1. Итерируйте и приспосабливайтесь к изменениям
Характерной чертой проектов, основанных на данных, является то, что они не могут быть созданы для постоянного использования. Может произойти изменение бизнес-приоритетов, что потребует от специалиста по обработке данных перестроить модель.Недавний пример - изменение поведения организаций и клиентов после пандемии COVID-19. Статистические модели, которые решали определенные проблемы до кризиса, были либо перестроены, либо скорректированы с учетом новой реальности. По мере того, как организации продолжают адаптироваться к кризису, им необходимо перестраивать свои модели. Решение о том, когда это произойдет, определяется их работой, за которой необходимо внимательно следить.Мониторинг эффективности алгоритма требует установки пороговых значений производительности, что довольно просто. Как только производительность упадет ниже установленного порога, т. Е. Минимума, необходимого для получения действенной информации, наступит время для новой итерации. С точки зрения бизнеса, это ключ к предложению монетизируемых данных, поскольку изменение требований к данным требует новых моделей. Чтобы создавать новые модели, специалисты по обработке данных должны, опять же, понимать новые бизнес-требования - и, таким образом, цикл начинается снова.
1 эксперт согласен
Полезные советы.