Какие алгоритмы должен использовать каждый, кто исследует данные?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

23 мая 2022 · 6,2 K

Представитель хостинг-провайдера Eternalhost. Отвечаю на вопросы про хостинг, виртуальные... · 26 мая 2022

Алгоритм — это набор правил или инструкций, которым следует компьютерная программа для выполнения вычислений или выполнения других функций решения проблем. Поскольку наука о данных занимается извлечением значимой информации для наборов данных, существует множество алгоритмов, доступных для решения этой задачи.

Алгоритмы науки о данных могут помочь в классификации, прогнозировании, анализе, обнаружении значений по умолчанию и т. д. Алгоритмы также составляют основу библиотек машинного обучения, таких как scikit-learn.

Алгоритмы наиболее часто используемые в Data Science

Классификация (Classification) — используется для дискретных целевых переменных. Выходные данные этом алгоритме представлены в виде категорий. Кластеризация, ассоциация и дерево решений — способы обработки входных данных для прогнозирования результата.
Регрессия (Regression) — используется для прогнозирования целевой переменной, а также для измерения взаимосвязи между целевыми переменными, которые по своей природе непрерывны. Это простой метод построения «линии наилучшего соответствия» на графике одной функции или набора функций, скажем, x, и целевой переменной y.
Линейная регрессия (Linear Regression). Линейное уравнение для набора данных с N функциями может быть задано как: y = b0 + b1.x1 + b2.x2 + b3.x3 + …..bn.xn, где b0 — некоторая константа.

Для одномерных данных (y = b0 + b1.x) цель состоит в том, чтобы минимизировать потери или ошибки до наименьшего возможного значения для возвращаемой переменной. Это основное назначение функции затрат. Если вы примете b0 равным нулю и введете разные значения для b1, вы обнаружите, что функция стоимости линейной регрессии имеет выпуклую форму.

Математические инструменты помогают оптимизировать два параметра, b0 и b1, и минимизировать функцию стоимости.

Метод наименьших квадратов / МНК (The least squares method). В приведенном выше примере b1 — это вес x или наклон линии, а b0 — точка пересечения. Далее, все предсказанные значения y лежат на прямой. И метод наименьших квадратов стремится минимизировать расстояние между каждой точкой, скажем (xi, yi), предсказанными значениями.

Чтобы вычислить значение b0, найдите среднее значение всех значений xi и умножьте их на b1. Затем вычтите произведение из среднего значения всех yi. Кроме того, вы можете запустить код на Python для значения b1. Эти значения будут готовы для включения в функцию стоимости, а возвращаемое значение будет сведено к минимуму с учетом потерь и ошибок. Например, для b0 = -34,671 и b1 = 9,102 функция стоимости вернет значение 21,801.

Градиентный спуск (Gradient descent). Когда есть несколько функций, как в случае множественной регрессии, сложные вычисления выполняются с помощью таких методов, как градиентный спуск. Это итеративный алгоритм оптимизации, применяемый для определения локального минимума функции. Процесс начинается с выбора начального значения для b0 и b1 и продолжается до тех пор, пока наклон функции стоимости не станет равным нулю.
Логистическая регрессия (Logistic regression). В то время как прогнозы линейной регрессии являются непрерывными значениями, логистическая регрессия дает дискретные или бинарные прогнозы. Другими словами, результаты на выходе принадлежат двум классам после применения функции преобразования. Например, логистическую регрессию можно использовать, чтобы предсказать, сдал или не сдал учащийся, будет ли дождь или нет. Узнайте больше о логистической регрессии.
Кластеризация методом K-средних (K-means clustering). Итеративный алгоритм, который распределяет похожие точки данных по кластерам. Чтобы сделать то же самое, он вычисляет центроиды k кластеров и группирует данные на основе наименьшего расстояния от центроида. Узнайте больше о кластерном анализе в интеллектуальном анализе данных.
Метод K-ближайших соседей (K-Nearest Neighbors / KNN). Алгоритм KNN просматривает весь набор данных, чтобы найти k ближайших экземпляров, когда требуется результат для нового экземпляра данных. Пользователь указывает значение k, которое будет использоваться.
Анализ основных компонентов (Principal Component Analysis / PCA). Алгоритм PCA уменьшает количество переменных, фиксируя максимальную дисперсию данных в новой системе «основных компонентов». Это упрощает изучение и визуализацию данных.

Просто о настройках и администрировании сайта в нашем блоге.

Перейти на eternalhost.net/blog

1 эксперт согласен