Каковы общие алгоритмы классификации?

Машинное обучениеКоды+2

Анонимный вопросМашинное обучение и Нейронные сети

8 февраля 2022 · 1,7 K

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 8 февр 2022

Типы алгоритмов классификации (Python)

1 Логистическая регрессия

Определение: Логистическая регрессия — это алгоритм машинного обучения для классификации. В этом алгоритме вероятности, описывающие возможные результаты одного испытания, моделируются с использованием логистической функции.

Преимущества: логистическая регрессия предназначена для этой цели (классификации) и наиболее полезна для понимания влияния нескольких независимых переменных на одну переменную результата.

Недостатки: работает только тогда, когда прогнозируемая переменная является двоичной, предполагает, что все предикторы независимы друг от друга, и предполагает, что данные не содержат пропущенных значений.

==============================

2 Наивный байесовский анализ

Определение: алгоритм наивного Байеса, основанный на теореме Байеса с предположением о независимости между каждой парой признаков. Наивные байесовские классификаторы хорошо работают во многих реальных ситуациях, таких как классификация документов и фильтрация спама.

Преимущества: Этот алгоритм требует небольшого количества обучающих данных для оценки необходимых параметров. Наивные байесовские классификаторы работают очень быстро по сравнению с более сложными методами.

Недостатки: Известно, что наивный байесовский алгоритм является плохой оценкой.

===============================

3 Стохастический градиентный спуск

Определение: Стохастический градиентный спуск — это простой и очень эффективный подход к подбору линейных моделей. Это особенно полезно, когда количество выборок очень велико. Он поддерживает различные функции потерь и штрафы за классификацию.

Достоинства: Эффективность и простота реализации.

Недостатки: требует ряда гиперпараметров и чувствителен к масштабированию функций

================================

4 K-ближайшие соседи

Определение: классификация на основе соседей — это тип ленивого обучения, поскольку он не пытается построить общую внутреннюю модель, а просто сохраняет экземпляры обучающих данных. Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки.

Преимущества: этот алгоритм прост в реализации, устойчив к зашумленным обучающим данным и эффективен, если обучающие данные велики.

Недостатки: необходимо определить значение K, а стоимость вычислений высока, поскольку необходимо вычислить расстояние от каждого экземпляра до всех обучающих выборок.

===============================

5 Дерево решений

Определение: Учитывая данные атрибутов вместе с их классами, дерево решений создает последовательность правил, которые можно использовать для классификации данных.

Преимущества: Дерево решений простое для понимания и визуализации, требует небольшой подготовки данных и может обрабатывать как числовые, так и категориальные данные.

Недостатки: дерево решений может создавать сложные деревья, которые плохо обобщаются, а деревья решений могут быть нестабильными, поскольку небольшие изменения в данных могут привести к созданию совершенно другого дерева.

==============================

6 Случайный лес

Определение. Классификатор случайного леса — это метаоценщик, который соответствует ряду деревьев решений для различных подвыборок наборов данных и использует среднее значение для повышения точности прогнозирования модели и контроля переобучения. Размер подвыборки всегда такой же, как исходный размер входной выборки, но выборки рисуются с заменой.

Преимущества: сокращение переобучения и классификатора случайного леса в большинстве случаев более точны, чем деревья решений. Недостатки: медленный прогноз в реальном времени, сложность реализации и сложный алгоритм.

==============================

7 Машина опорных векторов

Определение: машина опорных векторов представляет собой представление обучающих данных в виде точек в пространстве, разделенных на категории четким промежутком максимально возможного размера. Затем новые примеры сопоставляются с тем же пространством, и их принадлежность к категории определяется в зависимости от того, на какую сторону разрыва они попадают.

Преимущества: эффективен в многомерных пространствах и использует подмножество точек обучения в функции принятия решений, поэтому он также эффективен с точки зрения памяти.

Недостатки: алгоритм не дает оценок вероятности напрямую, они рассчитываются с использованием дорогостоящей пятикратной перекрестной проверки.

Источник https://analyticsindiamag.com/7-types-classification-algorithms/