Типы алгоритмов классификации (Python)
1 Логистическая регрессия
Определение: Логистическая регрессия — это алгоритм машинного обучения для классификации. В этом алгоритме вероятности, описывающие возможные результаты одного испытания, моделируются с использованием логистической функции.
Преимущества: логистическая регрессия предназначена для этой цели (классификации) и наиболее полезна для понимания влияния нескольких независимых переменных на одну переменную результата.
Недостатки: работает только тогда, когда прогнозируемая переменная является двоичной, предполагает, что все предикторы независимы друг от друга, и предполагает, что данные не содержат пропущенных значений.
==============================
2 Наивный байесовский анализ
Определение: алгоритм наивного Байеса, основанный на теореме Байеса с предположением о независимости между каждой парой признаков. Наивные байесовские классификаторы хорошо работают во многих реальных ситуациях, таких как классификация документов и фильтрация спама.
Преимущества: Этот алгоритм требует небольшого количества обучающих данных для оценки необходимых параметров. Наивные байесовские классификаторы работают очень быстро по сравнению с более сложными методами.
Недостатки: Известно, что наивный байесовский алгоритм является плохой оценкой.
===============================
3 Стохастический градиентный спуск
Определение: Стохастический градиентный спуск — это простой и очень эффективный подход к подбору линейных моделей. Это особенно полезно, когда количество выборок очень велико. Он поддерживает различные функции потерь и штрафы за классификацию.
Достоинства: Эффективность и простота реализации.
Недостатки: требует ряда гиперпараметров и чувствителен к масштабированию функций
================================
4 K-ближайшие соседи
Определение: классификация на основе соседей — это тип ленивого обучения, поскольку он не пытается построить общую внутреннюю модель, а просто сохраняет экземпляры обучающих данных. Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки.
Преимущества: этот алгоритм прост в реализации, устойчив к зашумленным обучающим данным и эффективен, если обучающие данные велики.
Недостатки: необходимо определить значение K, а стоимость вычислений высока, поскольку необходимо вычислить расстояние от каждого экземпляра до всех обучающих выборок.
===============================
5 Дерево решений
Определение: Учитывая данные атрибутов вместе с их классами, дерево решений создает последовательность правил, которые можно использовать для классификации данных.
Преимущества: Дерево решений простое для понимания и визуализации, требует небольшой подготовки данных и может обрабатывать как числовые, так и категориальные данные.
Недостатки: дерево решений может создавать сложные деревья, которые плохо обобщаются, а деревья решений могут быть нестабильными, поскольку небольшие изменения в данных могут привести к созданию совершенно другого дерева.
==============================
6 Случайный лес
Определение. Классификатор случайного леса — это метаоценщик, который соответствует ряду деревьев решений для различных подвыборок наборов данных и использует среднее значение для повышения точности прогнозирования модели и контроля переобучения. Размер подвыборки всегда такой же, как исходный размер входной выборки, но выборки рисуются с заменой.
Преимущества: сокращение переобучения и классификатора случайного леса в большинстве случаев более точны, чем деревья решений. Недостатки: медленный прогноз в реальном времени, сложность реализации и сложный алгоритм.
==============================
7 Машина опорных векторов
Определение: машина опорных векторов представляет собой представление обучающих данных в виде точек в пространстве, разделенных на категории четким промежутком максимально возможного размера. Затем новые примеры сопоставляются с тем же пространством, и их принадлежность к категории определяется в зависимости от того, на какую сторону разрыва они попадают.
Преимущества: эффективен в многомерных пространствах и использует подмножество точек обучения в функции принятия решений, поэтому он также эффективен с точки зрения памяти.
Недостатки: алгоритм не дает оценок вероятности напрямую, они рассчитываются с использованием дорогостоящей пятикратной перекрестной проверки.