Что делает алгоритм усиления классификаторов AdaBoost?

ПрограммированиеМашинное обучение+2

Анонимный вопросМашинное обучение и Нейронные сети

21 декабря 2021 · 784

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 22 дек 2021

Классификатор AdaBoost в Python

В последние годы алгоритмы ускорения приобрели огромную популярность в соревнованиях по науке о данных или машинному обучению. Большинство победителей этих соревнований используют алгоритмы повышения точности для достижения высокой точности. Эти конкурсы по науке о данных предоставляют глобальную платформу для обучения, изучения и поиска решений для различных деловых и государственных проблем. Алгоритмы повышения качества объединяют несколько моделей с низкой (или слабой) точностью для создания моделей высокой (или сильной) точности. Его можно использовать в различных областях, таких как кредитование, страхование, маркетинг и продажи. Алгоритмы повышения, такие как AdaBoost, Gradient Boosting и XGBoost, являются широко используемыми алгоритмами машинного обучения для победы в соревнованиях по науке о данных. В этом руководстве вы познакомитесь с алгоритмом усиления ансамбля AdaBoost, при этом будут рассмотрены следующие темы:

==================

Подход к ансамблевому машинному обучению

Упаковка

Повышение

штабелирование

Классификатор AdaBoost

Как работает алгоритм AdaBoost?

Построение модели на Python

Плюсы и минусы

Вывод

=================

Подход к ансамблевому машинному обучению

Ансамбль - это составная модель, объединяющая ряд низкоэффективных классификаторов с целью создания улучшенного классификатора. Здесь возвращается индивидуальный голос классификатора и окончательная метка прогноза, которая выполняет большинство голосов. Ансамбли предлагают большую точность, чем индивидуальный или базовый классификатор. Методы ансамбля можно распараллеливать, распределяя каждого базового ученика по разным-разным машинам. Наконец, вы можете сказать, что методы ансамблевого обучения - это мета-алгоритмы, которые объединяют несколько методов машинного обучения в единую прогностическую модель для повышения производительности. Методы ансамбля могут уменьшить дисперсию, используя подход суммирования, смещение, используя подход повышения, или улучшить прогнозы, используя подход суммирования.

Бэггинг - это начальная агрегация. Он объединяет нескольких учащихся таким образом, чтобы уменьшить разброс оценок. Например, случайный лес обучает M Дерево решений, вы можете обучить M разных деревьев на разных случайных подмножествах данных и провести голосование для окончательного прогноза. Методы создания ансамблей мешков: Случайный лес и Дополнительные деревья.

Алгоритмы повышения - это набор классификатора с низкой точностью для создания классификатора с высокой точностью. Классификатор с низкой точностью (или слабый классификатор) предлагает точность лучше, чем подбрасывание монеты. Высокоточный классификатор (или сильный классификатор) предлагает частоту ошибок, близкую к 0. Алгоритм повышения может отслеживать модель, не получившую точного прогноза. Алгоритмы повышения менее подвержены проблеме переобучения. Следующие три алгоритма приобрели огромную популярность на соревнованиях по науке о данных.

========================

AdaBoost (адаптивное ускорение)

Повышение градиента дерева

XGBoost

=======================

Наложение (или составное обобщение) - это метод ансамблевого обучения, который объединяет прогнозы нескольких базовых моделей классификации в новый набор данных. Эти новые данные рассматриваются как входные данные для другого классификатора. Этот классификатор использовался для решения этой проблемы. Укладка часто называется смешиванием.

В зависимости от расположения базовых учащихся методы ансамбля можно разделить на две группы: например, в методах параллельного ансамбля базовые учащиеся генерируются параллельно. Случайный лес. В последовательных методах ансамбля базовые учащиеся генерируются последовательно, например, AdaBoost.

В зависимости от типа базовых учащихся методы ансамбля можно разделить на две группы: метод однородного ансамбля использует один и тот же тип базового учащегося на каждой итерации. Метод гетерогенного ансамбля использует разные типы базового учащегося на каждой итерации.

========================

Классификатор AdaBoost

========================

Ada-boost или Adaptive Boosting - это один из классификаторов ансамблевого повышения, предложенный Йоавом Фройндом и Робертом Шапиром в 1996 году. Он объединяет несколько классификаторов для повышения точности классификаторов. AdaBoost - это итеративный ансамблевой метод. Классификатор AdaBoost создает сильный классификатор, комбинируя несколько неэффективных классификаторов, так что вы получите сильный классификатор высокой точности. Основная концепция Adaboost заключается в установке весов классификаторов и обучении выборки данных на каждой итерации, чтобы гарантировать точные предсказания необычных наблюдений. Любой алгоритм машинного обучения может использоваться в качестве базового классификатора, если он принимает веса в обучающем наборе. Adaboost должен соответствовать двум условиям:

Классификатор следует обучать интерактивно на различных взвешенных обучающих примерах.

На каждой итерации он пытается обеспечить отличное соответствие этим примерам за счет минимизации ошибки обучения.

===============================

Как работает алгоритм AdaBoost?

===============================

Он работает в следующих этапах:

Первоначально Adaboost выбирает обучающее подмножество случайным образом. Он итеративно обучает модель машинного обучения AdaBoost, выбирая обучающий набор на основе точного прогноза последнего обучения. Он присваивает более высокий вес ошибочно классифицированным наблюдениям, чтобы в следующей итерации эти наблюдения получили высокую вероятность для классификации.Кроме того, он присваивает вес обученному классификатору на каждой итерации в соответствии с точностью классификатора. Более точный классификатор получит больший вес. Этот процесс повторяется до тех пор, пока полные обучающие данные не будут соответствовать без ошибок или пока не будет достигнуто указанное максимальное количество оценщиков.Чтобы классифицировать, проведите «голосование» по всем созданным вами алгоритмам обучения.

Детально смотри источник https://www.datacamp.com/community/tutorials/adaboost-classifier-python

1 ответ скрыт(Почему?)