Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Каков принцип работы AdaBoost? Чем он отличается от градиентного бустинга и что из этого лучше?

ПрограммированиеМашинное обучение+2
  · 1,5 K
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 9 февр 2022
Ансамблевое обучение или бустинг стало одним из самых многообещающих подходов к анализу данных в методах машинного обучения. Первоначально метод был предложен как ансамблевые методы, основанные на принципе генерации множественных прогнозов и среднего голосования среди отдельных классификаторов.Ключевые причины успеха алгоритмов статистического повышения:
(i) Способность алгоритмов бустинга включать автоматический выбор переменных и выбор модели в процессе подбора,
(ii) Гибкость в отношении типа эффектов предиктора, которые могут быть включены в окончательную модель и
(iii) Стабильность этих алгоритмов в многомерных данных с несколькими переменными-кандидатами, а не в наблюдениях, в условиях, когда большинство обычных алгоритмов оценки для настроек регрессии терпят крах.
===============
АдаБуст
AdaBoost или Adaptive Boosting — первая модель ансамбля Boosting. Метод автоматически настраивает свои параметры в соответствии с данными на основе фактической производительности в текущей итерации. Это означает, что как веса для повторного взвешивания данных, так и веса для окончательной агрегации повторно вычисляются итеративно.На практике этот метод повышения используется с простыми деревьями классификации или пнями в качестве базовых учеников, что приводит к повышению производительности по сравнению с классификацией по одному дереву или другому одному базовому ученику.
===============
Повышение градиента
Gradient Boost — это надежный алгоритм машинного обучения, состоящий из градиентного спуска и бустинга. Слово «градиент» подразумевает, что у вас может быть две или более производных одной и той же функции. Gradient Boosting состоит из трех основных компонентов: аддитивной модели, функции потерь и слабого ученика.Этот метод дает прямую интерпретацию методов бустинга с точки зрения численной оптимизации в функциональном пространстве и обобщает их, позволяя оптимизировать произвольную функцию потерь.
=================
Сравнение
Функция потери:
Техника бустинга использует различные функции потерь. В случае Adaptive Boosting или AdaBoost он минимизирует экспоненциальную функцию потерь, которая может сделать алгоритм чувствительным к выбросам. С Gradient Boosting можно использовать любую дифференцируемую функцию потерь. Алгоритм Gradient Boosting более устойчив к выбросам, чем AdaBoost.
Гибкость
AdaBoost — это первый разработанный алгоритм повышения с определенной функцией потерь. С другой стороны, Gradient Boosting — это общий алгоритм, который помогает в поиске приближенных решений задачи аддитивного моделирования.
Это делает Gradient Boost более гибким, чем AdaBoost.
=================
Преимущества
AdaBoost минимизирует функцию потерь, связанную с любой ошибкой классификации, и лучше всего подходит для слабых учащихся. Этот метод был в основном разработан для задач бинарной классификации и может использоваться для повышения производительности деревьев решений.
Gradient Boosting используется для решения проблемы дифференцируемой функции потерь. Этот метод можно использовать как для задач классификации, так и для задач регрессии.
Недостатки
В случае Gradient Boosting недостатки существующих слабых учеников можно определить по градиентам, а с AdaBoost — по точкам данных с большим весом.
Подведение итогов
Хотя между двумя методами бустинга есть несколько различий, оба алгоритма следуют одному и тому же пути и имеют схожие исторические корни. Оба алгоритма работают на повышение производительности простого базового ученика, итеративно переключая внимание на проблематичные наблюдения, которые сложно предсказать.
В случае AdaBoost смещение выполняется путем взвешивания наблюдений, которые были неправильно классифицированы ранее, в то время как Gradient Boost идентифицирует сложные наблюдения по большим остаткам, вычисленным в предыдущих итерациях.
1 эксперт согласен
Хороший, полный и качественный ответ.