Какие виды или алгоритмы комбинированного обучения существуют?

ПрограммированиеМашинное обучение+2

Анонимный вопросМашинное обучение и Нейронные сети

30 марта 2022 · 2,5 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 31 мар 2022

Если Я правильно понял термин "Комбинированные" , тогда

В статистике и машинном обучении ансамблевые методы используют несколько алгоритмов обучения для получения более высоких прогнозирующих характеристик, чем можно было бы получить с помощью любого из составляющих алгоритмов обучения по отдельности.В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль машинного обучения состоит только из конкретного конечного набора альтернативных моделей, но обычно допускает существование гораздо более гибкой структуры среди этих альтернатив.

=============================

Что такое ансамблевые методы?

=============================

Ансамблевое обучение — это парадигма машинного обучения, в которой несколько моделей (часто называемых «слабыми учениками») обучаются решению одной и той же задачи и объединяются для получения лучших результатов. Основная гипотеза состоит в том, что при правильном сочетании слабых моделей можно получить более точные и/или надежные модели.

====================

Один слабый ученик

====================

В машинном обучении, независимо от того, сталкиваемся ли мы с проблемой классификации или регрессии, выбор модели чрезвычайно важен, чтобы иметь шанс получить хорошие результаты. Этот выбор может зависеть от многих переменных задачи: количества данных, размерности пространства, гипотезы распределения…

Низкое смещение и низкая дисперсия, хотя чаще всего они изменяются в противоположных направлениях, являются двумя наиболее фундаментальными характеристиками, ожидаемыми от модели. Действительно, чтобы иметь возможность «решить» проблему, мы хотим, чтобы наша модель имела достаточно степеней свободы для разрешения лежащей в основе сложности данных, с которыми мы работаем, но мы также хотим, чтобы у нее не было слишком много степеней свободы, чтобы избежать высокой дисперсии и быть более надежным. Это хорошо известный компромисс между смещением и дисперсией.

В теории ансамблевого обучения мы называем модели слабых учеников (или базовые модели), которые можно использовать в качестве строительных блоков для разработки более сложных моделей путем объединения нескольких из них. В большинстве случаев эти базовые модели работают не так хорошо сами по себе либо потому, что они имеют большое смещение (например, модели с низкой степенью свободы), либо потому, что они имеют слишком большую дисперсию, чтобы быть надежными (например, модели с высокой степенью свободы). ). Затем идея ансамблевых методов состоит в том, чтобы попытаться уменьшить предвзятость и/или дисперсию таких слабых учеников, объединив несколько из них вместе, чтобы создать сильного ученика (или модель ансамбля), который достигает лучших результатов.

==========================

Объедините слабых учеников

==========================

Чтобы настроить метод ансамблевого обучения, нам сначала нужно выбрать наши базовые модели для агрегирования. В большинстве случаев (в том числе в хорошо известных методах бэггинга и бустинга) используется единый базовый алгоритм обучения, так что у нас есть однородные слабые ученики, обучаемые по-разному. Полученную ансамблевую модель называют «однородной». Однако существуют также некоторые методы, в которых используются различные типы базовых алгоритмов обучения: некоторые разнородные слабые ученики затем объединяются в «модель разнородных ансамблей».

Одним из важных моментов является то, что наш выбор слабых учеников должен согласовываться с тем, как мы объединяем эти модели. Если мы выбираем базовые модели с низким смещением, но высокой дисперсией, это должен быть метод агрегирования, который имеет тенденцию уменьшать дисперсию, тогда как, если мы выбираем базовые модели с низкой дисперсией, но высоким смещением, это должен быть метод агрегирования, который имеет тенденцию уменьшать систематическую ошибку.

Это подводит нас к вопросу о том, как комбинировать эти модели. Мы можем упомянуть три основных типа мета-алгоритмов, направленных на объединение слабых учеников:

bagging, который часто рассматривает однородных слабых учеников, изучает их независимо друг от друга параллельно и объединяет их в соответствии с каким-то детерминированным процессом усреднения.
boosting, которое часто рассматривает однородных слабых учеников, обучает их последовательно очень адаптивным способом (базовая модель зависит от предыдущих) и объединяет их в соответствии с детерминированной стратегией.
stacking, которое часто рассматривает разнородных слабых учеников, изучает их параллельно и объединяет их путем обучения метамодели для вывода прогноза на основе различных прогнозов слабых моделей.

Грубо говоря, мы можем сказать, что bagging будет в основном направлен на получение модели ансамбля с меньшей дисперсией, чем ее компоненты, тогда как boosting и stacking в основном будут пытаться создать сильные модели, менее предвзятые, чем их компоненты (даже если дисперсию также можно уменьшить).

===========================

В параллельных методах мы подбираем разных обучаемых независимо друг от друга, поэтому их можно обучать одновременно. Самый известный из таких подходов — «бэггинг» (расшифровывается как «самозагрузочное агрегирование»), целью которого является создание ансамблевой модели, более надежной, чем составляющие ее отдельные модели.

================================

Начальная загрузка (bootstrapping)

================================

Начнем с определения начальной загрузки. Этот статистический метод состоит в создании выборок размера B (называемых бутстреп-выборками) из исходного набора данных размера N путем случайного отбора с заменой B наблюдений.

При некоторых предположениях эти выборки обладают довольно хорошими статистическими свойствами: в первом приближении их можно рассматривать как взятые как непосредственно из истинного базового (и часто неизвестного) распределения данных, так и независимо друг от друга. Таким образом, их можно рассматривать как репрезентативные и независимые выборки истинного распределения данных (почти i.i.d выборки). Гипотезы, которые необходимо проверить, чтобы сделать это приближение действительным, двояки. Во-первых, размер исходного набора данных N должен быть достаточно большим, чтобы охватить большую часть сложности основного распределения, чтобы выборка из набора данных была хорошим приближением к выборке из реального распределения (репрезентативность). Во-вторых, размер N набора данных должен быть достаточно большим по сравнению с размером B выборок начальной загрузки, чтобы выборки не были слишком сильно коррелированы (независимость). Обратите внимание, что в дальнейшем мы иногда будем ссылаться на эти свойства (репрезентативность и независимость) бутстреп-выборок: читатель всегда должен помнить, что это только приближение.

Выборки начальной загрузки часто используются, например, для оценки дисперсии или доверительных интервалов статистических оценок. По определению статистическая оценка является функцией некоторых наблюдений и, таким образом, случайной величиной с дисперсией, полученной из этих наблюдений. Чтобы оценить дисперсию такой оценки, нам нужно оценить ее на нескольких независимых выборках, взятых из интересующего распределения. В большинстве случаев рассмотрение действительно независимых выборок потребует слишком много данных по сравнению с реально имеющимся количеством. Затем мы можем использовать бутстрап для создания нескольких бутстреп-выборок, которые можно рассматривать как «почти репрезентативные» и «почти независимые» (почти i.i.d.-выборки). Эти бутстрап-выборки позволят нам аппроксимировать дисперсию оценщика, оценив его значение для каждого из них.

==================

Бэгинг (bagging)

==================

При обучении модели, независимо от того, имеем ли мы дело с классификацией или проблемой регрессии, мы получаем функцию, которая принимает входные данные, возвращает выходные данные и определяется относительно набора обучающих данных. Из-за теоретической дисперсии обучающего набора данных (напомним, что набор данных — это наблюдаемая выборка, полученная из истинного неизвестного базового распределения), подобранная модель также подвержена изменчивости: если бы наблюдался другой набор данных, мы получили бы другое значение модель.

Тогда идея бэггинга проста: мы хотим подобрать несколько независимых моделей и «усреднить» их прогнозы, чтобы получить модель с более низкой дисперсией. Однако на практике мы не можем подобрать полностью независимые модели, потому что для этого потребуется слишком много данных. Таким образом, мы полагаемся на хорошие «приближенные свойства» бутстреп-выборок (репрезентативность и независимость), чтобы подобрать почти независимые модели.

Во-первых, мы создаем несколько образцов начальной загрузки, чтобы каждый новый образец начальной загрузки действовал как еще один (почти) независимый набор данных, взятый из истинного распределения. Затем мы можем подобрать слабого ученика для каждой из этих выборок и, наконец, агрегировать их так, чтобы мы как бы «усреднили» их результаты и, таким образом, получили модель ансамбля с меньшей дисперсией, чем ее компоненты. Грубо говоря, поскольку образцы начальной загрузки приблизительно независимы и одинаково распределены , то же самое можно сказать и о изученных базовых моделях. Затем «усреднение» результатов слабых учеников не меняет ожидаемый ответ, но уменьшает его дисперсию (точно так же, как усреднение случайных величин сохраняет ожидаемое значение, но уменьшает дисперсию).

Существует несколько возможных способов агрегирования нескольких моделей, подогнанных параллельно. Для задачи регрессии выходные данные отдельных моделей можно буквально усреднить, чтобы получить выходные данные ансамблевой модели. Для задачи классификации класс, выдаваемый каждой моделью, можно рассматривать как голос, а класс, получивший большинство голосов, возвращается моделью ансамбля (это называется жестким голосованием). Тем не менее, для проблемы классификации мы также можем рассмотреть вероятности каждого класса, возвращаемые всеми моделями, усреднить эти вероятности и сохранить класс с наибольшей средней вероятностью (это называется мягким голосованием). Средние значения или голоса могут быть либо простыми, либо взвешенными, если можно использовать какие-либо соответствующие веса.Наконец, мы можем упомянуть, что одним из больших преимуществ бэггинга является то, что его можно распараллелить. Поскольку разные модели подгоняются независимо друг от друга, при необходимости можно использовать интенсивные методы распараллеливания.

Далее смотри https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205