Что такое смещение и дисперсия, и каковы их отношения в моделировании данных?

ПрограммированиеData science+3

Анонимный вопросData Science

4 февраля 2022 · 1,5 K

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 5 февр 2022

В контролируемом машинном обучении алгоритм изучает модель из обучающих данных.

===============

Целью любого алгоритма машинного обучения с учителем является наилучшая оценка функции отображения (f) для выходной переменной (Y) с учетом входных данных (X). Функцию отображения часто называют целевой функцией, потому что это функция, которую стремится аппроксимировать данный алгоритм машинного обучения с учителем.

Ошибку прогнозирования для любого алгоритма машинного обучения можно разбить на три части:

Ошибка смещения

Ошибка отклонения

Неустранимая ошибка

Неустранимая ошибка не может быть уменьшена независимо от того, какой алгоритм используется. Это ошибка, вызванная выбранной формулировкой проблемы, которая может быть вызвана такими факторами, как неизвестные переменные, которые влияют на отображение входных переменных в выходную переменную.

Мы сосредоточимся на двух частях, на которые можно повлиять с помощью алгоритмов машинного обучения.

=================

Ошибка смещения и ошибка дисперсии

================

Ошибка смещения

Смещение — это упрощающие предположения, сделанные моделью для облегчения изучения целевой функции. Как правило, линейные алгоритмы имеют большое смещение, что делает их быстрыми в изучении и более простыми для понимания, но, как правило, менее гибкими. В свою очередь, они имеют более низкую прогностическую эффективность в отношении сложных проблем, которые не соответствуют упрощающим предположениям о предвзятости алгоритмов. Низкое смещение: Предлагает меньше предположений о форме целевой функции. High-Bias: Предлагает больше предположений о форме целевой функции.

Примеры алгоритмов машинного обучения с низким смещением включают: деревья решений, k-ближайших соседей и машины опорных векторов.
Примеры алгоритмов машинного обучения с высоким смещением включают: линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.

===============

Ошибка отклонения

Дисперсия — это величина, на которую изменится оценка целевой функции, если использовались другие обучающие данные.

Целевая функция оценивается по обучающим данным с помощью алгоритма машинного обучения, поэтому следует ожидать, что алгоритм будет иметь некоторую дисперсию. В идеале он не должен слишком сильно меняться от одного обучающего набора данных к другому, а это означает, что алгоритм хорошо выявляет скрытое базовое сопоставление между входными и выходными переменными.

================

Алгоритмы машинного обучения с высокой дисперсией сильно зависят от специфики обучающих данных. Это означает, что специфика обучения оказывает влияние на количество и типы параметров, используемых для характеристики функции отображения.

Низкая дисперсия: предлагает небольшие изменения в оценке целевой функции с изменениями в наборе обучающих данных.

Высокая дисперсия: предлагает большие изменения в оценке целевой функции с изменениями в наборе обучающих данных.

Как правило, нелинейные алгоритмы машинного обучения, обладающие большой гибкостью, имеют высокую дисперсию. Например, деревья решений имеют высокую дисперсию, которая даже выше, если деревья не обрезаются перед использованием.

===============

Примеры алгоритмов машинного обучения с низкой дисперсией включают: линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.

Примеры алгоритмов машинного обучения с высокой дисперсией включают: деревья решений, k-ближайших соседей и машины опорных векторов.

===============

Компромисс смещения и дисперсии

Целью любого контролируемого алгоритма машинного обучения является достижение низкого смещения и низкой дисперсии. В свою очередь, алгоритм должен обеспечивать хорошую производительность прогнозирования. Вы можете увидеть общую тенденцию в приведенных выше примерах:

Алгоритмы линейного машинного обучения часто имеют высокое смещение, но низкую дисперсию.

Алгоритмы нелинейного машинного обучения часто имеют небольшое смещение, но высокую дисперсию.

=============

Параметризация алгоритмов машинного обучения часто представляет собой борьбу за балансировку смещения и дисперсии.

=============

Ниже приведены два примера настройки компромисса смещения и дисперсии для конкретных алгоритмов:

Алгоритм k-ближайших соседей имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив значение k, что увеличивает количество соседей, которые вносят вклад в прогноз, и, в свою очередь, увеличивает смещение модели.

============

Алгоритм машины опорных векторов имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив параметр "C", который влияет на количество нарушений допустимого поля в обучающих данных, что увеличивает смещение, но уменьшает дисперсию. Обучение SVM представляет собой баланс двух терминов. "C" - относительная важность члена потерь по отношению к члену регуляризации.

=============

В машинном обучении невозможно избежать взаимосвязи между предвзятостью и дисперсией.

=============

Увеличение смещения уменьшит дисперсию.

Увеличение дисперсии уменьшит смещение.

Существует компромисс между этими двумя проблемами, и алгоритмы, которые вы выбираете, и способ их настройки находят разные балансы в этом компромиссе для вашей проблемы.На самом деле мы не можем рассчитать реальные условия ошибки смещения и дисперсии, потому что мы не знаем фактическую лежащую в основе целевую функцию. Тем не менее, в качестве основы предвзятость и дисперсия предоставляют инструменты для понимания поведения алгоритмов машинного обучения в стремлении к прогностической эффективности.

Источник https://machinelearningmastery.com/gentle-introduction-to-the-bias-variance-trade-off-in-machine-learning