Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 21 февр 2022
Что такое дисперсия?
Дисперсия относится к способности модели измерять разброс данных. Высокая дисперсия или переобучение означает, что модель соответствует имеющимся данным, но плохо обобщается для прогнозирования новых данных. Обычно это происходит, когда функция гипотезы слишком сложна и пытается точно подогнать каждую точку данных в наборе обучающих данных, что приводит к множеству ненужных кривых и углов, не связанных с данными.
=======================
Как определить высокую дисперсию?
Модель с высокой дисперсией очень хорошо работает на тренировочном наборе, но плохо на наборе для тестирования или перекрестной проверки. Она не может обобщать и плохо работает с любым набором данных, который она раньше не видела. Следовательно, точность обучения будет высокой, а точность тестирования будет низкой.
========================
Как исправить высокую дисперсию?
Вы можете уменьшить высокую дисперсию, уменьшив количество функций в модели. Существует несколько методов проверки того, какие функции не добавляют ценности модели, а какие важны. Увеличение размера обучающей выборки также может помочь модели обобщить. Уменьшение степени полинома может помочь уменьшить сложность модели и решить проблему высокой дисперсии. Регуляризация — популярный метод, используемый для решения проблемы переобучения (https://medium.com/@aishanair21/the-art-of-regularization-caca8de7614e).
=========================
Как сохранить баланс смещения и дисперсии?
Увеличение смещения может уменьшить дисперсию, тогда как увеличение дисперсии может уменьшить смещение.
Как мы можем достичь идеальной или оптимальной точки для хорошей модели?
=========================
Что такое Смещение?
Смещение относится к ошибочным предположениям модели о данных. Высокое смещение или недостаточное соответствие означает, что модель не может уловить тенденцию или закономерность в данных. Обычно это происходит, когда функция гипотезы слишком проста или имеет очень мало функций.
========================
Как определить высокое смещение?
Она плохо работает на обучающем и тестовом наборах, потому что не может идентифицировать закономерности в данных. Показатели оценки, такие как точность, оценка f1 таких моделей, которые страдают от высокого смещения, очень низки, поскольку разница между прогнозируемыми и фактическими значениями велика.
Как исправить высокое смещение? Мы можем увеличить характеристики или выполнить разработку функций, чтобы добавить к данным более значимые факторы. Это может помочь модели лучше понять данные. Увеличение степени полинома в функции гипотезы также может помочь в борьбе с высоким смещением, поскольку модели с высоким смещением слишком просты, а увеличение степени полинома может увеличить сложность, тем самым уменьшая смещение. Но только до определенного момента вы можете увеличивать сложность, потому что после этого определенного момента ошибка перекрестной проверки начинает увеличиваться. Вы также можете попробовать уменьшить альфа-параметр регуляризации
Как показано на рисунке выше, существует точка, в которой ошибка перекрестной проверки начинает расти из-за увеличения дисперсии и уменьшения смещения. Это точная точка, в которой модель должна прекратить увеличивать свою сложность и использовать все параметры, определенные этой точкой на кривой. Обычно именно здесь кривые смещения и дисперсии пересекаются, создавая точку оптимальной сложности модели. На данный момент модель имеет низкое смещение и низкую дисперсию, что не приводит к недообучению или переобучения модели.