В каких задачах и при использовании каких алгоритмов возникает «проблема мультиколлинеарности»?

ПрограммированиеМашинное обучение+2

Анонимный вопросМашинное обучение и Нейронные сети

10 июня 2022 · 1,1 K

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 10 июн 2022

Ответ частичный - при использовании каких алгоритмов возникает «проблема мультиколлинеарности»?

Мультиколлинеарность - два признака называются мультиколлинеарными, если два признака сильно коррелированы/зависимы. Изменения в одном признаке влекут за собой изменения в другом признаке.

Мультиколлинеарность влияет на алгоритмы линейной регрессии, логистической регрессии, KNN и Наивного Байеса.

======================

Линейная регрессия - из-за мультиколлинеарности линейная регрессия дает неверные результаты, и производительность модели снижается.

Это может уменьшить общий коэффициент, а также значение p (известное как значение значимости) и вызвать непредсказуемую дисперсию. Это приведет к переобучению, когда модель может отлично работать на известном тренировочном наборе, но потерпит неудачу на неизвестном наборе тестов. Поскольку это приводит к более высокой стандартной ошибке с более низким значением статистической значимости, мультиколлинеарность затрудняет определение того, насколько важен признак для целевой переменной. А при более низком значении значимости невозможно отклонить нулевое значение и приведет к ошибке второго рода для проверки нашей гипотезы.

=======================

Логистическая регрессия. Логистическая регрессия — это обобщенная линейная модель регрессии, на которую также влияет мультиколлинеарность.

=======================

KNN - из-за мультиколлинеарности точки становятся очень близкими, дают неверные результаты, и это влияет на производительность.

=======================

Наивный байесовский подход — основное предположение NB состоит в том, что признаки независимы. если функции коррелированы, предположение будет ошибочным.

=======================

На мой взляд, попытка решать любую задачу в предметной области указанными методами создает потенциальную угрозу мультиколлинеарности.