Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

В каких случаях в машинном обучении нужно делать нормализацию данных?

ПрограммированиеМашинное обучение+3
  · 698
Программирование. Машинное обучение.  · 27 окт 2021
Модели, которые требуют расчета расстояний между объектами очень чувствительны к масштабу признаков. Это например KNN, k-Means и другие. Дело в том, что признак с большим разбросом будет вносить больший вес в расчеты.
В алгоритмах применяется метод градиентного спуска, когда на каждом шаге рассчитывается производная - вектор (анти-) движения к минимуму функции потерь (погрешностей). Если данные приведены к норме схождение происходит лучше (картинка справа)
Поэтому надо проводить нормализацию. Ниже скрин Pipeline из учебного проекта , где указаны все стадии преобразования данных.
StandardScaler - Это и есть процедура нормализации.
А вот деревья не чувствительны к масштабу.
1 эксперт согласен
кандидат физико-математических наук, математик, исследователь, data scientist, предпринима...  · 28 окт 2021  · novikovlabs.ru
Я настаиваю, что процедуру правильно называть нормировкой. "Нормализация" массово вводит в заблуждение людей, мол, после нормализации данные будут нормально распределены, а это совсем не обязательно так (только если они и были нормально распределены и до процедуры). После нормировки они будут, разумеется, нормированы. А ответ на вопрос - в целом, во всех. Иначе может... Читать далее
По моему опыту, в "деревянных" алгоритмах, обычно, нормировка не дает никаких приростов метрик.