Модели, которые требуют расчета расстояний между объектами очень чувствительны к масштабу признаков. Это например KNN, k-Means и другие. Дело в том, что признак с большим разбросом будет вносить больший вес в расчеты.
В алгоритмах применяется метод градиентного спуска, когда на каждом шаге рассчитывается производная - вектор (анти-) движения к минимуму функции потерь (погрешностей). Если данные приведены к норме схождение происходит лучше (картинка справа)
Поэтому надо проводить нормализацию. Ниже скрин Pipeline из учебного проекта , где указаны все стадии преобразования данных.
StandardScaler - Это и есть процедура нормализации.
кандидат физико-математических наук, математик, исследователь, data scientist, предпринима... · 28 окт 2021 · novikovlabs.ru
Я настаиваю, что процедуру правильно называть нормировкой. "Нормализация" массово вводит в заблуждение людей, мол, после нормализации данные будут нормально распределены, а это совсем не обязательно так (только если они и были нормально распределены и до процедуры). После нормировки они будут, разумеется, нормированы.
А ответ на вопрос - в целом, во всех. Иначе может... Читать далее