Нейронные сети с глубоким обучением могут быть построены для уменьшения размерности. Популярный подход называется автоэнкодерами. Это включает в себя постановку задачи обучения
с самоконтролем, когда модель должна правильно воспроизводить входные данные. Используется сетевая модель, которая стремится сжать поток данных до уровня узкого места с гораздо меньшими размерами, чем исходные входные данные. Часть модели, предшествующая узкому месту и включающая его, называется кодировщиком, а часть модели, которая считывает выходные данные узкого места и восстанавливает входные данные, называется декодером.
Автокодировщик - это разновидность неконтролируемой нейронной сети, которая используется для уменьшения размерности и обнаружения функций. Точнее, автокодировщик - это нейронная сеть с прямой связью, которая обучена предсказывать сам вход.
После обучения декодер отбрасывается, и выходные данные узкого места используются непосредственно как уменьшенная размерность входных данных. Входные данные, преобразованные этим кодировщиком, затем могут быть переданы в другую модель, не обязательно в модель нейронной сети.
Глубокие автокодеры - эффективная платформа для уменьшения нелинейной размерности. Как только такая сеть построена, самый верхний уровень кодировщика, кодовый уровень hc, может быть введен в контролируемую процедуру классификации. Выходные данные кодировщика представляют собой тип проекции, и, как и другие методы проекции, нет прямой связи с выходом узкого места и исходными входными переменными, что затрудняет их интерпретацию.
Не существует наилучшего метода уменьшения размерности и сопоставления методов с проблемами. Вместо этого лучший подход - использовать систематические контролируемые эксперименты, чтобы выяснить, какие методы уменьшения размерности в сочетании с выбранной вами моделью приводят к наилучшей производительности для вашего набора данных. Обычно методы обучения линейной алгебре и многообразию предполагают, что все входные функции имеют одинаковый масштаб или распределение. Это говорит о том, что перед использованием этих методов рекомендуется либо нормализовать, либо стандартизировать данные, если входные переменные имеют разные масштабы или единицы.