Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Каковы преимущества пакетной нормализации?

ПрограммированиеМашинное обучение+3
  · 925
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 11 февр 2022
Стандартизация активаций предыдущего уровня означает, что предположения последующего уровня о разбросе и распределении входных данных во время обновления весов не изменятся, по крайней мере, не сильно. Это приводит к стабилизации и ускорению процесса обучения глубоких нейронных сетей.
================
1.Пакетная нормализация действует для стандартизации только среднего значения и дисперсии каждой единицы, чтобы стабилизировать обучение, но позволяет изменять отношения между единицами и нелинейную статистику отдельной единицы.
===============
Нормализация входных данных слоя влияет на обучение модели, резко сокращая количество необходимых эпох. Это также может иметь эффект регуляризации, уменьшая ошибку обобщения, как и использование регуляризации активации.
===============
2.Пакетная нормализация может существенно повлиять на производительность оптимизации, особенно для сверточных сетей и сетей с сигмоидальной нелинейностью.
==============
Хотя сокращение «внутреннего ковариатного сдвига» было мотивацией при разработке метода, есть некоторые предположения, что вместо этого эффективна пакетная нормализация, поскольку она сглаживает и, в свою очередь, упрощает функцию оптимизации, которая решается при обучении сети.
===============
3.BatchNorm фундаментальным образом влияет на обучение сети: он делает ландшафт соответствующей задачи оптимизации более гладким. Это гарантирует, в частности, что градиенты являются более предсказуемыми и, таким образом, позволяют использовать более широкий диапазон скоростей обучения и более быструю конвергенцию сети.
===============
Дарио Амодеи из Baidu в своей статье 2016 года под названием «Глубокая речь 2: сквозное распознавание речи на английском и китайском языках» использует вариант рекуррентных нейронных сетей пакетной нормализации в своей сквозной глубокой модели для распознавания речи.
===============
4.Мы обнаружили, что применительно к очень глубоким сетям RNN на больших наборах данных вариант BatchNorm, который мы используем, существенно улучшает окончательную ошибку обобщения в дополнение к ускорению обучения.
===============
Использование с различными типами сетей
Пакетная нормализация — это общий метод, который можно использовать для нормализации входных данных слоя. Его можно использовать с большинством типов сетей, таких как многослойные персептроны, сверточные нейронные сети и рекуррентные нейронные сети.
Возможно использовать перед активацией.Пакетная нормализация может использоваться на входах уровня до или после функции активации на предыдущем уровне. Это может быть более подходящим после функции активации, если для s-образных функций, таких как гиперболический тангенс и логистическая функция. Это может быть уместно перед функцией активации для активаций, которые могут привести к негауссовым распределениям, таким как выпрямленная линейная функция активации, современная по умолчанию для большинства типов сетей.
=================
5.Целью пакетной нормализации является достижение стабильного распределения значений активации во время обучения, и в наших экспериментах мы применяем ее перед нелинейностью, поскольку именно здесь сопоставление первого и второго моментов с большей вероятностью приведет к стабильному распределению