Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Почему в модели LSTM присутствуют функции активации как сигмоид, так и Tanh?

ПрограммированиеМашинное обучение+3
  · 615
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 4 февр 2022
В частности, сигмоид используется в качестве функции стробирования для 3-ех ворот (вход, выход, забвение) в lstm, поскольку он выводит значение от 0 до 1, он может либо не допускать потока, либо завершать поток информации через ворота.
==================
Решение проблемы исчезающего градиента для lstm отличается от решения для глубокой сети с прямой связью. В lstm проблема решается сетевой структурой lstm, в частности, различными шлюзами и ячейкой памяти.
==================
Для глубоких сетей с прямой связью проблема исчезающего градиента решается с помощью другой функции активации, выпрямленных линейных единиц. Эти единицы лучше справляются с общей проблемой насыщения активации, которая возникает при использовании Sigmoid или tanh в глубоких сетях, что делает градиент фона практически нулевым, когда насыщается прямой проход.
==================
Единицы «relu» не имеют этой проблемы, а также менее сложны в вычислительном отношении (нет экспоненциальных функций, таких как Sigmoid или tanh), и поэтому вычисляются несколько быстрее.