В частности, сигмоид используется в качестве функции стробирования для 3-ех ворот (вход, выход, забвение) в lstm, поскольку он выводит значение от 0 до 1, он может либо не допускать потока, либо завершать поток информации через ворота.
==================
Решение проблемы исчезающего градиента для lstm отличается от решения для глубокой сети с прямой связью. В lstm проблема решается сетевой структурой lstm, в частности, различными шлюзами и ячейкой памяти.
==================
Для глубоких сетей с прямой связью проблема исчезающего градиента решается с помощью другой функции активации, выпрямленных линейных единиц. Эти единицы лучше справляются с общей проблемой насыщения активации, которая возникает при использовании Sigmoid или tanh в глубоких сетях, что делает градиент фона практически нулевым, когда насыщается прямой проход.
==================
Единицы «relu» не имеют этой проблемы, а также менее сложны в вычислительном отношении (нет экспоненциальных функций, таких как Sigmoid или tanh), и поэтому вычисляются несколько быстрее.