Почему в модели LSTM присутствуют функции активации как сигмоид, так и Tanh?

ПрограммированиеМашинное обучение+3

Анонимный вопросМашинное обучение и Нейронные сети

4 февраля 2022 · 615

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 4 февр 2022

В частности, сигмоид используется в качестве функции стробирования для 3-ех ворот (вход, выход, забвение) в lstm, поскольку он выводит значение от 0 до 1, он может либо не допускать потока, либо завершать поток информации через ворота.

==================

Решение проблемы исчезающего градиента для lstm отличается от решения для глубокой сети с прямой связью. В lstm проблема решается сетевой структурой lstm, в частности, различными шлюзами и ячейкой памяти.

==================

Для глубоких сетей с прямой связью проблема исчезающего градиента решается с помощью другой функции активации, выпрямленных линейных единиц. Эти единицы лучше справляются с общей проблемой насыщения активации, которая возникает при использовании Sigmoid или tanh в глубоких сетях, что делает градиент фона практически нулевым, когда насыщается прямой проход.

==================

Единицы «relu» не имеют этой проблемы, а также менее сложны в вычислительном отношении (нет экспоненциальных функций, таких как Sigmoid или tanh), и поэтому вычисляются несколько быстрее.

Источник https://www.quora.com/Why-using-sigmoid-and-tanh-as-the-activation-functions-in-LSTM-or-RNN-is-not-problematic-but-this-is-not-the-case-in-other-neural-nets