Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Почему ReLu лучше, чем функция Tanh и сигмоида в искусственных нейронных сетях?

ПрограммированиеМашинное обучение+3
  · 1,2 K
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 19 февр 2022
Проблемы с сигмовидными функциями активации
Проблема исчезающих градиентов
Основная проблема с глубокими нейронными сетями заключается в том, что градиент резко уменьшается по мере того, как он распространяется по сети в обратном направлении. Ошибка может быть настолько мала к тому времени, когда она достигает слоев, близких к входным данным модели, что она может иметь очень незначительный эффект. Таким образом, эта проблема называется проблемой «исчезающих градиентов».
===================================
Выпрямленные линейные единицы или ReLU
Сигмовидную и гиперболическую тангенсные функции активации нельзя использовать в сетях со многими слоями из-за проблемы исчезающего градиента.
Выпрямленная линейная функция активации решает проблему исчезающего градиента, позволяя моделям быстрее обучаться и работать лучше. Исправленная линейная активация является активацией по умолчанию при разработке многослойного персептрона и сверточных нейронных сетей.
====================================
Выпрямленные линейные единицы (ReLU)
ReLU — наиболее часто используемая функция активации в нейронных сетях. Математическое уравнение для ReLU:
ReLU(x) = макс(0,x)
Таким образом, если вход отрицательный, выход ReLU равен 0, а для положительных значений это x.
Хотя это выглядит как линейная функция, это не так. ReLU имеет производную функцию и допускает обратное распространение.
===================================
Есть одна проблема с ReLU. Предположим, что большинство входных значений отрицательны или равны 0, ReLU выдает на выходе 0, а нейронная сеть не может выполнить обратное распространение. Это называется проблемой Dying ReLU. Кроме того, ReLU — неограниченная функция, что означает отсутствие максимального значения.
====================================
Плюсы:
Меньшая временная и пространственная сложность
Избегает проблемы исчезающего градиента.
Минусы:
Представляет проблему мертвого релу.
Не позволяет избежать проблемы взрывающегося градиента.