Сигмовидную и гиперболическую тангенсные функции активации нельзя использовать в сетях со многими слоями из-за проблемы исчезающего градиента. Выпрямленная линейная функция активации решает проблему исчезающего градиента, позволяя моделям быстрее обучаться и работать лучше.
===============================
Есть и проблема с ReLU. Предположим, что большинство входных значений отрицательны или равны 0, ReLU выдает на выходе 0, а нейронная сеть не может выполнить обратное распространение. Это называется проблемой Dying ReLU. Кроме того, ReLU — неограниченная функция, что означает отсутствие максимального значения.
=======================================
Плюсы:
Меньшая временная и пространственная сложность
Избегает проблемы исчезающего градиента.
Минусы:
Представляет проблему мертвого релу.
Не позволяет избежать проблемы взрывающегося градиента.
=======================================
Касаемо Экспоненциальная линейная единица (ELU),Масштабированная экспоненциальная линейная единица (SELU),Софтплюс или SmoothReLU, Функция Swish - смотри
Линк 1