Как расписать градиентный шаг для квадратичной функции потерь и сигмоидной функции активации?

ПрограммированиеМашинное обучение+2

Анонимный вопросМашинное обучение и Нейронные сети

7 июня 2022 · 1,8 K

Java developer · 14 июн 2022

Итак, речь идет о градиентном спуске - как методе нахождения минимального значения функции потерь(loss function).

Что имеется в виду, под понятием "расписать" не очень понятно... какой конкретно код будет написан, чтобы реализовать обучение нейромодели? Это зависит от того, какой язык и фреймворк будет использован.

Реализация кода на Python может выглядеть так:

https://hackernoon.com/gradient-descent-aynk-7cbe95a778da

Простая реализация на TensorFlow займет также несколько строк ( рис.1).

здесь мы создаем нейромодель из 1 нейрона, определяем функцию активации "sigmoid" и среднеквадратичную функцию потерь ().

Важным является определение скорости градиентного спуска (т.е. скорости обучения модели), в данном случае используется стохастический градиентный спуск и скорость обучения уменьшается с каждой эпохой обучения(улучшает сходимость функции, меньше вероятность "проскочить" глобальный минимум), также используется метрика "Mean Absolute Error (MAE)", которая измеряет среднюю сумму абсолютной разницы между фактическим значением (функции) и прогнозируемым значением (предсказанным моделью). Если на протяжении 10 эпох метрика не улучшается, обучение прекращается.