Python-разработчик и data scientist в компании KeyHabits. · 4 апр 2022
Коротко. Если целевым параметром обучения модели нейронной сети является минимизация функции потерь, то оптимальным можно считать количество эпох в области выхода на плато кривых обучения и валидации на графике этой функции потерь.
Немного подробнее. У любой модели МО после обучения в общем случае может быть 3 состояния: переобученния (overfitting), оптимальное и недообучения (underfitting).
В качестве наглядной демонстрации переобучения модели рассмотрим график функции потерь при обучении некой нейронной сети. Ось ординат — это значение функции потерь, ось абсцисс — количество эпох при обучении.
Красной стрелкой на графике условно обозначена область после которой модель переходит в состояние переобучения — то есть новые итерации обучения уже не улучшают показатели модели на валидационной выборке, модель начинает "затачиваться" под данные в обучающем датасете. Таким образом оптимальным для модели из примера количеством эпох будет величина от 80 до 100.
В качестве еще одного примера можно рассмотреть ситуацию канонического фиттинга:
На графике выше кривые функции потерь при обучении и валидации практически совпадают и выходят на плато одновременно. Для указанного случая оптимальным будет количество эпох в интервале от 15 до 25.
Выводы. Оптимальное количество эпох — это область между состояниями недообучения и переобучения модели. Определяется это количество эмпирически в контексте конкретной задачи. А определить эту область можно с помощью усредненного графика минимизации функции потерь по результатам нескольких итераций обучения.
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 4 апр 2022
Количество эпох не столь важно. Более важной является ошибка проверки и обучения. Пока он продолжает падать, тренировки должны продолжаться. Например, если ошибка проверки начинает увеличиваться, это может быть признаком переобучения. Вы должны установить максимально возможное количество эпох и прекратить обучение на основе частоты ошибок.
===========================
Ожи... Читать далее