При обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох, в чем может быть причина?

ПрограммированиеМашинное обучение+2

Анонимный вопросМашинное обучение и Нейронные сети

28 января 2022 · 4,3 K

Виктор Гусев

Java developer · 17 февр 2022

Недостаточно информации для того, чтобы дать ответ ...

По смыслу фразы могу предположить, что:

I. В первые несколько эпох loss function не уменьшалась(фактически не происходило обучения), но в дальнейшем модель обучилась и достигла приемлемой точности. Причин тому может быть много, поэтому напишу первые три, наиболее вероятные с моей точки зрения -->

1) Входные данные не нормализованы, поэтому работу градиента (сходимость функции) можно представить в таком виде (левый график - долгий поиск глобального экстремума):

К первой категории причин отнесу также:

несбалансированность входных данных, т.е. например когда Z = f(x,y) / в обычном случае входных аргументов значительно больше, чем два/ и на тысячу значений "х" приходится одно значение "у";
слишком много "шума" в датасете;

Так или иначе - проблема во входных данных.

2) Проблема с первоначальной инициализацией весов/смещений и выбором других гиперпараметров. Плохая инициализация может сразу загнать в локальный минимум/плато, а выбранный алгоритм оптимизации, будет долго из него выбираться. Например малая скорость обучения приведет к тому, что первые эпохи обучения прогресс практически не будет виден.

3) Возможно архитектура/размер(глубина) конкретной сети не очень хорошо подходит для решения той задачи, которую вы пытаетесь этой моделью решить. Измените модель.

Вообще фраза -"При обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох" - ни о чем не говорит, это вообще нормальная ситуация.

II. В первые несколько эпох loss function не уменьшалась и так не уменьшилась = "ничего не работает"

Решение подобной ситуации оставлю на Ваше усмотрение ))

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 19 февр 2022

Убедитесь, что ваш код не содержит ошибок Среди писателей есть поговорка: «Все, что написано, — это переписывание», то есть большая часть написанного — это переделка. Для программистов (или, по крайней мере, специалистов по данным) это выражение можно было бы перефразировать как «Все кодирование — это отладка». Каждый раз, когда вы пишете код, вам нужно убедиться, что... Читать далее

1 ответ скрыт(Почему?)