Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

При обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох, в чем может быть причина?

ПрограммированиеМашинное обучение+2
  · 4,3 K
Недостаточно информации для того, чтобы дать ответ ...
По смыслу фразы могу предположить, что:
I. В первые несколько эпох loss function не уменьшалась(фактически не происходило обучения), но в дальнейшем модель обучилась и достигла приемлемой точности. Причин тому может быть много, поэтому напишу первые три, наиболее вероятные с моей точки зрения -->
1) Входные данные не нормализованы, поэтому работу градиента (сходимость функции) можно представить в таком виде (левый график - долгий поиск глобального экстремума):
К первой категории причин отнесу также:
  • несбалансированность входных данных, т.е. например когда Z = f(x,y) / в обычном случае входных аргументов значительно больше, чем два/ и на тысячу значений "х" приходится одно значение "у";
  • слишком много "шума" в датасете;
Так или иначе - проблема во входных данных.
2) Проблема с первоначальной инициализацией весов/смещений и выбором других гиперпараметров. Плохая инициализация может сразу загнать в локальный минимум/плато, а выбранный алгоритм оптимизации, будет долго из него выбираться. Например малая скорость обучения приведет к тому, что первые эпохи обучения прогресс практически не будет виден.
3) Возможно архитектура/размер(глубина) конкретной сети не очень хорошо подходит для решения той задачи, которую вы пытаетесь этой моделью решить. Измените модель.
Вообще фраза -"При обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох" - ни о чем не говорит, это вообще нормальная ситуация.
II. В первые несколько эпох loss function не уменьшалась и так не уменьшилась = "ничего не работает"
Решение подобной ситуации оставлю на Ваше усмотрение ))
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 19 февр 2022
Убедитесь, что ваш код не содержит ошибок Среди писателей есть поговорка: «Все, что написано, — это переписывание», то есть большая часть написанного — это переделка. Для программистов (или, по крайней мере, специалистов по данным) это выражение можно было бы перефразировать как «Все кодирование — это отладка». Каждый раз, когда вы пишете код, вам нужно убедиться, что... Читать далее