Дмитрий, добрый день!
-
На самом деле я бы не стал говорить о перспективности конретной лбласти, т.к. ответом на вопрос будет - пока нет (очень хорошая статья на эту тему).
Почему:
1) DRL работает с мелкими сетями
2) DRL не имеет проработанную архитектуру сети (как, к примеру, LSTM)
3) DRL не может успешно решать задачи оптимизации (во всяком случае, сейчас)
НО:
Если мы рассматриваем комбинацию методов, одним из которых является объект Вашего вопроса, то ответ - очень перспективна в рамках некоторых задач.
Пример использования DRL в комбинациях:
1) Создания собственной DQN, для тренировки агента, который обучается разумному поведению на основе необработанных сенсорных данных
2) Внедрение методы типа policy-gradient