Насколько сложно было бы изменить существующий алгоритм обучения с подкреплением для многоагентного случая? Знаю, что существуют определенные фреймворки, разработанные специально для MARL (например, MAVA), но трудно сказать, подходит ли существующий алгоритм RL (решение задачи JSSP) для MARL и нуждается ли он в полном переписывании.