Хороший вопрос)
Мы решили детально разобраться, какие методы использовались для её создания и написали статью в нашем блоге.
Раньше подобные фотореалистичные изображения генерировались путём «сшивания» между собой фрагментов из готовой базы данных с фотографиями. Современные же алгоритмы на основе нейросетей изучают непосредственно отображения — связи между исходными и целевыми данными. Они, как правило, работают гораздо быстрее и не используют внешние наборы данных.
Механизм, реализованный NVIDIA — это преобразование маски, состоящей из нескольких различных по содержанию сегментов, в фотореалистичный снимок. Они назвали его «синтез семантического образа». Традиционные сетевые архитектуры обычно используют несколько алгоритмов для различных слоёв, но имеют тенденцию «вымывать» информацию из входной маски. Чтобы решить эту проблему, разработчики использовали специальный пространственно-адаптивный слой, который может эффективно распространять семантическую информацию по всей сети. С его помощью компактная сеть синтезирует гораздо лучшие результаты, чем другие современные методы.
Подробнее: https://regru.link/0arf46u