Перекопал пол-интернета и не нашел то, что искал. Вроде есть WaveNet, но эта нейронка вроде как способна только генерировать звук и есть ещё какая-то нейронка отделяющая вокал от музыки, но это не совсем то что я искал.
Для текста и аудио нужно использовать рекуррентный нейронные сети. Можно сеть научить говорить от имени любого человека. В интернете есть ролик, где диктор читает текст, а на видео его воспроизводит Абама (бывший американский президент)