Уже есть программы для синтеза не просто речи, а пения. Это вокалоид. Но программа платная.
Есть её бесплатный аналог UTAU, и openutau. Они работают с голосовыми банками, записанными человеком. То есть вы можете выбрать реклист для любого языка и озвучить фонемы по списку в wav файлы. Далее делается настройка ini и банк подключается к программе, чтобы она пела вашим голосом. Текст песни набирается по слогам, расположенным по нотам и сохраняется в файл ust, которыми можно обмениваться. Т.е вы можете скачивать готовые ust файлы. Дальше вы делаете рендер в wav или mp3 формат готовой песни.
Для установки UTAU необходимо сменить локаль операционной системы на японскую. В openutau этого не требуется. Возможно вы найдёте исходники openutau на github.