Если по проще, то забыть про музыкальные инструменты и искать библиотеки для синтеза речи (их множество). Если сложнее, то придётся самому искать закономерности в звуках произносимых букв, к примеру с помощью перевода аудио файлов текста в midi файлы. После по найденной закономерности синтезировать midi "мелодию" текста речи твоего робота и воспроизводить на нужном инструменте. (на барабанах, думаю, не получится =))
Вот пример перевод песни в midi на пианино: https://yandex.ru/video/touch/search?p=1&filmId=2743388995864517794&text=%D0%93%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%89%D0%B8%D0%B5%20midi&ts=1566772423159&source=share
Иногда бывает довольно крипово слушать такое)
Слушать лучше с 0:40, там более отчётливо голос слышно