Мы ищем тимлида, который поможет решать увлекательные задачи на острие технологий TTS (text-to-speech synthesis). У нас много перспективных направлений синтеза речи:
- эмоциональный синтез (добрый, злой, грустный, удивлённый, истеричный голос);
- voice cloning / voice conversion (есть прототипы синтеза голосами известных людей, можем сделать и ваш);
- синтез аудиокниг (как правильно зачитывать диалоги, длинные предложения, разные жанры?);
- слышимость улучшений синтеза на разных устройствах: в умных колонках, ноутбуке, наушниках;
- синтез на разных языках (например, на английском, корейском, испанском. Языки знать не обязательно);
- сравнение с конкурентами (Google, Microsoft, Amazon, ElevenLabs, Speechify и пр.).
Везде очень интересуемся качеством синтеза. Хотим поддержать текущие и выстроить новые процессы оценки качества ML-технологий. Задаемся вопросом: «А чего вообще люди хотят от синтеза в разных приложениях?» Статья на тему для вдохновения.