Как настроить генерацию речи

Текст, который навык отправляет Алисе, можно оформить в формате TTS (text-to-speech), чтобы тоньше управлять звуками, которые воспроизводит навык. Кроме произносимого текста вы можете использовать звуки из библиотеки Алисы.

  1. Настройка голосового синтеза
  2. Эффекты генерации голоса

Настройка голосового синтеза

Примечание. Разметку для голоса можно проверить на тестовом стенде Speechkit.

Советы по использованию TTS-разметки:

  • При необходимости ударные гласные в словах следует отмечать знаком «+», например:

    • остр+ота,
    • м+ука.
  • Длинные слова можно разбить на слова покороче и проставить ударения для каждого из этих коротких слов, например:

    • мн+ого пр+офильный,
    • с+еми пал+атинск.
  • Некоторые слова можно попробовать писать так, как они слышатся:

    • «ненастный»нен+асный;
    • «пожалуйста»пож+алуста.
  • Чтобы задать паузу между словами, используйте синтаксис sil <[ <количество_миллисекунд> ]>. Например:

    • смелость sil <[500]> город+а берёт.

    Каждый отделенный пробелами пунктуационный знак обозначается паузой в 50-100 мс.

  • Чтобы задать произношение слов, используйте фонемы a aa b bb c ch d dd e ee f ff g gg h hh i ii j k kk l ll m mm n nn oo p pp r rr s sch schwa sh ss t tt u uu v vv y yy z zh zz pau и синтаксис слово <[ произношение_по_фонемам ]>. Например:
    • транскрипция <[ t r a n s k rr ii p c y j schwa ]>

    Особенности использования фонем:

    • aa, ee, ii, oo, uu — ударные гласные.
    • bb, dd, ff, gg, hh, kk, ll, mm, nn, pp, rr, ss, tt, vv, zz — мягкие согласные.
    • y — гласная «ы».
    • schwa — нейтральный безударный гласный звук, в который могут превращаться гласные «а», «е», «и», «о», «ы».
    • pau — пауза при произнесении слова.

Эффекты генерации голоса

Вы можете наложить некоторые эффекты на голос, которым Алиса произносит ответ навыка. Примеры эффектов и формат указания эффектов — в разделе Наложение эффектов на голос.