Как работает распознавание голоса?

Искусственный интеллектИнформационные технологии

Анонимный вопрос

17 июля 2018 · 3,3 K

Интернет-маркетолог с 5-летним опытом. Работаю на МТС Exolve · 19 мая 2022 · exolve.ru

Распознавание речи представляет собой обработку голоса и перевод аудио в текст. Соответственно, преобразование включает в себя 3 этапа:

Анализ голосовых сигналов.
Расшифровка аудиозаписи.
Преобразование аудио в текст.

На первом этапе система получает голосовые сигналы (речь пользователя), записывает их и передает данные на сервер, где они проходят очистку от различных дефектов (шумы, помехи и др.). После этого всю запись делят на небольшие фрагменты длительностью до 25 мс – они называются «фонемы». Каждую фонему пропускают через акустическую модель. Она определяет, какой конкретно звук был произнесен.

Затем система сравнивает речевой фрагмент записи, эталонное произношение слогов/слов и слова из акустической модели. На основе Machine Learning подбираются фонетические варианты и определяется контекст.

Наконец, при помощи языковой модели определяется порядок слов и осуществляется подбор нераспознанных слов (на основании контекста). Данные поступают в декодер, где происходит преобразование в текст.

В дальнейшем к распознаванию речи подключаются дополнительные технологии в зависимости от целей использования https://www.mtt.ru/blog/raspoznavanie-i-sintez-rechi/ . Например, при аналитике телефонных звонков система может фиксировать определенные ключевые слова, определять эмоциональный оттенок речи и т.д. Благодаря этому специалисту не придется самостоятельно прослушивать запись звонка или полностью читать транскрибацию разговора – достаточно проанализировать готовый отчет. Колл-центры могут использовать голосовых роботов (например, как VoiceBox от МТТ), которые не только распознают речь, но и фиксируют ответы собеседников и на их основе выдают ответы. Здесь используются не только предзаписанные фразы, но и синтез речи – например, на основе технологии SpeechKit.

Персонализируйте общение с клиентами вместе с платформой МТС Exolve

Перейти на exolve.ru

lena1988

Историк в декрете:) · 17 июл 2018

Голосовой запрос записывается и отправляется на серверы, где определяется уровень помех и происходит очистка и отделение полезного сигнала. Затем запись разделяется на маленькие фрагменты (фреймы). Затем каждый фрейм пропускается через акустическую модель. После этого система определяет вероятный порядок слов и при необходимости восстанавливает нераспознанные слова по... Читать далее