Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Как работает распознавание голоса?

Искусственный интеллектИнформационные технологии
Анонимный вопрос
  · 3,3 K
Интернет-маркетолог с 5-летним опытом. Работаю на МТС Exolve  · 19 мая 2022  · exolve.ru
Распознавание речи представляет собой обработку голоса и перевод аудио в текст. Соответственно, преобразование включает в себя 3 этапа:
  • Анализ голосовых сигналов.
  • Расшифровка аудиозаписи.
  • Преобразование аудио в текст.
На первом этапе система получает голосовые сигналы (речь пользователя), записывает их и передает данные на сервер, где они проходят очистку от различных дефектов (шумы, помехи и др.). После этого всю запись делят на небольшие фрагменты длительностью до 25 мс – они называются «фонемы». Каждую фонему пропускают через акустическую модель. Она определяет, какой конкретно звук был произнесен.
Затем система сравнивает речевой фрагмент записи, эталонное произношение слогов/слов и слова из акустической модели. На основе Machine Learning подбираются фонетические варианты и определяется контекст.
Наконец, при помощи языковой модели определяется порядок слов и осуществляется подбор нераспознанных слов (на основании контекста). Данные поступают в декодер, где происходит преобразование в текст.
В дальнейшем к распознаванию речи подключаются дополнительные технологии в зависимости от целей использования https://www.mtt.ru/blog/raspoznavanie-i-sintez-rechi/ . Например, при аналитике телефонных звонков система может фиксировать определенные ключевые слова, определять эмоциональный оттенок речи и т.д. Благодаря этому специалисту не придется самостоятельно прослушивать запись звонка или полностью читать транскрибацию разговора – достаточно проанализировать готовый отчет. Колл-центры могут использовать голосовых роботов (например, как VoiceBox от МТТ), которые не только распознают речь, но и фиксируют ответы собеседников и на их основе выдают ответы. Здесь используются не только предзаписанные фразы, но и синтез речи – например, на основе технологии SpeechKit.
Персонализируйте общение с клиентами вместе с платформой МТС ExolveПерейти на exolve.ru
Историк в декрете:)  · 17 июл 2018
Голосовой запрос записывается и отправляется на серверы, где определяется уровень помех и происходит очистка и отделение полезного сигнала. Затем запись разделяется на маленькие фрагменты (фреймы). Затем каждый фрейм пропускается через акустическую модель. После этого система определяет вероятный порядок слов и при необходимости восстанавливает нераспознанные слова по... Читать далее