Печатать нельзя, говорить

4 августа 2014, 12:54

Человек изобрёл много способов взаимодействия с компьютером. Перемещать курсор по экрану можно с помощью мышки, тачпада или трекбола. Рисовать удобно стилусом, а управлять персонажем в игре — джойстиком, или геймпадом, или ещё каким-нибудь приспособлением со странным названием. А если экран сенсорный, то можно обойтись без дополнительных инструментов. Основным способом ввода данных, однако, остаётся клавиатура. Физическую или виртуальную, её можно найти почти на любом устройстве: настольном компьютере, ноутбуке, смартфоне или планшете.

Однако бывают ситуации, когда пользоваться клавиатурой не очень удобно. Например, за рулём автомобиля. Или когда вы пытаетесь набрать смс на ходу, а экран смартфона плохо видно из-за яркого солнца.

В таких ситуациях проще пользоваться голосовым вводом. Например, вместо того чтобы набирать поисковый запрос на клавиатуре, можно произнести его вслух. Процесс преобразования голоса в текст называется распознаванием речи. За ним стоит сложная технология — о том, как она работает, можно прочитать здесь.

Распознавание речи в Яндексе
В 2013 году Яндекс представил собственную технологию распознавания речи Yandex SpeechKit. Тогда же мы выпустили библиотеку Mobile SDK, которая позволяет встраивать «распознавалку» в приложения для Android, iOS и Windows Phone.

Сейчас наша технология задействована примерно в 400 приложениях для смартфонов и планшетов. В их числе — и приложения Яндекса (Навигатор, Браузер, Город, Карты и Поиск), и программы сторонних разработчиков. Каждый день Yandex SpeechKit обрабатывает миллионы запросов.

Однако умение понимать голос может пригодиться не только смартфонам и планшетам. Поэтому сегодня Яндекс запускает SpeechKit Cloud — облачный сервис распознавания речи.

SpeechKit Cloud позволяет добавить функцию распознавания речи в самые разные программы и устройства — от компьютерной игры до робота. Всё, что для этого требуется, — встроить в продукт поддержку SpeechKit Cloud. О том, как это сделать, разработчики могут узнать на странице API SpeechKit Cloud.

Что умеет Yandex SpeechKit
Технология распознавания речи Яндекса способна понимать запросы на русском и турецком языках. В ближайшем будущем мы планируем добавить ещё и английский.

Качество распознавания речи зависит от тематики запроса. Если вы диктуете смс или заметку, оно составляет 82%, если произносите короткий запрос – 85%. А «географические» запросы (например, адреса и названия организаций) Yandex SpeechKit понимает с точностью, близкой к способностям человека, — 95%.

Распознавание осуществляется на серверах Яндекса, рассчитанных на высокие нагрузки. Оно происходит в режиме реального времени: с момента отправки данных (то есть голоса) в «облако» до получения ответа проходит в среднем одна секунда.

Как Яндекс проверяет качество распознавания
Чтобы узнать, насколько хорошо система справляется с распознаванием речи, мы берём 10 тысяч случайных запросов, уже обработанных машиной, и даём послушать их человеку. Проверяющий записывает то, что он услышал, а затем результаты человека и машины сравниваются. Ошибкой (то есть неправильным распознаванием) считаются не только случаи, когда машина неверно услышала слово или добавила лишнее, но и даже неправильно поставленное окончание.

Где уже используется SpeechKit Cloud
У Яндекса есть несколько партнёров, которые уже используют SpeechKit Cloud в своих продуктах.

Один из партнёров — это компания Cubic Robotics. Она разрабатывает домашнего робота-помощника CUBIC. Используя технологию Яндекса, CUBIC распознает вопросы человека и отвечает на них. Он может, к примеру, включить или выключить свет в комнате, зачитать последние новости или рассказать о пробках на дорогах.

Другой партнёр Яндекса — это компания Oktell, разработчик программного обеспечения для колл-центров.

В Oktell создали систему, которая избавляет вас от необходимости слушать длинную запись с инструкциями («Чтобы узнать состояние счёта, нажмите один…») при звонке в банк или в службу поддержки. Вы сразу задаёте вопрос, а компьютер с помощью SpeechKit Cloud распознаёт его и либо выдаёт готовый ответ, либо соединяет вас с нужным специалистом.

Интернет-магазины с помощью системы Oktell могут автоматизировать процесс подтверждения заказов. После оформления заказа покупателю позвонит робот, который, используя технологию распознавания речи, уточнит имя, адрес и время доставки товара. Это позволяет снизить нагрузку на живых операторов. Узнать больше о технологии и протестировать её можно здесь.

Будущее распознавания речи
Распознавание речи — относительно новая возможность. Выполнять распознавание с приемлемым уровнем качества компьютеры научились только в 2000-х годах. Раньше для таких задач не хватало вычислительных мощностей. Поэтому можно уверенно сказать, что самые впечатляющие сферы применения этой технологии ещё впереди.

Умение компьютера понимать речь может помочь врачу не расходовать время на бумажную работу во время приёма, юристу — заняться более важными делами, пока машина ведёт протокол судебного заседания, водителю — не отвлекаться за рулём, а человеку с ограниченными возможностями — не тратиться на специализированные устройства ввода.

34 комментария

Авторизуйтесь, чтобы оставить комментарий

smogarev.kirill