Печатать нельзя, говорить

4 августа 2014, 12:54

Человек изобрёл много способов взаимодействия с компьютером. Перемещать курсор по экрану можно с помощью мышки, тачпада или трекбола. Рисовать удобно стилусом, а управлять персонажем в игре — джойстиком, или геймпадом, или ещё каким-нибудь приспособлением со странным названием. А если экран сенсорный, то можно обойтись без дополнительных инструментов. Основным способом ввода данных, однако, остаётся клавиатура. Физическую или виртуальную, её можно найти почти на любом устройстве: настольном компьютере, ноутбуке, смартфоне или планшете.

Однако бывают ситуации, когда пользоваться клавиатурой не очень удобно. Например, за рулём автомобиля. Или когда вы пытаетесь набрать смс на ходу, а экран смартфона плохо видно из-за яркого солнца.

В таких ситуациях проще пользоваться голосовым вводом. Например, вместо того чтобы набирать поисковый запрос на клавиатуре, можно произнести его вслух. Процесс преобразования голоса в текст называется распознаванием речи. За ним стоит сложная технология — о том, как она работает, можно прочитать здесь.

Распознавание речи в Яндексе
В 2013 году Яндекс представил собственную технологию распознавания речи Yandex SpeechKit. Тогда же мы выпустили библиотеку Mobile SDK, которая позволяет встраивать «распознавалку» в приложения для Android, iOS и Windows Phone.

Сейчас наша технология задействована примерно в 400 приложениях для смартфонов и планшетов. В их числе — и приложения Яндекса (Навигатор, Браузер, ГородКарты и Поиск), и программы сторонних разработчиков. Каждый день Yandex SpeechKit обрабатывает миллионы запросов.

Однако умение понимать голос может пригодиться не только смартфонам и планшетам. Поэтому сегодня Яндекс запускает SpeechKit Cloud — облачный сервис распознавания речи.

SpeechKit Cloud позволяет добавить функцию распознавания речи в самые разные программы и устройства — от компьютерной игры до робота. Всё, что для этого требуется, — встроить в продукт поддержку SpeechKit Cloud. О том, как это сделать, разработчики могут узнать на странице API SpeechKit Cloud.

Что умеет Yandex SpeechKit
Технология распознавания речи Яндекса способна понимать запросы на русском и турецком языках. В ближайшем будущем мы планируем добавить ещё и английский.

Качество распознавания речи зависит от тематики запроса. Если вы диктуете смс или заметку, оно составляет 82%, если произносите короткий запрос – 85%. А «географические» запросы (например, адреса и названия организаций) Yandex SpeechKit понимает с точностью, близкой к способностям человека, — 95%.

Распознавание осуществляется на серверах Яндекса, рассчитанных на высокие нагрузки. Оно происходит в режиме реального времени: с момента отправки данных (то есть голоса) в «облако» до получения ответа проходит в среднем одна секунда.

Как Яндекс проверяет качество распознавания
Чтобы узнать, насколько хорошо система справляется с распознаванием речи, мы берём 10 тысяч случайных запросов, уже обработанных машиной, и даём послушать их человеку. Проверяющий записывает то, что он услышал, а затем результаты человека и машины сравниваются. Ошибкой (то есть неправильным распознаванием) считаются не только случаи, когда машина неверно услышала слово или добавила лишнее, но и даже неправильно поставленное окончание.

Где уже используется SpeechKit Cloud
У Яндекса есть несколько партнёров, которые уже используют SpeechKit Cloud в своих продуктах.

Один из партнёров — это компания Cubic Robotics. Она разрабатывает домашнего робота-помощника CUBIC. Используя технологию Яндекса, CUBIC распознает вопросы человека и отвечает на них. Он может, к примеру, включить или выключить свет в комнате, зачитать последние новости или рассказать о пробках на дорогах.


Другой партнёр Яндекса — это компания Oktell, разработчик программного обеспечения для колл-центров.

В Oktell создали систему, которая избавляет вас от необходимости слушать длинную запись с инструкциями («Чтобы узнать состояние счёта, нажмите один…») при звонке в банк или в службу поддержки. Вы сразу задаёте вопрос, а компьютер с помощью SpeechKit Cloud распознаёт его и либо выдаёт готовый ответ, либо соединяет вас с нужным специалистом.

Интернет-магазины с помощью системы Oktell могут автоматизировать процесс подтверждения заказов. После оформления заказа покупателю позвонит робот, который, используя технологию распознавания речи, уточнит имя, адрес и время доставки товара. Это позволяет снизить нагрузку на живых операторов. Узнать больше о технологии и протестировать её можно здесь.

Будущее распознавания речи
Распознавание речи — относительно новая возможность. Выполнять распознавание с приемлемым уровнем качества компьютеры научились только в 2000-х годах. Раньше для таких задач не хватало вычислительных мощностей. Поэтому можно уверенно сказать, что самые впечатляющие сферы применения этой технологии ещё впереди.

Умение компьютера понимать речь может помочь врачу не расходовать время на бумажную работу во время приёма, юристу — заняться более важными делами, пока машина ведёт протокол судебного заседания, водителю — не отвлекаться за рулём, а человеку с ограниченными возможностями — не тратиться на специализированные устройства ввода.

33 комментария
Подписаться на комментарии к посту
Очень интересно. Уже читал ранее об этом инструменте. Планирую подключить его на своих приложениях. Распознавание русской речи на порядок лучше, чем у Google.
А почему второй язык - турецкий?
Egon,
Потому что упор в данный момент идет на развитие в СНГ и Турции. Все новые плюшки, интерфейс сервисов, быстрее появляются у турецкого (международного) Яндекса, поэтому турецкий второй язык. Поправьте меня, если я не прав.
smogarev.kirill,
ДА вроде так
Фантастика.
Здравствуйте! Хотелось бы услышать комментарий от разработчиков, на тему real time распознования. Transfer-Encoding: chunked — это конечно хорошо, но будет ли расширен функционал для возможности «живого» набора текста. Что бы лучше понять, о чем я говорю, достаточно просмотреть это видео: http://d.pr/SMI1.
rolife,
напишите на voice@yandex.support.ru для запроса на участие в бета тестировании потокового апи.
sgalustyan.2,
с почтой опечатка небольшая вышла, но я заметил и отправил все таки запрос, пока молчат.
Иван Беляев
4 августа 2014, 19:47
Когда будет в поиске пк?
Иван Беляев,
не скоро. % пользователей использующих голосовой поиск на пк небольшой.
А меня интересует услуга распознавания загруженных в облако записей: например, я на прогулке записал несколько абзацев записи в бог, аудиофайлы легли в синхронизируемую с облаком папку, по беспроводному домашнему соединению загрузились в облако, автоматически распознались в текст и легли в другую облачную папку с текстовыми документами, откуда я открыл их на компьютере, поправил и отверстал, после чего - получил желаемое.
CTAC-mail,
довольно специфические требования я бы сказал. Но на самом деле, требуемый функционал довольно не трудно самостоятельно реализовать, на том же домашнем сервере с использованием любого доступного Вам языка программирования.
rolife,
из языков я владею лишь русским, китайским и английским, а программирование для меня - тёмный лес.
CTAC-mail,
да, мы над таким решением работаем.
Artem Kulchakovsky,
круто-круто-круто!
Оффтопик к разработчикам данного блога: не "оставьте ВАШ комментарий, имярек", а "оставьте СВОЙ комментарий, имярек". Ну и вообще: в русском языке можно обходиться без утяжеления фразы местоимением, необходимости в котором нет по простой причине, заключающейся в том, что я не могу оставить чужой комментарий, а тот, который я оставлю, будет моим по умолчанию. Почитайте на этот счёт "Ководства" Лебедева.
CTAC-mail,
Спасибо, замечание ценное, учтём)
Когда технология будет встроена в Поиск для сайта: http://site.yandex.ru ?
zeleboberst,
мы над этим активно думаем, но точных сроков реализации назвать пока не можем.
zeleboberst,
вы о возможности вводить поисковые запросы голосом?
Или еще какие-то применения видите?
Больше не планирую иметь с Яндексом серьезных дел...
Забавно.
Очень Интересно!!Можно Сказать полей на даче и ездить ненужно!!Забавный прибор мне нравится!!:))
Где скачать Yandex SpeechKit
lesyapesin,
SpeechKit — это технология, и мы предоставляем инструменты работы с ней в виде API и библиотек. А теперь ещё и SpeechKit Cloud. Подробно обо всём этом можно узнать здесь — http://api.yandex.ru/speechkit/
Если реально поговорить не с кем, или страшно поделиться с кем-то секретной инфой - лучше компа никого не найти...А если он реально сможет запускать какой - нибудь удалённый процесс - честь и хвала Создателям...Обработанная Силиконом Долина рулит....Дымбицкий Дмитрий, Москва.
Да, прекрасно! Я пользуюсь Oktell, буду наблюдать за взаимосвязью этих новых программных возможностей.
А пунктуация ?
Морозюк Даниил
29 ноября 2014, 11:09
Класс! Глянул Cubic. Никогда не видел ничего подобного!
хочу себе такова юриста консультанта  который не болеет с похмелья  и не просит больших денег для консультации
Только начал изучать это API, скажите, а это работает на обычных сайтах? И можно ли реализовать систему голосовых комментариев? Например, пользователь зашел на сайт с мобильного и хочет добавить комментарий к статье, кликает значек мокрофона и сказанный текст автоматом добавляется в поле textarea формы комментирования? Если да, то ткните где в документации посмотреть как установить это на сайте. Заранее спасибо!
Яндекс, встройте такую технологию в ваш браузер!чтобы включив компьютер можно было общаться с ним голосом, типа - запустить Яндекс браузер, открыть Яндекс почту, открыть Яндекс карты и т.д. со всеми сервисами яндекса. для начала)
а еще лучше сделать возможность самому пользователю создавать голосовые команды и выставлять что они будут делать, только чтобы это могли делать не разработчики а обычные люди.
открыть