PapaBubaDiop Sep 8 2014 at 17:32

Yandex слышит тебя, dude

4 min

44K

Papa Buba Diop corporate blogDevelopment for iOS*Yandex API*

+74

Comments 27

wholeman Sep 8 2014 at 21:35

ни одной ошибки распознавания названия игральной карты за время игры не произошло

«Трифоновой король», как на картинке, больше не появлялся?

PapaBubaDiop Sep 8 2014 at 22:26

Да, трифоновый это было. Но в игре я парсил слоги чер-, чир-, буб-, кре-, кри-, пик-, треф-, триф, троф-, кор-, кар-, да-, вал-, вол-, ту-.

Числительные не проверял — Яндекс их возвращает в цифрах, если находит.

И, честно говоря, в игре не произносит масти прилагательными — говорил семь трефей. Или семь треф. Вместо трефей иногда приходил трофей, трифона не было)

Milfgard Sep 9 2014 at 02:32

А расскажи про саровский движок, а? Особенно интересно, что там было ещё в 12-м. Насколько я помню, у вас какие-то нереальные лайфхаки использовались для длинных текстов.

PapaBubaDiop Sep 9 2014 at 09:51

Не могу — коммерческая тайна.

nomadmoon Sep 9 2014 at 09:06

А нет софта чтобы записанный звук на своём компе распознавать? Чтобы стенограммы всякие из записи делать, короче. Скорость распознавания практически некритична, хоть пусть час голоса за день распознаёт.

PapaBubaDiop Sep 9 2014 at 09:53

Google — движок распознает свыше 80 процентов русской речи и для некоммерческого использования бесплатен (был). Но я им лично не пользовался, лишь читал в обзорах и наблюдал у коллеги год назад. Подробностей не знаю, может кто в комментариях разъяснит.

Sleuthhound Sep 9 2014 at 10:37

Движок распознавания Google официально нигде не описан, то есть по сути нет у них API, но дотошный народ его раскопал.
Купить гугловое распознавание тоже нельзя, просто нет нигде формы с кнопкой КУПИТЬ.
В версии V1 Google ASR все было бесплатно, пару мес. назад V1 закрыли и появилась версия 2, там стал нужен API ключ, который можно получить у гугла, но с ограничением в 50 запросов на распознавание в день, получить больше лимит просто нереально, ссылка на это ведет в Google Drive который доступен только под корпоративным акаунтом.

morfeusys Sep 9 2014 at 11:48

Гугловское распознавание полностью бесплатно и неограниченно для сторонних приложениях только под Android…

Sleuthhound Sep 9 2014 at 12:44

Ключевое слово: только под Android, под Windows и Linux если использовать www.google.com/speech-api/v2/recognize то там ограничения и нет официальной документации о существовании этого API

Viktorianec Sep 9 2014 at 11:17

Скажите, из того что использовали для распознавания, что оказалось точнее всего? Неужели правда стоит переходить на Яндекс?) Не пробовали Nuance Dev?

morfeusys Sep 9 2014 at 11:54

Хоть вопрос и не ко мне, но на iphone-ipad яндекс показывает себя очень неплохо для поисковых запросов, хорошо так же распознает и не очень распространенные русские фамилии. Из аналогов, работающих по статистической модели и поддерживающий русский — Nuance Dragon Dictation — дороже и зачастую не может распознать (что естественно) имена и фамилии.
Еще есть Nuance VoCon Hybrid — там гибридная модель распознавания — распознается одновременно на устройстве по грмматике и в облаке (диктовка) — качество повышается в разы. Но очень сложная интеграция. Вроде как они обещались запустить VoCon Hi — должно стать резко проще.
Для задачи, описанной в статье, не обязательно использовать диктовку. Можно было бы использовать распознавание по грамматике, например, проект с открытым кодом pocketsphinx и его порт под ios. Точность повышалась бы до 90-95 процентов. И при этом не нужен был бы сервер.

morfeusys Sep 9 2014 at 11:56

Да, кстати, а почему вы хотели использовать именно серверный яндекс??
Для вашей задачи можно было бы прикрутить тот же poscketsphinx. www.politepix.com/openears/ Написать простую грамматику, которая распознавалась бы с точностью 95% и со скоростью в несколько десятков миллисекунд без сервера прямо на устройстве.

PapaBubaDiop Sep 9 2014 at 12:11

Спасибо, morfeusys, прикручу грамматику и попробую.

morfeusys Sep 9 2014 at 12:54

Но только учтите — это требует некоторого погружения в тему распознавания — нужно будет все правильно сконфигурить, подсунуть русскую аккустическую модель, разобраться с синтаксисом транскрипций для слов в словаре и тд. В этом плане это не просто сделать запрос и получить ответ от сервера.

Viktorianec Sep 9 2014 at 13:10

Скажите, а вы бы не могли написать топик на хабре про это? Интересная тема, да ещё и с практическим применением.

morfeusys Sep 9 2014 at 16:34

В принципе мог бы. Но я могу компетентно описать весь этот процесс только под Android… Если это будет интересно…

Viktorianec Sep 9 2014 at 16:49

Будет, конечно.

morfeusys Sep 21 2014 at 22:38

Ну вот собственно я написал запрошенный вами топик — http://habrahabr.ru/post/237589/
Надеюсь, будет полезен.

Viktorianec Sep 21 2014 at 23:55

Спасибо, уверен, хабросообщество также оценит.

PapaBubaDiop Sep 9 2014 at 13:57

В нашем движке используется акустическая модель с похожим синтаксисом, что идеально для сравнительного анализа работы библиотек.

morfeusys Sep 9 2014 at 16:35

А о каком вашем движке вы говорите? В смысле, в статье я увидел только описание работы с яндекс speechkit.

PapaBubaDiop Sep 9 2014 at 16:38

Да есть тут, за соседней стенкой сидят, вышли из Intel. Для американцев делали распознавание на английском и китайском, теперь пилят русский язык. Больше сказать не могу.

morfeusys Sep 9 2014 at 21:33

Скажем так — не синтаксис аккустической модели, а формализм для описания грамматики. Скорее всего ваша система использует jsgf. Но для описания транскрипций используется либо worldbet, либо еще что-то.

PapaBubaDiop Sep 12 2014 at 14:56

Пришлось повозиться — в нашем корпусе синтаксис слогов русский, а в открытые-уши синтаксис — английский, что вызывает трудности для многих фонем.

agpanin Sep 9 2014 at 15:03

Спасибо за интересную и подробную статью об интеграции нашего сервиса распознавания :)
Можете написать, с какой ошибкой вылетает пример? У меня такая же ~~нога, и не болит~~ версия Xcode, и примеры стабильно работают на разных девайсах и симуляторах.
Кстати, задержку можно существенно уменьшить, если отправлять звук на сервер по мере его записи (Chunked transfer encoding). SpeechKit именно так и делает.

PapaBubaDiop Sep 9 2014 at 16:15

Привет, про задержку я знаю (использую тег chunk в заголовке запроса). Я написал ответ с кодом ошибки в службу поддержки yandex, можно ли общаться напрямую?

agpanin Sep 9 2014 at 16:53

Да, получил ваш ответ. Давайте общаться через техподдержку — обычно так удобнее.