Pull to refresh

Comments 27

ни одной ошибки распознавания названия игральной карты за время игры не произошло
«Трифоновой король», как на картинке, больше не появлялся?
Да, трифоновый это было. Но в игре я парсил слоги чер-, чир-, буб-, кре-, кри-, пик-, треф-, триф, троф-, кор-, кар-, да-, вал-, вол-, ту-.

Числительные не проверял — Яндекс их возвращает в цифрах, если находит.

И, честно говоря, в игре не произносит масти прилагательными — говорил семь трефей. Или семь треф. Вместо трефей иногда приходил трофей, трифона не было)
А расскажи про саровский движок, а? Особенно интересно, что там было ещё в 12-м. Насколько я помню, у вас какие-то нереальные лайфхаки использовались для длинных текстов.
А нет софта чтобы записанный звук на своём компе распознавать? Чтобы стенограммы всякие из записи делать, короче. Скорость распознавания практически некритична, хоть пусть час голоса за день распознаёт.
Google — движок распознает свыше 80 процентов русской речи и для некоммерческого использования бесплатен (был). Но я им лично не пользовался, лишь читал в обзорах и наблюдал у коллеги год назад. Подробностей не знаю, может кто в комментариях разъяснит.
Движок распознавания Google официально нигде не описан, то есть по сути нет у них API, но дотошный народ его раскопал.
Купить гугловое распознавание тоже нельзя, просто нет нигде формы с кнопкой КУПИТЬ.
В версии V1 Google ASR все было бесплатно, пару мес. назад V1 закрыли и появилась версия 2, там стал нужен API ключ, который можно получить у гугла, но с ограничением в 50 запросов на распознавание в день, получить больше лимит просто нереально, ссылка на это ведет в Google Drive который доступен только под корпоративным акаунтом.
Гугловское распознавание полностью бесплатно и неограниченно для сторонних приложениях только под Android…
Ключевое слово: только под Android, под Windows и Linux если использовать www.google.com/speech-api/v2/recognize то там ограничения и нет официальной документации о существовании этого API
Скажите, из того что использовали для распознавания, что оказалось точнее всего? Неужели правда стоит переходить на Яндекс?) Не пробовали Nuance Dev?
Хоть вопрос и не ко мне, но на iphone-ipad яндекс показывает себя очень неплохо для поисковых запросов, хорошо так же распознает и не очень распространенные русские фамилии. Из аналогов, работающих по статистической модели и поддерживающий русский — Nuance Dragon Dictation — дороже и зачастую не может распознать (что естественно) имена и фамилии.
Еще есть Nuance VoCon Hybrid — там гибридная модель распознавания — распознается одновременно на устройстве по грмматике и в облаке (диктовка) — качество повышается в разы. Но очень сложная интеграция. Вроде как они обещались запустить VoCon Hi — должно стать резко проще.
Для задачи, описанной в статье, не обязательно использовать диктовку. Можно было бы использовать распознавание по грамматике, например, проект с открытым кодом pocketsphinx и его порт под ios. Точность повышалась бы до 90-95 процентов. И при этом не нужен был бы сервер.
Да, кстати, а почему вы хотели использовать именно серверный яндекс??
Для вашей задачи можно было бы прикрутить тот же poscketsphinx. www.politepix.com/openears/ Написать простую грамматику, которая распознавалась бы с точностью 95% и со скоростью в несколько десятков миллисекунд без сервера прямо на устройстве.
Но только учтите — это требует некоторого погружения в тему распознавания — нужно будет все правильно сконфигурить, подсунуть русскую аккустическую модель, разобраться с синтаксисом транскрипций для слов в словаре и тд. В этом плане это не просто сделать запрос и получить ответ от сервера.
Скажите, а вы бы не могли написать топик на хабре про это? Интересная тема, да ещё и с практическим применением.
В принципе мог бы. Но я могу компетентно описать весь этот процесс только под Android… Если это будет интересно…
Спасибо, уверен, хабросообщество также оценит.
В нашем движке используется акустическая модель с похожим синтаксисом, что идеально для сравнительного анализа работы библиотек.
А о каком вашем движке вы говорите? В смысле, в статье я увидел только описание работы с яндекс speechkit.
Да есть тут, за соседней стенкой сидят, вышли из Intel. Для американцев делали распознавание на английском и китайском, теперь пилят русский язык. Больше сказать не могу.
Скажем так — не синтаксис аккустической модели, а формализм для описания грамматики. Скорее всего ваша система использует jsgf. Но для описания транскрипций используется либо worldbet, либо еще что-то.
Пришлось повозиться — в нашем корпусе синтаксис слогов русский, а в открытые-уши синтаксис — английский, что вызывает трудности для многих фонем.
Спасибо за интересную и подробную статью об интеграции нашего сервиса распознавания :)
Можете написать, с какой ошибкой вылетает пример? У меня такая же нога, и не болит версия Xcode, и примеры стабильно работают на разных девайсах и симуляторах.
Кстати, задержку можно существенно уменьшить, если отправлять звук на сервер по мере его записи (Chunked transfer encoding). SpeechKit именно так и делает.
Привет, про задержку я знаю (использую тег chunk в заголовке запроса). Я написал ответ с кодом ошибки в службу поддержки yandex, можно ли общаться напрямую?
Да, получил ваш ответ. Давайте общаться через техподдержку — обычно так удобнее.
Sign up to leave a comment.