notorca Mar 4 2013 at 12:14

Программирование звука с низкой задержкой в iOS

6 min

15K

Viber corporate blogDevelopment for iOS*

+47

Comments 12

mokus Mar 4 2013 at 13:15

Не пробовали использовать сторонние библиотеки, например fmod?

notorca Mar 4 2013 at 13:29

Основная задача была получать и проигрывать звук как можно ближе к железу, а так же оценивать задержку, которая при этом возникает. Поэтому от дополнительных промежуточных библиотек особой пользы не было бы. При работе с системным API напрямую больше контроля и проще решать проблемы, связанные, например, с различиями в работе на разных устройствах и версиях iOS.

mokus Mar 4 2013 at 13:38

fmod — не промежуточная библиотека, не обертка над существующими апи. Это кроссплатформенная библиотека для софтварного проигрывания, микширования и риалтайм обработки звука. Для больших проектов стоит $15к (это не аргумент, конечно, но подразумевает серьезность )

На виндовс ее использование дало мне меньшие задержки (по сравнению с XNA), и идеальное микширование нескольких звуковых дорожек. До iOS я пока еще не добрался и поэтому мне интересно было сравнение fmod с нативным апи.
Я далеко не профи в обработке звука — просто сейчас пишу музыкальную игру, но советовал бы посмотреть в сторону fmod если еще не щупали (не сочтите за рекламу).

notorca Mar 4 2013 at 13:45

На iOS это практически наверняка обертка над AudioUnit. Не думаю, что Apple пустил их на уровень драйверов и системных сервисов. К тому же у VoIP приложений специфика немного другая, чем у игр либо музыкальных приложений. Много каналов микшировать не нужно, обработка идет в основном на 16kHz. Упор больше на алгоритмы компрессий, компенсации задержек, шумо и эхо-подавление.

jeen Mar 4 2013 at 13:36

В iOS 5, 6 все еще нужны пляски с бубном, чтобы заставить работать VoiceProcessingIO?

notorca Mar 4 2013 at 13:38

Почти всегда работает без проблем.

Snapp Mar 4 2013 at 15:25

Звук у вас в приложении классный, был приятно удивлен. Еще хорошо, что когда у одного из абонентов штатный gprs, а у второго 3g, разговор можно довольно комфортно вести хоть и с 2-ух секундной задержкой.

notorca Mar 4 2013 at 15:33

С gprs сложно сделать что-то для уменьшения задержки, из-за особенностей выделения таймслотов на upload, но стараемся улучшать и в этом направлении.

ur001 Mar 5 2013 at 00:14

Спасибо за статью. А для синтеза звука с минимальной задержкой (относительно тач-нажатия, естественно) какой на ваш взгляд API целесообразней использовать? Так же буду рад, если кто подскажет библиотеки для синтеза/процессинга многоканального звука в iOS.

notorca Mar 5 2013 at 00:22

AudioUnit дает минимальную задержку в любом случае, им так же можно микшировать несколько каналов и применять эквалайзер к каждому из каналов. Если нужно 3D позиционирование источников звука — то OpenAL проще. Не уверен правда насчет масштабируемости этих API на 10ки каналов на iOS. Насчет библиотек не подскажу, выше упоминали fmod, но использовать его не приходилось.

ur001 Mar 5 2013 at 00:28

Спасибо, FMOD уже смотрю

vladec Mar 11 2013 at 17:15

После ресемплирования на выходе получится целое число семплов, а дробный остаток будет храниться в виде коэффициентов фильтра ресемплера.

Маленький терминологический баг.
Дробный остаток в явном виде не хранится, по крайней мере в коэффициентах.
Фильтры, конечно, можно по-разному организовать, но правильнее сказать, что он «накапливается» в линии задержки. Накопили на целый сэмпл — выдали.