ohio_merchant Jul 3 2023 at 14:11

«Магия вне Хогвартса», или Как разделить аудиосигнал на источники, обогнав существующие решения

8 min

6.1K

VK corporate blogMachine learning*Sound

+24

Comments 16

Daddy_Cool Jul 3 2023 at 18:14

Очень интересно!
Хотелось бы побольше треков с результатами.
А чем из всего описанного можно воспользоваться простому смертному?

konstanttin Jul 3 2023 at 20:59

Можно ли эту нейросеть обучить убирать шумы магнитной ленты? Есть готовые решения, которые умеют убирать фоновые шумы, но с шумами магнитной записи результаты у них не очень хорошие.

SADKO Jul 3 2023 at 22:23

OzonRX не? А также в Audition должен быть хороший фильтр с учётом некоторых особенностей ленты, ну если adobe его не сломали :-)

konstanttin Jul 3 2023 at 23:43

На лёгких шумах работает, что-то посложнее уже начинает речь делать неразборчивой. В этих задачах прогресс не очень большой, к сожелению. Можно, конечно, руками делать, но хотелось бы что-то более автоматизированного.

SADKO Aug 4 2023 at 02:51

Ну, не знаю, в своё время на DART и CEP получал отличные, проф пригодные результаты и неплохо заработал на этом.

Причём речь не только о шумах ленты, но и о многих других видах стационарного шума, к которым подход применим.

Единственная причина, по которой мне пришлось пилить свой софт и железо, это осознание узких мест в работе с аналоговыми носителями, которые имели место быть даже в топовых мастерхаусах. И открывшаяся потенциальная возможность, им же втюхать свои решения, принципиально иные и достаточные чтобы потребностей в какой-либо иной цифровой обработке со всеми сопутствующими артефактами тех лет не возникало.

Сегодня проделана колоссальная работа над ошибками, а в продуктах вроде RXины учтена масса нюансов, о которых пользователь даже не подозревает. Стали доступны и сильно улучшились аудио интерфейсы. И это всё вносит существенный вклад, в результат который можно получить не вдаваясь в дебри, которые толком то нигде и не описаны.

konstanttin Jul 3 2023 at 23:48

Вообще я пробовал UVR, о котором рассказывается в сети. Некоторые модели лучше чем RX и Audition справлялись выделяя голос, но, если был такой результат, то есть шанс улучшить. Вопрос тут насколько шум уникален для сети и будет ли результат лучше статистических методов фильтрации

SADKO Aug 4 2023 at 03:04

Скажем так, чтобы заработали чисто статистические методы, важно чтобы ничего не портило статистик :-)

Нейросеть же, способна использовать продукты искажений благо на потребу. Мы так низкие частоты слышим и высокое разрешение по частоте на них имеем.

Refridgerator Jul 4 2023 at 05:52

Никакой шум нельзя убрать в принципе. Его можно только замаскировать ценой порчи полезного сигнала. И нейросети здесь нафиг не нужны. Здесь нужен грамотный программист со знанием теории чуть больше, чем оконное FFT.

Daddy_Cool Jul 6 2023 at 20:41

Ну нет. Вы можете представить как звук будет звучать без шума? Можете. Чем нейросеть хуже чем вы?

Refridgerator Jul 7 2023 at 06:02

Ну с таким подходом вы рановато остановились. Можно продолжать представлять — что плагин написан и продан за сто миллионов долларов, вся работа по шумоочищению уже проделана, и вот вы уже слушаете первую версию "Band on the run" в личном замке на юге Франции попивая слёрм.

Нейросеть хуже чем я, потому что это не ИИ. У ней нет ни фантазии, ни воображения, ни абстрактного мышления, ни формального аппарата, ничего. Это просто структура для хранения данных с потерями, а приравнивание её к ИИ это такой модный тренд и желание некоторых людей верить в чудо.

Что касается шума ленты — так его можно просто замерить, тут не нужно ни фантазировать, ни накапливать большие данные, достаточно просто паузы между треками. Однако основная проблема ленты не в шуме, а в перемагничивании, в результате чего сигнал смешивается с задержанной и искажённой версией самого себя. Соответственно для решения этой проблемы в реальном мире эти параметры нужно вычислить на протяжении всего времени звучания (а они очевидно не константны, поскольку по ходу проигрывания радиус катушки уменьшается), а затем решать задачу обратной свёртки.

ohio_merchant Jul 7 2023 at 15:10

Задача шумоподавления стоит отдельно. Наша модель может справиться с ней, отделив искажения в отдельный источник, а именно в other. Если хотите, можете предоставить сэмплы с шумами, и мы вернёмся к вам с результатами.

Refridgerator Jul 10 2023 at 08:08

Сэмплы с шумами лучше спрашивать у товарища выше @konstanttin-а, для которого эта задача имеет практический интерес. У меня сейчас ничего такого нет, а подмешивать искусственный шум неспортивно, потому что он отличается он настоящего равномерным спектром и распределённой энергией.

Но если вам интересен именно челлендж, давайте возьмём более близкую к вашей теме задачу — выделение центра из стерео сигнала, причём с возможностью восстановление оригинального сигнала через сложение. Другими словами, имея

Lsrc = L+C
Rsrc = R+C

Нужно найти C, L и R.

В качестве испытуемого предлагаю взять вступление к Time из альбома Dark Side Of The Moon группы Pink Floyd, со своей стороны вы тоже можете предложить что угодно. Затем вы напишите статью «нейросети vs. формальной математики», я добавлю свои варианты в комментариях, а затем вы добавите опрос в статью, чтобы непредвзятый пользователь смог сам решить, чей вариант ему понравился больше.

vazir Jul 3 2023 at 23:00

Буржуи выкладывают свои модели в опенсорс почемуто. А вы?

Refridgerator Jul 4 2023 at 05:47

Конкретно этот трек можно разделить на компоненты без всякой магии и нейросетей, а результат получится даже лучше. Чтобы как-то претендовать на честность, нужно а) брать моно трек, потому что в стерео часто разносят инструменты по каналам и б) разделять инструменты, играющих в одном частотном диапазоне. Симфонический оркестр разберите по инструментам без артефактов звучания — вот тогда уже можно будет претендовать и на магию.

Daddy_Cool Jul 6 2023 at 20:45

Распознаем произведение - получаем название, "Шазам" нам в помощь.
Скачиваем оркестровую партитуру.
Играем её используя нужные звукобанки.
Profit!
Это шутка, конечно, но кто-то жаловался, что кажется Apple подменяла аудиофайлы в личной коллекции, на... другие исполнения той же вещи. (Деталей не помню, но суть такая).

ohio_merchant Jul 7 2023 at 15:09

Абсолютно с вами согласны. Симфонический оркестр – это то, к чему мы стремимся. Надеемся добиться этого уже скоро.