Pull to refresh

В МТИ создали компьютерную модель, которая умеет определять источник звука

Reading time3 min
Views3.5K

Нейробиологи Массачусетского технологического института разработали компьютерную модель, которая может определять источники звуков. Модель включает несколько сверточных нейронных сетей и способна обнаружить происхождение звуков в реальных условиях подобно человеческому уху.

Человеческий мозг определяет направление, сравнивая звуки, которые достигают правого и левого уха. Эта задача заметно усложняется в реальных условиях — когда окружающая среда создает эхо и слышно много звуков одновременно.

Ученые давно пытались построить компьютерные модели, которые могли бы выполнять такие же вычисления, которые мозг использует для локализации звуков. Эти модели иногда хорошо работали в идеальных условиях без фонового шума, но не в реальных условиях.

Команда Массачусетского технологического института обратилась к сверточным нейронным сетям. Они уже широко используются для моделирования зрительной системы человека.

Сверточные нейронные сети могут быть разработаны с использованием множества различных архитектур, поэтому, чтобы помочь им найти те, которые лучше всего подходят для локализации, команда использовала суперкомпьютер, который позволил обучить и протестировать около 1500 различных моделей. Исследователи выявили 10 моделей, которые казались наиболее подходящими для локализации, а затем дополнительно обучили их.

Для обучения моделей исследователи создали виртуальный мир, в котором они могут контролировать размер комнаты и отражающие свойства стен комнаты. Все звуки, подаваемые на модели, исходили откуда-то из одной из этих виртуальных комнат. Набор из более чем 400 обучающих звуков включал в себя человеческие голоса, звуки животных, машин, такие как автомобильные двигатели, и естественные звуки, такие как гром.

Исследователи также обеспечили запуск модели с той же информацией, что поступает в человеческие уши. Наружное ухо, или ушная раковина, имеет множество складок, которые отражают звук, изменяя частоты, и эти отражения различаются в зависимости от того, откуда исходит звук. Исследователи смоделировали этот эффект, пропустив каждый звук через специальную математическую функцию, прежде чем он попал в компьютерную модель.

После обучения моделей исследователи протестировали их в реальных условиях. Они разместили манекен с микрофонами в ушах в реальной комнате и воспроизвели звуки с разных направлений, а затем передали эти записи моделям. Модель смогла локализовать звуки в реальном мире.

Затем исследователи подвергли модели серии тестов, которые ученые использовали в прошлом для изучения способностей человека к локализации.

Они также подтвердили утверждение о том, что человеческий мозг основывает свои суждения о местонахождении звука на различиях в интенсивности сигналов, достигающих каждого уха. Команда Массачусетского технологического института обнаружила, что модель показала ту же чувствительность к частоте.

«Похоже, она использует синхронизацию и разницу уровней между двумя ушами так же, как это делают люди, и это зависит от частоты звука», — отметили исследователи.

В МТИ также показали, что усложняли задачи локализации, добавляя несколько источников звука, воспроизводимых одновременно, а производительность компьютерных моделей при этом снижалась таким образом, что имитировала человеческие неудачи.

Исследователи пришли к выводу, что люди ограничены возможностью одновременно локализовать около трех источников звука, и модель показала тот же результат. 

Поскольку команда использовала виртуальный мир, она также смогла изучить, что происходит, когда модель учится локализоваться в различных типах неестественных условий. Исследователи обучили один набор моделей в виртуальном мире без эха, а другой — в мире, где никогда не было слышно более одного звука за раз. В третьем случае модели подвергались воздействию только звуков с узким частотным диапазоном, а не естественных звуков.

Когда модели, обученные в этих неестественных мирах, оценивались с помощью одного и того же набора поведенческих тестов, они отклонялись от человеческого поведения, и способы, которыми они терпели неудачу, различались в зависимости от типа обучающей среды. Эти результаты подтверждают идею о том, что способности человеческого мозга к локализации адаптированы к среде, в которой развивались люди.

В настоящее время исследователи применяют этот тип моделирования к другим аспектам слуха, таким как восприятие высоты тона и распознавание речи, и считают, что его также можно использовать для понимания других когнитивных явлений, например, ограничений внимательности и запоминания.

Ранее исследователи из Университета Гвельфа в Онтарио разработали и обучили «гиперсеть», которая может ускорить процесс обучения других нейросетей. Она предсказывает параметры новой нейросети за доли секунды, и теоретически может сделать ее обучение ненужным, создавая чрезвычайно сложные модели глубоких нейронных сетей.

Tags:
Hubs:
Total votes 5: ↑5 and ↓0+5
Comments6

Other news