DataSecrets May 1 at 21:18

Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше перцептрона

1 min

29K

Big Data*Machine learning*Artificial Intelligence

+72

Comments 19

Safreliy May 1 at 22:10

Вовсе не удивительно, что на основе аппроксимационной теоремы Колмогорова можно строить такие же функции в виде сетей, как и в случае MLP. MLP в свою очередь обосновываются аппроксимационной теоремой Хехта-Нильсена (и её обобщением на класс измеримых функций, данным Алексеевым).

Как в случае MLP, так и в случае KAN у нас доказывается сходимость представленной структуры в пространстве измеримых функций, но ничего не говорится об их оптимальности. По всей видимости это в принципе очень трудная проблема, сравнимая с задачами тысячелетия. Всё сравнивается с эффективностью на конкретных задачах, но не производится никаких обобщений. Таким образом мы просто метаемся от одного представления к другому, так и не исследовав глубокие морфологические свойства подобных разложений, не поняв структуру созданных сетей и то, как же всё-таки сопоставить классы всевозможных сетей с классами всевозможных функций, чем бы они не являлись.

+35

Imaginarium May 2 at 00:47

Да, мы в плену поиска частных и быстрых прикладных решений. Это проявление философского кризиса, явного перекоса в сторону прикладной науки в ущерб фундаментальной.

+14

pennanth May 2 at 03:50

Вы правы.

Хотел только отметить, что эффективность на задачах или даже классе задач не означает эффективность на обобщениях этих задач. Более того, оптимальность в многомерных задачах теряется очень быстро при малых изменениях небольшого числа параметров. Скорее всего, оптимальность обобщенных задач нужно искать в их собственном пространстве напрямую, не в классах конкретных задач.

QviNSteN May 3 at 10:11

Вот и у меня эти же мысли вызвала статья сих исследователей.

Ощущение, будто получится нейронка заточенная под конкретные задачи. Выдающая верные ответы, но не способная написать код, а после превратить его в стих. Потому что это максимально неординарная задача. А мы уже в блоке программирования.

В общем, если эту хреновину и можно применить, то только для поисковиков (что круто кншн, но всё же не революция)

wl2776 May 2 at 05:10

del

ValeriyPushkarev May 2 at 06:23

Какой черри-пикинг.

Ну да, из полиномов можно собирать функции, круто.

А что там с простой кластеризацией и прочим? )

Где сравнения по размеру модели\качеству?

Где тесты хотя-бы для 10-20 классов обьектов (не только функции, но и картинки, простые многомерные данные и т.д.)?

P.S. как я понял, у них вышло значительно хуже чем просто поиск в пространстве функций :)

erley May 2 at 11:51

В лаборатории ИИ на ВЦ в Новосибирском Академгородке 30 лет назад была группа которая вела исследования в этом направлении. К сожалению их не удалось завершить - большая часть коллектива эмигрировала, суровые 90-е разрушили многое.

Тогда я заканчивал университет и немного общался с этими ребятами. Конечно в опубликованной работе MIT ушли дальше, а в то время было непросто провести все численные эксперименты и работа шла безусловно медленнее.
Забавно что только через 30 лет эта идея сформировалась во что-то конкретное.

Идея не нова, сейчас появляются разные инициативы по улучшению базовых принципов работы НС (например Джеффри Хилтон год назад предлагал новую архитектуру НС).
Основное преимущество KAN в том что за счёт замены активационной функции простым сумматором и усложнением весовой фенкции с простой линейной на сплайн-функцию достигается существенные улучшения по гибкости и точности.
Да, для одинакового размера сети, KAN сложнее в обучении чем MLP, но как показано в данной работе, KAN даёт существенно больший выигрыш при гораздо меньшем размере НС. То есть в итоге утверждается, что KAN лучше при тех же затратах на обучение.

Очень интересная работа кстати, почитайте их публикацию, там есть ссылка на их гитхаб, можно поэкспериментировать самому.

iShrimp May 13 at 14:17

Если обучаемую функцию активации свести к полиномиальной (или к сумме любых других элементарных функций, не важно) и разбить по отдельным нейронам, то задача сведётся к подбору весовых коэффициентов... а чем такая архитектура сети будет принципиально отличаться от перцептрона?

erley May 13 at 15:23

Не совсем понял вопрос.
В MLP функцию активации не обучают (обучают веса связей), в KAN она вообще заменена сумматором...

iShrimp May 14 at 17:21

Т.к. функция активации φ(x) представляет собой линейную комбинацию n В-сплайнов, сдвинутых по оси х, одно такое "умное" ребро можно разложить на n обучаемых нейронов с одним входом, одним выходом, активацией в виде В-сплайна и 2 параметрами (вес входа и порог активации); и один линейный суммирующий элемент.

erley May 15 at 12:01

Ну можно и так разложить наверное, да. Тот же мультипликатор количества параметров получается и общее количество параметров растёт колоссально.

В KAN это всё обобщается в более компактный математический аппарат, который был и изучен. Думаю также что при таком усложнении перцептрона будет сложно добиться стабильного обучения...

AndrewAtResearch May 2 at 12:47

Ну вот, теперь появится возможность смешивать.

Выход MLP подать на вход KAN.
Выход KAN подать на вход MLP.
Сделать все узлы в MLP из KAN.
Не все узлы.
То же, но наоборот: пусть функции в KAN реализуются с помощью MLP.
Сетка, где левая половина (субсеть) KAN, а правая - MLP.

"Двести тысяч вариантов уже готовы, миллион на подходе"

timaxlax May 2 at 18:19

Это любопытно.

А можно ли без какого-либо смешивания сделать функции и в вершинах, и в ребрах? Чтобы на это был способна исходная архитектура.

kasiopei May 2 at 13:28

Для меня странно что при всей мощи математики нейросети такие примитивные. Бывает захожу в википедию почитать про какую-нибудь теорию и мозг пухнет. Много незнакомых слов, непонятные закорючки. Не было у нас в ВУЗе такого. А вот вместо веса функцию использовать я лет 15 назад догадался. А еще можно вместо сумматора другие функции попробовать и функций активации побольше. Считаю современная математика может на порядок сложней архитектуры дать.

piuzziconezz May 2 at 14:35

Математика много что может, а как реализовать это?

Godless May 2 at 16:44

Проблема ведь не в "догадался" поставить вместо одной штуки другую, проблема доказательного плана, что вся эта кутерьма способна по алгоритмам сходиться.

phenik May 2 at 14:04

KAN продемонстрировала значительные преимущества в точности перед многослойным перцептроном. При этом для достижения равного результата размер таких сетей может быть значительно меньше по сравнению с MLP. Кроме того, за счет своей гибкости подход предоставляет новые возможности интерпретируемости сети.

Как-то писал комент на тему размера глубоких сетей, и что, возможно, это связано со сложностью функций биологических прототипов формальных нейронов. В исследованиях они часто моделируются целыми сетями таких нейроном, см. ссылку в коменте. По этой причине архитектуры ИНС могут содержать большое количество слоев, чтобы добиться сравнимой с биологическими сетями эффективности. Возможно KAN ближе к биологическим прототипам по свойствам и по этой причине сети из них более компактные, как заявляют авторы.

Макс Тегмарк кругом успевает. У него своя теория всего - математические вселенные, своя интерпретация кв. механики, свой научный ИИ им. Пуанкаре, теперь и новая архитектура ИНС. Пора нобеля выписывать, что-то там комитет зазевался, соотечественника гнобит) Результаты? Результаты потом будут..

Devastor87 May 2 at 17:57

В основе всех архитектур глубокого обучения, в том числе систем компьютерного зрения и больших языковых моделей, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.

MLP - одна из множества архитектур нейронных сетей (самая базовая), коих существуют десятки
Нейронная сеть - одна из множества различных моделей, лежащих в основе глубокого обучения, cv и т.д.
Таким образом, фраза выдает почти что нулевое знание и понимание области DS и ML.
MLP - это только ОДНА из множества архитектур, ОДНОЙ из множества моделей.
Всё равно что сказать: в основе всех домов лежат бревна...

Konard May 2 at 18:15

А если посмотреть на это через призму теории связей, где и вершины и рёбра это связи. Получается можно сделать ещё один шаг и объединить оба подхода и исследовать на что способен общий случай.