Pull to refresh

Comments 19

Вовсе не удивительно, что на основе аппроксимационной теоремы Колмогорова можно строить такие же функции в виде сетей, как и в случае MLP. MLP в свою очередь обосновываются аппроксимационной теоремой Хехта-Нильсена (и её обобщением на класс измеримых функций, данным Алексеевым).

Как в случае MLP, так и в случае KAN у нас доказывается сходимость представленной структуры в пространстве измеримых функций, но ничего не говорится об их оптимальности. По всей видимости это в принципе очень трудная проблема, сравнимая с задачами тысячелетия. Всё сравнивается с эффективностью на конкретных задачах, но не производится никаких обобщений. Таким образом мы просто метаемся от одного представления к другому, так и не исследовав глубокие морфологические свойства подобных разложений, не поняв структуру созданных сетей и то, как же всё-таки сопоставить классы всевозможных сетей с классами всевозможных функций, чем бы они не являлись.

Да, мы в плену поиска частных и быстрых прикладных решений. Это проявление философского кризиса, явного перекоса в сторону прикладной науки в ущерб фундаментальной.

Вы правы.

Хотел только отметить, что эффективность на задачах или даже классе задач не означает эффективность на обобщениях этих задач. Более того, оптимальность в многомерных задачах теряется очень быстро при малых изменениях небольшого числа параметров. Скорее всего, оптимальность обобщенных задач нужно искать в их собственном пространстве напрямую, не в классах конкретных задач.

Вот и у меня эти же мысли вызвала статья сих исследователей.

Ощущение, будто получится нейронка заточенная под конкретные задачи. Выдающая верные ответы, но не способная написать код, а после превратить его в стих. Потому что это максимально неординарная задача. А мы уже в блоке программирования.

В общем, если эту хреновину и можно применить, то только для поисковиков (что круто кншн, но всё же не революция)

Какой черри-пикинг.

Ну да, из полиномов можно собирать функции, круто.

А что там с простой кластеризацией и прочим? )

Где сравнения по размеру модели\качеству?

Где тесты хотя-бы для 10-20 классов обьектов (не только функции, но и картинки, простые многомерные данные и т.д.)?

P.S. как я понял, у них вышло значительно хуже чем просто поиск в пространстве функций :)

В лаборатории ИИ на ВЦ в Новосибирском Академгородке 30 лет назад была группа которая вела исследования в этом направлении. К сожалению их не удалось завершить - большая часть коллектива эмигрировала, суровые 90-е разрушили многое.

Тогда я заканчивал университет и немного общался с этими ребятами. Конечно в опубликованной работе MIT ушли дальше, а в то время было непросто провести все численные эксперименты и работа шла безусловно медленнее.
Забавно что только через 30 лет эта идея сформировалась во что-то конкретное.

Идея не нова, сейчас появляются разные инициативы по улучшению базовых принципов работы НС (например Джеффри Хилтон год назад предлагал новую архитектуру НС).
Основное преимущество KAN в том что за счёт замены активационной функции простым сумматором и усложнением весовой фенкции с простой линейной на сплайн-функцию достигается существенные улучшения по гибкости и точности.
Да, для одинакового размера сети, KAN сложнее в обучении чем MLP, но как показано в данной работе, KAN даёт существенно больший выигрыш при гораздо меньшем размере НС. То есть в итоге утверждается, что KAN лучше при тех же затратах на обучение.

Очень интересная работа кстати, почитайте их публикацию, там есть ссылка на их гитхаб, можно поэкспериментировать самому.

Если обучаемую функцию активации свести к полиномиальной (или к сумме любых других элементарных функций, не важно) и разбить по отдельным нейронам, то задача сведётся к подбору весовых коэффициентов... а чем такая архитектура сети будет принципиально отличаться от перцептрона?

Не совсем понял вопрос.
В MLP функцию активации не обучают (обучают веса связей), в KAN она вообще заменена сумматором...

Картинка из статьи
Картинка из статьи

Т.к. функция активации φ(x) представляет собой линейную комбинацию n В-сплайнов, сдвинутых по оси х, одно такое "умное" ребро можно разложить на n обучаемых нейронов с одним входом, одним выходом, активацией в виде В-сплайна и 2 параметрами (вес входа и порог активации); и один линейный суммирующий элемент.

Ну можно и так разложить наверное, да. Тот же мультипликатор количества параметров получается и общее количество параметров растёт колоссально.

В KAN это всё обобщается в более компактный математический аппарат, который был и изучен. Думаю также что при таком усложнении перцептрона будет сложно добиться стабильного обучения...

Ну вот, теперь появится возможность смешивать.

Выход MLP подать на вход KAN.
Выход KAN подать на вход MLP.
Сделать все узлы в MLP из KAN.
Не все узлы.
То же, но наоборот: пусть функции в KAN реализуются с помощью MLP.
Сетка, где левая половина (субсеть) KAN, а правая - MLP.

"Двести тысяч вариантов уже готовы, миллион на подходе"

Это любопытно.

А можно ли без какого-либо смешивания сделать функции и в вершинах, и в ребрах? Чтобы на это был способна исходная архитектура.

Для меня странно что при всей мощи математики нейросети такие примитивные. Бывает захожу в википедию почитать про какую-нибудь теорию и мозг пухнет. Много незнакомых слов, непонятные закорючки. Не было у нас в ВУЗе такого. А вот вместо веса функцию использовать я лет 15 назад догадался. А еще можно вместо сумматора другие функции попробовать и функций активации побольше. Считаю современная математика может на порядок сложней архитектуры дать.

Математика много что может, а как реализовать это?

Проблема ведь не в "догадался" поставить вместо одной штуки другую, проблема доказательного плана, что вся эта кутерьма способна по алгоритмам сходиться.

KAN продемонстрировала значительные преимущества в точности перед многослойным перцептроном. При этом для достижения равного результата размер таких сетей может быть значительно меньше по сравнению с MLP. Кроме того, за счет своей гибкости подход предоставляет новые возможности интерпретируемости сети.

Как-то писал комент на тему размера глубоких сетей, и что, возможно, это связано со сложностью функций биологических прототипов формальных нейронов. В исследованиях они часто моделируются целыми сетями таких нейроном, см. ссылку в коменте. По этой причине архитектуры ИНС могут содержать большое количество слоев, чтобы добиться сравнимой с биологическими сетями эффективности. Возможно KAN ближе к биологическим прототипам по свойствам и по этой причине сети из них более компактные, как заявляют авторы.

Макс Тегмарк кругом успевает. У него своя теория всего - математические вселенные, своя интерпретация кв. механики, свой научный ИИ им. Пуанкаре, теперь и новая архитектура ИНС. Пора нобеля выписывать, что-то там комитет зазевался, соотечественника гнобит) Результаты? Результаты потом будут..

В основе всех архитектур глубокого обучения, в том числе систем компьютерного зрения и больших языковых моделей, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.

  1. MLP - одна из множества архитектур нейронных сетей (самая базовая), коих существуют десятки

  2. Нейронная сеть - одна из множества различных моделей, лежащих в основе глубокого обучения, cv и т.д.

    Таким образом, фраза выдает почти что нулевое знание и понимание области DS и ML.

    MLP - это только ОДНА из множества архитектур, ОДНОЙ из множества моделей.

    Всё равно что сказать: в основе всех домов лежат бревна...

А если посмотреть на это через призму теории связей, где и вершины и рёбра это связи. Получается можно сделать ещё один шаг и объединить оба подхода и исследовать на что способен общий случай.

Sign up to leave a comment.

Other news