Pull to refresh

Comments 6

Не понимаю, почему эту статью не заметили.
Где еще можно узнать даже такой минимум, про создание кластера для ML, при таких ценах, компаний в стране, способных повторить этот опыт можно наверное по пальцам посчитать.


Еще со времен первой публикации информации о гугловских TPU понимал, что для ML нужны специализированные железки, там почти вся работа это операции над векторами и матрицами. Одна операция суммы произведений, если ее оптимизировать, чего стоит.


Неужели крупным компаниям сложно разработать что то типа ddr3+fpga сборку (кстати гуглятся готовые железки с одним жалким чипом на гигабит, когда надо в 512 раз больше), где к функционалу обычной памяти добавляется самостоятельные операции над ее содержимым (да я понимаю что там есть подводные камни, но это простейшая операция, которая может дать внезапный бонус на некоторых задачах).

Я лично заметил но отложил на вдумчивое чтение. Слишком вкусная статья чтобы читать в промежутке между рабочими задачами

Подскажите пожалуйста, можно ли собрать эффективный кластер из разноротипных видеокарт? Кто-то так делает?

Почему система сама не умеет обнаруживать проблемные ноды и автоматически снижать на них нагрузку? Есть ли какие то "супервизоры" которые умеют этим управлять?

Подскажите пожалуйста, можно ли собрать эффективный кластер из разноротипных видеокарт? Кто-то так делает?

Сомневаюсь. Если у вас разнотипные видеокарты, то у них разная производительность и одну и ту же операцию они будут выполнять разное время. В итоге синхронизировать их работу у вас не получится и в конце концов более быстрые карты будут простаивать и ждать более медленную. В статье про это есть, хотя и не много.

Думаю за неимением альтернатив (ничего купить нельзя, собираем из того что в столе у себя нашли) такое можно собрать, но лучше не надо.

А если, заранее проведя бенчмарки, динамически подстраивать размер задач, распределяемых по видеокартам? Само собой если в этом есть принципиальная возможность (размерность матриц языковых моделей — несколько тысяч по одной стороне, т.е. можно раскидывать вычисление по видеокартам вплоть до по столбцам)?

Мне скорее интересно как апгрейдить кластер. Допустим мы собрали кластер из 100 видеокарт, через год решили что нам нужно больше, а старые карты больше не выпускают. Как туда накинуть ещё 100 видеокарт другого типа?

Sign up to leave a comment.