Pull to refresh

Comments 65

UFO just landed and posted this here

Все верно, абсолютно бесплатных вариантов нет.

Но можно получить 18$ на тесты у OpenAI и ещё 300$ у Google, которые можно потратить на Text-to-Speech

Есть бесплатные с точки зрения софта, но бесплатное железо пока не изобрели. Но вы можете купить свою видеокарту и быть свободным от ежемесячной платы (кроме электричества). К сожалению, статья расположена в корпоративном блоге хостера и не рассматривает вариант подкроватного сервера, хотя с ценой аренды под 200к в месяц и отсутствия требования аптайма и пинга, он может оказаться выгоднее.

Также можно рассмотреть облачные хостинги с возможностью запускать и тушить виртуалку несколько раз в сутки. Например, нет смысла гонять её, пока пользователь спит. Возможно, почасовая оплата вместо помесячной будет дешевле.

Ну, если есть RTX4090 под кроватью, то может быть и выгоднее х)

Можно снизить затраты путем смены GPU, например, на А5000. Там 24 ГБ VRAM, кажется, под эти задачи подойдет, а цена в два раза меньше.

Ну и если нет серьезных требований к аптайму, то поминутная (посекундная!) тарификация в облаке -- это отличный выбор. Отличный выбор, который можно приправить «прерывайкой» (прервываемыми инстансами), что ещё снизит затраты.

Сделать образ, который при первом запросе стремительно разворачивать, а при отсутствии запросов в течение, например, получаса, также стремительно гасить.

Ну, если есть RTX4090 под кроватью, то может быть и выгоднее х)

Посмотрел цену. Прямо сейчас в DNS она стоит 150к. Сервер из статьи стоит 180к в месяц. Даже с учётом того, что к видеокарте ещё надо купить процессор, материнку, диск и БП, оно станет дешевле аренды сервера уже на второй месяц использования в худшем случае.

при первом запросе стремительно разворачивать

В статье упомянуто, что многогигабайтная модель грузится в видеокарту ощутимое время, хоть конкретных цифр и нет. Так что под вопросом насколько критичен лаг первого ответа.

В статье упомянуто, что многогигабайтная модель грузится в видеокарту ощутимое время, хоть конкретных цифр и нет. 

Но ведь... "Пару минут" (для float32) и "20 секунд" (для float16)...

На 24 гига видеопамяти можно взять m40. На алишке стоит вроде бы 30к руб. Однако, она требует или серверную, или очень самопальную систему охлаждения.

Можно так же запихнуть модель в оперативку и гонять на cpu. Будет гораздо дольше - где-то 6 секунд на 20 токенов - но RAM в разы дешевле VRAM.

По времени разворачивания - 6b модели грузятся около трёх минут.

Есть ещё момент - в Google Colab можно, если повезёт, запустить машинку с 16 гигами VRAM, на ~3 часа в сутки, притом бесплатно. Однако там есть свои сложности - вкладка всегда должна быть открыта, иногда прилетают капчи (не решил - машина гасится), машины не всегда доступны, и т.д.

Да с ускорителями, на самом деле, нет больших проблем, если нет цели собирать суперкомпьютер. На авито А4000 на 16 гигов стоит 25-30к, 2 таких - 60к, + проц + оперативная память - и все в сумме в 100к уложится. Да, это не кристофари от сбера, и запустить yaml от яндекса не получится, но вот такие проекты запускать, или заниматься finetune сетей - вполне реально. Да, будет дольше - но оставить сервер на ночь работать никто не мешает, в отличии от того же кагла или google collab.

Покупать на Авито / Али очень рискованно, т.к. не понятно, в каких условиях эксплуатировались карты.

Kaggle работает при закрытой вкладке, если сделать save and run , взаимодействовать с моделью при этом нельзя, но для дообучения такой вариант подходит

++

Посмотрел цену. Прямо сейчас в DNS она стоит 150к. Сервер из статьи стоит 180к в месяц.

Почти все статьи про облака-виртуализацию и всеобщее счастье обходят вопрос "какая же реально будет экономия от ваших облаков", заговаривая зубы "стабильность-пинг-неограниченный рост" (и события последнего года показали что и с этим тоже могут быть проблемы). Так что лучше "под кроватью" )))

Сложно представить бизнес, который готов держать инфраструктуру «под кроватью» :)

Я тут же на Хабре читал байку про "portable" сервера, которые стояли за забором и в случае проверки уезжали.

Не знаю как там с "байками" а вот я реально админил "сервер" который стоял в шкафу в углу офиса. USB кабель выходил через гипсокартон за стену в туалет в другой шкаф, где стоял внешний накопитель с рабочей базой. Приезжает "маски шоу", отсоединяют все кабеля и увозят системник...

Смешно, но это сработало.

Многие айтишные бизнесы с этого и начинались.
У меня дома два сервера в кладовке. Когда ты маленький, ты вполне можешь написать в Твиттаре "сорян пацаны, тут техработы, сегодня мой сервис не работает", и это прокатит.

Даже представлять не нужно, видел сервер предприятия который несколько лет стоял в доступным для всех живущих на вилле, прямо в гостиной, стыдливо повернутый лицевой стороной в угол.

Причём там даже не было никаких предупреждающих табличек, а его обесточить могли просто по незнанию или при ремонте элетропороводки...

Так используемая в статье GPT-3 ведь, вроде как, недоступна standalone? Только через API? Это нужно брать другую модель (например, GPT-2), но она будет, скорее всего, хуже по качеству.

Поправьте, если я не прав.

Действительно, мои извинения. Часть про GPT-J не отложилась.

Для чатов лучше брать не "ванильную" GPT-J-6B, а её специализированную чат-версию Pygmalion-6B, предварительно прочитав, как для неё правильно оформлять контекст, "впихивая" туда сведения о персонаже и используемой им стилистике диалогов.

В случае же, если планируется делать чат в фэнтезийном или SciFi-сеттинге, рекомендую использовать Open Pre-trained Transformer (OPT), разработанный исследователями-экстремистами из запрещённой в России организации Meta.

Их модели дают очень высокое качество генерации, поддерживают шардирование, могут квантоваться не только до 16 бит, но и до 8 бит (что например позволяет запускать 13B-модель на карточке с 16 Гб VRAM), а также могут расшаривать слои между GPU и CPU (остаток, который не влез в VRAM, досчитывается на CPU).

GPT-J-6B тоже работает с 8bit/тензорными ядрами, но только пока не на windows :(
У меня с 4090 получается примерно 15 токенов с секунду, довольно грустно, хотел ускорить.

UFO just landed and posted this here

Рекомендую пользоваться не ванильной версией KoboldAI, а форком от henk717 - там гораздо больше возможностей. В частности, там есть поддержка распределённого сервиса AI-Horde: любой доброволец может поднять у себя нейронку, какую только позволяет его железо, и предоставить к ней доступ для всех желающих. Соответственно, вы сможете оценить генеративные возможности даже весьма крупных сеток, просто подсоединившись к одному из таких добровольцев и погенерировав на его мощностях.

Также там есть поддержка моделей OPT со всеми их фичами, что позволяет поднимать очень крупные нейронки даже на весьма тухлых карточках. Я как-то ради интереса пускал OPT-6.7B-Erebus на древней GeForce 1070Ti с 8Гб VRAM, и оно работало, пусть даже с уполовиненным контекстом и скоростью 5 токенов в секунду.

Кстати, русскоязычная ruGPT от Сбера тоже поддерживается (кроме XL-версии, которую из-за этого их идиотского Sparse Attention вообще хрен где запустишь).

Также KoboldAI отлично интегрируется с TavernAI, что позволяет легко создавать карточки персонажей, прописывать их характер/историю и устраивать чаты с этими персонажами.

Да, всё как в жизни, максимльный реализм.


Кстати, если будете покупать видеокарту — оформляйте на родственников, а то придётся потом половину CUDA ядер отдавать.

И главное — сколько придется инвестировать в виртуальную подругу.

Машину лучше купи - на ней хоть ездить можно

И не такая самоуверенная, как ChatGPT ))

@Firemoonкогда уже нейросети начнут вместо Вас статью писать? Или уже?..

Человеческий мозг -- это тоже нейронная сеть. Так что 100% моих текстов написаны с использованием нейронных сетей.

Честное слово, я и не подозревал, что вот уже более сорока лет говорю прозой.

А ещё, оказывается, и нейросети использую...

А вы думаете, человек бы согласился на кибертульпу вместо девушки? То-то же. Автор текста про свою девушку пишет, а о себе помалкивает...

если дотронуться до головы, виртуальная девушка будет считать, что вы гладите ее по волосам

Во времена расцвета флэша я играл в игры, которые начинались абсолютно так же ( ͡° ͜ʖ ͡°)

В этом смысле флэш и не умирал.

UFO just landed and posted this here

можно ли дообучать модель на своей истории разговоров

Тоже интересно. Недавно обсуждали это в другом топике. Люди говорят, что это невозможно.

Почему невозможно? Если модель локальная, а не API.

Тут в статье написано, что можно GPT дообучить для корпоративного использования

На сколько я понял, можно до обучать на определённой выборке данных. Там создаётся дополнительный нейронный слой или что то такое. Однако базовые нейронные слои и веса после обучения не меняются.

Почему это? Мы можем пере- или до- обучать любой слой по своему выбору как вместе с остальными так и отдельно. Вот только обычно это не делают с той сетью, которая развернута в эксплуатации. Если нужно дообучить, то готовят выборку, дообучют и потом перевнедряют. Одновременно эксплуатировать и ее же дообучать в общем случае не очень эффективно.

UFO just landed and posted this here

В какой момент это должно происходить? Допустим у нас нейросеть-чатбот. Мы разговариваем с ней, даём ей имя в процессе, а так же задаём некоторые вкусовые предпочтения. Мы можем после этого до обучить нейросеть так, что бы она запомнила всё, о чём мы с ней говорили?

В какой момент это должно происходить?

Зависит от бизнес-задач

Мы можем после этого до обучить нейросеть так, что бы она запомнила всё, о чём мы с ней говорили?

Можем, но зачем? Эффективнее разделить инвариантную сеть и её "персону". Дообучать сеть уровня ChatGPT на клиентском устройстве чревато страданиями

Можем, но зачем?

Что бы добиться наибольшего сходства с мозгом человека. Несколько дней назад я представлял, что оно всё примерно так и работает. Но оказалось, что всё совершенно по другому.

добиться наибольшего сходства с мозгом человека

А зачем? Разве мы не можем решить ту же задачу другим способом?

Дообучить можно. Вопрос в целесообразности. Я вижу как минимум две проблемы:
1) Занимаясь "тонкой настройкой", можно случайно превратить модель в попугая.
2) Даже в состоянии попугая, модель может спокойно выдавать следующие диалоги:

Я: какой твой любимый цвет?
М: Голубой, как ночное небо.
<меньше 100 токенов спустя>
Я: какого цвета обои в твоей комнате?
М: Красные. Это мой любимый цвет.
Я: Ты же говорила, что любишь голубой?
М: Да, Голубой, как ночное небо - мой любимый цвет.

Почему? Скорее всего, модели не хватает руководства, чего-то вроде ControlNet для Stable Diffusion. И описания W++, судя по отзывам, проблему не решают, модель всё равно чудит.
Softprompt-ы, местный аналог эмбеддингов, тоже навряд ли решат эти проблемы - но здесь я некомпетентен.

Ну в теории, если не ограничивать промт, то контекст будет бесконечно большой и цель будет достигнута, правда для этого нужно будет выкупить все мощности Илона маска..

UFO just landed and posted this here

Потому что прикольно и потому что могут.

Из спортивного интереса

А она звонит во время совещаний? Что делает, если 7 минут кружочек не посмотрел?

Странно, что никто не упомянул DDLC и Монику. Благодаря технологии из статьи ВН могут перейти на новый уровень взаимодействия персонажей и игрока.

Every day, I imagine a future where I can be with you
In my hand is a pen that will write a poem of me and you...

Пока что текстовые движки могут выдать ещё пару сотен фраз на тему "давай останемся здесь, только ты и я", но вот сделать целостный сценарий без вмешательства игрока может только модель на 50 миллиардов параметров, и то, у неё это получается не совсем хорошо.

Чтобы сделать взаимодействия значимыми, они должны оказывать влияние на сюжет. Соответственно, возникает вопрос, кто будет этот сюжет направлять. Если игрок - то тот же NovelAI позволяет (платно) генерировать и истории, и иллюстрации к ним. Если ИИ - то скорее всего сюжет очень быстро потеряет всякий смысл. В результате, получится бесконечный ситком, который держится исключительно на харизме персонажей. Это не плохой вариант, но он не для всех.

200K в месяц - издеваешься? Да ещё аренда, а не покупка. Это же вся зарплата за месяц! Нафига оно надо. С ума сошли со своими игрушками (сарказм). А если серьёзно, не понял нафиг оно надо тем более реально со стоимостью оборудования как зарплат среднего специалиста за месяц. Нет, я не буду ворчать как в фильмах обычно говорят, что данная тема не взлетит, может кому то и нужно. Но по мне какая то узкая развлекательная ниша.

За такие деньги сервер с видеокартой проще купить и поставить под кровать (нам ведь не нужен ни сверхнизкий пинг, ни сверхвысокий аптайм). Но это корпоративный блог хостера :-)

Именно сервер, в серверном корпусе и с серверной видеокартой, вам вряд ли захочется поставить под кровать. У серверных видеокарт обычно пассивное охлаждение, так что нужен соответствующий серверный корпус, в котором вентиляторы орут так, что никакая виртуальная девушка вам будет не нужна. А может и реальная после такого уйдет.

Зато если у вас есть свободная кладовка с шумоизоляцией, то это уже совершенно другой, профессиональный подход. Как-то так мой коллега написал в блог статью о домашнем ДЦ, хотя это вызвало немало дискуссий.

Мне захотелось побыть душнилой, извините.

Новые технологии часто стоят дорого и требуют серьезных вложений. Со временем всё обкатывается, оптимизируется и становится доступным рядовым гражданам.

Тот же StableDiffusion уже вполне годится для домашнего использования.

с таким бюджетом можно на пару лет вперёд тиндер платинум оплатить, и можешь заводить себе подруг сколько влезет. и они, на секундочку, будут реальными

и они, на секундочку, будут реальными

В этом-то и проблема!! :D

это, скажем так, палка о двух концах:)

Эх, а я в свои студенческие годы страдал один без девушек. В современном мире эта проблема будет скоро решена)

Мне одному показалось что на видео модель шевелит губами и до и после того как голосовая запись началась/закончилась? Или это какие то особенности предпросмотра телеги?

если дотронуться до головы, виртуальная девушка будет считать, что вы гладите ее по волосам

А если ниже?

Sign up to leave a comment.