Doctor_IT Nov 15 2023 at 17:09

Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут

5 min

5.7K

Selectel corporate blogMachine learning*Artificial IntelligenceData Engineering*

Tutorial

+35

Comments 8

MountainGoat Nov 15 2023 at 20:29

Генерация одной картинки потребляет много виртуальных ресурсов и времени, поэтому для нашего проекта локальная машина не подойдет.

Какое откровенное враньё. Народ использует видюхи уровня 1060. Картинка генерируется на них секунд 30.

Doctor_IT Nov 15 2023 at 20:51

Все зависит от проекта и целей. Наверное, это у меня старое железо, что я сижу на i5 восьмого поколения и старой доброй 1050 Ti, но среди моих друзей есть характеристики и послабее.

Да, изображения можно генерировать на локальной машине (если брать характеристики моей пекарни) в пределах минуты. Но все зависит от гиперпараметров: детализации, разрешения, количества вариаций и прочего-прочего. Помню, когда писал статью про сравнение нейросетей, поигрался со Stable Diffusion на локалке, не выдержал и перешёл в облако.

Похожая ситуация была и с GAN-сетками типа таких. Хочешь сгенерировать лицо / предмет — будь готов подождать. И там было далеко не 30 секунд:) а потом раз — и видеопамять переполнена, конфликты с CUDA, Jupyter ругается и т. д. И вот уже потрачен вечер впустую.

Ну и обратите внимание, что мы пишем про свой проект. Мы генерировали изображения вместе с участниками конференции Selectel Tech Day. Поэтому было важно, чтобы все работало быстро.

eugenk Nov 15 2023 at 21:23

Спасибо. А что скажете насчет ноутбучной 1650 с 4Гб видеопамяти ??? Для меня не критично, если будет генериться хоть час. Я просто хочу поиграться с технологией. А ценники на сервера у этих ребят конские.

Doctor_IT Nov 15 2023 at 22:18

В Stable Diffusion (SDXL 1) при минимальных значениях гиперпараметров (1:1, batch size 1, cfg scale ~5) будет генерировать до 4 минут. Здесь карточку лучше помощнее — 3060 по времени выдаст что-то более менее приемлемое, но на минимальных параметрах. Но видеопамять это будет довольно сильно кушать, в районе 70%.

Почему цены «конские»? Суть то в том, что можно арендовать топовое железо по модели pay-as-you-go, когда клиент платит только за потребляемые ресурсы. Хотите арендовать на день — арендуйте на день, на два дня — арендуйте на два дня.

Это особенно интересно даже для студентов. Представьте: до защиты работы остаётся одна ночь, нужно дописать курсовую (например, провести исследование, связанное с генерацией изображений или аналитикой данных). Вместо того, чтобы криво-косо ставить webUi Stable Diffusion или настраивать Anaconda (Jupyter и прочее), тратить на одно изображение до 10 минут, можно спокойно все сделать за час.

MountainGoat Nov 16 2023 at 00:54

Это очень неудачная для этого дела карта. У неё 4Гб памяти, но она не умеет работать с 16битными числами, что отжирает дополнительную память. Так что нет. 1660 ещё работает, а 1650 нет.

При этом на форумах есть люди, которые говорят, что у них всё работает. Но не говорят как.

hobbyte Nov 16 2023 at 11:52

Может заведётся оптимизированная для cpu игрушка, модели оптимизированы и их одна-две, но посмотреть хватит. На моём i5-10ххх картинка 512х768 за 50сек получилась.

https://github.com/rupeshs/fastsdcpu

nbkgroup Nov 15 2023 at 21:06

Безусловно, интересно и познавательно для участников, но результаты — кровь из глаз.

MountainGoat Nov 15 2023 at 23:36

Хорошие результаты дорабатываются вручную. Зачем это здесь?

-1