Articles / Profile of antonaleks605 / Habr

Антон Алексеев @antonaleks605

DevOps инженер Data/ML продуктов

Profile Publications 4Comments 14Bookmarks 27

antonaleks605 Apr 4 at 12:14

Как мы ускорили деплой облачной платформы в 20 раз и избавились от панических атак

Medium

12 min

4.4K

Selectel corporate blogIT Infrastructure*Cloud services*IT-companies

Привет, Хабр! С вами снова Антон, все еще DevOps-инженер в Selectel. И да, в этот раз ни слова про шеринг GPU, не пугайтесь. :)

Недавно на DevOps Conf я рассказал, как мы в отделе DataML-продуктов используем GitLab и Terraform, чтобы деплоить облачную платформу за 24 минуты вместо восьми часов, избавиться от костылей на серверах и получать больше удовольствия от работы. Вот ссылка на сам доклад. В этой статье я поделюсь этим опытом, дополню свой рассказ примерами, а для самых терпеливых оставлю ссылку на бесплатный двухнедельный тест той самой платформы.

Читать дальше →

+43

antonaleks605 Nov 24 2023 at 15:28

Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing

Hard

31 min

3.8K

Selectel corporate blogHigh performance*Machine learning*Video cardsKubernetes*

Tutorial

Привет, Хабр! С вами снова Антон, все еще DevOps-инженер в отделе Data- и ML-продуктов Selectel, который все еще исследует тему шеринга GPU. В предыдущей статье я рассказал, как можно использовать шеринг видеокарт в Kubernetes.

В комментариях была затронута тема динамического переконфигурирования MIG. Вопрос: можно ли настраивать деление GPU при активной нагрузке? Я погрузился подробнее в этот вопрос и нашел несколько способов, как это сделать. Интересно? Тогда добро пожаловать под кат!

Читать дальше →

+39

antonaleks605 Aug 30 2023 at 16:08

Делим неделимое в Kubernetes: шеринг GPU с помощью MIG и TimeSlicing

Hard

21 min

6.5K

Selectel corporate blogHigh performance*IT Infrastructure*Video cardsKubernetes*

Tutorial

✏️ Technotext 2023

Привет, Хабр! На связи снова Антон, DevOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я рассказал о шеринге GPU и показал, как запустить несколько инстансов на одной видеокарте с помощью MIG. А в конце затронул тему с автомасштабированием инференс-серверов. Она оказалась актуальной, и я решил написать продолжение.

В этот раз посмотрим, как применять технологии шеринга в Kubernetes, а также разработаем прототип автомасштабируемой инференс-платформы за один вечер. Интересно? Тогда добро пожаловать под кат!

Читать дальше →

+55

antonaleks605 Jul 18 2023 at 14:23

Как разбить GPU на несколько частей и поделиться с коллегами: практическое пособие по работе с MIG

13 min

6.7K

Selectel corporate blogHigh performance*IT Infrastructure*Computer hardwareVideo cards

Tutorial

Привет, Хабр! Меня зовут Антон, я — DevOps-инженер в отделе Data- и ML-продуктов Selectel. Последние три месяца исследовал интересную проблематику — шеринг GPU между конкурентными процессами и пользователями. В русскоязычном сегменте не смог найти ни одного оригинального материала — только переводы англоязычных статей.

После посещения пары докладов понял, что тема особенно актуальна: компании знают о шеринге GPU как о технологии, но пока не применяют ее. У меня же накопилось достаточно материалов, чтобы осветить эту тему более подробно и показать, как работает шеринг GPU на практике. Интересно? Самое время погрузиться под кат!

Читать дальше →

+46

Как мы ускорили деплой облачной платформы в 20 раз и избавились от панических атак

Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing

Делим неделимое в Kubernetes: шеринг GPU с помощью MIG и TimeSlicing

Как разбить GPU на несколько частей и поделиться с коллегами: практическое пособие по работе с MIG

Information

Specialization