Meklon Feb 13 at 16:45

Hashicorp Vault — собираем непрямую репликацию через ведро

Hard

15 min

4.4K

WiseOPS corporate blogInformation Security*System Analysis and Design*IT Infrastructure*DevOps*

Tutorial

+22

Comments 15

Meklon Feb 13 at 17:37

Кстати, коллеги, заберите еще саму архитектурную диаграмму для draw.io - https://drive.google.com/file/d/1Nq9JfDMtppRNA-fh46pyHextfX1SlgfM/view?usp=sharing

Пригодится, если будете в документации описывать что-то похожее у себя.

D1abloRUS Feb 13 at 20:40

Не думали просто постгрю взять в качестве backend?

Meklon Feb 13 at 21:37

Нет, а в чем целесообразность? Для Vault все равно нужно зашифрованное key-value хранилище, которое будет служить бэкендом. Raft-протокол тут подходит как нельзя лучше. Плюс, с использованием интегрированного хранилища количество точек отказа уменьшается до одного бинарника, по сути.

PostgreSQL тут будет дополнительной сущностью, которую тоже нужно обслуживать.

Tamerlan666 Feb 13 at 23:03

- name: Copy the certificates to the vault config dir for the first time
  shell: |
      rsync -L /etc/letsencrypt/live/{{ inventory_hostname }}/privkey.pem /etc/vault.d/privkey.pem
      rsync -L /etc/letsencrypt/live/{{ inventory_hostname }}/fullchain.pem /etc/vault.d/fullchain.pem
      chown vault:vault /etc/vault.d/privkey.pem
      chown vault:vault /etc/vault.d/fullchain.pem
      pkill -SIGHUP vault
  args:
    creates: /etc/vault.d/fullchain.pem

Зачем тут этот башсибл? Что мешало нормальный модуль copy использовать?

Meklon Feb 14 at 00:10

Потому что надо не просто скопировать файлы сертификатов при первом запуске, но и выполнить аккуратный reload со стороны Vault, послав ему SIGHUP.

Можно разбить на два отдельных таска, но shell все равно нужен.

Да, не слишком изящно. Я тоже не люблю bashansible, о чем и упомянул выше.

Tamerlan666 Feb 14 at 09:05

Этот ваш SIGHUP прекрасно делается через правильно сделанный systemd юнит, который все равно нужен.

Tamerlan666 Feb 13 at 23:24

В этой части мануала я предполагаю, что у вас уже есть мастер-образ, на базе которого вы разворачиваете ВМ. Мы для этих целей используем Packer от тех же Hashicorp, чтобы подготовить Oracle Linux с нашими публичными ключами и системными пользователями, от имени которых будет работать Ansible.

Если все равно делаете образы, то почему сразу туда Vault с необходимыми настройками не запечь? Какой смысл поднимать из образа голый линукс, а потом накатывать на него плейбук для разворачивания Vault? Получается лишняя потеря времени на поднятие кластера. И инфраструктура получается не иммутабельная.

Meklon Feb 14 at 00:05

У нас исторически так сложилось. Ванильный золотой образ с минимальными изменениями, а все остальное уже описано Ansible. Мы думали над подходом с запеканием готовых образов, но в итоге все равно будет нужно выкатывать плейбуки, чтобы внести минимальные изменения, поправить конфигурацию, обновить версии пакетов на актуальные.

Для некоторых систем мы это используем.

Пересобирать образ каждый раз не всегда удобно, хотя и дает "замороженную" версию узла. Но да, такой подход тоже возможен.

Tamerlan666 Feb 14 at 09:09

Пересборка образа занимает примерно то же время, что и накатка плейбуки на поднятые голые инстансы. Но при этом есть нормальная возможность того же масштабирования кластера. И получается нормальная immutable infrastructure.

Tamerlan666 Feb 14 at 00:04

Кстати, а как вы обновляете кластер при таком подходе? Сносите весь кластер, поднимаете с нуля новой версией кода, а потом восстанавливаете данные из бэкапа?

Meklon Feb 14 at 00:58

Нет, не сносим. Обновление идёт в соответствии с рекомендациями вендора.

Начинаем с текстового кластера. Так как он является репликой, то он сразу же позволяет нам провести интеграционное тестирование на том уровне, который требуется заказчику.

После того, как мы убедились в отсутствии регрессий, обновляем продуктивный кластер. Обычно это поэтапное обновление по одной ноде в роли follower с лидером в самом конце. Всё это, конечно, под прикрытием снапшотов на случай, если что-то пойдет не так.

Zero-downtime с Vault невозможен, но в нормальной ситуации переключение занимает сотни миллисекунд.

Tamerlan666 Feb 14 at 09:12

Если вы проводите обновление путем накатки плейбука и обновления пакетов наживую, то по факту у вас получаются не эквивалентные образы. Различие точно будет набегать между тестовой версией и продакшеном, и даже между нодами одного кластера может со временем набежать заметная разница в конфигурации тех же пакетов и библиотек.

Meklon Feb 14 at 10:57

Соглашусь отчасти. Но ключевые пакеты имеют фиксированную версию, как тот же Vault. Конфигурация у них будет идентичной. Единственная разница, которая может появиться между средами - версии второстепенных пакетов, которые могли получить мелкое обновление между двумя циклами обновлений. Это не критично.

Но я понимаю вашу мысль насчёт immutable infrastructure. Это тоже отличный подход и один из вариантов.

Ign0r Feb 14 at 06:40

После восстановлении снапшота на резервном кластере Vault на нём распечатываете?

Meklon Feb 14 at 10:52

Нет, процесс snapshot restore идёт непрерывно, а ноды при этом не запечатываются