vkolobaev Oct 31 2019 at 11:08

Мы два года развивали свою систему мониторинга. Кликай, чтобы…

8 min

12K

AvitoTech corporate blogSystem administration*Development Management*Data storages*DevOps*

+34

Comments 12

Illeanectedd Oct 31 2019 at 14:38

с кем можно пообщаться из вашей компании по проблеме с аккаунтом? техподдержка «непробиваемая».

-4

rafinirovannoe Oct 31 2019 at 18:00

Привет! Попробуйте написать пользователю avitocare, опишите ситуацию.

avitocare Oct 31 2019 at 21:29

Уже видим вас в диалогах. Ждем подробности.

valyala Oct 31 2019 at 15:01

Если вы собираетесь добавлять тэги в ваши метрики, то советую посмотреть на VictoriaMetrics. Она поддерживает заливку данных по Graphite plaintext протоколу с поддержкой тэгов. Кроме этого, в нее можно записывать данные из Prometheus по remote_write API, из Telegraf'а по Influx line protocol и из OpenTSDB-агентов.

vkolobaev Oct 31 2019 at 15:54

Мы знаем о существовании вашего решения. Но у нас есть ряд подвисших вопросов по нему:
— Реализована ли репликация данных?
— Можно ли мигрировать N лет данных в него?
— Можно ли писать данные в историю?
— Поддерживает ли роллап метрик, с разными типами агрегации данных
— Поддерживает ли запись/чтение данных в краткосрочное/долгосрочное хранилище. В случае с КХ, это одна база с 2 таблицами. А как подобное организовать в ВМ?

valyala Oct 31 2019 at 21:38

Спасибо за хорошие вопросы. Вот ответы на них:

Репликации пока нет. Есть только равномерное распределение данных между нодами кластера. Рекомендуется записывать данные параллельно в несколько датацентров. См. инструкцию. Также рекомендуется использовать отказоустойчивые реплицируемые диски вроде GCP persistent disk. Вот тут подробности.
VictoriaMetrics поддерживает миграцию исторических данных. См. документацию.
Роллапа метрик пока нет. Вот тут пояснения.
Для организации записи/чтения в краткосрочное/долгосрочное хранилище можно поднять несколько инстансов ВМ с разными -retentionPeriod, и настроить переливку данных из одного в другое с помощью федерации. В общем случае данные рекомендуется хранить в одном долговременном хранилище — ВМ автоматически оптимизирует доступ к недавно записанным данным — они кэшируются в ОЗУ — в то время, как старые данные доступны с диска.

vkolobaev Nov 1 2019 at 11:47

Есть тестовый стенд нашего решения завернутый в docker-compose:
github.com/kolobaev/graphite-clickhouse-tldr

hanzakkerman Nov 1 2019 at 11:47

Очень навороченное решение. Правильно ли я понимаю, что его сложность связана с тем, что это всё-таки прикладной мониторинг в основном, и задача в данном случае — собирать все возможные метрики и хранить их как можно дольше?

vkolobaev Nov 1 2019 at 11:48

> собирать все возможные метрики и хранить их как можно дольше?
Мы действительно ставили перед собой цель собирать все возможные метрики в единое место, так как это открывает широкие возможности для анализа происходящих событий в режиме реального времени. Что касается «хранить как можно дольше», то такую цель, первоначально, мы перед собой не ставили. Мы думали о промежутке год-два, но в результате получилось так, что исторические данные занимают на порядок меньше места, чем те что мы получаем сейчас, и потому их хранение не является какой-то серьезной проблемой. В будущем мы планируем «отцеплять» исторические партиции, и отправлять их в архив, таким образом мы будем иметь возможность обратиться к ним при необходимости, но место в основном кластере они занимать не будут.

Slach Nov 6 2019 at 16:06

Подскажите пожалуйста про Anomaly Detector, в прошлых статьях вроде как собирались его опенсорсить, что-то сдвинулось в этом направлении?

vkolobaev Nov 8 2019 at 08:56

Мы планируем добрать в команду разработчика, после чего у нас появятся ресурсы на то чтобы начать активно опенсорсить наши решения, в том числе и детектор аномалий. Как скоро это произойдет я к сожалению сказать не могу.

Slach Nov 8 2019 at 10:03

жаль =) будем с нетерпением ждать