Comments 21
Пробовали ли вы настраивать алерты через holtWintersConfidenceBands, вместо отклонения в 10% от 10 минут назад?
Это выглядит гораздо более перспективным инструментом, но на текущий момент у меня не получилось корректно выставить нахождение метрики внутри окна
Параллельная работа здесь невозможна. Над панелью (или даже над всей бордой) лучше работать только одному человеку и только в одной вкладке. Иначе что-то где-то не сохранится и придётся заново настраивать.
-- это неправда, при конкурентной работе в момент сохранения графана пишет "кто-то что-то еще поменял, точно хотите перезаписать?". На это можно как-то среагировать. Например сохранить себе текущий шаблон дашборда
Постоянно надо перепроверять. После сохранения лучше зайти и проверить, что всё действительно сохранилось
-- с этим я просто не согласен, на мой практике проблем с сохранением в графане не было. Возможно, у вас что-то недонастроено со стороны сервера и стоит посмотреть есть ли там ошибки при сохранении
Зачем в домклике фронтендеров мучают кликхаусом и графаной? 🤦♂️
почему же мучают? Сбор метрик - вполне продуктовая история, которая касается всех платформ. Для нас удобен Clickhouse в этом плане. А графана - удобный инструмент визуализации. Так что мучения могут складывать только из задач, которые мы себе ставим. Но как развиваться, если не страдать :)
Вроде бы звучит уместно, но сбор метрик - это NFR (non functional requirements), а не продуктовая история, тем более, что упомянутые инструменты относятся сбору технических метрик, что там у вас крашнулось, упало, выбросило ошибку и тд. (Тут на хабре написано, в домклике 501 - 1000 сотрудников, но не нашлось профильных спецов?). Угадайте что будет, когда на следующей работе вас просят, чем вы занимались в домклик - красила кнопочки и поднимала кликхаус с графаной.
ни разу не встречала работодателей, которые говорили бы, что расширение своего круга обязанностей - это плохо. Чем больше ты знаешь в IT, тем ты ценнее. И тем интереснее с тобой пообщаться :)
Вы не поверите, но у нас почти все разработчики еще и в DevOps-практики умеют :)
Какая глупость.
Любой разработчик, умеющий в мониторинги и алерты (и зачем оно нужно) из-коробки ценнее того, кто не умеет. Даже при чуть более слабых тех скилах.
В Grafana в алертах есть условие percent_diff. Если такой алерт повесить на ваш первый график, то должен быть тот же результат, но без второго графика.
не совсем так. У нас первый график - это просто количество метрик в единицу времени, не резкость изменения. Он был добавлен для того, чтобы можно было в ручную посмотреть, как изменились метрики. А второй запрос - как раз про подсчет резкого изменения. Его, кажется, и правда можно оптимизировать с помощью percent_diff. Спасибо за подсказку, подумаем в этом направлении :)
Спасибо за статью. Попробуйте всю конфигурацию графаны хранить в гите и при любых изменениях в репозитории, сразу же раскатывать это автоматический с помощью CD, возможно тогда будет меньше таких проблем
Для работы с дэшбордами графаны рекомендую использовать код, git, grafonnet и ci/cd, а не "чеклист по нежной работе". Тогда и (внезапно) над кодом сможет работать несколько человек одновременно и других проблем избежите :)
хороший совет. Но в статье я описала "чеклист по нежной работе" риалтайм. Работа же с кодом подразумевает его собственно написание, выкатку и т.п. Это не очень быстрый процесс, когда тебе нужно быстро проверить гипотезу в настройке алертов или поменять название переменной. И тут также могут быть коллизии в совместной работе. Хотелось подсветить, на какие именно грабли наступили мы при работе без кода и гита. Спасибо :)
Не пробовали алерты делать на diff(now-7d)?
Это обычно самая показательная метрика что что-то изменилось.
7 дней для нас слишком много, хочется иметь возможность узнать о потере метрик как можно раньше
Так вы узнаете сразу же.
Вводите новую метрику: Значение любой стабильной метрики сейчас минус такое же значение этой же метрики 7 дней назад. Если изменение больше порога (допустим 10% от значения метрики 7 дней назад) - бьем тревогу.
На сленге WoW (Week-on-Week) называется. Многогранная аббревиатура оказалась.
прикольно, не знала. Спасибо, что поделились. Думаю, это будет для нас очень полезно :)
Если так настроить, графана может заспамить алертами в праздничный день посреди недели.
У меня заметно влияют на посещаемость новогодние и майские. Остальные праздники в пределах погрешности проходят. У вас может быть другая специфика, это я про свою. Два раза в год в заранее известные даты пережить ложные срабатыватывания алертов можно. Другие мониторинги чаще ерунду показывают.
Спамить алертами не надо. Да и выключение алертов по кнопке на известные дни стоит предусмотреть. Это в любом случае пригодится в эсплуатации.
Clickhouse & Grafana: история успеха одних алертов