Pull to refresh

Comments 21

Пробовали ли вы настраивать алерты через holtWintersConfidenceBands, вместо отклонения в 10% от 10 минут назад?

Это выглядит гораздо более перспективным инструментом, но на текущий момент у меня не получилось корректно выставить нахождение метрики внутри окна


Параллельная работа здесь невозможна. Над панелью (или даже над всей бордой) лучше работать только одному человеку и только в одной вкладке. Иначе что-то где-то не сохранится и придётся заново настраивать.

-- это неправда, при конкурентной работе в момент сохранения графана пишет "кто-то что-то еще поменял, точно хотите перезаписать?". На это можно как-то среагировать. Например сохранить себе текущий шаблон дашборда

Постоянно надо перепроверять. После сохранения лучше зайти и проверить, что всё действительно сохранилось

-- с этим я просто не согласен, на мой практике проблем с сохранением в графане не было. Возможно, у вас что-то недонастроено со стороны сервера и стоит посмотреть есть ли там ошибки при сохранении

спасибо за коммент) Нет, не пробовали, отклонение в 10% взято эмпирически, т.к. выглядело наиболее уместным на момент решения задачи, которая и так изменяла свой алгоритм "на ходу". Но holtWintersConfidenceBands точно стоит того, чтобы его изучить, спасибо 😉

Зачем в домклике фронтендеров мучают кликхаусом и графаной? 🤦‍♂️

почему же мучают? Сбор метрик - вполне продуктовая история, которая касается всех платформ. Для нас удобен Clickhouse в этом плане. А графана - удобный инструмент визуализации. Так что мучения могут складывать только из задач, которые мы себе ставим. Но как развиваться, если не страдать :)

Вроде бы звучит уместно, но сбор метрик - это NFR (non functional requirements), а не продуктовая история, тем более, что упомянутые инструменты относятся сбору технических метрик, что там у вас крашнулось, упало, выбросило ошибку и тд. (Тут на хабре написано, в домклике 501 - 1000 сотрудников, но не нашлось профильных спецов?). Угадайте что будет, когда на следующей работе вас просят, чем вы занимались в домклик - красила кнопочки и поднимала кликхаус с графаной.

ни разу не встречала работодателей, которые говорили бы, что расширение своего круга обязанностей - это плохо. Чем больше ты знаешь в IT, тем ты ценнее. И тем интереснее с тобой пообщаться :)

Вы молоды и еще много чего не видели ) давать советы неблагодарное дело, но я бы на вашем месте (а я был на вашем месте 12 лет назад) занимался углублением знаний, а не расширением. Широту взглядов легко спутать с очень узкой точкой зрения.

Вы не поверите, но у нас почти все разработчики еще и в DevOps-практики умеют :)

Какая глупость.

Любой разработчик, умеющий в мониторинги и алерты (и зачем оно нужно) из-коробки ценнее того, кто не умеет. Даже при чуть более слабых тех скилах.

В Grafana в алертах есть условие percent_diff. Если такой алерт повесить на ваш первый график, то должен быть тот же результат, но без второго графика.

не совсем так. У нас первый график - это просто количество метрик в единицу времени, не резкость изменения. Он был добавлен для того, чтобы можно было в ручную посмотреть, как изменились метрики. А второй запрос - как раз про подсчет резкого изменения. Его, кажется, и правда можно оптимизировать с помощью percent_diff. Спасибо за подсказку, подумаем в этом направлении :)

Спасибо за статью. Попробуйте всю конфигурацию графаны хранить в гите и при любых изменениях в репозитории, сразу же раскатывать это автоматический с помощью CD, возможно тогда будет меньше таких проблем

отличная мысль! Я встречала такие реализации, и это действительно во многом удобнее, чем всё делать руками. Спасибо 😉

Для работы с дэшбордами графаны рекомендую использовать код, git, grafonnet и ci/cd, а не "чеклист по нежной работе". Тогда и (внезапно) над кодом сможет работать несколько человек одновременно и других проблем избежите :)

хороший совет. Но в статье я описала "чеклист по нежной работе" риалтайм. Работа же с кодом подразумевает его собственно написание, выкатку и т.п. Это не очень быстрый процесс, когда тебе нужно быстро проверить гипотезу в настройке алертов или поменять название переменной. И тут также могут быть коллизии в совместной работе. Хотелось подсветить, на какие именно грабли наступили мы при работе без кода и гита. Спасибо :)

Не пробовали алерты делать на diff(now-7d)?

Это обычно самая показательная метрика что что-то изменилось.

7 дней для нас слишком много, хочется иметь возможность узнать о потере метрик как можно раньше

Так вы узнаете сразу же.

Вводите новую метрику: Значение любой стабильной метрики сейчас минус такое же значение этой же метрики 7 дней назад. Если изменение больше порога (допустим 10% от значения метрики 7 дней назад) - бьем тревогу.

На сленге WoW (Week-on-Week) называется. Многогранная аббревиатура оказалась.

прикольно, не знала. Спасибо, что поделились. Думаю, это будет для нас очень полезно :)

Если так настроить, графана может заспамить алертами в праздничный день посреди недели.

У меня заметно влияют на посещаемость новогодние и майские. Остальные праздники в пределах погрешности проходят. У вас может быть другая специфика, это я про свою. Два раза в год в заранее известные даты пережить ложные срабатыватывания алертов можно. Другие мониторинги чаще ерунду показывают.

Спамить алертами не надо. Да и выключение алертов по кнопке на известные дни стоит предусмотреть. Это в любом случае пригодится в эсплуатации.

Sign up to leave a comment.