Comments / Profile of NikolaySivko / Habr

How to become an author

Николай Сивко @NikolaySivko

User

Profile Publications 15Comments 67Bookmarks 22

Мониторинговый агент: простая штука или нет?

NikolaySivko Oct 13 2016 at 22:34

Ну это не так много, учитывая матрицу совместимости агент-хранилище.
Statsd не совсем агент, collectd сильно отстает от современного уровня детализации метрик, штуки от ES по-факту не метрики выплевывают, а сырые события, которые только в ES и ложатся, итд.

0

Мониторинг Postgresql: запросы

NikolaySivko Sep 30 2016 at 23:44

Мы обычно расширяем функционал по запросам пользователей. Думается, что сделать метрики по GC ruby/rails можно без спец поддержки конкретных технологий, у нас есть очень много способов получать кастомные метрики. Регистрируйте проект, пишите в саппорт, обязательно что-то придумаем:)

0

Мониторинг Postgresql: запросы

NikolaySivko Sep 30 2016 at 13:44

у нас есть тариф "Hacker" для проектов с 1 сервером, стоит 1$/месяц (это почти бесплатно)

+1

Мониторинг Postgresql: запросы

NikolaySivko Sep 30 2016 at 12:03

Приятно слышать, что мы полезны:) Cпасибо!

+1

Мониторинг сетевого стека linux

NikolaySivko Sep 21 2016 at 18:01

По-моему никак. Идеологически: нужно взять список своих listen сокетов и про все остальные вычислять, есть ли там хотя бы с одной стороны ваш listen. Если есть — сокет входящий, нет — исходящий

0

Как мы неделю чинили compaction в Cassandra

NikolaySivko Sep 19 2016 at 12:58

Я не считаю такую реализацию getNow ошибкой. На баг похоже только то, как просочилась запись с битым таймстампом, но для тикета у нас нет никакой диагностической информации, если появится — обязательно сделаем.

0

Как мы неделю чинили compaction в Cassandra

NikolaySivko Sep 18 2016 at 10:00

Значения в базе не перебираются. Для каждой таблицы есть не очень большое количество sstable (файлов с данными), для каждого файла в заголовке есть метадата (в том числе минимальный и максимальный таймстамп записей). С точки зрения ресурсов это вычисление не очень дорогое. Почему реализовано именно так сложно сказать, так как отвязаться от локального времени на сервере все равно не получится в случае если timestamp проставляется кассандрой.

0

Как мы неделю чинили compaction в Cassandra

NikolaySivko Sep 17 2016 at 22:25

нода: 4 ядра/32Гб/2x300Gb ssd + 2x3Tb sata
конфиг jvm стандартный кассандровский (они кстати очень тщательно это продумывают, можно тикеты в jira почитать)

0

Как мы неделю чинили compaction в Cassandra

NikolaySivko Sep 17 2016 at 20:49

в основном с кассандрой работает golang через gocql
сейчас в среднем пишется ~75 тысяч метрик в секунду = ~4.5 миллиона в минуту
сейчас 9 нод

0

Мониторинг сетевого стека linux

NikolaySivko Sep 11 2016 at 15:46

Да, это ошибка, но в целом результат будет примерно тот же. К сожалению сейчас нет под рукой сервера с большим количеством соединений.

0

Мониторинг сетевого стека linux

NikolaySivko Sep 11 2016 at 15:17

Stacked areas позволяют оценить сумму сразу и часто значительные изменения получаются нагляднее. Хотя конечно вкусовщина это все =)

+1

Мониторинг сетевого стека linux

NikolaySivko Sep 10 2016 at 20:10

Мы используем самописное решение поверх cassandra. В плане метрик и выражений на prometheus похоже, да.

+1

Мониторинг сетевого стека linux

NikolaySivko Sep 10 2016 at 18:30

syn queue: насколько я понимаю нельзя посмотреть текущий размер, но при переполнении увеличивается счетчик netstat -st |grep TCPBacklogDrop. Я могу ошибаться, нужно повнимательнее почитать примерно тут

0

Мониторинг сетевого стека linux

NikolaySivko Sep 10 2016 at 18:22

accept queue: можно смотреть в netstat/ss для LISTEN сокетов, текущий размер в колонке Recv-Q, лимит в колонке Send-Q, например:

$ ss -lnt
State       Recv-Q Send-Q                                                      Local Address:Port                                                        Peer Address:Port
LISTEN      0      128                                                         192.168.100.1:8012                                                                   *:*

для этого сокета текущий размер = 0, лимит 128

+3

Как мы делали мониторинг запросов mongodb

NikolaySivko Aug 30 2016 at 12:09

Вообще говоря bson тип Document (он же dict/map) не сохраняет порядок полей. Мы сортируем, чтобы покрыть этот случай в первую очередь.

0

Жизнь проекта на production: советы по эксплуатации

NikolaySivko Aug 30 2016 at 11:43

Особенно хорошо все эти проблемы закрывают облака типа google app engine, но там много своих проблем (они тоже падают и иногда надолго, есть задержки при работе с datastore, которые для некоторых задач очень сложно обходить). Выбор технологий/решений — всегда баланс

+1

Жизнь проекта на production: советы по эксплуатации

NikolaySivko Aug 30 2016 at 11:39

Это было при ситуацию с 1 мастер + 1 слэйв. Еще раз, автоотработку проблем с мастером сделать можно, но это дорого (если не забыть ничего посчитать).
Наверное стоило назвать доклад «Отказоустойчивость для бедных» :)

+1

Жизнь проекта на production: советы по эксплуатации

NikolaySivko Aug 30 2016 at 11:13

Я как раз ровно про это и говорил. Мне например очень не хочется разбираться как работает та же mnesia под нагрузкой, какие у нее краевые случаи, в каких случаях какие данные могут потеряться итд. Или взять к примеру kafka — тут тоже все сложно (прочитать по диагонали документацию недостаточно, увы). Я призывал в своем докладе пробовать решать задачу на уровне, где у вас больше компетенции — например на уровне клиента сервиса очередей. В этом случае можно относиться к сервису очередей как к ресурсу, который может в любой момент отказать, тогда обычно можно достаточно легко это обойти (не всегда, но в большинстве задач)

+1

Жизнь проекта на production: советы по эксплуатации

NikolaySivko Aug 30 2016 at 11:08

Во-первых стоит понимать, что это был обзорный доклад для тех, у кого грубо говоря 1 сервер.
Про vrrp: обычно провайдеры дают отдельный vlan на каждого клиента, тогда с ним нет проблем никаких (но всегда стоит уточнять).
Переключение мастера можно сделать на автомате, никто не спорит, но есть много подводных камней про флапы, время на заливку слэйва с нового мастера итд (особенно они заметны на больших базах). Я придерживаюсь мнения, что убить N человекомесяцев на отладку автопереключения для многих нецелесообразно, а без этого процедура остается очень стремной.

0

Как мы делали мониторинг запросов mongodb

NikolaySivko Aug 29 2016 at 14:18

О каком клиенте идет речь? Я рассказывал о нашем мониторинговом агенте, который ставится на сервера клиентов и собирает метрики. Агент в данный момент не opensource.

+1

3