RU

Deckhouse Prom++: как мы посадили Prometheus на RAM-диету и сэкономили 89 % памяти в хранилище данных

Утро: 3,8 ТБ памяти на кластеры Prometheus. Вечер: 0,6 ТБ. Между ними — переход на Deckhouse Prom++. Мы потратили месяцы на внимательный ана…

prom++c++оптимизация кодаprometheusdeckhousedeckhouse prom++мониторингobservability
Habr
RU

Почему важно мониторить поисковую систему: Manticore → Prometheus → Grafana

Один из наших пользователей недавно пришёл к нам со знакомой проблемой: поиск внезапно стал заметно медленнее, хотя внешне ничего явно не ломалось. Се…

grafana-дашбордprometheusмониторингсбор метриквизуализация метриквысокая производительностьметрики производительностиоптимизация производительности
Habr
RU

Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея

Часть 3. Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта. Есть особый вид страха, который…

инцидентыпродакшнDevOpsSREмониторингмикросервисыбаза данныхотказоустойчивостьпостмортем
Habr
RU

OpenTelemetry и Sentry: как мы выстроили сбор телеметрии в микросервисной системе

В распределенной системе понять, что именно произошло во время выполнения запроса, бывает сложнее, чем исправить саму ошибку. Логи показывают события …

OpenTelemetrySentryмикросервисымониторинг
Habr
RU

Мониторинг Manticore Search в Grafana одной командой

Самый неприятный тип инцидента — когда база данных не падает полностью, а просто начинает работать медленнее. Пользователи замечают это сразу. Жалобы …

grafanadockerмониторингдашбордвизуализация метриксбор метрикконтейнеризация
Habr
RU

Кто мониторит монитор? Рекурсивная задача, у которой нет чистого решения

У вас есть Grafana. Она показывает графики с Prometheus. Prometheus скрейпит метрики с ваших сервисов. Если сервис упал — вы видите красный на дашборд…

мониторингobservabilitydevopsнадёжностьsreархитектураотказоустойчивость
Habr
RU

Как найти причину латенси в пайплайне обработки HTTP запроса за 5 минут: разбираем шаг за шагом

Как найти причину латенси в пайплайне обработки HTTP запроса за 5 минут: разбираем шаг за шагом Я достаточно ленивый и рациональный человек. В конце п…

мониторингdevopsnginxlatencyпроизводительностьsrecloudflare
Habr
RU

Хроники Облачного княжества: как я приручал монолит‑дракона: Ночной алерт и инквизиция безопасности

Часть 2. Если вам кажется, что инцидент — это про баги, вы просто ещё не видели, как баги превращаются в совещания. Первый ночной алерт приходит в мом…

инцидентыпродакшнDevOpsSREмониторингмикросервисыбаза данныхотказоустойчивостьпостмортем
Хабр — Управление