RU

Кто мониторит монитор? Рекурсивная задача, у которой нет чистого решения

У вас есть Grafana. Она показывает графики с Prometheus. Prometheus скрейпит метрики с ваших сервисов. Если сервис упал — вы видите красный на дашборд…

мониторингobservabilitydevopsнадёжностьsreархитектураотказоустойчивость
Habr
RU

Хроники Облачного княжества: как я приручал монолит‑дракона: Ночной алерт и инквизиция безопасности

Часть 2. Если вам кажется, что инцидент — это про баги, вы просто ещё не видели, как баги превращаются в совещания. Первый ночной алерт приходит в мом…

инцидентыпродакшнDevOpsSREмониторингмикросервисыбаза данныхотказоустойчивостьпостмортем
Хабр — Управление
RU

Как работает система резервного копирования в SpaceVM

В среде виртуализации цена ошибки выше, чем в физической инфраструктуре: проблема редко затрагивает одну машину — чаще это сразу десятки ВМ и сервисы,…

glusterfsgfs2хранение данныхрезервное копированиевиртуализацияsnapshotvdiгиперконвергентная инфраструктуравосстановление данныхотказоустойчивость