RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability EngineeringSREнадежность системраспределенные системымониторингobservabilitysloбюджет ошибокинциденты
Habr
RU

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает бе…

системное администрированиеdevopsslaтехническая поддержкамониторинг сервераинцидентыревью кодарефакторингаварийное восстановлениеаварийные ситуации