RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability EngineeringSREнадежность системраспределенные системымониторингobservabilitysloбюджет ошибокинциденты
Habr
RU

Культура инцидентов. Почему поиск виновных на постмортемах убивает надёжность системы

Когда прод падает, первый управленческий рефлекс — найти человека, после которого всё сломалось. Проблема в том, что такой разбор почти…

postmortemblameless cultureинцидент-менеджментSREerror budgeton-callнадёжность системинженерная культуратехнический менеджментразбор инцидентов