RU

SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры

Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы:…

инцидент-менеджментslabackendуправление рискамианалитикамониторингвременные рядыдашбордынадежность сервисоврасчет потерь
Habr
RU

Культура инцидентов. Почему поиск виновных на постмортемах убивает надёжность системы

Когда прод падает, первый управленческий рефлекс — найти человека, после которого всё сломалось. Проблема в том, что такой разбор почти…

postmortemblameless cultureинцидент-менеджментSREerror budgeton-callнадёжность системинженерная культуратехнический менеджментразбор инцидентов