RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability EngineeringSREнадежность системраспределенные системымониторингobservabilitysloбюджет ошибокинциденты
Habr
RU

Культура инцидентов. Почему поиск виновных на постмортемах убивает надёжность системы

Когда прод падает, первый управленческий рефлекс — найти человека, после которого всё сломалось. Проблема в том, что такой разбор почти…

postmortemblameless cultureинцидент-менеджментSREerror budgeton-callнадёжность системинженерная культуратехнический менеджментразбор инцидентов
Habr
RU

База FinOps: Почему счет за облако каждый месяц растет и что с этим делать

Модель pay-as-you-go, которую предлагают в облаке, всегда была палкой о двух концах. С одной стороны, история вроде честнее некуда: платишь ровно за т…

финопсfinopsdevopsОблакауправление затратамипрактики finopsИнфраструктураIT-бюджетОптимизацияSRE