RU

Сбой у Yandex Cloud

Сегодняшний инцидент войдет в историю как интересный кейс «ошибки начисления». Чтобы спасти пользователей от некорректных списаний, облако просто забл…

инциденты
Habr
RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability EngineeringSREнадежность системраспределенные системымониторингobservabilitysloбюджет ошибокинциденты
Habr
RU

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает бе…

системное администрированиеdevopsslaтехническая поддержкамониторинг сервераинцидентыревью кодарефакторингаварийное восстановлениеаварийные ситуации