Tech News — Latest News

RU

Как закрыть пробелы в Linux, Docker, Kubernetes, CI/CD и сетевой безопасности

Инфраструктура обычно ломается не в одном месте. За «просто поправить деплой» быстро подтягиваются лимиты Linux, настройки контейнеров, CI/CD, безопас…

linux docker kubernetes PostgreSQL сетевые технологии безопасность контейнеров SRE инфраструктура подборка материалов профессиональное развитие

RU

[Перевод] Что kubectl debug вам не показывает: незаметный пробел в данных

Команда VK Cloud перевела статью для тех, кто разбирает инциденты в Kubernetes с помощью kubectl debug. Автор разбирает незаметный пробел в данных: по…

vk cloud kubernetes kubectl ephemeral containers отладка observability SRE DevOps перевод vk tech

RU

Как я сделал локальный RAG-сервис для SRE: ищем по документации, ранбукам и коду через Ollama

Недавно делал учебный проект про автоматизацию документирования инцидентов. Поначалу планы были грандиозными: инциденты, таймлайны, интеграции с монит…

RAG LLM FastAPI Python Ollama OpenWebUI BM25 SRE ранбуки OpenAI-compatible API

RU

62 бесплатных урока июня: Java, Docker, LLM, SRE, DWH и другие темы для роста в IT

Карьерный рост в IT редко упирается только в «выучить еще один инструмент». Чаще проблема в другом: понять, какие технологии уже стали рабочей практик…

Docker Kubernetes LLM Java kafka devops микросервисы бесплатные уроки профессиональное развитие SRE

RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability Engineering SRE надежность систем распределенные системы мониторинг observability slo бюджет ошибок инциденты

RU

Ваш Kubernetes упал: найдёте root cause за 15 минут?

Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье …

Kubernetes etcd kubelet SRE DevOps production-инцидент отказ кластера root cause control plane runbook

RU

Культура инцидентов. Почему поиск виновных на постмортемах убивает надёжность системы

Когда прод падает, первый управленческий рефлекс — найти человека, после которого всё сломалось. Проблема в том, что такой разбор почти…

postmortem blameless culture инцидент-менеджмент SRE error budget on-call надёжность систем инженерная культура технический менеджмент разбор инцидентов

RU

Multi-region quorum: «все регионы согласны» против «N из M»

К-of-N или all-must-agree? Два подхода к quorum-логике в multi-region мониторинге. Я остановился на all-must-agree с consecutive-failure threshold. С …

мониторинг quorum SRE false positive Redis distributed systems alerting threshold uptime incident management

RU

База FinOps: Почему счет за облако каждый месяц растет и что с этим делать

Модель pay-as-you-go, которую предлагают в облаке, всегда была палкой о двух концах. С одной стороны, история вроде честнее некуда: платишь ровно за т…

финопс finops devops Облака управление затратами практики finops Инфраструктура IT-бюджет Оптимизация SRE