RU

[Перевод] Логи, метрики и счёт в конце месяца: как телеметрия превращается в архитектурный долг

После инцидента команда почти всегда хочет видеть больше: добавить поле в лог, сохранить еще одну метку, оставить дашборд «на всякий случай». В момент…

observabilityтелеметриялогиOpenTelemetryметрикикардинальностьмониторингтрейсингsreархитектурный долг
Habr
RU

Медленные запросы в Impala: как анализировать profile и не выносить SQL наружу

Когда Impala-запрос начинает выполняться заметно дольше обычного, первое место, куда обычно идут смотреть, — query profile. Там есть план выполнения, …

impalaapache impalaclouderacloudera managerhadoopsqlquery optimizationdata engineeringobservabilitybigdata
Habr
RU

Структурированное логирование и трейсинг в Node.js: @cleverbrush/log и @cleverbrush/otel

Статья о том, как получить наблюдаемость (observability) в приложении с минимальным кодом, а бонусом получить структурированные логи с типизированными…

структурированное логированиеOpenTelemetryNode.jsTypeScriptтрейсингobservabilityCleverbrushxpenserсхемная валидацияфинансовый трекер
Habr
RU

Пять самых крупных ошибок, которые допускают компании при внедрении SRE

SRE часто внедряют как набор инструментов, дашбордов и новых должностей, но через полгода команда всё так же тушит инциденты по ночам, а бюджеты ошибо…

Site Reliability EngineeringSREнадежность системраспределенные системымониторингobservabilitysloбюджет ошибокинциденты
Habr
RU

Как стартер-кит может стать стандартом разработки

6-я статья из цикла туториалов о кастомизации своего бизнес-портала в Битрикс24. Во всех наших туториалах мы опираемся на стартовый шаблон-репозиторий…

ai-агентыии-ассистированная разработкаstarter kitboilerplatedockercicdobservabilitybitrix24telemetryбезопасность
Habr
RU

Как мы вывели в админку ошибки yt-dlp, которые жили только в логах. Bridge на 200 строк и борьба с alert-fatigue

История о том, как сделать видимыми ошибки yt-dlp, которые молча умирали в логах воркера. Bridge на 200 строк, классификатор content vs infra, борьба …

yt-dlpfastapiobservabilityalert-fatigueмониторингpythondevops
Habr
RU

Когда метрики сходят с ума: автоматическая детекция аномалий во временных рядах в Yandex Monium

В инфраструктуре Яндекса работают тысячи микросервисов, которые каждую секунду генерируют миллионы временных рядов — метрик. Это могут быть количества…

яндексmachine learningалгоритмыаномалииsreobservability
Habr
RU

Почему ваши логи бесполезны и как это починить за полчаса

Когда продакшен падает в три часа ночи, строка ERROR Something went wrong не помогает никому. В статье разбираем, почему привычные текс…

structured loggingструктурированные логиJSON-логилогированиеrequest_idobservabilityOpenTelemetrystructlogslogдиагностика ошибок
Habr