RU

async‑profiler в production: CPU, аллокации, lock contention и чтение flame graph

Профилирование Java‑приложений в production часто упирается не в отсутствие инструментов, а в их ограничения: CPU горит в&nbs…

async-profilerJavaJVMпрофилированиеflame graphпроизводительностьаллокациимногопоточностьlock contentionlatency
Habr
RU

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…

RAGLLMretrievallatencyChromaOllamavector searchembeddingstop-kchunk size
Habr
RU

Probe-сеть из 10 регионов: что я не учёл про AS-разнесённость

Я делаю Valpero — uptime-мониторинг с проверками из 10 регионов мира. Когда я только собирал probe-сеть, я был уверен, что 10 географических точек это…

мониторингuptimeBGPASautonomous systemprobelatencyWebSocketинфраструктураfalse positive
Habr
RU

Девять испытаний роста нагрузки: от стартапа к приложению для 25 миллионов пользователей

Эта статья совсем не технический анализ, а увлекательный рассказ о том, как маленький, но очень перспективный стартап стал топовым приложением, а такж…

highloadмикросервисыlatencypostgresqlelasticsearchkuberneteshpaбалансировка нагрузкинагрузочное тестированиеobservability
Habr
RU

Иллюзия памяти: как индустрия десятилетиями маскировала ограничения железа

Сейчас память можно увеличить ползунком, Redis поднять одной командой, а состояние сервера оценить по строке в панели управления. Но за этим удобством…

памятьвиртуальная памятьRAIDRedislatencydistributed systemsHBMCXLкэшированиеruvds_статьи
Habr
RU

Почему ваш Go‑сервис ломается под 1000 RPS и как найти узкое место за полчаса

Go-сервис может идеально проходить функциональные тесты и уверенно отвечать на локальных прогонах, а потом внезапно развалиться под 1000 RPS: p99 улет…

Goнагрузочное тестированиеbackendмикросервисыp99latencyvegetawrk2pprofпроизводительность
Habr
RU

Почему NVMe не всегда ускоряет сайт: смотрим на latency, p95/p99 и профиль нагрузки

У дисковой подсистемы слишком хорошая репутация в тарифных таблицах и не самая однозначная в инженерных обсуждениях. В первом случае нам продают гигаб…

nvmesata ssdlatencyp99p95ttfbfioвысоконагруженные системысерверная оптимизация
Habr
RU

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто н…

голосовые агентыvoice agentsLLMTwilioElevenLabsRetellOpenClawSTTTTSlatency