RU

async‑profiler в production: CPU, аллокации, lock contention и чтение flame graph

Профилирование Java‑приложений в production часто упирается не в отсутствие инструментов, а в их ограничения: CPU горит в&nbs…

async-profilerJavaJVMпрофилированиеflame graphпроизводительностьаллокациимногопоточностьlock contentionlatency
Habr
RU

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…

RAGLLMretrievallatencyChromaOllamavector searchembeddingstop-kchunk size
Habr
RU

Девять испытаний роста нагрузки: от стартапа к приложению для 25 миллионов пользователей

Эта статья совсем не технический анализ, а увлекательный рассказ о том, как маленький, но очень перспективный стартап стал топовым приложением, а такж…

highloadмикросервисыlatencypostgresqlelasticsearchkuberneteshpaбалансировка нагрузкинагрузочное тестированиеobservability
Habr
RU

Почему ваш Go‑сервис ломается под 1000 RPS и как найти узкое место за полчаса

Go-сервис может идеально проходить функциональные тесты и уверенно отвечать на локальных прогонах, а потом внезапно развалиться под 1000 RPS: p99 улет…

Goнагрузочное тестированиеbackendмикросервисыp99latencyvegetawrk2pprofпроизводительность