Tech News — Latest News

All topics - игры AI Gear News Tech agents ai api architecture automation beginners career claude devchallenge devops javascript llm machinelearning mcp opensource performance productivity programming python react security showdev tutorial typescript webdev

All EN RU

async‑profiler в production: CPU, аллокации, lock contention и чтение flame graph

Профилирование Java‑приложений в production часто упирается не в отсутствие инструментов, а в их ограничения: CPU горит в&nbs…

async-profiler Java JVM профилирование flame graph производительность аллокации многопоточность lock contention latency

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…

RAG LLM retrieval latency Chroma Ollama vector search embeddings top-k chunk size

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси? В этом туториале — реальная арх…

AI-сервисы LLM инференс high-load latency GPU vLLM SGLang continuous batching admission control

Probe-сеть из 10 регионов: что я не учёл про AS-разнесённость

Я делаю Valpero — uptime-мониторинг с проверками из 10 регионов мира. Когда я только собирал probe-сеть, я был уверен, что 10 географических точек это…

мониторинг uptime BGP AS autonomous system probe latency WebSocket инфраструктура false positive

Девять испытаний роста нагрузки: от стартапа к приложению для 25 миллионов пользователей

Эта статья совсем не технический анализ, а увлекательный рассказ о том, как маленький, но очень перспективный стартап стал топовым приложением, а такж…

highload микросервисы latency postgresql elasticsearch kubernetes hpa балансировка нагрузки нагрузочное тестирование observability

Иллюзия памяти: как индустрия десятилетиями маскировала ограничения железа

Сейчас память можно увеличить ползунком, Redis поднять одной командой, а состояние сервера оценить по строке в панели управления. Но за этим удобством…

память виртуальная память RAID Redis latency distributed systems HBM CXL кэширование ruvds_статьи

Почему ваш Go‑сервис ломается под 1000 RPS и как найти узкое место за полчаса

Go-сервис может идеально проходить функциональные тесты и уверенно отвечать на локальных прогонах, а потом внезапно развалиться под 1000 RPS: p99 улет…

Go нагрузочное тестирование backend микросервисы p99 latency vegeta wrk2 pprof производительность

Почему NVMe не всегда ускоряет сайт: смотрим на latency, p95/p99 и профиль нагрузки

У дисковой подсистемы слишком хорошая репутация в тарифных таблицах и не самая однозначная в инженерных обсуждениях. В первом случае нам продают гигаб…

nvme sata ssd latency p99 p95 ttfb fio высоконагруженные системы серверная оптимизация

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто н…

голосовые агенты voice agents LLM Twilio ElevenLabs Retell OpenClaw STT TTS latency