Tech News — Latest News

EN

RAG Retrieval Gotchas at Scale: Insights and Solutions

RAG Retrieval Gotchas at Scale: Insights and Solutions Retrieval-Augmented Generation (RAG) has become a popular technique for enhancing natural langu…

rag retrieval scalability ai

RU

Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Декодерный эмбеддер 7–8B дает качество, но платит за него памятью, latency и деньгами. Разбираем все оси сжатия - int8, int4, binary + rescoring, PQ, …

сжатие эмбеддингов квантизация эмбеддинги embeddings RAG Qdrant Qwen3 binary quantization Matryoshka retrieval

RU

Зачем GenAI-ассистенту platform logic: как управлять источниками, evidence и ответами

GenAI-ассистент может довольно быстро начать отвечать "по теме": находить релевантные фрагменты, собирать уверенный текст и создавать ощущение, что си…

GenAI RAG LLM AI Platform retrieval evidence fallback observability quality gates enterprise AI

RU

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-enco…

RAG эмбеддинги embeddings retrieval LLM Qwen3 Qdrant vector search hard negatives LLM2Vec

RU

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агенты llm rag evals orchestration retrieval tool calling context engineering production ai infrastructure

RU

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…

RAG LLM retrieval latency Chroma Ollama vector search embeddings top-k chunk size

RU

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не …

ai-агенты llm rag orchestration retrieval tool calling context engineering evals production ai infrastructure

RU

Защита от дублирования кода агентами: семантические концепции

Я строю Telegram-first SaaS в одиночку, а весь код за меня пишут ИИ-агенты Claude Code, и довольно быстро я уперся в неприятное: каждый новый агент пр…

ИИ-агенты Claude Code дедупликация кода граф концептов эмбеддинги семантический поиск Type-4 клоны retrieval DRY память агентов

RU

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный п…

ai-агенты retrieval llm-агент qdrant rag langgraph

RU

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает…

ml python retrieval rag LLM векторный поиск

EN

KNN-Based Risk Scoring: What Actually Works

KNN retrieval shows up in a lot of risk control pipelines. The general idea is simple: embed your content, find its nearest neighbors in a labeled see…

risk knn retrieval