AI & ML — Tech News

EN

Can You Tell When an LLM API Swaps in a Cheaper Model?

If you call an open-weight model behind an API, whether that is your own box, a hosted endpoint, or a router, you are trusting that the thing answerin…

localai llm inference verification

EN

How to Build a Secure Homelab for LLM Inference

We’ve treated local AI deployments as experimental toys for too long. The moment a homelab becomes a dependency for work, the security posture must sh…

homelab llmsecurity inference supplychain

EN

Speculative decoding: when and why it actually speeds up inference

Speculative decoding: when and why it actually speeds up inference Your chat endpoint serves 200 requests per second. The model is a 70B Llama 3 fine-…

llm ai inference performance

EN

Intel: Our upcoming AI chip will be cheaper, run cooler than Nvidia, AMD options

Crescent Island is an air-cooled chip that uses LPDDR5 memory.

AI AI inference AMD data centers inference Intel NVIDIA

RU

Как работает адаптивный RAG, которому вообще не нужна LLM

Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращае…

rag llm machinelearning inference оптимизация вычислений искусственный интеллект классификатор архитектура ии инференс ллм

RU

Как работает адаптивный RAG, которому вообще не нужна LLM

Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращае…

rag llm machinelearning inference оптимизация вычислений искусственный интеллект классификатор архитектура ии инференс ллм

RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloud llm kubernetes inference gpu nvidia дезагрегированный инференс оркестрация автомасштабирование планирование подов

RU

MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифт…

inference ai-агенты суверенный ии