Tech News — Latest News

All EN RU

Запуск и оптимизация локальной LLM с llama.cpp

В статье разберём фреймворк llama.cpp для запуска локальной LLM на выделенном облачном GPU, а также практический подход к оптимизации производительнос…

llama.cpp CUDA Linux LLM оптимизация

Как я обучил русский RAG‑сплиттер, который режет документы по индексам, а не по тексту

TL;DR.  Из интереса обучил собственный русский RAG‑сплиттер — захотелось проверить, можно ли сделать context‑aware‑нарезку русских…

rag чанкинг дистилляция lora unsloth токенизация llama.cpp gguf vulkan amd

Тесты бюджетных сборок для ИИ до 100к рублей

Локальный ИИ не должен стоить как автомобиль. Мне стало интересно: возможен ли жизнеспособный инференс на CPU и что реально дают дешевые GPU (вроде Te…

ai ии gpt self-hosted gpu cpu llama.cpp qwen3.6 gemma4

Я устал писать одноразовые скрипты для бенчмарков LLM и собрал харнесс, который сам считает Pareto-front

Неважно, где ты гоняешь инференс: в проде на vLLM под нагрузкой или в локалке на llama.cpp, пытаясь втиснуть Llama-3 в 4 ГБ видеопамяти — вопрос всегд…

LLM инференс бенчмаркинг vLLM llama.cpp метрики воспроизводимость энергоэффективность производительность gpu

Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8

Развернул Gemma 4 31B на одной 4090 (48 ГБ) — и проверил нужен ли «честный» Q8, и переживает ли tool-calling 4-бита. Q8 не дал ничего (+0.007 — шум), …

llm gemma self-hosting llama.cpp quantization tool-calling

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных ма…

LLM локальные LLM llama.cpp квантизация суммаризация текста длинный контекст мультиагентные системы семантическая кластеризация LLM-as-a-judge конспекты лекций

OpenCode с NorthMiniCode на своем железе

В последнее время большинство обсуждений агентской разработки крутится вокруг Claude Code, Codex, Gemini CLI и других облачных инструментов. Но, с одн…

llm-модели llm-агент self-hosted agents программирование llama.cpp opencode ии модели

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольн…

nvidia dgx spark Ubuntu llama.cpp vllm

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

Я начинающий инженер: учусь, работаю, пишу код. Подсел на Claude — и быстро уткнулся в лимиты: полчаса работы, и могучие руки превращаются в лапки. А …

Tesla V100 локальный LLM llama.cpp домашний сервер инференс self-hosted нейросети AI-агент водяное охлаждение qwen code

LLM на iPhone: от llama.cpp до Foundation Models

В 2025 году вместе с iOS 26 компания Apple представила разработчикам Apple Foundation Models. Теперь порог входа для on-device AI упал до нескольких с…

apple foundation models ios core ml локальные модели on-device ai swift llama.cpp

Создаем автономный анализатор логов на локальных ИИ моделях

У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование треб…

selectel llama.cpp llm rtx 4090 анализ логов ubuntu nvidia-smi

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Коротко тезис: открытый Ollama — это бесплатный GPU для атакующего , и охота за таким compute давно поставлена на поток. Но за май наша сеть ханипотов…

LLM Ollama llama.cpp honeypot SSRF IMDS информационная безопасность GPU n8n

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность инт…

arch linux llama.cpp ollama qwen3.6 gemma4 github huggingface intel arc b580

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Всем привет! Продолжаю тему локальных LLM. В предыдущей статье  мы сравнивали железо для инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Stri…

claude-code strix halo ии-агенты программирование antropic qwen3.6 локальный ии llama.cpp vibecoding

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 ГБ, никакого облака. Поставил свежую Gemma 4, написал инструмент: кидаешь картинку с графиком или таблицей — получаешь CSV. Три кейса и…

Gemma 4 llama.cpp локальные LLM мультимодальные модели OCR извлечение данных из графиков vision-модели MacBook M3 GGUF визуализация данных

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах код…

LLM llama.cpp javascript AI vllm

Тестируем выделенный L40S и vGPU на 16 ГБ по производительности (llama.cpp, ComfyUI)

Сегодня в интернете какой только нет информации об искусственном интеллекте или его применении в разных сферах. Можно сказать, что он уже плотно вошел…

gpu vgpu llm llama.cpp нейросети comfyui vds производительность тестирование firstvds

PewDiePie выложил в open source Odysseus — персональный AI-хаб для локальной работы

Блогер PewDiePie выпустил Odysseus — self-hosted AI workspace, который он позиционирует как локальную альтернативу интерфейсам ChatGPT и Claude. Проек…

agent ai pewdiepie self-hosted open-source chatgpt alternative ai-агент ai-agent llama.cpp локальный ai

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, чт…

искусственный интеллект mtp llama.cpp qwen qwen3.6

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…

LLM VRAM llama.cpp локальные модели квантование KV cache GQA бенчмарк GPU

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических …

llm llm-модели llama.cpp gemma4 qwen3.6 qwen opencode

Гефестыч: наш опыт автоматизации Code Review через LLM. «Грабли», решения, код

Привет, Хабр! Меня зовут Данил Чечков, я Team Lead команды High End Meta Backend в «Леста Игры». Мы занимаемся всей web-составляющей «Мира кораблей». …

llm pydantic-ai openwebui llama.cpp ollama rag code review self-hosted atlassian