AI & ML — Tech News

All EN RU

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

Переход от FP16 к 8 битному квантованию был триумфом инженерии, позволившим запускать LLM на потребительском железе почти без потерь. Но сегодня индус…

квантование нейросети

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…

LLM VRAM llama.cpp локальные модели квантование KV cache GQA бенчмарк GPU