Tech News — Latest News

All topics - игры AI Gear News Tech agents ai api architecture automation beginners career claude devchallenge devops javascript llm machinelearning mcp opensource performance productivity programming python react security showdev tutorial typescript webdev

All EN RU

Как я писал in-memory векторный движок на Go — и в каком месте он обогнал hnswilb

Полгода назад я начал писать in-memory базу с векторным поиском на Go: RESP-протокол, HNSW-индекс, WAL, многопоточность. Рассказываю, что из этого выш…

векторные базы данных векторный поиск hnsw golang go in-memory benchmark квантизация rag

Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Декодерный эмбеддер 7–8B дает качество, но платит за него памятью, latency и деньгами. Разбираем все оси сжатия - int8, int4, binary + rescoring, PQ, …

сжатие эмбеддингов квантизация эмбеддинги embeddings RAG Qdrant Qwen3 binary quantization Matryoshka retrieval

Каталог из 83 форматов с плавающей точкой, который сам себя проверяет

Если вы ловили расхождение точности между двумя реализациями одной сети, то знаете это чувство: один matmul на двух устройствах даёт разные числа, и н…

числовые форматы floating point FP8 bfloat16 GoldenFloat IEEE 754 квантизация RTL posit машинная точность

Линейка для чисел: как я собрал каталог из 83 форматов с плавающей точкой — и почему он всё время «не сходится»

Любой, кто дебажил несовпадение точности между двумя реализациями нейросети, знает это чувство: один и тот же matmul на двух устройствах даёт разный р…

числовые форматы floating point GoldenFloat bfloat16 FP8 P3109 RTL квантизация машинное обучение числа с плавающей точкой

Нейросеть за 50 центов (~36 ₽): TernML, тернарный ИИ без FPU

В прошлый раз я рассказал про GraphKAN, первую тернарную KAN с весами {-1, 0, +1}, которая выдала 96.15% на MNIST при 15 КБ. ( ссылка ). С тех пор про…

TernML тернарные нейросети TinyML микроконтроллеры квантизация QAT Edge AI STM32

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных ма…

LLM локальные LLM llama.cpp квантизация суммаризация текста длинный контекст мультиагентные системы семантическая кластеризация LLM-as-a-judge конспекты лекций

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только дл…

llm квантизация NF4 qlora lora оптимизация моделей