Как я собрал LLM-печку на 4 GPU, и на что она способна
Всем привет, недавно я собрал и сейчас активно использую ПК для локального запуска хоть сколько-то серьезных LLM, и захотелось поделиться этим опытом …
Tech news from the best sources
Всем привет, недавно я собрал и сейчас активно использую ПК для локального запуска хоть сколько-то серьезных LLM, и захотелось поделиться этим опытом …
Chipmaker Groq is looking to raise $650 million in internal funding as it pivots from hardware to focus more on AI inference, the process of refining …
Chipmaker Groq is looking to raise $650 million in internal funding as it pivots from hardware to focus more on AI inference, the process of refining …
CUDA 13.3 Lands, AI Writes Blackwell Kernels, & FP4 VRAM Optimization for LLMs Today's Highlights NVIDIA releases CUDA Toolkit 13.3, bringing new …
С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…
Пока инфо-бизнесмены продают очередные курсы по промпт-инжинирингу, в индустрии пересобирают саму архитектуру ИИ-систем. Главные вызовы сегодня л…
В марте 2026 года на конференции MWC компания Intel показала серверные процессоры Xeon 6+ с кодовым названием Clearwater Forest, которые официально по…
FlashAttention CUDA Kernel, Strix Halo MOE Boost, & NVIDIA DLSS 4.5 Driver Update Today's Highlights This week, discover a deep dive into FlashAtt…
Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индус…
The Tesla P40 is a seductive piece of hardware: 24GB of VRAM for a fraction of the cost of a modern RTX card. But after three weeks of fighting with i…
Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ Читать далее
RTX 5080 Undervolt Benchmarks, CGO-Free CUDA API Binding, & AMD GPU Compatibility Fix Today's Highlights Today's top GPU news features detailed un…
Meta Description: Diffusion language models (DLMs) are rewriting LLM inference. Dive deep into NVIDIA's Nemotron-Labs Diffusion — how block-wise atten…
In Part 1 , we built a USC campus assistant by pasting a five-line knowledge base directly into the prompt. That works when "the data" fits in your he…
RTX 5090 Cooling, BeeLlama VRAM Opts, Resizable BAR Performance Gains Today's Highlights NVIDIA's upcoming RTX 5090 cooling solutions are detailed, wh…
The next big thing for Nvidia will be CPUs for AI agents, $200 billion worth, CEO Jensen Huang predicts.
Nvidia announced another record revenue figure after market close on Wednesday, but forecasted that revenue growth would slow in the following quarter…
The intelligence race has two fronts: silicon and software. Understanding which one is actually the bottleneck might be the most important question in…
Intel Xe3P Leaks 160GB LPDDR5X; FlashAttention-2 in CuTe & Custom CUDA GPT-2 Engine Today's Highlights Intel's Xe3P "Crescent Island" GPU leaks re…
Главный страх любого инженера ошибка CUDA Out of Memory . Мы выстраиваемся в очереди за H200 на 140 ГБ. Но как только мы спускаемся с уровня Pyt…
GPU Bottleneck Analyzer, NVIDIA Rubin VRAM Demands, and Qwen VRAM Optimization Today's Highlights This week's top GPU news features a new open-source …
I’m excited to share that I’ve been selected as an NVIDIA Developer Champion. Over the past few years, a large part of my work has revolved around dev…
GPU Hardware & Driver Update: RTX 5090 Benchmarks, llama.cpp MTP, Windows 11 Fix Today's Highlights This week's top GPU news features practical pe…
Introduction "Video is the last blue ocean of data and the most challenging source of unstructured information." This is the No.66 article in the "One…
Итак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инфере…
In this blog post, we will see how to use NVIDIA AIPerf to expose a hidden performance problem that most LLM deployments never catch until real users …
A ransomware group has claimed responsibility for hacking the electronics manufacturing giant Foxconn, and is attempting to extort the company.
Мартовский анонс DLSS 5 стал настоящей лакмусовой бумажкой. Вся «аналитика» так называемых лидеров мнений сводилась к сбору фактов и мнений под заране…
RTX 5080 Launched, Rust for CUDA, & LLM GPU Scheduling Deep Dive Today's Highlights This week's top GPU news highlights a new GeForce RTX 5080 var…
DeepSeek-V4-Flash Benchmarks, FlashRT CUDA Runtime, & V100 LLM Performance Today's Highlights This week highlights significant advancements in GPU…