Tech News — Latest News

EN

How a Transformer Plays Tic-Tac-Toe

An interactive guide to the architecture behind modern language models. Instead of predicting the next word, this Transformer predicts the next move i…

tutorial ai machinelearning transformers

RU

[Перевод] Как оценить библиотеку для ИИ-агентов без слепой проверки финального ответа

ИИ-агент может вернуть правильную строку и при этом пройти к ней самым дорогим маршрутом: читать лишний код, угадывать API, падать на ошибках и заново…

ии-агенты бенчмарки LLM agent eval transformers hugging face открытые модели CLI оценка инструментов Skill

RU

Своя GPT-like LLM по WH40K с нуля. Часть 1: токенизируем Империум

Привет, Хабр! Меня зовут Владимир, и я давно хотел погрузиться во вселенную Warhammer40K. Для погружение во вселенную я решил обучить LLM на лоре Warh…

llm gpt transformers pytorch nlp bpe huggingface dataset pretraining python

RU

Большое обновление Meta-Spider. Ручка неуверенности, сторож и фабрика обвязок, а так же новый модификатор поведения

Это статья-продолжение про фреймворк Meta-Spider, который был описан здесь . В этом выпуске мы рассмотрим, насколько мета-внимание бьет (и бьет ли воо…

transformers llm

RU

От пульта до полотенца — учим робота искать всё, что угодно

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Област…

навигация робота семантическая сегментация обучение с подкреплением reinforcement-learning робототехника трансформеры transformers navigation компьютерное зрение навигация внутри помещений

RU

Умеют ли трансформеры водить машину

Трансформеры уже умеют писать код, генерировать тексты и рисовать картины. Но могут ли они управлять автономным автомобилем в реальных …

яндекс machine learning self-driving reinforcement learning transformers

EN

How Modern Transformer Blocks Work — From RMSNorm to MoE

The original Transformer idea is still alive. But modern LLM blocks are not just the 2017 Transformer copied and scaled. They are engineered for deepe…

ai machinelearning llm transformers

EN

Why KV Cache Matters — How MQA, GQA, and MLA Make LLM Inference Faster

LLMs generate text one token at a time. That sounds simple. But without KV Cache, every new token would repeat a lot of old work. That is why inferenc…

ai machinelearning llm transformers

EN

Why Attention Becomes the Bottleneck — And How Efficient Attention Fixes It

Your model got smarter. But suddenly it got slower. Why does increasing context length explode compute? Because attention is O(n²). And that becomes t…

ai machinelearning llm transformers

RU

Делаем фреймворк Meta-Spider на основе мета-внимания

Это прямое продолжение статьи "meta-attention is all you need" . Будет представлен фреймворк с заготовленным набором инструментов, который вы сможете …

transformers llm

EN

How Self-Attention Works — QKV, Softmax, and Matrix Computation

Self-Attention is not just “looking at important words.” It is a matrix operation. And that is exactly why Transformers scale. Core Idea Self-Attentio…

ai machinelearning nlp transformers

RU

Базовые нейросетевые модели для кредитного скоринга физических лиц

Всем привет! Мы команда прикладных исследований и разработки моделей глубокого обучения Альфа-банка. В этой статье мы хотели бы рассказать о наши…

нейросети нейронные сети машинное+обучение туториал кредитный скоринг transformers rnn карточные транзакции бюро кредитных историй

RU

meta-attention is all you need

В этой статье я расскажу о интересной находке во время моих экспериментов с языковыми моделями, которую я решил назвать "мета-трансформерами". Или я н…

llm transformers

EN

[Day 7] Does Giving an AI More 'Thinking Time' Really Make It Smarter? Training an OpenMythos-Style Mini Model on DGX

[Day 7] Does Giving an AI More "Thinking Time" Really Make It Smarter? Training an OpenMythos-Style Mini Model on DGX Intro Day 7! Reddit kept surfaci…

localllm ai dgxspark transformers

RU

Клиент — это тоже вектор? Как мы хотели улучшить ML-модель, а построили similarity engine

Поговорим о том, как превращать последовательности пользовательских событий в векторы, зачем обучать BERT на "языке" клиентского поведения и почему em…

машинное обучение анализ данных bert deep learning machine learning embeddings transformers

RU

Метрика EICS — ищем у трансформера причинное место

У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» пр…

uncertainty estimation transformers sheaf theory causal emergence theory information theory mechanistic interpretability llm