Tech News — Latest News

RU

Mamba: архитектура, которая шла убивать трансформеры

В декабре 2023 по ML-тусовке прокатилась волна заголовков в духе «трансформерам конец». Поводом стала статья двух исследователей — Альберта Гу и Три Д…

Mamba SSM трансформеры attention языковые модели нейросети машинное обучение RNN гибридные модели selectel

RU

От пульта до полотенца — учим робота искать всё, что угодно

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Област…

навигация робота семантическая сегментация обучение с подкреплением reinforcement-learning робототехника трансформеры transformers navigation компьютерное зрение навигация внутри помещений

RU

Как одна операция из линейной алгебры захватила мир ИИ

В 2017 году в мире нейросетей произошел почти незаметный переворот. Без громких презентаций и человекоподобных роботов исследователи из Google опублик…

скалярное произведение rnn cnn машинное обучение искусственный интеллект математика матрицы математика для программистов трансформеры timeweb_статьи

RU

Можно ли пересадить алгоритм из маленькой модели в LLM? Эксперимент с grokking, residual stream и линейной проекцией

Можно ли взять алгоритм из маленькой нейросети и «вставить» его в большую языковую модель на лету, без дообучения? Мы проверили эту гипотезу на модуль…

grokking residual stream mechanistic interpretability модульная арифметика transfer learning линейный пробник Phi-2 трансформеры activation patching

RU

Как рассказать ребёнку, чем занимается папа, если папа работает с ИИ?

Наверняка все, у кого есть дети, слышали вопрос «чем ты занимаешься на работе?» Мне его точно задавали, и неоднократно. Дать ответ на э…

машинное обучение искусственный интеллект научная фантастика Электроник Велтистов трансформеры эмбеддинги Шеннон детская литература теория информации

RU

Как рассказать ребёнку, чем занимается папа, если папа работает с ИИ?

Наверняка все, у кого есть дети, слышали вопрос «чем ты занимаешься на работе?» Мне его точно задавали, и неоднократно. Дать ответ на э…

машинное обучение искусственный интеллект научная фантастика Электроник Велтистов трансформеры эмбеддинги Шеннон детская литература теория информации

RU

Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Многие свежие SOTA-статьи по детекции аномалий во временных рядах заявляют F1 ≈ 99%. Мы проверили один из таких методов, и оказалось, что волшебство и…

time series временные ряды anomaly detection поиск аномалий predictive maintenance предиктивная аналитика benchmark трансформеры графовые нейросети MVTS

RU

Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года

За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот residual conn…

mHC DeepSeek residual connections трансформеры Sinkhorn-Knopp

RU

Pipeline в машинном обучении: как создавать сложные модели без боли и утечек данных

В ML‑проектах проблемы часто начинаются не с выбора алгоритма, а с предобработки: один трансформер забыли применить к те…

Pipeline sklearn машинное обучение пайплайн данных предобработка данных data leakage кросс-валидация ColumnTransformer трансформеры ML-модель

RU

[Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Траснформеры

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая статья А теперь перейдем к чему-то более практическому, а именно…

ai ml gpu gpu вычисления трансформеры анализ и проектирование систем

RU

Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации

Базовая теорема машинного обучения гласит, что нейросеть с одним скрытым слоем может выучить любую функцию в мире, если сделать этот слой достаточно ш…

нейронные сети трансформеры llm

RU

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Главный страх любого инженера ошибка  CUDA Out of Memory . Мы выстраиваемся в очереди за H200 на 140 ГБ. Но как только мы спускаемся с уровня Pyt…

нейронные сети gpu nvidia vram трансформеры

RU

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубин…

градиентный спуск трансформеры искусственный интеллект нейросети

RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спуск трансформеры нейронные сети искусственный интеллект оптимизатор

RU

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…

трансформеры llm градиент градиентный спуск обучение нейронных сетей нейросеть

RU

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл Читать далее

внимание трансформеры нормализация

RU

Когда автоматизация становится умнее: как трансформеры изменили AutoDL в Альфа-Банке

Всем привет! С вами Артемий Лямин ( @lyaminartemiy ) и Иван Тренёв ( @123-39 ). Мы работаем специалистами по разработке нейронных сетей в команде авто…

глубокое обучение автоматизация машинное обучение трансформеры python darts fusion spark ml mlops