RU

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K…

оптимизатор adammuonоптимизаторнейронные сетиdeepseekkimi-k2.5
Habr
RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спусктрансформерынейронные сетиискусственный интеллектоптимизатор