RU

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K…

оптимизатор adammuonоптимизаторнейронные сетиdeepseekkimi-k2.5
Habr
RU

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометри…

нормализациятрансформероптимизатор adamllmpytorch