Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометри…
Tech news from the best sources
Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометри…