RU

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометри…

нормализациятрансформероптимизатор adamllmpytorch