RU

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометри…

нормализациятрансформероптимизатор adamllmpytorch
Habr
RU

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл Читать далее

вниманиетрансформерынормализация