RU

Разбираемся в ML без воды: от базы до Attention. Часть 3

Во второй части мы рассмотрели аналитическое решение задачи линейной регрессии и наткнулись на ряд неприятностей — сингулярность, плохая обусловленнос…

градиентградиентный спусклинейная регрессияпрактика
Habr
RU

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…

трансформерыllmградиентградиентный спускобучение нейронных сетейнейросеть