Tech News — Latest News

All EN RU

Разбираемся в ML без воды: от базы до Attention. Часть 3

Во второй части мы рассмотрели аналитическое решение задачи линейной регрессии и наткнулись на ряд неприятностей — сингулярность, плохая обусловленнос…

градиент градиентный спуск линейная регрессия практика

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…

трансформеры llm градиент градиентный спуск обучение нейронных сетей нейросеть