Разбираемся в ML без воды: от базы до Attention. Часть 3
Во второй части мы рассмотрели аналитическое решение задачи линейной регрессии и наткнулись на ряд неприятностей — сингулярность, плохая обусловленнос…
Tech news from the best sources
Во второй части мы рассмотрели аналитическое решение задачи линейной регрессии и наткнулись на ряд неприятностей — сингулярность, плохая обусловленнос…
Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубин…
В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …
Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…
Многие умеют вызывать loss.backward() в PyTorch, но не всегда понимают, что именно происходит под капотом. Как сеть вычисляет, какой из миллионов весо…
Написал гайд для тех, кто хочет понять нейросети изнутри. Создаем свой ИИ для распознавания цифр на чистом Python всего в 50 строк кода. Вся математик…