RU

Разбираемся в ML без воды: от базы до Attention. Часть 3

Во второй части мы рассмотрели аналитическое решение задачи линейной регрессии и наткнулись на ряд неприятностей — сингулярность, плохая обусловленнос…

градиентградиентный спусклинейная регрессияпрактика
Habr
RU

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубин…

градиентный спусктрансформерыискусственный интеллектнейросети
Habr
RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спусктрансформерынейронные сетиискусственный интеллектоптимизатор
Habr
RU

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…

трансформерыllmградиентградиентный спускобучение нейронных сетейнейросеть
Habr
RU

Обратное распространение ошибки: от интуиции до кода

Многие умеют вызывать loss.backward() в PyTorch, но не всегда понимают, что именно происходит под капотом. Как сеть вычисляет, какой из миллионов весо…

машинное обучениенейросетиbackpropagationобратное распространение ошибкиградиентный спускdeep learningpythonматематикавычислительные графыmicrograd
Habr
RU

Мой первый ИИ: Пишем нейросеть на Python с нуля

Написал гайд для тех, кто хочет понять нейросети изнутри. Создаем свой ИИ для распознавания цифр на чистом Python всего в 50 строк кода. Вся математик…

Нейросети для начинающихpythonмашинное обучениеалгоритмыnumpyградиентный спускраспознавание образовискусственный интеллект