RU

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубин…

градиентный спусктрансформерыискусственный интеллектнейросети
Habr
RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спусктрансформерынейронные сетиискусственный интеллектоптимизатор
Habr
RU

Обратное распространение ошибки: от интуиции до кода

Многие умеют вызывать loss.backward() в PyTorch, но не всегда понимают, что именно происходит под капотом. Как сеть вычисляет, какой из миллионов весо…

машинное обучениенейросетиbackpropagationобратное распространение ошибкиградиентный спускdeep learningpythonматематикавычислительные графыmicrograd