RU

Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Многие ML‑инженеры знают, что нужно использовать CrossEntropyLoss , log_softmax и logsumexp . Гораздо меньше людей могут объяснить, что имен…

численная стабильностьмашинное обучениенейронные сетиsoftmaxlogsumexpfloat32градиентыпереполнениеunderflowPyTorch
Habr
RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спусктрансформерынейронные сетиискусственный интеллектоптимизатор