RU

[Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Траснформеры

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая статья А теперь перейдем к чему-то более практическому, а именно…

aimlgpugpu вычислениятрансформерыанализ и проектирование систем
Habr
RU

Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации

Базовая теорема машинного обучения гласит, что нейросеть с одним скрытым слоем может выучить любую функцию в мире, если сделать этот слой достаточно ш…

нейронные сетитрансформерыllm
Habr
RU

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Главный страх любого инженера ошибка  CUDA Out of Memory . Мы выстраиваемся в очереди за H200 на 140 ГБ. Но как только мы спускаемся с уровня Pyt…

нейронные сетиgpunvidiavramтрансформеры
Habr
RU

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубин…

градиентный спусктрансформерыискусственный интеллектнейросети
Habr
RU

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ …

градиентный спусктрансформерынейронные сетиискусственный интеллектоптимизатор
Habr
RU

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэк…

трансформерыllmградиентградиентный спускобучение нейронных сетейнейросеть
Habr
RU

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл Читать далее

вниманиетрансформерынормализация
Habr
RU

Когда автоматизация становится умнее: как трансформеры изменили AutoDL в Альфа-Банке

Всем привет! С вами Артемий Лямин ( @lyaminartemiy ) и Иван Тренёв ( @123-39 ). Мы работаем специалистами по разработке нейронных сетей в команде авто…

глубокое обучениеавтоматизациямашинное обучениетрансформерыpythondartsfusionsparkmlmlops