RU

Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил эт…

llmпрограммированиеобучение с подкреплениемrlhfgitдрессировка
Habr
RU

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLPLLMGRPOобучение с подкреплениемCUDA out of memoryvLLMоптимизация GPU памятидообучение моделейLoRAPyTorch