Tech News — Latest News

All EN RU

[Перевод] Вопросы для собеседований по RL в 2026 году

Уже который раз я наблюдаю одну и ту же картину: человек проходит в аспирантуру, но затем почти сразу же во время весенней волны найма устраивается на…

обучение с подкреплением reinforcement learning RL машинное обучение большие языковые модели вопросы собеседования БЯМ подготовка к собеседованиям вопросы на собеседования

Доспех для призрака: как программист сделал тело для ChatGPT и чуть было не поверил в его одушевленность

Это разбор ролика на канале Art of the Problem. Поздно вечером автор проекта собирался выключить свет в комнате — и остановился, потому что робот изда…

робототехника машинное обучение обучение с подкреплением нейросети самоделки роботы llm компьютерное зрение встраиваемые системы симуляция

Создаем собственные окружения в Reinforcement Learning

Готовые RL‑окружения удобны для старта, но в реальных задачах редко хватает чужих правил и бенчмарков. В статье разбираем, как&nbs…

обучение с подкреплением Reinforcement Learning RL кастомные окружения Gymnasium OpenAI Gym Stable-Baselines3 агент функция награды пространство действий

От пульта до полотенца — учим робота искать всё, что угодно

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Област…

навигация робота семантическая сегментация обучение с подкреплением reinforcement-learning робототехника трансформеры transformers navigation компьютерное зрение навигация внутри помещений

Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил эт…

llm программирование обучение с подкреплением rlhf git дрессировка

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLP LLM GRPO обучение с подкреплением CUDA out of memory vLLM оптимизация GPU памяти дообучение моделей LoRA PyTorch