AI & ML — Tech News

All EN RU

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит в…

Claude эмоциональные векторы Anthropic reward hacking интерпретируемость ИИ благополучие модели психиатр ИИ вектор отчаяния RLHF функциональные эмоции

Anthropic выпустила System Card Claude Mythos: что важного осталось за кадром

Когда я узнал, что Anthropic публикует 250-страничный технический документ для модели, которую не пустили в паблик с пометкой «вооружен и опасен», под…

RSP 3.0 alignment Claude Mythos System Card интерпретируемость осведомлённость об оценке взлом вознаграждения благополучие модели Anthropic frontier AI