RU

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит в…

Claudeэмоциональные векторыAnthropicreward hackingинтерпретируемость ИИблагополучие моделипсихиатр ИИвектор отчаянияRLHFфункциональные эмоции
Habr
RU

Anthropic выпустила System Card Claude Mythos: что важного осталось за кадром

Когда я узнал, что Anthropic публикует 250-страничный технический документ для модели, которую не пустили в паблик с пометкой «вооружен и опасен», под…

RSP 3.0alignmentClaude MythosSystem Cardинтерпретируемостьосведомлённость об оценкевзлом вознагражденияблагополучие моделиAnthropicfrontier AI