RU

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит в…

Claudeэмоциональные векторыAnthropicreward hackingинтерпретируемость ИИблагополучие моделипсихиатр ИИвектор отчаянияRLHFфункциональные эмоции
Habr
RU

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; по…

LLMязыковые моделиискусственный интеллектнейросетиагентыRAGfunction callingтрансформерRLHFцифровой двойник