RU

Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Многие свежие SOTA-статьи по детекции аномалий во временных рядах заявляют F1 ≈ 99%. Мы проверили один из таких методов, и оказалось, что волшебство и…

time seriesвременные рядыanomaly detectionпоиск аномалийpredictive maintenanceпредиктивная аналитикаbenchmarkтрансформерыграфовые нейросетиMVTS
Habr
RU

Локальный запуск openai/gpt-oss-20b MXFP4 GGUF на ноутбуке без дискретной видеокарты: практический тест на 32 GB RAM

Запустил openai/gpt-oss-20b в варианте MXFP4 GGUF на обычном ноутбуке без дискретной видеокарты: только CPU, встроенная Radeon 780M и общая оперативна…

локальные LLMopenai gpt-oss-20bGGUFMXFP4LM StudioRadeon 780MRyzenноутбук без дискретной видеокартыWindows 11benchmark
Habr
RU

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

Добро пожаловать на мой маленький тестовый полигон. В этой статье я расскажу, как столкнул лбами двадцать один алгоритм машинного обучения - от старой…

машинное+обучениенейросетиbenchmarkсравнение моделейlightgbmxgboostcatboostrandom forestисследование
Habr
RU

Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк

Ни для кого не секрет, что эра «спросить что-то у GPT» постепенно уходит в прошлое. На смену генеративному AI приходит Agentic AI, который не просто п…

mlaibenchmarkai-агентыai-agentswe-benchswe-bench verifiedOSWorldGAIAterminal-bench
Habr