Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…
Latest AI & ML news from Tech News
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…
Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтв…
В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной …
Привет, Хабр. Меня зовут Лазутин Алексей, я не профессиональный разработчик . SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программ…
Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Ge…
Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…
200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…
Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе.…