1C Code Bench — спустя 5 месяцев
В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и п…
Tech news from the best sources
В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и п…
Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkele…