RU

Как мы строили eval и автоматизировали оптимизацию AI-агента для умного помощника

Привет! Меня зовут Алексей, я разработчик в Битрикс24.  В первой части рассказывал про retrieval-часть нашего RAG для AI-помощника Марты: как мы …

ragevalоптимизациядатасетбитрикс24база знаний
Habr
RU

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется ре…

яндекс.музыкадата сайенсбигдатааналитикадатасетбольшие данные
Habr
RU

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на англ…

датасеткомментарии к кодуdocstringsавтоматизация разработкиискусственный интеллектllmобучение моделейнаучные исследованиясинтетические данныеai
Habr
RU

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на англ…

датасеткомментарии к кодуdocstringsавтоматизация разработкиискусственный интеллектllmобучение моделейнаучные исследованиясинтетические данныеai
Habr
RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтовPythonHTMLBeautifulSouprequestsPlaywrightNLPдатасеточистка данныхязыковые модели