RU

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на англ…

датасеткомментарии к кодуdocstringsавтоматизация разработкиискусственный интеллектllmобучение моделейнаучные исследованиясинтетические данныеai
Habr
RU

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на англ…

датасеткомментарии к кодуdocstringsавтоматизация разработкиискусственный интеллектllmобучение моделейнаучные исследованиясинтетические данныеai
Habr
RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтовPythonHTMLBeautifulSouprequestsPlaywrightNLPдатасеточистка данныхязыковые модели