RU

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLPLLMGRPOобучение с подкреплениемCUDA out of memoryvLLMоптимизация GPU памятидообучение моделейLoRAPyTorch
Habr
RU

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика…

GPTLLMpretrainingраспределённое обучениеGoogle ColabRoPEGQASwiGLUNLPрусский язык
Habr
RU

SciGraph: как я учил ИИ читать научные статьи не только по словам, но и по связям

SciGraph показывает, почему GraphRAG для научных статей — это не только про графы и LLM, но и про честные метрики. В&nbs…

GraphRAGRAGLLMNLPграф знанийнаучные статьиизвлечение знанийцитированияоценка качестваF1-метрика
Habr
RU

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, стати…

phpmachinelearningbag-of-wordstf-idfBoWNLPобработка естественного языкаcosine similarityвекторизация текстамашинное обучение
Habr
RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтовPythonHTMLBeautifulSouprequestsPlaywrightNLPдатасеточистка данныхязыковые модели