RU

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика…

GPTLLMpretrainingраспределённое обучениеGoogle ColabRoPEGQASwiGLUNLPрусский язык
Habr
RU

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, стати…

phpmachinelearningbag-of-wordstf-idfBoWNLPобработка естественного языкаcosine similarityвекторизация текстамашинное обучение
Habr
RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтовPythonHTMLBeautifulSouprequestsPlaywrightNLPдатасеточистка данныхязыковые модели