Tech News — Latest News

RU

Как я собрал OmniBot: Discord Activity, локальный ruBERT и модерация без чёрного ящика

Когда я начал развивать Discord-сообщество, обычной команды /ban хватило совсем ненадолго. Роли настраивались в одном месте, приветствия — в другом, л…

Discord Python FastAPI PostgreSQL ruBERT NLP модерация Discord Activity ai ai moderation

RU

Детектор был прав, разметка врала: как мы искали слепую зону LLM-судей и нашли ошибки в эталоне

Мы собрали training‑free детектор галлюцинаций из шести готовых языковых моделей, получили хорошие метрики и наткнулись на красивую загадку:…

LLM RAG LLM-as-a-Judge RAGTruth Hallucination Detection AI Evaluation Галлюцинации LLM Генеративный ИИ NLP Machine Learning

RU

Библиография тоже умеет галлюцинировать: что изменилось после защиты диплома

После защиты диплома я доработала систему проверки библиографических источников: добавила OCR, кэширование, offline-режим, классификацию ошибок, внешн…

библиография проверка источников машинное обучение NLP OCR PDF DOI Crossref OpenAlex научные публикации

RU

Библиография тоже умеет галлюцинировать: что изменилось после защиты диплома

После защиты диплома я доработала систему проверки библиографических источников: добавила OCR, кэширование, offline-режим, классификацию ошибок, внешн…

библиография проверка источников машинное обучение NLP OCR PDF DOI Crossref OpenAlex научные публикации

RU

Почему я перестал слать каждый вопрос в LLM: архитектура предсказуемого конвейера

Очевидный путь для бота поддержки на LLM — слать в модель каждый вопрос вместе с куском базы знаний. На демо работает, в проде разваливается: галлюцин…

Техподдержка LLM RAG чат-бот классификация обращений YandexGPT DeepSeek NLP FastAPI

RU

ContentCombine: как я сделал мультинишевый контент-комбайн и запустил ежедневный SEO-дайджест

Я сделал ContentCombine — мультинишевый контент-комбайн, который собирает материалы из RSS, Telegram, сайтов и других источников, нормализует их, счит…

ContentCombine контент-комбайн агрегатор новостей Data Engineering NLP искусственный интеллект LLM Python SEO автоматизация контента

RU

Как желание быстрее читать чужой код превратилось в войну с недетерминизмом LLM

Началось всё примерно так. Я сидел над своим проектом: пока работал, общался по нему с нейросетками и параллельно искал в&nbs…

LLM prompt engineering детерминизм Java оценка кода обучение программированию Gemini API prompt injection pet project NLP

RU

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Нам всё чаще заказывают ИИ-ботов для продаж и квалификации. И каждый раз один и тот же вопрос: на каком движке его строить? Бенчмарков «кто умнее» — д…

LLM продажи бенчмарки OpenRouter чат-боты переговоры NLP DeepSeek Gemini методология

RU

# Морфоанализатор ингушского языка: как мы научили словарь понимать словоформы — и что изменилось за два месяца

В апреле я писал тут про PaydaDosh — открытый словарь и корпус ингушского языка. Та статья была про «вот, собрали всё в одном месте»: 66 тысяч статей,…

ингушский язык лингвистика словарь малые языки морфология морфоанализатор лексикография омономия корпус текстов NLP

RU

Обрести свой голос: сложность выбора TTS-архитектуры для ИИ-агента

Продолжение цикла о разработке собственного TTS-сервиса для targetai. В первой - о критериях оценки и методологии бенчмарка. Эта — о том, как мы приме…

TTS синтез речи голосовые ассистенты open source F5-TTS XTTS CosyVoice OmniVoice NLP

RU

Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)

Взяли автоэнкодер из свежей работы  CALM (Continuous Autoregressive Language Models) , который учится упаковывать чанк из K=4 токенов в один непр…

CALM Автоэнкодер Машинное обучение Глубокое обучение NLP LLM CPU

RU

Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков

Мы в targetai специализируемся на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев. В какой-то…

TTS синтез речи голосовые ассистенты ИИ-ассистент телефония клиентский сервис NLP

RU

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

Иногда одна строка датасета соответствует не одному объекту, а целому набору связанных объектов: новостям, комментариям, изображениям или&nb…

машинное обучение искусственный интеллект эмбеддинги агрегация MIL llm feature engineering pooling attention NLP

RU

Как мы боремся с галлюцинации AI Master: гибридный Guard на Embedding + LLM Extractor на примере AI-RPG «Стирая Грань»

Каждый, кто пробовал создавать текстовые RPG или симуляторы на базе LLM (будь то GPT-4, DeepSeek или локальная 70B), сталкивался с проблемой «Yes-And»…

LLM gamedev NLP embeddings python deepseek геймдизайн искусственный интеллект rpg архитектура

RU

Языковые модели без лишних слов

Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова « Языковые модели без лишних слов: П…

машинное обучение нейросети искусственный интеллект python PyTorch NLP LLM книги бхв bhv

RU

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLP LLM GRPO обучение с подкреплением CUDA out of memory vLLM оптимизация GPU памяти дообучение моделей LoRA PyTorch

RU

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика…

GPT LLM pretraining распределённое обучение Google Colab RoPE GQA SwiGLU NLP русский язык

RU

SciGraph: как я учил ИИ читать научные статьи не только по словам, но и по связям

SciGraph показывает, почему GraphRAG для научных статей — это не только про графы и LLM, но и про честные метрики. В&nbs…

GraphRAG RAG LLM NLP граф знаний научные статьи извлечение знаний цитирования оценка качества F1-метрика

RU

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, стати…

php machinelearning bag-of-words tf-idf BoW NLP обработка естественного языка cosine similarity векторизация текста машинное обучение

RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтов Python HTML BeautifulSoup requests Playwright NLP датасет очистка данных языковые модели