AI & ML — Tech News

RU

Обрести свой голос: сложность выбора TTS-архитектуры для ИИ-агента

Продолжение цикла о разработке собственного TTS-сервиса для targetai. В первой - о критериях оценки и методологии бенчмарка. Эта — о том, как мы приме…

TTS синтез речи голосовые ассистенты open source F5-TTS XTTS CosyVoice OmniVoice NLP

RU

Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)

Взяли автоэнкодер из свежей работы  CALM (Continuous Autoregressive Language Models) , который учится упаковывать чанк из K=4 токенов в один непр…

CALM Автоэнкодер Машинное обучение Глубокое обучение NLP LLM CPU

RU

Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков

Мы в targetai специализируемся на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев. В какой-то…

TTS синтез речи голосовые ассистенты ИИ-ассистент телефония клиентский сервис NLP

RU

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

Иногда одна строка датасета соответствует не одному объекту, а целому набору связанных объектов: новостям, комментариям, изображениям или&nb…

машинное обучение искусственный интеллект эмбеддинги агрегация MIL llm feature engineering pooling attention NLP

RU

Как мы боремся с галлюцинации AI Master: гибридный Guard на Embedding + LLM Extractor на примере AI-RPG «Стирая Грань»

Каждый, кто пробовал создавать текстовые RPG или симуляторы на базе LLM (будь то GPT-4, DeepSeek или локальная 70B), сталкивался с проблемой «Yes-And»…

LLM gamedev NLP embeddings python deepseek геймдизайн искусственный интеллект rpg архитектура

RU

Языковые модели без лишних слов

Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова « Языковые модели без лишних слов: П…

машинное обучение нейросети искусственный интеллект python PyTorch NLP LLM книги бхв bhv

RU

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLP LLM GRPO обучение с подкреплением CUDA out of memory vLLM оптимизация GPU памяти дообучение моделей LoRA PyTorch

RU

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика…

GPT LLM pretraining распределённое обучение Google Colab RoPE GQA SwiGLU NLP русский язык

RU

SciGraph: как я учил ИИ читать научные статьи не только по словам, но и по связям

SciGraph показывает, почему GraphRAG для научных статей — это не только про графы и LLM, но и про честные метрики. В&nbs…

GraphRAG RAG LLM NLP граф знаний научные статьи извлечение знаний цитирования оценка качества F1-метрика

RU

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, стати…

php machinelearning bag-of-words tf-idf BoW NLP обработка естественного языка cosine similarity векторизация текста машинное обучение

RU

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты…

парсинг сайтов Python HTML BeautifulSoup requests Playwright NLP датасет очистка данных языковые модели