AI & ML — Tech News

All EN RU

meta-attention is all you need

В этой статье я расскажу о интересной находке во время моих экспериментов с языковыми моделями, которую я решил назвать "мета-трансформерами". Или я н…

llm transformers

[Day 7] Does Giving an AI More 'Thinking Time' Really Make It Smarter? Training an OpenMythos-Style Mini Model on DGX

[Day 7] Does Giving an AI More "Thinking Time" Really Make It Smarter? Training an OpenMythos-Style Mini Model on DGX Intro Day 7! Reddit kept surfaci…

localllm ai dgxspark transformers

Клиент — это тоже вектор? Как мы хотели улучшить ML-модель, а построили similarity engine

Поговорим о том, как превращать последовательности пользовательских событий в векторы, зачем обучать BERT на "языке" клиентского поведения и почему em…

машинное обучение анализ данных bert deep learning machine learning embeddings transformers

Метрика EICS — ищем у трансформера причинное место

У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» пр…

uncertainty estimation transformers sheaf theory causal emergence theory information theory mechanistic interpretability llm