RU

Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов

Звук сегодня является важным интерфейсом. Работа с чат-ботом своей "ИИшечки" упрощается в разы. Кроме того, помимо вайб-кодинга - есть еще и обычная ж…

вайб-кодингвайбокодинграспознавание речиmarkdownobsidian
Habr
RU

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто стоит у кассы в этот момент, и б…

ASRраспознавание речикомпьютерное зрениеvadobject trackingвидеоаналитикаspeech recognitioncomputer vision
Habr
RU

Как мы превращаем звонок риэлтора в карточку лида за 15 секунд: ИИ-автолид изнутри

Риэлтор за рулём. Звонит собственник трёшки на Соколе: “Видел ваше объявление, хочу обсудить продажу”. Двадцать минут живого разговора - район, перепл…

распознавание речиdeepgramllmspeech-to-textcrmавтоматизацияпайплайннедвижимость
Habr
RU

Голосовой КПТ-дневник с распознаванием речи на устройстве: Flutter и on-device Whisper

Эта статья про то, как я сделал голосовой дневник мыслей для когнитивно-поведенческой терапии, почему распознавание речи у меня крутится прямо на теле…

FlutterWhisperwhisper.cppon-deviceраспознавание речиDartКПТмобильная разработка
Habr
RU

Почему WER недостаточно: Семантическая декомпозиция ошибок ASR

В продуктах, построенных поверх моделей распознавания речи (Automatic Speech Recognition models, ASR), качество распознавания речи напрямую влияет на …

werasrnernlpречевые технологиираспознавание речиwhisperмашинное обучениеОценка качества моделейречь в текст
Habr
RU

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтв…

распознавание речиASRWhisperGigaAMWERfaster-whisperбенчмаркfine-tuningрусский ASRоффлайн-распознавание
Habr
RU

Видео → текст → саммари. Ставим транскрибацию на Mac

Транскрибируем любое видео локально, прямо на Mac. Бесплатно, приватно, с качеством на уровне платных сервисов. Полный гайд: настройка, скрипт и промп…

whisper.cppтранскрибацияmacOSраспознавание речилокальный ИИвидео в текстsubtitlesvoice activity detection
Habr
RU

От папки с созвонами до 5K+ юзеров: как pet-проект «для себя» встретился с реальными пользователями

Записать созвон — легко. Сложнее потом найти, где именно обсуждали сроки, бюджет и того самого человека, которого нужно было добавить в копию письма. …

распознавание речиpet-проектыразработка продуктаUXстартапыличный опыт.запись экранаии
Habr
RU

Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio

Голос в текст, текст в перевод: строим десктопное приложение для распознавания речи с Azure Speech SDK и NAudio Читать далее

.netc#avaloniauiazure speech servicesnaudioreactiveuiтранскрибациядиаризацияраспознавание речи
Habr
RU

Веселимся со Spring: pet-проект по распознаванию речи

Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечнос…

JavaSpring FrameworkVoskspeech recognitionраспознавание речиREST APIWAVJava Sound APIpet projectвеселье