Новые алгоритмы ИИ «VK Видео» сделали субтитры точнее на четверть

Технологии
17 сентября 2024

На 25 % выросла точность анализа и расшифровки речи в сервисе «VK Видео». Платформа запустила новые алгоритмы искусственного интеллекта, призванные выполнять автоматическое распознавание речи и создавать субтитры в клипах, шоу, роликах и другом видеоматериале. Качество субтитров повысилось, в том числе и потому, что нейросети быстро учатся, осваивая тысячи новых слов, среди которых немало профессиональных терминов, имен собственных, мемов и акронимов (аббревиатур).

Генерируются автоматические субтитры с помощью ML-моделей – они создают текст, расставляя в нем знаки препинания и синхронизируя его с видео. Аудиопоток обрабатывается в несколько этапов, что повышает точность распознавания. Нейросеть очищает видео от посторонних шумов, распознает речь и превращает услышанное в текст.

Далее вступают в дело модели пунктуации и денормализации: они переделывают набор распознанных слов в грамотный и хорошо воспринимаемый текст. Затем ИИ синхронизирует его с аудиодорожкой.

Скоро искусственный интеллект научится разделять на отдельные реплики речь разных спикеров, что также будет способствовать улучшению качества субтитров.

Технология субтитров популярна у тех, кто пользуется «VK Видео». Среди них есть люди с нарушением слуха, а также те, кто смотрит видео без звука по определенным причинам. За последний месяц доля тех, кто использует функцию в веб-версии, выросла на 28 %. Тем самым из числа всей аудитории «VK Видео» субтитры включают 11 % людей.

Источник: CNews

Похожие новости