Точность распознавания речи на платформе «VK Видео», повысив её на 25 %, значительно улучшил искусственный интеллект. На сервисе внедрены новые алгоритмы ИИ, предназначенные для автоматического распознавания речи и создания субтитров в роликах, шоу, клипах и других видах контента.
Нейросети быстро овладевают обширной лексикой, включая мемы, профессиональные термины, акронимы и имена собственные. В ближайшем будущем ИИ сможет различать речь разных спикеров, разделяя её на отдельные реплики и одновременно улучшая качество субтитров.
Процесс автоматического создания субтитров реализуется с помощью ML-моделей, которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Точность анализа и понятность субтитров достигаются за счет поэтапной обработки аудиопотока.
На первом этапе нейросеть удаляет посторонние шумы и преобразует распознаваемую речь в текст. На втором этапе модели пунктуации и денормализации создают легко читаемый текст из набора распознанных слов. В завершение текст синхронизируется с аудиодорожкой.
На платформе «VK Видео» наблюдается рост популярности субтитров: за последний месяц доля пользователей, включающих при просмотре видео субтитры, увеличилась на 28 %. В настоящее время технологией пользуется 11 % от общей аудитории сервиса. Субтитры особенно полезны для людей с нарушениями слуха и необходимы в ситуациях, когда звук включить невозможно.
Источник: CNews