Как технология распознавания голоса «ВКонтакте» разберется с русскоязычным сленгом
Соцсеть «ВКонтакте» запустила проект по распознаванию голосовых сообщений на базе нейронной сети. В будущем, предполагается, соцсеть запустит новый инструмент – поиск по голосовым сообщениям.
Как сообщается, функция голосового распознавания предназначается для пользователей, которые по разным причинам не могут или не хотят слушать запись, однако узнать ее содержание им необходимо. Сделать это можно будет просто – для получения голосового сообщения в виде расшифрованного текста пользователю достаточно будет нажать на кнопку рядом с сообщением.
Предполагается, что решение будет доступно лишь для голосовых сообщений на русском языке. Сервисом обмена голосовых сообщений ВКонтакте ежемесячно пользуются порядка 30 млн человек.
В настоящее время проект проходит пилотную стадию. В ее рамках эта функция работает на iOS, а тестирование проводится на базе технологии сторонней компании-разработчика, о названии которого не сообщается. Разработчики получают и изучают отзывы участников программы тестирования VK Testers о работе технологии.
На втором этапе пилотного проекта разработчики «ВКонтакте» намереваются задействовать собственную разработку для распознавания речи.
По данным системы мониторинга и анализа социальных медиа и СМИ Brand Analytics, «ВКонтакте» является самой популярной социальной сетью в России. Только в течение ноября 2019 года в сети было написано 556 млн публичных сообщений, авторами которых выступили 30,7 млн пользователей. Сеть наиболее популярна у возрастной аудитории 16-24 лет. Как прокомментировал Павел Калайдин, директор по исследованиям в области искусственного интеллекта «ВКонтакте», для высоконагруженного сервиса, обрабатывающего несколько десятков миллионов голосовых сообщений в месяц, требовалось решение, способное работать с большим объемом входящей информации, не теряя качества. Кроме того, необходимо было учесть специфику современного разговорного русского языка, которым представители молодежной аудитории пользуются, в том числе, и при записи голосовых сообщений – большое количество сленга, заимствованной лексики (англицизмов и американизмов) и так далее. Такое решение разработчики «ВКонтакте» создали сами – это нейросеть, которая обучается русскоязычному сленгу, масштабируется и гибко настраивается. Как предполагается, именно на базе этой технологии в социальной сети будет внедрен новый инструмент, который позволит вести поиск по сообщениям с учетом голосовых.
Напомним, что на Европейской конференции по информационному поиску (European Conference On Information Retrieval), которая проходила в Кёльне в апреле 2019 года, разработчики «ВКонтакте» представили нейросеть, создающую новостные заголовки к текстам на русском и английском языках. Нейросеть была создана с использованием архитектуры Universal Transformer, а также техники компрессии данных BPE (Byte Pair Encoding), впервые в рамках этого проекта использованную для модели суммаризации текста. Для обучения такой нейросети впервые использовались тексты новостных материалов - агентства «РИА Новости» и издания The New York Times. По мнению экспертов, в 45% случаев машинный заголовок был не хуже оригинального, а в 15% - даже лучше.