Данный сервис получил 12 разных голосов, среди которых шесть женских и шесть мужских. Разработчики сообщили, что это должно сделать более совершенным качество восприятия видеоматериалов.
Нейронная сеть транслирует речь в текст, затем восстанавливает пунктуацию, чтобы определить границы предложений. После этого к нейронной сети подключается еще одна система, которая осуществляет анализ спектрограммы голоса и помечает на аудиодорожке моменты, произнесенные людьми.
Согласно сведениям компании, практически половина роликов на видеоплатформе YouTube на разных языках — это видеоматериалы с тремя и более спикерами. Однако смотреть их с двухголосной озвучкой не очень комфортно, по этой причине «Яндекс» добавил в свои сервисы еще десять разных голосов.