Новая нейросеть Microsoft способна подделать любой голос за 3 секунды


Американская корпорация Microsoft представила модель искусственного интеллекта VALL-E. Она умеет точно воспроизводить голос любого человека, для этого её хватает всего лишь трёхсекундного образца.

Зафиксировав конкретный голос, VALL-E способна синтезировать аудиозапись того, как человек произносит что-либо, пытаясь сохранить его эмоциональный тон. Сама разработка представляет собой нейронную языковую модель, в основу которой заложен EnCodec. С его помощью технология разделяет голоса человека на отдельные компоненты.

Данные компоненты, именуемые «лексемами», нейронная сеть сопоставляет с соответствующими голосами в своей обучающей базе для образования новых фраз за пределами изначального трёхсекундного образца.

Следует отметить, что Microsoft не раскрывала код VALL-E в открытом доступе из-за потенциального риска некорректного использования. К таковым в корпорации относят подмену идентификации голоса или выдачу себя за конкретного диктора.

Подписка на FBM.RU в Telegram - удобный способ быть в курсе важных экономических новостей! Подписывайтесь и будьте в центре событий. Подписаться.

Добавьте FBM.ru в избранные новости Добавьте FBM в избранные новости

Оценить новость
( Пока оценок нет )
Дмитрий Корнилов/ автор статьи
FBM.ru - Финансы  Бизнес Маркетинг