Новая нейросеть Microsoft способна подделать любой голос за 3 секунды

Американская корпорация Microsoft представила модель искусственного интеллекта VALL-E. Она умеет точно воспроизводить голос любого человека, для этого её хватает всего лишь трёхсекундного образца.

Зафиксировав конкретный голос, VALL-E способна синтезировать аудиозапись того, как человек произносит что-либо, пытаясь сохранить его эмоциональный тон. Сама разработка представляет собой нейронную языковую модель, в основу которой заложен EnCodec. С его помощью технология разделяет голоса человека на отдельные компоненты.

Данные компоненты, именуемые «лексемами», нейронная сеть сопоставляет с соответствующими голосами в своей обучающей базе для образования новых фраз за пределами изначального трёхсекундного образца.

Следует отметить, что Microsoft не раскрывала код VALL-E в открытом доступе из-за потенциального риска некорректного использования. К таковым в корпорации относят подмену идентификации голоса или выдачу себя за конкретного диктора.

В Москве пройдет Технологическая неделя: The Trends Forum и Mining.RU соберут лидеров инноваций и инвестиций

Евразийская Неделя Маркетинга в Москве: новые идеи, тренды и лучшие кейсы

Global Tech Forum: как ИИ меняет бизнес и открывает новые профессии

Trendsetters: как Media 4.0 меняет правила игры в медиаиндустрии