Нейросеть от Microsoft способна подделать голос любого человека

Недавно стало известно о том, что новая нейросеть VALL-E от корпорации Microsoft способна подделывать голос конкретного человека вплоть до интонаций. Об этом пишетArsTechnica.

Как сообщается, полученный образец VALL-E разбивает на мельчайшие фрагменты и сравнивает их с уже имеющейся базой данных. Обладая информацией о том, как в разных ситуациях звучат голоса других людей, нейросеть “предполагает”, как в тех же ситуациях будет звучать голос “донора”.

VALL-E обучали на библиотеке LibriLight, содержащей 60 тысяч часов англоязычной речи более чем от 7 тысяч человек. Для системы достаточно записи продолжительностью три секунды, чтобы получить высококачественную подделку.

Издание отмечает, что голос имитируется очень достоверно, у него сохраняется тембр и верная эмоциональная окраска оригинала.

Согласно заявлению Microsoft, VALL-E не будет распространятся в открытом доступе по соображениям безопасности, чтобы нейросетью не воспользовались мошенники.

Public Release.