Дипфейки – это синтетические медиа, которые имитируют голос или внешность реального человека. Они могут быть использованы для манипуляций и обмана и являются одной из главных угроз, связанных с развитием ИИ.
Ученые из Лондона проверили, насколько хорошо люди умеют распознавать дипфейки. Они попросили 529 человек послушать настоящие и поддельные аудиозаписи на английском и китайском языках, созданные с помощью алгоритма синтеза речи (TTS). Исследователи сгенерировали 50 образцов дипфейковой речи на каждом языке, которые не совпадали с образцами, использованными для обучения алгоритма. Слушатели должны были определить, какие из них были искусственными.
Результаты показали , что люди правильно определили подделки только в 73% случаев, и язык не влиял на точность. Даже после того, как слушателям дали примеры дипфейков для повышения осведомленности, их результаты не сильно улучшились.
Ученые пришли к выводу, что люди не могут достоверно определить дипфейковую речь, даже если они прошли обучение, которое должно было помочь им отличить искусственный контент от настоящего.
Исследователи также отметили, что дипфейки будут становиться все более реалистичными и сложными для распознавания по мере развития алгоритмов синтеза речи. Например, если раньше для создания дипфейка нужно было тысячи образцов голоса человека, то теперь достаточно всего лишь трехсекундного фрагмента его речи.
Сложность выявления дипфейковой речи подчеркивает их потенциал для злоупотребления и указывает на необходимость разработки защитных мер.
Старший исследователь Citizen Lab при Университете Торонто, написал , что текущие тенденции имеют огромное значение для фишинга и мошенничества.
Он отметил, что хорошие дипфейки и креативные мошенники могут совместить свои усилия и быстро адаптироваться к ситуации. Исследователь считает, что телефонное мошенничество и фишинг основаны на очень коротких циклах обратной связи, в которых операторы мгновенно учатся на своих ошибках и успехах.