Исследователи разработалиметодику извлечения звуков из статических изображений, снятых камерами смартфонов. Движущиеся детали камеры, такие как роликовые затворы CMOS, линзы для оптической стабилизации изображения (OIS) и автофокусировки (AF), создают звуки, которые модулируются в изображениях как незаметные искажения.
В исследовательской работе учёные поясняют, что камеры смартфонов создают специальный оптико-акустический побочный канал, который не требует прямой видимости или присутствия объекта в поле зрения камеры, однако позволяет считать эту информацию с высокой точностью.
Сосредоточив внимание на ограничениях побочного канала, который опирается на “подходящий механический путь от источника звука к смартфону”, исследователи извлекли и проанализировали просочившуюся акустическую информацию, по которой можно эффективно идентифицировать сразу нескольких говорящих, их пол и даже произносимые ими цифры.
Учёные полагались на машинное обучение для восстановления информации из человеческой речи, передаваемой говорящими. Исследование велось с точки зрения злоумышленника, у которого на смартфоне запущено вредоносное приложение, но нет доступа к микрофону. Тем не менее, модель угрозы предполагает, что злоумышленник может снимать видео с помощью камеры жертвы и заранее может получить образцы речи целевых людей, чтобы использовать их как часть процесса обучения.
Используя набор данных из 10 000 образцов произнесения сигнальных цифр, исследователи сильно прокачали свой алгоритм и настроили его на выполнение различных задач. Для экспериментов учёные использовали устройства Google Pixel, Samsung Galaxy и Apple iPhone.
“Наша оценка с использованием 10 смартфонов в наборе данных о произносимых цифрах показывает 80,66%, 91,28% и 99,67% точности распознавания 10 произносимых цифр, 20 говорящих и 2 представителей разного пола соответственно”, – сообщили исследователи.
Исследователи считают, что камеры более низкого качества с более примитивным механизмом работы сильно ограничат потенциальную утечку информации, связанную с этим типом атаки. Также должно помочь физическое удаление смартфонов от говорящих и добавление виброизолирующих материалов между телефоном и передающей поверхностью.
Учёные также добавили: “Мы считаем, что высокая точность классификации, полученная в ходе нашего анализа, а также связанная с этим работа с использованием датчиков движения позволяют предположить, что этот оптико-акустический побочный канал может поддерживать более разнообразные вредоносные приложения за счёт включения функций восстановления речи в конвейер обработки сигналов”.
Производители смартфонов могут смягчить атаку с помощью более высокой частоты срабатывания затвора, чего можно добиться как программно, так и аппаратно. Вопрос лишь в том, будут ли производители смартфонов тратить на это время, в особенности, если перенастройка частоты срабатывания затвора повлияет на общую работу камеры.