DeWave: новая технология перевода мыслей в текст

Учёные из Центра искусственного интеллекта GrapheneX-UTS при Технологическом университете Сиднея (UTS) разработали портативную, неинвазивную систему, которая может декодировать мысли и преобразовывать их в текст. Технология может помочь людям, потерявшим способность говорить из-за болезни или травмы, включая инсульт или паралич. Она также может облегчить взаимодействие человека с машинами, например, управление бионической рукой или роботом.

Данное исследованиебыло выделено как ключевое на конференции NeurIPSв Новом Орлеане, демонстрируя ведущие достижения в области искусственного интеллекта и машинного обучения. Работу возглавили профессор CT Lin и аспиранты Yiqun Duan и Jinzhou Zhou из Факультета инженерии и информационных технологий UTS.

Участники исследования читали тексты, при этом на их головах находились специальные шапочки, записывающие электрическую активность мозга через кожу головы с помощью электроэнцефалограммы (ЭЭГ). Искусственный интеллект DeWave, разработанный исследователями, анализировал ЭЭГ-сигналы, переводя их в слова и предложения.

Исследование UTS проводилось с 29 участниками, что делает его более надежным и адаптивным по сравнению с предыдущими технологиями, тестировавшимися только на одном или двух людях. Несмотря на шумовые сигналы, получаемые через шапочку вместо имплантированных электродов, исследование показало передовые результаты в переводе ЭЭГ.

Модель лучше справляется с глаголами, чем с существительными, часто предлагая синонимичные пары слов вместо точных переводов. Однако, несмотря на трудности, модель демонстрирует значимые результаты, выстраивая ключевые слова и создавая похожие структуры предложений.

Точность перевода на данный момент составляет около 40% по шкале BLEU-1, которая измеряет схожесть машинного перевода с высококачественными эталонными переводами. Исследователи надеются довести этот показатель до уровня традиционных программ перевода языка или распознавания речи, который близок к 90%.

Специалисты подчеркнули, что исследование является первым, которое переводит сырые ЭЭГ-волны непосредственно в язык, что представляет собой значительный прорыв. Отмечается, что это первый случай использования дискретных методов кодирования в процессе перевода мозга в текст. Также подчеркивается роль интеграции с большими языковыми моделями.

Ранее для перевода сигналов мозга в язык требовалось либо хирургическое вмешательство для имплантации электродов в мозг, как в проекте Neuralink Илона Маска, либо сканирование МРТ, что было дорого и неудобно для повседневного использования. Новая технология может использоваться как с системой отслеживания взгляда, так и без неё.

Исследование является продолжением работы UTS по разработке технологии интерфейса мозг-компьютер в сотрудничестве с Силами обороны Австралии, в рамках которой мозговые волны используются для управления четвероногим роботом.

Public Release.