Всё, что мы видим в интернете – некачественный машинный перевод

Недавнее исследование, проведенное лабораторией искусственного интеллекта Amazon Web Services (AWS AI Lab), обнаружило, что значительная часть контента в интернете, особенно на языках, распространенных в Африке и странах Глобального Юга, состоит из текстов, переведенных машинным переводом.

Более половины предложений в интернете переведены на два или более языка, часто с ошибками из-за некачественного машинного перевода, что вызывает опасения по поводу обучения больших языковых моделей (Large Language Model, LLM).

В AWS отметили, что интерес к этой теме возник после того, как коллеги исследователей Amazon, работающие в области машинного перевода и являющиеся носителями малораспространенных языков, указали на большое количество контента на их родных языках, созданного с помощью машинного перевода.

Исследование включало анализ 6,38 миллиарда предложений, собранных из интернета. Было обнаружено, что 57,1% предложений были переведены на три и более языков. Особенно это касается языков, на которых говорят в Африке и других регионах с малым объемом контента, что приводит к плохому качеству перевода.

Предложения чаще переведены на французский язык, чем на малораспространенные языки, поскольку данных на французском гораздо больше. Языки с большим объемом ресурсов, такие как английский или французский, имели средний параллелизм в 4 языка (предложения имеют переводные эквиваленты на трех других языках), в то время как малораспространенные языки, например, африканские языки волоф или коса, – в 8,6 языка. Кроме того, менее распространенные языки, как правило, имели гораздо худший перевод.

Переводные эквиваленты – это слова, фразы или предложения в одном языке, которые имеют соответствующий аналог в другом языке, передающий тот же самый смысл или значение. Например, английское выражение “good morning” на русском языке соответствует фразе “доброе утро”. Фразы не идентичны буквально, но передают одно и то же пожелание в соответствующем культурном и языковом контексте.

Также было обнаружено, что в языках с высоким уровнем многостороннего параллелизма часто выбираются короткие и более предсказуемые предложения из 5-10 слов. Большинство из них взято из статей, которые исследователи характеризовали как низкокачественные и не требующие особых знаний или усилий для создания.

Исследователи подчеркнули, что такой выбор коротких предложений из низкокачественных статей объясняется желанием генерировать рекламный доход за счет массового машинного перевода на малораспространенные языки. Такая деятельность поднимает вопросы о разработке больших языковых моделей на этих языках.

В исследовании говорится, что современный ИИ требует огромных объемов обучающих данных, и наличие таких проблем с качеством и точностью машинного перевода может привести к созданию менее грамотных моделей с большим количеством ошибок.

Public Release.