Большие языковые модели (БЯМ) – это эволюция техник обработки естественного языка (NLP), которые могут быстро генерировать тексты, похожие на те, что пишут люди, и выполнять другие простые задачи, связанные с языком. Эти модели стали очень популярны после публичного выпуска Chat GPT, высокопроизводительной БЯМ, разработанной OpenAI.
Недавние исследования, оценивающие БЯМ, до сих пор в основном тестировали их способность создавать хорошо написанные тексты, определять конкретные термины, писать эссе или другие документы и производить эффективный компьютерный код. Тем не менее, эти модели потенциально могут помочь людям решать другие реальные проблемы, включая фейковые новости и дезинформацию.
Кевин Матте Карамансион, исследователь из Университета Висконсина-Стут, недавно провел исследование, оценивающее способность самых известных БЯМ, выпущенных на сегодняшний день, определять, является ли новостная история правдивой или фальшивой. Его результаты, опубликованные в статье на arXiv , дают ценное представление, которое может способствовать будущему использованию этих сложных моделей для противодействия онлайн-дезинформации.
“Вдохновением для моей недавней статьи послужила необходимость понять возможности и ограничения различных БЯМ в борьбе с дезинформацией”, – рассказал Карамансион Tech Xplore. “Моей целью было проверить уровень владения этими моделями в различении факта от вымысла, используя контролируемую симуляцию и установленные агентства по проверке фактов в качестве эталона”.
“Мы оценили производительность этих больших языковых моделей, используя тестовый набор из 100 проверенных новостей от независимых агентств по проверке фактов”, – сказал Карамансион. “Мы представляли каждую из этих новостей моделям в контролируемых условиях, а затем классифицировали их ответы в одну из трех категорий: Правда, Ложь и Частично Правда/Ложь. Эффективность моделей измерялась на основе того, насколько точно они классифицировали эти элементы по сравнению с подтвержденными фактами, предоставленными независимыми агентствами”.
Дезинформация стала серьезной проблемой в последние десятилетия, так как интернет и социальные сети позволили все более быстро распространять информацию, независимо от того, правда она или ложь. Многие компьютерные ученые поэтому пытались разработать лучшие инструменты и платформы для проверки фактов, которые позволяют пользователям проверять новости, которые они читают в интернете.
Несмотря на множество инструментов для проверки фактов, созданных и протестированных на сегодняшний день, широко принятой и надежной модели для борьбы с дезинформацией все еще нет. В рамках своего исследования Карамансион попытался определить, могут ли существующие БЯМ эффективно решить эту проблему. Он конкретно оценил производительность четырех БЯМ, а именно Open AI’s Chat GPT-3.0 и Chat GPT-4.0, Google’s Bard/LaMDA и Microsoft’s Bing AI. Карамансион подавал эти модели одни и те же новостные истории, которые были предварительно проверены на фактическую достоверность, а затем сравнивал их способность определять, являются ли они правдивыми, ложными или частично правдивыми/ложными.
“Мы провели сравнительную оценку основных БЯМ по их способности отличать факт от обмана”, – сказал Карамансион. “Мы обнаружили, что GPT-4.0 OpenAI превзошел другие модели, намекая на достижения в новых БЯМ. Однако все модели отставали от людей, проверяющих факты, подчеркивая неоценимую ценность человеческого познания. Эти результаты могут привести к увеличению внимания к развитию ИИ в области проверки фактов при обеспечении сбалансированной, симбиотической интеграции с человеческими навыками”.
Оценка, проведенная Карамансионом, показала, что ChatGPT 4.0 значительно превосходит другие выдающиеся БЯМ по задачам проверки фактов. Дальнейшие исследования, тестирующие БЯМ на более широком пуле фейковых новостей, могут помочь подтвердить этот вывод.
Исследователь также обнаружил, что ручная проверка фактов все еще превосходит все основные БЯМ, которые он оценивал. Его работа подчеркивает необходимость дальнейшего улучшения этих моделей или сочетания их с работой человеческих агентов.
“Мои будущие планы по исследованиям связаны с изучением развития возможностей ИИ, сосредоточившись на том, как мы можем использовать эти достижения, не упуская из виду уникальные когнитивные способности людей”, – добавил Карамансион. “Мы стремимся усовершенствовать наши тестовые протоколы, изучить новые БЯМ и дальше исследовать динамику между человеческим познанием и технологиями ИИ в области проверки новостей”.