Неверные ответы, но убедительный стиль: cекреты бота ChatGPT

Согласно исследованию, посвященному работе ” data-html=”true” data-original-title=”ChatGPT” >ChatGPT, чат-бот от OpenAI допускает неправильные ответы на вопросы по программированию более чем в половине случаев. Интересно, что ответы бота оказываются настолько убедительными, что некоторые участники эксперимента, оценивавшие его ответы, не обращали внимания на ошибки.

Команда исследователей из Университета Пердью проанализировала ответы ChatGPT на 517 вопросов с платформы Stack Overflow, чтобы оценить правильность, последовательность, полноту и краткость ответов чат-бота. Кроме того, американские ученые провели лингвистический анализ и эмоциональный анализ ответов, а также попросили двенадцать добровольцев оценить работу искусственного интеллекта. Результаты исследования были опубликованы в статье “Кто отвечает лучше? Углубленный анализ ChatGPT и Stack Overflow. Ответы на вопросы разработчиков программного обеспечения” на платформе arXiv.org .

Изучив данные, исследователи пришли к выводу, что 52% ответов ChatGPT содержат ошибки, и 77% кажутся излишне многословными. The Register назвал этот результат “хуже, чем выбор ответа при помощи подбрасывания монетки”. Тем не менее, в 39,34% случаев ответы ChatGPT были предпочтительными из-за их развернутости и ясных формулировок, несмотря на то что 77% из них содержали ошибки.

Участники эксперимента могли распознать ошибки ChatGPT только тогда, когда они были очевидными. Если для выявления ошибки требовалось обратиться к документации или инструментам разработки, то добровольцы часто пропускали её или не придавали ей значения. Исследователи объясняют это “авторитетным стилем” ChatGPT: “вежливый язык, чёткие формулировки в стиле учебника и полнота ответов заставляют совершенно неправильные решения воспринимать как правильные”. Даже когда в ответах бота были “вопиющие ошибки”, двое из 12 добровольцев всё равно выбрали бы рекомендации бота, а не пользователя Stack Overflow.

Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота “более формальные, выражают аналитическое мышление, демонстрируют больше усилий для достижения цели и проявляют меньше негативных эмоций”. Анализ тональности также позволил ученым сделать вывод, что ответы ChatGPT выражают “более позитивное настроение” по сравнению с ответами пользователей Stack Overflow.

Говоря о характере ошибок ChatGPT, исследователи подчеркнули, что бот чаще делает концептуальные ошибки, чем фактические. “Многие неверные ответы были вызваны неспособностью ChatGPT понять основной контекст заданного вопроса”.

В The Register замечают связь между ростом популярности ChatGPT и снижением трафика Stack Overflow : с января 2022 года он уменьшался на 6% каждый месяц, а в марте упал на 13,9%. В то же время ежегодный опрос разработчиков Stack Overflow, в котором участвовали 90 тыс. программистов, показал, что хотя 77% респондентов относятся положительно к инструментам искусственного интеллекта, только 42% доверяют их точности.

Public Release.