Доверяя кодирование ИИ, профессионалы рискуют остаться без работы

Ученые из Университета Калифорнии в Сан-Диего изучили, насколько эффективно большие языковые модели (LLMs) отвечают на вопросы по Java на сайте Q&A StackOverflow. В исследовании было выявлено, что результаты ответов далеки от идеальных.

В предварительной версии статьи под названием ” Исследование устойчивости и надежности кодогенерации большой языковой модели ” аспиранты Ли Жонг и Цзилонг Ванг рассматривают 1,208 вопросов по кодированию, касающихся 24 популярных Java API. Затем оценили ответы, предоставленные четырьмя различные LLM с поддержкой кода на основе их средства проверки API под названием RobustAPI.

RobustAPI разработан для оценки надежности кода. Основное предположение заключается в том, что отклонение от правил API может привести к проблемам при запуске кода в производственной среде.

Исследователи обнаружили, что тестирование кода, написанного людьми или машинами, часто фокусируется только на семантической корректности и не учитывает возможные неожиданные входные данные.

В качестве примера они указали на фрагмент кода, который должен был быть помещен в блок try-catch для обработки ошибок.

RandomAccessFile raf = new RandomAccessFile(“/tmp/file.json”, “r”); byte[] buffer = new byte[1024 * 1024]; int bytesRead = raf.read(buffer, 0, buffer.length); raf.close();

Исследователи из Калифорнийского университета в Сан-Диего протестировали модели GPT-3.5 и

Основное преимущество GPT-4 по сравнению с предыдущими версиями заключается в его способности к более глубокому пониманию контекста и генерации более качественных и связных ответов. GPT-4 может обрабатывать и анализировать более сложные запросы, а также продолжать начатые тексты с сохранением смысла и стиля.

Public Release.