Ученые из Университета Калифорнии в Сан-Диего изучили, насколько эффективно большие языковые модели (LLMs) отвечают на вопросы по Java на сайте Q&A StackOverflow. В исследовании было выявлено, что результаты ответов далеки от идеальных.
В предварительной версии статьи под названием ” Исследование устойчивости и надежности кодогенерации большой языковой модели ” аспиранты Ли Жонг и Цзилонг Ванг рассматривают 1,208 вопросов по кодированию, касающихся 24 популярных Java API. Затем оценили ответы, предоставленные четырьмя различные LLM с поддержкой кода на основе их средства проверки API под названием RobustAPI.
RobustAPI разработан для оценки надежности кода. Основное предположение заключается в том, что отклонение от правил API может привести к проблемам при запуске кода в производственной среде.
Исследователи обнаружили, что тестирование кода, написанного людьми или машинами, часто фокусируется только на семантической корректности и не учитывает возможные неожиданные входные данные.
В качестве примера они указали на фрагмент кода, который должен был быть помещен в блок try-catch для обработки ошибок.
RandomAccessFile raf = new RandomAccessFile(“/tmp/file.json”, “r”); byte[] buffer = new byte[1024 * 1024]; int bytesRead = raf.read(buffer, 0, buffer.length); raf.close();
Исследователи из Калифорнийского университета в Сан-Диего протестировали модели GPT-3.5 и
Основное преимущество GPT-4 по сравнению с предыдущими версиями заключается в его способности к более глубокому пониманию контекста и генерации более качественных и связных ответов. GPT-4 может обрабатывать и анализировать более сложные запросы, а также продолжать начатые тексты с сохранением смысла и стиля.