前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

ChatGPT 代码自检能力差

NEXTECH
Last updated: 2024年12月6日 上午6:57
By NEXTECH
Share
11 Min Read
SHARE

a-question-mark-made-out-of-binary-code.

本文是与 IEEE Xplore 合作的独家 IEEE 期刊观察系列的一部分。

ChatGPT 生成代码的能力引发了热议,但目前为止,这款人工智能程序的表现与人类程序员相比仍有差距。那么,它在发现自身错误方面表现如何呢?

中国研究人员最近进行了一项研究,对 ChatGPT 的自我评估能力进行了测试,评估其在代码正确性、漏洞和修复成功率方面的表现。研究结果发表在 11 月 5 日的《IEEE 软件工程汇刊》上,表明这款人工智能程序过于自信,经常认为代码比实际情况更令人满意。研究结果还揭示了哪些类型的提示和测试可以提高 ChatGPT 的自我验证能力。

浙江大学副教授胡兴领导了这项研究。她强调,随着 ChatGPT 在软件开发中的应用日益广泛,确保其生成代码的质量变得越来越重要。

胡教授和她的同事首先使用多个大型编码数据集测试了 ChatGPT-3.5 生成代码的能力。

You Might Also Like

诺贝尔物理学奖授予人工智能先驱
基于LangGraph的智能临床问诊助手实践:技术架构与LLM工作流分阶段实现
Timekettle发布AI同声传译耳机Babel操作系统
ChatGPT 写简历,一眼被识破的秘密

结果表明,ChatGPT-3.5 生成“正确”代码(即代码能够按预期执行)的平均成功率为 57%,生成无安全漏洞代码的成功率为 73%,修复错误代码的平均成功率为 70%。

因此,它有时能够成功,但仍然会犯不少错误。

要求 ChatGPT 检查其编码工作

首先,研究人员要求 ChatGPT-3.5 使用直接提示检查其自身代码的正确性,这涉及要求它检查代码是否满足特定要求。

在 39% 的情况下,它错误地认为代码是正确的,而实际上并非如此。它还错误地认为代码没有安全漏洞的比例为 25%,并且错误地认为它成功修复了代码的比例为 28%。

有趣的是,当研究人员提供引导性问题时,ChatGPT 能够发现更多自身错误。引导性问题要求 ChatGPT 同意或不同意关于代码不满足要求的断言。与直接提示相比,这些引导性问题使 ChatGPT 发现错误生成的代码的比例平均提高了 25%,识别漏洞的比例提高了 69%,识别程序修复失败的比例提高了 33%。

另一个重要发现是,尽管要求 ChatGPT 生成测试报告在识别错误代码方面没有比直接提示更有效,但它有助于增加 ChatGPT 生成的代码中标记的漏洞数量。

胡教授和她的同事在这项研究中报告说,ChatGPT 在其行为中表现出一些自我矛盾的幻觉,即它最初生成它认为正确或安全的代码或补全,但在自我验证过程中又与这种信念相矛盾。

“在 ChatGPT 的自我验证过程中观察到的不准确性和自我矛盾的幻觉强调了谨慎行事和彻底评估其输出的重要性,”胡教授说。“ChatGPT 应该被视为开发人员的辅助工具,而不是取代他们作为自主软件创建者和测试者的角色。”

作为研究的一部分,研究人员还使用 ChatGPT-4 进行了一些测试,发现与 ChatGPT-3.5 相比,它在代码生成、代码补全和程序修复方面表现出显著的性能提升。

“然而,关于 GPT-4 和 GPT-3.5 自我验证能力的总体结论仍然相似,”胡教授说,她指出 GPT-4 仍然经常错误地将生成的错误代码归类为正确代码,将有漏洞的代码归类为无漏洞代码,并将程序修复失败归类为成功,尤其是在使用直接问题提示时。

此外,她补充说,在 GPT-4 的行为中也观察到自我矛盾的幻觉。

“为了确保生成代码的质量和可靠性,必须将 ChatGPT 的能力与人类专业知识相结合,”胡教授强调。

Share This Article
Email Copy Link Print
Previous Article 目前最抢手的科技职位
Next Article Elon Musk and SpaceX Team in 2002 马斯克或成首位万亿富翁,SpaceX估值3500亿美元
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技

相关内容

AI

AI芯片加速器新纪元

2024年9月27日
ChatGPT群聊界面预览
AI 前沿技术

OpenAI ChatGPT群聊功能曝光:剑指Slack,获取企业对话数据

2025年11月12日
AI

英伟达NeMo护栏NIMS助力安全可控AI

2025年3月25日
AI

GitHub Copilot 推出代理模式,AI 代码工具市场加速

2025年5月8日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up