前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

ChatGPT 代码自检能力差

NEXTECH
Last updated: 2024年12月6日 上午6:57
By NEXTECH
Share
11 Min Read
SHARE

a-question-mark-made-out-of-binary-code.

本文是与 IEEE Xplore 合作的独家 IEEE 期刊观察系列的一部分。

ChatGPT 生成代码的能力引发了热议,但目前为止,这款人工智能程序的表现与人类程序员相比仍有差距。那么,它在发现自身错误方面表现如何呢?

中国研究人员最近进行了一项研究,对 ChatGPT 的自我评估能力进行了测试,评估其在代码正确性、漏洞和修复成功率方面的表现。研究结果发表在 11 月 5 日的《IEEE 软件工程汇刊》上,表明这款人工智能程序过于自信,经常认为代码比实际情况更令人满意。研究结果还揭示了哪些类型的提示和测试可以提高 ChatGPT 的自我验证能力。

浙江大学副教授胡兴领导了这项研究。她强调,随着 ChatGPT 在软件开发中的应用日益广泛,确保其生成代码的质量变得越来越重要。

胡教授和她的同事首先使用多个大型编码数据集测试了 ChatGPT-3.5 生成代码的能力。

You Might Also Like

OpenAI推出ChatGPT项目,助你整理文件和群聊
AI 会计平台:90% 任务自动化
2025年最高薪编程语言
加州大学圣地亚哥分校与清华大学合作,让 AI 更好地识别求助时机

结果表明,ChatGPT-3.5 生成“正确”代码(即代码能够按预期执行)的平均成功率为 57%,生成无安全漏洞代码的成功率为 73%,修复错误代码的平均成功率为 70%。

因此,它有时能够成功,但仍然会犯不少错误。

要求 ChatGPT 检查其编码工作

首先,研究人员要求 ChatGPT-3.5 使用直接提示检查其自身代码的正确性,这涉及要求它检查代码是否满足特定要求。

在 39% 的情况下,它错误地认为代码是正确的,而实际上并非如此。它还错误地认为代码没有安全漏洞的比例为 25%,并且错误地认为它成功修复了代码的比例为 28%。

有趣的是,当研究人员提供引导性问题时,ChatGPT 能够发现更多自身错误。引导性问题要求 ChatGPT 同意或不同意关于代码不满足要求的断言。与直接提示相比,这些引导性问题使 ChatGPT 发现错误生成的代码的比例平均提高了 25%,识别漏洞的比例提高了 69%,识别程序修复失败的比例提高了 33%。

另一个重要发现是,尽管要求 ChatGPT 生成测试报告在识别错误代码方面没有比直接提示更有效,但它有助于增加 ChatGPT 生成的代码中标记的漏洞数量。

胡教授和她的同事在这项研究中报告说,ChatGPT 在其行为中表现出一些自我矛盾的幻觉,即它最初生成它认为正确或安全的代码或补全,但在自我验证过程中又与这种信念相矛盾。

“在 ChatGPT 的自我验证过程中观察到的不准确性和自我矛盾的幻觉强调了谨慎行事和彻底评估其输出的重要性,”胡教授说。“ChatGPT 应该被视为开发人员的辅助工具,而不是取代他们作为自主软件创建者和测试者的角色。”

作为研究的一部分,研究人员还使用 ChatGPT-4 进行了一些测试,发现与 ChatGPT-3.5 相比,它在代码生成、代码补全和程序修复方面表现出显著的性能提升。

“然而,关于 GPT-4 和 GPT-3.5 自我验证能力的总体结论仍然相似,”胡教授说,她指出 GPT-4 仍然经常错误地将生成的错误代码归类为正确代码,将有漏洞的代码归类为无漏洞代码,并将程序修复失败归类为成功,尤其是在使用直接问题提示时。

此外,她补充说,在 GPT-4 的行为中也观察到自我矛盾的幻觉。

“为了确保生成代码的质量和可靠性,必须将 ChatGPT 的能力与人类专业知识相结合,”胡教授强调。

Share This Article
Email Copy Link Print
Previous Article 目前最抢手的科技职位
Next Article Elon Musk and SpaceX Team in 2002 马斯克或成首位万亿富翁,SpaceX估值3500亿美元
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250609055410130.png
小米汽车:2025年1-4月小米汽车杭州销量8171辆居首
报告
沃兹情报:2025年5月美国轻型汽车销量1565万辆 迎五年最大跌幅
报告
SignalFire:2024年科技公司初级职位招聘量下降25%
报告
图片描述
乘联会:2025年5月全国新能源乘用车批发销量124万辆 同比增长38%
报告

相关内容

AI Glasses
AI

Sharge Loomos AI 智能眼镜5天Kickstarter众筹突破130万美元

2025年5月11日
OpenAI 创始人 Sam Altman。
AI

OpenAI为何闭源? CEO亲述原因

2024年11月16日
AI

AWS 缓存提示,节省 90% 成本

2024年12月12日
欧盟积极推動AI監管政策,並於近期完成《AI法案》最後草案,預計於2025年初發布最終指導文件。
AI

欧盟征求意见:AI哪些领域不该触碰

2024年11月27日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?