2024 年 10 月 3 日 下午 2:07
图片来源:VentureBeat 使用 Midjourney 生成
订阅我们的每日和每周新闻简报,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
2024 年 9 月 5 日,Hyperwrite AI(也称为 OthersideAI)的联合创始人兼首席执行官 Matt Shumer 在社交网络 X 上发布了一条爆炸性新闻,他宣布自己已经对 Meta 的开源 Llama 3.1-70B 模型进行了微调,将其升级为一个性能更强大的大型语言模型 (LLM),名为 Reflection 70B。根据他发布的据称来自第三方基准测试的结果,Reflection 70B 的性能如此之高,以至于他的帖子称其为“全球顶尖的开源模型”。
我很高兴地宣布 Reflection 70B,全球顶尖的开源模型。它使用 Reflection-Tuning 技术进行训练,该技术旨在使 LLM 能够自行纠正错误。405B 版本将于下周发布,我们预计它将成为世界上最好的模型。
与 @GlaiveAI 合作开发。
阅读更多 ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) 2024 年 9 月 5 日
然而,在发布后不久,AI 研究和托管社区中的第三方评估人员就难以复现声称的结果,导致了欺诈指控。
研究人员指出,公布的基准测试结果与他们独立测试的结果之间存在差异,引发了 Reddit 和 X 等社交平台上的批评浪潮。
针对这些质疑,Shumer 承诺将与 Glaive 的创始人 Sahil Chaudhary 一起对问题进行审查。Glaive 是一家 AI 初创公司,Shumer 声称他使用其合成数据训练了 Reflection 70B,并且后来透露他向该公司投资了一笔他称之为“小额”的资金。
现在,将近一个月过去了,Chaudhary 昨晚在他的 Glaive AI 博客上发布了一份关于 Reflection 70B 模型的事后报告,并发布了资源供开源 AI 社区自行测试该模型及其训练过程。他表示,虽然他无法复现所有相同的基准测试结果,但他“在初始代码中发现了一个错误”,导致一些结果比他在最近对 Reflection 70B 的测试中发现的结果更高。然而,其他基准测试结果似乎比以前更高,这更加令人费解。
9 月 5 日,@mattshumer_ 宣布了 Reflection 70B,一个基于 Llama 3.1 70B 微调的模型,显示了 SoTA 基准测试数字,该模型由我在 Glaive 生成的數據上训练。
今天,我将分享模型工件以复现最初的声明,并发布一份事后报告以解决…
— Sahil Chaudhary (@csahil28) 2024 年 10 月 2 日
正如 Chaudhary 在帖子中写道的那样:
“我们在发布模型和处理社区报告的问题的方式上犯了很多错误。我理解这类事件会对开源生态系统产生重大负面影响,对此我深感抱歉。我希望这能澄清发生的事情,并成为重拾失去信任的一步。我已经发布了所有必要的资产,以便独立验证基准测试并使用此模型。“
为了恢复透明度和重建信任,Chaudhary 分享了多个资源,帮助社区复制 Reflection 70B 的基准测试结果。这些资源包括:
- 模型权重:在 Hugging Face 上提供,提供 Reflection 70B 的预训练版本。
- 训练数据:公开发布,允许对用于微调模型的数据集进行独立测试。
- 训练脚本和评估代码:在 GitHub 上提供,这些脚本允许复制模型的训练和评估过程。
这些资源旨在阐明模型的开发方式,并为社区提供验证原始性能声明的途径。
在事后报告中,Chaudhary 解释说,复现初始基准测试结果的主要问题是评估代码中的一个错误。这个错误导致某些任务(如 MATH 和 GSM8K)的得分被夸大,因为系统在处理来自外部 API 的响应时存在错误。经过修正的基准测试结果显示,与初始报告相比,性能略有下降,但仍然很强。
Reflection 70B 的更新基准测试结果如下:
- MMLU:90.94%
- GPQA:55.6%
- HumanEval:89.02%
- MATH:70.8%
- GSM8K:95.22%
- IFEVAL:87.63%
与最初公布的性能相比:
- MMLU:89.9%
- GPQA:55.3%
- HumanEval:91%
- MATH:79.7%
- GSM8K:99.2%
- IFEVAL:90.13%
虽然修正后的得分不如最初报告的那么高,但 Chaudhary 坚称,它们更准确地反映了模型的能力。
他还解决了有关数据集污染的担忧,确认测试表明训练数据和基准测试集之间没有明显的重叠。
Chaudhary 承认,发布 Reflection 70B 的决定过于仓促,是受到对该模型在推理任务中的性能的热情驱使。
他指出,发布缺乏足够的测试,特别是在模型文件兼容性方面,并且他和 Shumer 没有验证社区是否可以轻松下载和运行该模型。
“我们不应该在没有测试的情况下发布,而且还声称拥有最好的开源模型,”Chaudhary 写道。他还承认需要更高的透明度,特别是关于模型的优势和劣势。虽然 Reflection 70B 在推理任务中表现出色,但在创造力和通用用户交互方面却很挣扎,这一点在发布时没有被传达出来。
其中一个更严重的指控涉及人们怀疑 Reflection 70B API 只是在转发 Anthropic 的 Claude 模型的输出。
用户报告了模型输出中的奇怪行为,包括似乎直接引用 Claude 的响应。
Chaudhary 针对这些担忧进行了解释,他解释说,虽然其中一些行为是可以复现的,但他断言 Reflection 70B 模型中没有使用 Claude API 或任何形式的词语过滤。
他重申,API 在 Glaive AI 的计算基础设施上运行,Matt Shumer 在这段时间内无法访问代码或服务器。
最后,Chaudhary 強調了他对透明度的承诺,并表示希望这份事后报告和模型工件的发布能帮助恢复对该项目的信任。他还确认 Matt Shumer 正在继续独立努力以复现基准测试得分。
尽管遭遇挫折,但 Chaudhary 认为“反射调整”方法(即让模型在将响应输出给用户之前有时间检查其响应的准确性)具有潜力,并鼓励 AI 社区进行进一步的实验。“探索的方法有其价值,我期待其他人继续探索这种技术,”他说。
Shumer 在 X 上发布了帖子,内容如下:“我仍在验证 Reflection 本身,正如 Sahil 在他的事后报告中写的那样,但我对 Sahil 在他报告的基准测试和运行的 API 方面的透明度感到鼓舞。我们仍然相信并正在努力改进这种方法。希望很快完成我的复现工作。”
开源 AI 社区中的怀疑情绪依然存在
尽管 Chaudhary 声称提供透明度并对 Reflection 70B 发生的事情给出了一个无辜的解释,但许多最初对该模型及其公布的性能感到兴奋的 AI 社区成员仍然持怀疑态度,他们感觉自己被错误的声明所蒙蔽,甚至可能在之前被欺骗了。
“仍然感觉有些地方不对劲,”AI 研究员 Alexander Moini 在 X 上写道,并补充道,“将模型权重上传到 HF [Hugging Face] 花了一个月?”
仍然感觉有些地方不对劲。将模型权重上传到 HF 花了一个月?
而且你一直拥有一个包含“真实”权重的私有 API?更不用说它据说存在分词器问题,看起来很像 Anthropic 使用的分词器 +…
— Alex (@AlexanderMoini) 2024 年 10 月 3 日
Hyperbolic Labs 的联合创始人兼首席技术官 Yuchen Jin 也在 X 上对 Chaudhary 的事后报告表示怀疑。Hyperbolic Labs 是一家提供按需云端 GPU 和其他 AI 服务的初创公司,他们最初为托管 Reflection 70B 付出了很多努力,并在发现其差异后批评了 Shumer。他指出,Chaudhary 在 X 上声称他“复现了除两个以外的所有最初报告的得分”,但这与他提供的数据不符,数据显示至少有 4 个基准测试的得分发生了变化。
“我复现了除两个以外的所有最初报告的得分”。
> 我们应该比较第一列和最后一列吗?最后四项基准测试之间存在差距,你能解释一下为什么你说你复现了除两个以外的所有最初报告的得分吗?
— Yuchen Jin (@Yuchenj_UW) 2024 年 10 月 2 日
但也许最令人不寒而栗的评论来自 Reddit 的 r/Local LLaMA 子版块,其中一位用户“FuckSides”指出,Chaudhary 可能利用这一个月的时间微调了一个新模型,以支持他的说法,即该模型随机输出的文本表明它实际上是 Anthropic 的 Claude 3.5,这可以解释用户之前遇到的输出,并导致他们得出结论,Reflection 70B 是一个通过 API 提供的、围绕这个其他专有模型的欺诈性包装。
来自 LocalLLaMA 讨论区的 u/whotookthecandyjar 的评论
与此同时,另一位 Reddit 用户“DangerousBenefit”查看了 Chaudhary 今天发布的训练数据,发现其中包含许多“作为 AI 语言模型”的短语,这表明它可能是主要由 OpenAI 的 ChatGPT 生成的,并且可能没有得到适当的清理。
无论如何,Reflection 70B 的创建者发布的关于该模型的数据越多,开源 AI 社区就拥有更多可以仔细检查和验证其工作的数据。