大模型能力越强,评估越难。人工评测昂贵且不可扩展,LLM自动评测成为新范式。本文梳理Prometheus、JudgeLM、PandaLM、AutoJ等微调LLM评判者的方法、优势与局限,探讨如何让模型自己当考官。

(图片来自 [1, 2, 3, 9, 23])
本文最初发布于 作者Substack。
大语言模型(LLM)的能力越强,评估起来就越难。现在的基座模型覆盖范围极广,输出通常是开放式的——同一输入可以有很多合理的答案。正因如此,用程序自动评测LLM成了一个复杂且活跃的研究课题。光是评估LLM的某一项能力就已经不容易了,而LLM有成百上千种能力和行为需要评估。
“评价LLM输出质量越来越难,因为这些输出涵盖极其多样的文本分布和复杂任务。为了应对这个问题,基于LLM的评测成为一种可扩展且低成本的新范式。”——来自 [2]
最可靠的评测方式是人来打分,但人工评估噪声大、成本高、耗时长。虽然一定量的人工评测必不可少,但完全依赖它不可扩展。我们必须能高效测试新LLM的能力。
Prometheus 最早提出用经过微调的LLM作为评判者。核心思路是:让一个较小的LLM(如 7B/13B)通过对比学习学会打分,分数与人类判断对齐。它使用大量人类标注的对比数据,训练模型从“好/差”二元判断扩展到更细粒度的评分(1-5分)。
JudgeLM 更进一步,训练一个通用评判器,能跨不同任务和模型进行评测。它采用自我一致性校准,让评判器对同一答案多次评分取平均,减少随机波动。同时,JudgeLM 引入“批评”机制,不仅给分,还要生成详细评语。
PandaLM 主打多维度评测。它要求评判器从准确性、相关性、流畅性、完整性等多个维度分别打分,最后综合。这种设计让评估更透明,也更容易定位模型弱点。
AutoJ 则关注评判器的“可迁移性”。它通过在多种指令数据集上微调,让评判器学会适应不同风格的指令和输出。AutoJ 甚至能检测幻觉和事实错误,向安全评测迈进了一步。
优势:
局限:
未来方向包括:
用LLM评测LLM,就像考试时让一个学霸当考官。虽然不完全客观,但至少比人工阅卷快百倍。这条路还在进化,未来很可能成为行业标准。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断