受Claude Outcomes启发,一种基于结果的门控重试机制被用来测试30个客服决策。最终错误行动从6次降至1次,为AI代理的安全性提供了新思路。
AI代理(Agent)在自动执行任务时,偶尔会做出离谱的决策。比如智能客服把退货申请处理成退款,或者内容审核误判用户发言。这些小错误累积起来,足以让产品团队头疼。
最近,有一种叫"评分门控"(Rubric Gate)的方法被提出,灵感来自Claude Outcomes。核心思路很简单:给每个行动设一个评分标准,只有当AI的"最终回答"通过这个标准时,才允许执行。如果没通过,就重试——直到生成一个符合要求的答案,或者达到重试上限。
开发者在一家电商的客服场景里试了这个机制。30个需要处理的用户提问,每个问题先用AI生成答案,然后让另一个评分模型(或同一模型的评分模式)按预设标准打分。标准包括:是否完整回答、是否避免赔偿、语气是否友好。
如果得分低于阈值,系统会要求AI重新生成,最多重试3次。结果很有意思:
这个"错误下降80%"的效果,让团队决定把评分门控嵌入到核心工作流里。
传统方法是在AI生成答案前给一堆指令(prompt),比如"别退款"、"别骂人"。但AI经常在长对话中忘记约束。评分门控把检查放到了结果层面——只看最终行动对不对,不关心中间过程。
用淘宝客服场景举例:用户问"能不能打折",AI可能直接回复"亲,不行"。但如果评分标准要求"给出拒绝理由+替代方案",AI就会重写成"亲,没有折扣活动,但您可以使用积分抵扣"。
这种"事后约束"比"事前提醒"更可靠,因为AI生成时可能忽略指令,但评分模型可以精准抓错。
当然,每轮决策都要调用两次模型(生成+评分),延迟和成本都会翻倍。如果重试3次,成本可能变成4倍。不过对于高风险决策(如金融、医疗),这点成本可以接受。
评分标准本身也需要精心设计,否则AI会钻空子——比如用模糊回答来绕过扣分项。另外,评分模型和生成模型越接近,效果越好(比如都用Claude),否则可能出现误判。
一句话总结:与其指望AI一次生成就完美,不如给它一个"回头检查"的机会。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断