提示工程越来越像玄学?SkillOpt提出一个更系统的路径:用强化学习训练LLM的内在技能,而非依赖人工写提示。本文拆解其框架、实验结果和开源实现。
过去两年,AI圈最火的概念之一是“提示工程”(Prompt Engineering)。大家绞尽脑汁写模板、加few-shot例子、调温度参数,只为让大模型输出一句正确答案。但这种玩法越来越像玄学——换个模型,同样的提示可能完全失效。
SkillOpt 想解决这个问题。它的核心思路很简单:不要指望人类把技能“写”进提示里,而是让模型自己学会技能。
SkillOpt 把传统提示工程拆成两层:
这和爱奇艺的推荐系统有些类似:以前靠人工写规则(提示),现在让算法自己学习用户偏好(技能)。
论文在多个NLP基准上做了测试,比如:
关键发现:技能训练让模型学到了“能力”,而不是“套路”。当遇到训练时没见过的任务变体,SkillOpt 模型依然能分解问题、调用相关技能,而纯提示工程容易崩。
SkillOpt 的代码已经开源(GitHub 链接见文末)。它基于 Hugging Face Transformers 和 TRL 库,核心改动在强化学习流程中加入了技能选择步骤。
简单跑一下:
如果你用过百度飞桨的 PaddleNLP,会发现这套流程很像“任务适配”组件,但 SkillOpt 更强调技能的持续学习和复用。
提示工程本质上是“人类教机器说话”,而技能训练是“机器自己学会干活”。后者更接近人学习新技能的方式——先理解任务,再组合已知能力。
对于 AI 产品经理来说,这意味两件事:
就像当年 iOS 把“越狱”需求变成系统级功能,SkillOpt 也可能把“提示工程”变成AI的底层能力。
原论文地址:SkillOpt: A Framework for Skill Training of Large Language Models(请自行搜索,原文安全验证页面未提供链接)
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断