在 Build Small 黑客松比赛中,开发者用四个不同实验室的小模型(OpenAI、OpenBMB、NVIDIA 和自调优 Qwen 0.5B)构建了一个金融模拟游戏。玩家扮演森林背后的金融家,利用内幕交易、操纵关系并躲避调查。报告揭示了多模型集成的工程教训:服务层是关键,信息隔离需要防火墙,有限记忆让智能体更具“生命感”。

第二场 Build Small 黑客松实战报告:当模拟经济中的每个智能体运行不同实验室的小模型,玩家成为幕后操纵的金融家。
Thousand Token Wood 的第一版是一个天气之神沙盒:五个森林生物在一个微调过的 0.5B 模型上交易货物,玩家通过施加冲击来观察泡沫和崩溃。它是个不错的玩具,但只能看不能玩。
v2 将其重构为一个可操作的游戏。玩家是森林的赞助人,一个影子金融家:有息放贷、传播真伪难辨的小道消息、做空市场、行贿、撮合联盟,同时还要躲避一位调查官的追捕。生物们会记住玩家如何对待它们,并反过来算计。最大的变化在幕后:每个生物现在使用不同实验室的小模型进行思考。以下是这份工程报告。
运行一个智能体委员会的常规方式是用同一个模型搭配不同提示词。v2 运行了四个模型:gpt-oss-20b(OpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA)以及一个自微调的 Qwen 0.5B。目的并非为了新奇。当参与者的确存在差异时,市场才变得有趣。四个实验室的模型在不同数据上训练,采用不同的后训练方式,其差异在小模型中几乎最大。猫头鹰囤积的方式不同于狐狸投机。委员会变成了一场实时的辩论,而非脚本。
将四个不同的模型部署到同一个平台,揭示了真正的教训:摩擦几乎全部出现在服务层,而非模型层。
trust_remote_code;Nemotron 则直接加载。每个模型都有各自的小坑,每项仅需一行配置。使四个异构模型变得可驾驭的关键,与 v1 中使一个模型可驾驭的关键相同:一个宽容的 JSON 解析与修复层,所有模型的输出都流经它。不同的分词器和格式化习惯会产生不同的畸形输出;解析器丢弃无法修复的部分,模拟从不崩溃。构建该层一次后,添加一个模型只是配置项,而非重构。
v2 的戏剧核心是内部消息。玩家可以向某个生物耳语一条消息,这条消息可以是真实的(对下一轮市场狂热趋势的预测,真正的优势),也可以是虚假的(诱饵)。根据真实消息行动并获利会增加玩家的热度;超过阈值后,调查官会展开调查,最终导致罚款、资产冻结或放逐。
要使这成为真正的游戏,消息的真实性必须对生物隐藏。它们只看到谣言文本,绝不能看到标记。这是一个安全属性,而非 UI 细节,小模型智能体让这一点更加突出:模型可能复述的任何内容都来自提示词中的输入。因此隐藏的标记完全放在提示词之外(在玩家的账本上),在构造公共事件记录时被剥离,叙述者只能总结公共事件。一个测试在每个回合扫描每个生物的全部提示词,寻找被禁止的标记。这个测试是整个套件中最重要的。当你向智能体提供秘密信息时,请假设它会泄露,除非有测试证明不会。
生物携带持久的关系:对赞助人和彼此之间的带符号情感值,受事件(你做空我的作物、你偿还贷款、你让我与对手结盟)影响而产生变化。变得敌对的生物会拒绝借贷并给出更差的报价;结盟的生物停止互相压价,表现得像卡特尔。
陷阱在于提示词膨胀。原始历史会无限增长,小模型在其中会迷失。修复方法是永远不把历史放入提示词:模型看到一行分桶总结(“你对 Oona 感到温暖,对赞助人保持警惕”),仅限最强的几种情感,由整型情感值推导而来。备注用于追踪但有边界,且绝不展示。行为偏差部分是涌现的(总结影响模型输出),部分是机械的(极度敌对的生物确定性地拒绝),因此是可观察和可测试的,而非猜测。
一次代表性的委员会运行,启用完整的 v2 机制:
| 机制 | 结果 |
|---|---|
| 委员会中的模型 | 4 个实验室,均低于 32B 上限,运行在 Modal 上 |
| 微调 0.5B 的可靠性 | 0% 自购,100% 有效报价(超越其 3B 教师) |
| 真相防火墙 | 所有扫描的提示词中,消息的秘密标记零泄露 |
| 内幕消息优势 | 基于真实消息的提前布局带来正收益;虚假消息则没有 |
| 热度到调查 | 两次干净的可疑获利跨越调查官的红线 |
| 破产 | 一次追加保证金和贷款违约导致一个生物被放逐,后于一章之后回归 |
一次从种子运行开始,端到端地测试了赞助人、信息战、关系和杠杆。
小模型是可靠的格式生成器,但推理能力不可靠;通过结构、提示词和少量微调来缩小差距,而非扩大规模。异构委员会比同质委员会更有趣,一旦服务层稳定,它只消耗配置成本。向智能体提供秘密信息是一个防火墙问题,防火墙应位于数据流中,由测试证明,而非依靠提示词指令。持久记忆是让智能体感到鲜活的成本最低的方式,前提是提示词只看到有边界的总结。
小模型,大冒险。整个委员会是开源的,运行轨迹也是开源的。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断