小模型构建多模型金融模拟游戏

技术2026年6月5日· 原作者：Hugging Face· 5 分钟阅读10 阅读

在 Build Small 黑客松比赛中，开发者用四个不同实验室的小模型（OpenAI、OpenBMB、NVIDIA 和自调优 Qwen 0.5B）构建了一个金融模拟游戏。玩家扮演森林背后的金融家，利用内幕交易、操纵关系并躲避调查。报告揭示了多模型集成的工程教训：服务层是关键，信息隔离需要防火墙，有限记忆让智能体更具“生命感”。

小模型构建多模型金融模拟游戏

第二场 Build Small 黑客松实战报告：当模拟经济中的每个智能体运行不同实验室的小模型，玩家成为幕后操纵的金融家。

Thousand Token Wood 的第一版是一个天气之神沙盒：五个森林生物在一个微调过的 0.5B 模型上交易货物，玩家通过施加冲击来观察泡沫和崩溃。它是个不错的玩具，但只能看不能玩。

v2 将其重构为一个可操作的游戏。玩家是森林的赞助人，一个影子金融家：有息放贷、传播真伪难辨的小道消息、做空市场、行贿、撮合联盟，同时还要躲避一位调查官的追捕。生物们会记住玩家如何对待它们，并反过来算计。最大的变化在幕后：每个生物现在使用不同实验室的小模型进行思考。以下是这份工程报告。

异构性是产品，而非约束

运行一个智能体委员会的常规方式是用同一个模型搭配不同提示词。v2 运行了四个模型：gpt-oss-20b（OpenAI）、MiniCPM3-4B（OpenBMB）、Nemotron-Mini-4B（NVIDIA）以及一个自微调的 Qwen 0.5B。目的并非为了新奇。当参与者的确存在差异时，市场才变得有趣。四个实验室的模型在不同数据上训练，采用不同的后训练方式，其差异在小模型中几乎最大。猫头鹰囤积的方式不同于狐狸投机。委员会变成了一场实时的辩论，而非脚本。

将四个不同的模型部署到同一个平台，揭示了真正的教训：摩擦几乎全部出现在服务层，而非模型层。

当前 vLLM（0.22.1）在加载时 JIT 编译内核，需要 CUDA 工具包（nvcc）。轻量基础镜像不包含它，因此四个模型都因“找不到 nvcc”而失败，直到改用 CUDA devel 镜像。这不是 gpt-oss 特有的问题，而是该 vLLM 版本的普遍问题。一个镜像修复就能解除所有阻塞。
gpt-oss-20b 以其原生 MXFP4 量化运行，可装进 24GB L4 GPU 且仍有富余，不需要高端 GPU。它还会输出一种频道格式，将答案包裹在分析前言中，因此消费者需要提取最终频道。
MiniCPM3 需要 trust_remote_code；Nemotron 则直接加载。每个模型都有各自的小坑，每项仅需一行配置。

使四个异构模型变得可驾驭的关键，与 v1 中使一个模型可驾驭的关键相同：一个宽容的 JSON 解析与修复层，所有模型的输出都流经它。不同的分词器和格式化习惯会产生不同的畸形输出；解析器丢弃无法修复的部分，模拟从不崩溃。构建该层一次后，添加一个模型只是配置项，而非重构。

信息不对称需要防火墙

v2 的戏剧核心是内部消息。玩家可以向某个生物耳语一条消息，这条消息可以是真实的（对下一轮市场狂热趋势的预测，真正的优势），也可以是虚假的（诱饵）。根据真实消息行动并获利会增加玩家的热度；超过阈值后，调查官会展开调查，最终导致罚款、资产冻结或放逐。

要使这成为真正的游戏，消息的真实性必须对生物隐藏。它们只看到谣言文本，绝不能看到标记。这是一个安全属性，而非 UI 细节，小模型智能体让这一点更加突出：模型可能复述的任何内容都来自提示词中的输入。因此隐藏的标记完全放在提示词之外（在玩家的账本上），在构造公共事件记录时被剥离，叙述者只能总结公共事件。一个测试在每个回合扫描每个生物的全部提示词，寻找被禁止的标记。这个测试是整个套件中最重要的。当你向智能体提供秘密信息时，请假设它会泄露，除非有测试证明不会。

有限记忆是廉价的戏剧

生物携带持久的关系：对赞助人和彼此之间的带符号情感值，受事件（你做空我的作物、你偿还贷款、你让我与对手结盟）影响而产生变化。变得敌对的生物会拒绝借贷并给出更差的报价；结盟的生物停止互相压价，表现得像卡特尔。

陷阱在于提示词膨胀。原始历史会无限增长，小模型在其中会迷失。修复方法是永远不把历史放入提示词：模型看到一行分桶总结（“你对 Oona 感到温暖，对赞助人保持警惕”），仅限最强的几种情感，由整型情感值推导而来。备注用于追踪但有边界，且绝不展示。行为偏差部分是涌现的（总结影响模型输出），部分是机械的（极度敌对的生物确定性地拒绝），因此是可观察和可测试的，而非猜测。

实际发生了什么

一次代表性的委员会运行，启用完整的 v2 机制：

机制	结果
委员会中的模型	4 个实验室，均低于 32B 上限，运行在 Modal 上
微调 0.5B 的可靠性	0% 自购，100% 有效报价（超越其 3B 教师）
真相防火墙	所有扫描的提示词中，消息的秘密标记零泄露
内幕消息优势	基于真实消息的提前布局带来正收益；虚假消息则没有
热度到调查	两次干净的可疑获利跨越调查官的红线
破产	一次追加保证金和贷款违约导致一个生物被放逐，后于一章之后回归

一次从种子运行开始，端到端地测试了赞助人、信息战、关系和杠杆。

用小模型构建的收获

小模型是可靠的格式生成器，但推理能力不可靠；通过结构、提示词和少量微调来缩小差距，而非扩大规模。异构委员会比同质委员会更有趣，一旦服务层稳定，它只消耗配置成本。向智能体提供秘密信息是一个防火墙问题，防火墙应位于数据流中，由测试证明，而非依靠提示词指令。持久记忆是让智能体感到鲜活的成本最低的方式，前提是提示词只看到有边界的总结。

小模型，大冒险。整个委员会是开源的，运行轨迹也是开源的。

原文链接：Hugging Face
本文由前途科技编辑整理

小模型构建多模型金融模拟游戏