前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

小模型构建多模型金融模拟游戏

技术2026年6月5日· 原作者:Hugging Face· 5 分钟阅读0 阅读

在 Build Small 黑客松比赛中,开发者用四个不同实验室的小模型(OpenAI、OpenBMB、NVIDIA 和自调优 Qwen 0.5B)构建了一个金融模拟游戏。玩家扮演森林背后的金融家,利用内幕交易、操纵关系并躲避调查。报告揭示了多模型集成的工程教训:服务层是关键,信息隔离需要防火墙,有限记忆让智能体更具“生命感”。

小模型构建多模型金融模拟游戏

第二场 Build Small 黑客松实战报告:当模拟经济中的每个智能体运行不同实验室的小模型,玩家成为幕后操纵的金融家。

Thousand Token Wood 的第一版是一个天气之神沙盒:五个森林生物在一个微调过的 0.5B 模型上交易货物,玩家通过施加冲击来观察泡沫和崩溃。它是个不错的玩具,但只能看不能玩。

v2 将其重构为一个可操作的游戏。玩家是森林的赞助人,一个影子金融家:有息放贷、传播真伪难辨的小道消息、做空市场、行贿、撮合联盟,同时还要躲避一位调查官的追捕。生物们会记住玩家如何对待它们,并反过来算计。最大的变化在幕后:每个生物现在使用不同实验室的小模型进行思考。以下是这份工程报告。

异构性是产品,而非约束

运行一个智能体委员会的常规方式是用同一个模型搭配不同提示词。v2 运行了四个模型:gpt-oss-20b(OpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA)以及一个自微调的 Qwen 0.5B。目的并非为了新奇。当参与者的确存在差异时,市场才变得有趣。四个实验室的模型在不同数据上训练,采用不同的后训练方式,其差异在小模型中几乎最大。猫头鹰囤积的方式不同于狐狸投机。委员会变成了一场实时的辩论,而非脚本。

将四个不同的模型部署到同一个平台,揭示了真正的教训:摩擦几乎全部出现在服务层,而非模型层。

  • 当前 vLLM(0.22.1)在加载时 JIT 编译内核,需要 CUDA 工具包(nvcc)。轻量基础镜像不包含它,因此四个模型都因“找不到 nvcc”而失败,直到改用 CUDA devel 镜像。这不是 gpt-oss 特有的问题,而是该 vLLM 版本的普遍问题。一个镜像修复就能解除所有阻塞。
  • gpt-oss-20b 以其原生 MXFP4 量化运行,可装进 24GB L4 GPU 且仍有富余,不需要高端 GPU。它还会输出一种频道格式,将答案包裹在分析前言中,因此消费者需要提取最终频道。
  • MiniCPM3 需要 trust_remote_code;Nemotron 则直接加载。每个模型都有各自的小坑,每项仅需一行配置。

使四个异构模型变得可驾驭的关键,与 v1 中使一个模型可驾驭的关键相同:一个宽容的 JSON 解析与修复层,所有模型的输出都流经它。不同的分词器和格式化习惯会产生不同的畸形输出;解析器丢弃无法修复的部分,模拟从不崩溃。构建该层一次后,添加一个模型只是配置项,而非重构。

信息不对称需要防火墙

v2 的戏剧核心是内部消息。玩家可以向某个生物耳语一条消息,这条消息可以是真实的(对下一轮市场狂热趋势的预测,真正的优势),也可以是虚假的(诱饵)。根据真实消息行动并获利会增加玩家的热度;超过阈值后,调查官会展开调查,最终导致罚款、资产冻结或放逐。

要使这成为真正的游戏,消息的真实性必须对生物隐藏。它们只看到谣言文本,绝不能看到标记。这是一个安全属性,而非 UI 细节,小模型智能体让这一点更加突出:模型可能复述的任何内容都来自提示词中的输入。因此隐藏的标记完全放在提示词之外(在玩家的账本上),在构造公共事件记录时被剥离,叙述者只能总结公共事件。一个测试在每个回合扫描每个生物的全部提示词,寻找被禁止的标记。这个测试是整个套件中最重要的。当你向智能体提供秘密信息时,请假设它会泄露,除非有测试证明不会。

有限记忆是廉价的戏剧

生物携带持久的关系:对赞助人和彼此之间的带符号情感值,受事件(你做空我的作物、你偿还贷款、你让我与对手结盟)影响而产生变化。变得敌对的生物会拒绝借贷并给出更差的报价;结盟的生物停止互相压价,表现得像卡特尔。

陷阱在于提示词膨胀。原始历史会无限增长,小模型在其中会迷失。修复方法是永远不把历史放入提示词:模型看到一行分桶总结(“你对 Oona 感到温暖,对赞助人保持警惕”),仅限最强的几种情感,由整型情感值推导而来。备注用于追踪但有边界,且绝不展示。行为偏差部分是涌现的(总结影响模型输出),部分是机械的(极度敌对的生物确定性地拒绝),因此是可观察和可测试的,而非猜测。

实际发生了什么

一次代表性的委员会运行,启用完整的 v2 机制:

机制结果
委员会中的模型4 个实验室,均低于 32B 上限,运行在 Modal 上
微调 0.5B 的可靠性0% 自购,100% 有效报价(超越其 3B 教师)
真相防火墙所有扫描的提示词中,消息的秘密标记零泄露
内幕消息优势基于真实消息的提前布局带来正收益;虚假消息则没有
热度到调查两次干净的可疑获利跨越调查官的红线
破产一次追加保证金和贷款违约导致一个生物被放逐,后于一章之后回归

一次从种子运行开始,端到端地测试了赞助人、信息战、关系和杠杆。

用小模型构建的收获

小模型是可靠的格式生成器,但推理能力不可靠;通过结构、提示词和少量微调来缩小差距,而非扩大规模。异构委员会比同质委员会更有趣,一旦服务层稳定,它只消耗配置成本。向智能体提供秘密信息是一个防火墙问题,防火墙应位于数据流中,由测试证明,而非依靠提示词指令。持久记忆是让智能体感到鲜活的成本最低的方式,前提是提示词只看到有边界的总结。

小模型,大冒险。整个委员会是开源的,运行轨迹也是开源的。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:Hugging Face信息不对称

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

美国陆军:禁用中国设备或拖累军事数据中心
TOP1

美国陆军:禁用中国设备或拖累军事数据中心

TOP2

AI产品经理指标手册:五层、四实践、一清单

3

Neuralink植入装置恢复瘫痪患者语言与艺术能力

4小时前
Neuralink植入装置恢复瘫痪患者语言与艺术能力
4

画面党该醒醒了,用户一直在调音量

4小时前
5

流式传输:让AI响应快到飞起

4小时前
6

SkillOpt:从提示工程到技能训练

4小时前
7

分层架构正在瓦解:自治领域能力崛起

4小时前
分层架构正在瓦解:自治领域能力崛起
8

轨道清洁战:近地轨道上万亿美金的博弈

4小时前
轨道清洁战:近地轨道上万亿美金的博弈
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款