加州大学圣地亚哥分校与清华大学合作，让 AI 更好地识别求助时机

AI 智慧新突破：学会“求助”的智能

在人工智能领域，一个关键的挑战是如何让 AI 系统像人类专家一样，在面对复杂问题时，懂得何时该使用工具，何时该依靠自身知识。近期，来自加州大学圣地亚哥分校和清华大学的科学家团队取得了重大突破，他们开发了一种名为“边学习边适应”的新方法，让 AI 系统在解决问题时，能够灵活地平衡内部知识和外部工具的使用。

这项研究表明，当 AI 系统学会在内部知识和外部工具之间进行权衡时，其准确率可以提高 28%。这对于将 AI 应用于科学研究等领域至关重要，因为在这些领域，AI 系统需要具备强大的问题解决能力。

研究人员在论文中指出，虽然将大型语言模型 (LLM) 与工具相结合可以提高可靠性，但这种方法通常会导致过度依赖工具，从而削弱模型通过基本推理解决简单问题的能力。相比之下，人类专家会先利用领域知识评估问题的复杂程度，然后再选择合适的解决方案。

“边学习边适应”方法采用两步训练过程。第一步，模型直接从使用外部工具生成的解决方案中学习，帮助其内化领域知识。第二步，模型学习将问题分类为“简单”或“困难”，并根据问题类型决定是否使用工具。

这项研究的意义在于其高效性。研究人员使用了一个仅有 80 亿个参数的语言模型（远小于 GPT-4 等行业巨头），在测试数据集中实现了 28.18% 的答案准确率提升和 13.89% 的工具使用精度提升。该模型在专业科学任务中表现尤为出色，在特定领域超越了更大的模型。

这一成功挑战了 AI 开发中的一个基本假设：更大的模型必然会带来更好的结果。相反，这项研究表明，教导 AI 何时使用工具，何时依靠内部知识（就像训练一名初级科学家知道何时信任自己的计算结果，何时咨询专业设备一样），可能比纯粹的计算能力更重要。

这项研究与 2024 年人工智能领域向更高效模型转变的趋势相一致。包括 Hugging Face、英伟达、OpenAI、Meta、Anthropic 和 H2O.ai 在内的主要参与者都在今年发布了更小但功能强大的模型。

Hugging Face 的 SmolLM2，其版本小至 1.35 亿个参数，可以直接在智能手机上运行。H2O.ai 的紧凑型文档分析模型在专业任务中超越了科技巨头的更大系统。即使是 OpenAI 也推出了 GPT-4o Mini，以更低的价格提供类似的功能。

这种“AI 小型化”趋势反映了人们越来越认识到，更大并不总是更好——专业、高效的模型通常可以与更大的模型相媲美甚至超越其性能，同时使用更少的计算资源。

这项研究为企业部署 AI 系统解决了一个长期困扰该行业的根本性挑战。当前的 AI 系统代表着两种极端：要么不断寻求外部工具——导致计算成本增加，简单操作速度变慢——要么危险地试图在内部解决所有问题，导致在需要专业工具的复杂问题上可能出现错误。

这种低效率不仅仅是一个技术问题，也是一个重大的商业问题。实施 AI 解决方案的公司经常发现自己需要支付高昂的云计算资源费用来运行外部工具，即使是他们的 AI 应该在内部处理的基本任务也是如此。另一方面，选择独立 AI 系统的组织在这些系统试图在没有适当验证工具的情况下进行复杂计算时，可能会面临代价高昂的错误。

研究人员的方法提供了一个有希望的折衷方案。通过教导 AI 像人类一样做出关于何时使用工具的决定，组织可以潜在地降低计算成本，同时保持甚至提高准确性。这在科学研究、金融建模或医疗诊断等领域尤其有价值，因为这些领域既需要效率，也需要精度。

此外，这项发展表明，未来 AI 系统可以成为科学工作中更具成本效益和可靠的合作伙伴，能够像经验丰富的专业人士一样，对何时利用外部资源做出细致入微的决定。

除了直接的技术成就之外，这项研究还挑战了主导 AI 开发的“越大越好”的范式。通过证明一个相对较小的模型可以通过更明智地使用工具来超越其更大的同类，该团队指出了 AI 更可持续和更实用的未来。

其影响远远超出了学术研究。随着 AI 越来越多地进入错误会带来真实后果的领域——从医疗诊断到气候建模——知道何时寻求帮助的能力变得至关重要。这项工作表明，未来 AI 系统不仅会强大，而且会谨慎——就像熟练的专业人士一样，了解自己的局限性。

从本质上讲，研究人员教会了 AI 一些人类的基本东西：有时最明智的决定是知道何时寻求帮助。