订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
尽管其大型投资合作伙伴 OpenAI 继续发布更强大的推理模型,例如最新的 o3 系列,但微软并没有坐以待毙。相反,它正在追求开发更强大的小型模型,并以自己的品牌名称发布。
正如几位现任和前任微软研究人员和人工智能科学家今天在 X 上宣布的那样,微软正在将 Phi-4 模型作为完全开源项目发布,并在 AI 代码共享社区 Hugging Face 上提供可下载的权重。
“我们对 Phi-4 发布的反应感到非常惊讶,”微软人工智能首席研究工程师 Shital Shah 在 X 上写道。“很多人一直在要求我们发布权重。[一些人]甚至在 HuggingFace 上上传了盗版的 Phi-4 权重……好吧,别再等了。我们今天将在 HuggingFace 上发布官方的 Phi-4 模型!使用 MIT 许可证(sic)!!”
权重是指指定 AI 语言模型(无论大小)如何理解和输出语言和数据的数值。模型的权重由其训练过程确定,通常通过无监督深度学习,在此过程中,它会根据接收到的输入确定应提供哪些输出。模型的权重可以通过人类研究人员和模型创建者在训练过程中添加自己的设置(称为偏差)来进一步调整。除非模型的权重公开,否则通常不认为模型是完全开源的,因为这是使其他人类研究人员能够获取模型并完全自定义它或将其适应其自身目的的关键。
虽然 Phi-4 实际上是微软上个月发布的,但其使用最初仅限于微软的新 Azure AI Foundry 开发平台。
现在,Phi-4 可供任何拥有 Hugging Face 帐户的人在该专有服务之外使用,并附带宽松的 MIT 许可证,允许将其用于商业应用。
此版本为研究人员和开发人员提供了对模型 140 亿个参数的完全访问权限,使他们能够在没有大型 AI 系统通常相关的资源限制的情况下进行实验和部署。
Phi-4 于 2024 年 12 月首次在微软的 Azure AI Foundry 平台上推出,开发人员可以在研究许可协议下访问它。
该模型迅速因在数学推理和多任务语言理解等领域优于许多更大的模型而受到关注,同时所需的计算资源明显更少。
该模型的简化架构及其对推理和逻辑的关注旨在解决对在计算和内存受限环境中保持高效的人工智能高性能日益增长的需求。通过在宽松的 MIT 许可证下发布此开源版本,微软使 Phi-4 更容易被更广泛的研究人员和开发人员(甚至商业开发人员)访问,这标志着人工智能行业在模型设计和部署方式上的潜在转变。
Phi-4 在测试高级推理和特定领域能力的基准测试中表现出色。亮点包括:
• 在 MATH 和 MGSM 等具有挑战性的基准测试中得分超过 80%,优于 Google 的 Gemini Pro 和 GPT-4o-mini 等大型模型。
• 在数学推理任务中表现出色,这是金融、工程和科学研究等领域的关键能力。
• 在 HumanEval 中用于功能代码生成的出色结果,使其成为人工智能辅助编程的强大选择。
此外,Phi-4 的架构和训练过程的设计考虑了精确性和效率。其 140 亿参数密集型、仅解码器 Transformer 模型是在 9.8 万亿个经过精心策划和合成的数据集上训练的,包括:
• 经过严格质量过滤的公开可用文档。
• 专注于数学、编码和常识推理的教科书式合成数据。
• 高质量的学术书籍和问答数据集。
训练数据还包括多语言内容(8%),尽管该模型主要针对英语应用程序进行了优化。
微软的创建者表示,安全性和对齐过程(包括监督微调和直接偏好优化)确保了稳健的性能,同时解决了对公平性和可靠性的担忧。
通过在 Hugging Face 上以其完整的权重和 MIT 许可证提供 Phi-4,微软将其开放给企业在其商业运营中使用。
开发人员现在可以将该模型集成到他们的项目中或对其进行微调以用于特定应用程序,而无需大量的计算资源或微软的许可。
此举也与开源基础人工智能模型以促进创新和透明度的趋势相一致。与通常限于特定平台或 API 的专有模型不同,Phi-4 的开源性质确保了更广泛的可访问性和适应性。
随着 Phi-4 的发布,微软强调了负责任的人工智能开发的重要性。该模型经过广泛的安全评估,包括对抗性测试,以最大程度地降低偏差、有害内容生成和错误信息等风险。
但是,建议开发人员在高风险应用程序中实施额外的安全措施,并在敏感情况下部署模型时将输出与经过验证的上下文信息相结合。
Phi-4 挑战了将人工智能模型扩展到庞大规模的普遍趋势。它证明了更小、设计良好的模型可以在关键领域取得可比或更好的结果。
这种效率不仅降低了成本,还降低了能耗,使中小型组织和计算预算有限的企业更容易获得先进的人工智能功能。
随着开发人员开始使用该模型进行实验,我们很快就会看到它是否可以作为 OpenAI、Anthropic、Google、Meta、DeepSeek 和许多其他公司提供的竞争对手商业和开源模型的可行替代方案。