“`html
OpenAI GPT-4.1家族:更高效、更经济的企业级AI
OpenAI今日发布了全新一代AI模型家族——GPT-4.1系列,在显著提升编码能力的同时大幅降低成本,直接回应了日益激烈的企业AI市场竞争。
此次发布的三款模型——GPT-4.1、GPT-4.1 mini和GPT-4.1 nano——均已通过API正式上线。它们在软件工程任务上的表现更为出色,指令遵循更精准,上下文处理能力更是提升至百万token,相当于约75万字。
OpenAI首席产品官Kevin Weil在发布会上表示:“GPT-4.1在提供卓越性能的同时,成本更低。几乎在所有方面都超越了GPT-4o。”
对企业客户而言,最令人瞩目的是价格优势:GPT-4.1的成本比前代降低了26%,而轻量级的nano版本则以每百万token仅12美分的超低价格,成为OpenAI旗下最经济实惠的模型。
OpenAI后期训练研究负责人Michelle Pokrass在接受VentureBeat采访时坦言,实际业务应用需求驱动了GPT-4.1的研发。“GPT-4.1的目标只有一个:为开发者提供实用工具,”Pokrass说道,“我们发现,GPT-4.1在遵循企业实际应用中的指令方面表现远超预期,这使得部署可投入生产的应用变得更加容易。”
基准测试结果也印证了其在实际应用中的出色表现。在衡量软件工程能力的SWE-bench Verified测试中,GPT-4.1的得分高达54.6%,比GPT-4o高出21.4个百分点。
对于开发能够独立处理复杂任务的AI智能体的企业来说,指令遵循能力的提升尤为宝贵。在Scale的MultiChallenge基准测试中,GPT-4.1的得分达到38.3%,比GPT-4o高出10.5个百分点。
此次推出不同价位的三款模型,旨在满足日益多元化的AI市场需求。旗舰版GPT-4.1瞄准复杂的企业级应用,而mini和nano版本则针对对速度和成本效率要求更高的应用场景。
Pokrass指出:“并非所有任务都需要最高端的智能和能力。Nano将成为自动补全、分类、数据提取等对速度要求极高的应用场景的‘主力军’。”
与此同时,OpenAI宣布将于7月14日停止其API中GPT-4.5预览版的服务——这款OpenAI在两个月前发布的、最大且最昂贵的模型。OpenAI将GPT-4.1定位为更具成本效益的替代方案,它在许多关键功能上“提供了相同或更好的性能,同时成本和延迟更低”。
此举不仅能帮助OpenAI回收计算资源,也为开发者提供了比其最昂贵产品(每百万输入token 75美元,每百万输出token 150美元)更高效的替代方案。
多家参与过测试的企业客户均报告了其在各自领域取得的显著改进。汤森路透公司在其法律AI助手CoCounsel中使用GPT-4.1后,多文档审查准确率提升了17%。对于涉及冗长文档且条款之间关系复杂的复杂法律流程而言,这一改进尤为重要。
金融公司凯雷投资则报告称,其从密集型文档中提取细粒度财务数据的性能提升了50%——这对于投资分析和决策至关重要。
编码工具提供商Windsurf(前身为Codeium)的首席执行官Varun Mohan在发布会上分享了详细的性能指标。“我们发现,与其他领先模型相比,GPT-4.1减少了读取不必要文件的次数40%,修改不必要文件的次数也减少了70%。而且,该模型的冗余度也出奇地低……GPT-4.1的冗余度比其他领先模型低50%。”
百万token上下文:8倍处理能力带来的商机
三款模型均拥有百万token的上下文窗口——是GPT-4o的128,000 token限制的八倍。这一扩展的容量使得模型能够一次性处理多个冗长的文档或整个代码库。
在演示中,OpenAI展示了GPT-4.1如何分析1995年NASA服务器的45万token日志文件,并识别出隐藏在数据深处的异常条目。对于处理大型数据集的任务(例如代码库或公司文档集合),此功能尤为宝贵。
然而,OpenAI也承认,在输入量极大的情况下,性能会下降。在其内部的OpenAI-MRCR测试中,准确率从8000个token时的约84%下降到百万token时的50%。
此次发布正值企业AI领域竞争日益白热化之际。谷歌最近推出了具有类似百万token上下文窗口的Gemini 2.5 Pro,而Anthropic的Claude 3.7 Sonnet也受到了寻求OpenAI替代方案的企业的青睐。中国AI初创公司深势科技也最近升级了其模型,进一步加大了对OpenAI领导地位的挑战。
Pokrass表示:“看到长上下文理解能力的提升如何转化为在法律分析和财务数据提取等特定领域的更好性能,这令人兴奋。我们发现,有必要对我们的模型进行超出学术基准的测试,并确保它们在企业和开发者中表现良好。”
OpenAI选择通过其API而非ChatGPT发布这些模型,凸显了其对开发者和企业客户的承诺。该公司计划逐步将GPT-4.1的功能整合到ChatGPT中,但其主要目标仍然是为构建专业应用的企业提供强大的工具。
为了鼓励对长上下文处理的进一步研究,OpenAI还发布了两个评估数据集:用于测试多轮共指能力的OpenAI-MRCR和用于评估跨长文档复杂推理的Graphwalks。
对于企业决策者而言,GPT-4.1系列提供了一种更实用、更经济高效的AI实施方法。随着企业不断将AI整合到其运营中,这些在可靠性、特异性和效率方面的改进,可能会加速各行各业对AI的采用,从而平衡实施成本与潜在收益。
当竞争对手追逐更大、更昂贵的模型时,OpenAI凭借GPT-4.1的战略转向表明,AI的未来可能并不属于最大的模型,而是属于最有效的模型。真正的突破可能不在于基准测试,而在于让更多企业都能触及企业级AI。
“`
