巨头混战:大模型格局悄然生变
在大型语言模型(LLM)的早期发展中,OpenAI 和 Meta 占据了主导地位。OpenAI 的早期 GPT 模型在性能上遥遥领先,而 Meta 则凭借其开放权重模型在市场上占据了一席之地。开放权重模型的代码公开可供任何人使用、修改和部署。
然而,一些科技巨头,包括 Google,却落在了后面。尽管 Google 在 2017 年发表了关于 Transformer 架构的突破性研究论文,该架构是大型语言模型的基础,但该公司却因 2023 年 Bard 的发布失误而广为人知,而不是其创新的 AI 研究。
然而,Google 推出的强大新 LLM 和 Meta 和 OpenAI 的失误正在改变格局。
Llama 4 跌落神坛
Meta 在 4 月 5 日星期六意外发布了 Llama 4 的消息。
如果说在周末发布一款重要模型的决定让你感到奇怪,那么你并不孤单。这个时间安排让所有人都措手不及,并部分掩盖了该公告在接下来一周的新闻周期中的影响。
Meta 的这款新的开放权重 LLM 确实有其优势。Llama 4 是多模态的,这意味着它可以处理图像、音频和其他模态。它有三种版本:Llama 4 Behemoth、Maverick 和 Scout,它们具有不同的尺寸和优势。Llama 4 Scout 还拥有高达 1000 万个 token 的巨大上下文窗口。token 是 LLM 处理和生成的文本的小单元,上下文窗口是模型一次可以处理的 token 数量。更大的上下文窗口有助于模型在单个会话中“记住”和处理更多文本。大多数模型的上下文窗口为 100 万个 token 或更少。
然而,当批评者注意到 Meta 在 LMArena 上排名策略的狡猾时,人们对它的接受度发生了转变。LMArena 是一个根据用户投票对 LLM 进行排名的网站。Meta 用于排名的特定 Llama 4 模型与作为其通用版本的一部分提供的模型不同。LMArena 在一份声明中表示,Meta 提供了“一个定制的模型,以优化人类偏好”。
Meta 还因其关于 Llama 4 Scout 拥有 1000 万个 token 上下文窗口的吹嘘而受到抨击。虽然这个数字在技术上是准确的,但一项对长上下文性能的基准测试发现,Llama 4 落后于竞争对手。
Meta 也没有发布 Llama 4 的“推理”或“思考”模型,并且保留了较小的变体,尽管 Meta 表示推理模型将很快推出。
“他们偏离了更系统发布的规范,在这种规范中,他们会把所有事情都安排好,”AI 咨询公司 Gradient Flow 的创始人 Ben Lorica 说。“这似乎表明他们想让人们相信他们有了一个新模型,即使他们还没有所有组件,比如推理模型和较小的版本。”
GPT-4.5 黯然退场
OpenAI 近几个月也经历了一些困难。
GPT-4.5 于 2 月 27 日发布为研究预览版,被吹捧为该公司“迄今为止最大、最好的聊天模型”。OpenAI 发现,它确实在基准测试中普遍优于之前的模型 GPT-4o。
然而,该模型的成本却招致了批评。OpenAI 将该模型的 API 访问价格定为每百万输出 token 150 美元。这比 GPT-4o 的价格高出了惊人的 15 倍,GPT-4o 的价格仅为每百万 token 10 美元。API 是 OpenAI 提供给希望在其应用程序和服务中使用 OpenAI 模型的开发人员的一种方法。
“GPT-4.5 可能是 2025 年第一季度发布的最大传统 LLM。我估计它是一个混合专家模型,拥有 5.4 万亿个参数,”AI 顾问和分析师 Alan D. Thompson 说。“这种原始规模很难用我们目前的硬件限制来证明,而且现在为大量用户提供服务也更具挑战性。”
4 月 14 日,OpenAI 宣布将在不到三个月的时间内停止通过 API 访问 GPT-4.5。GPT 4.5 仍然可用,但仅限于 ChatGPT 用户通过 ChatGPT 界面访问。
OpenAI 在发布 GPT-4.1 的同时宣布了这一消息,GPT-4.1 是一款更经济的模型,价格为每百万 token 8 美元。OpenAI 的基准测试表明,GPT-4.1 的整体能力不如 GPT 4.5,尽管它在一些编码基准测试中表现更好。
OpenAI 上周还发布了新的推理模型:o3 和 o4-mini。o3 模型在基准测试中得分特别高。然而,成本再次成为一个问题,因为通过 API 访问 o3 的价格为每百万输出 token 40 美元。
竞争对手举步维艰,Google 乘胜追击
Llama 4 和 ChatGPT-4.5 的平淡反响为竞争对手留下了机会,而他们也抓住了这个机会。
Meta 发布 Llama 4 的不顺利,不太可能让开发人员放弃 DeepSeek-V3、Google 的 Gemma 和阿里巴巴的 Qwen2.5。这些 LLM 于 2024 年底推出,现在是 LMArena 和 HuggingFace 排行榜上最受欢迎的开放权重模型。它们在流行的基准测试中与 Llama 4 相当或优于 Llama 4,通过 API 访问价格低廉,在某些情况下可以下载并在消费级计算机硬件上使用。
但真正引人注目的是 Google 的新一代 LLM,Gemini 2.5 Pro。
Google Gemini 2.5 Pro 于 3 月 25 日发布,是一款“思考模型”,类似于 GPT-o1 和 DeepSeek-R1,它使用自我提示来推理任务。Gemini 2.5 Pro 是多模态的,拥有 100 万个 token 的上下文窗口,并支持深度研究。
Gemini 2.5 迅速在基准测试中取得了胜利,包括在 SimpleBench 中排名第一(尽管它在 4 月 16 日输给了 OpenAI 的 o3),以及在 Artificial Analysis 的综合 AI 智能指数中排名第一。Gemini 2.5 Pro 目前也位居 LMArena 的榜首。截至 4 月 14 日,Google 模型在 LMArena 上占据了前 10 名中的 5 个位置(包括 Gemini 2.5 Pro、三个版本的 Gemini 2.0 和 Gemma 3-27B)。
强大的性能足以吸引人们的注意,但 Google 也是价格领先者。Google Gemini 2.5 目前可以通过 Google 的 Gemini 应用程序和 Google 的 AI Studio 网站免费使用。Google 的 API 定价也很有竞争力;Gemini 2.5 Pro 的价格为每百万输出 token 10 美元,而 Gemini 2.0 Flash 的价格仅为每百万 token 40 美分。
“说实话,当涉及到高容量时,我可能会最终使用 DeepSeek-R1 或 Google Gemini 进行推理。我会使用 OpenAI,但我感觉我必须在价格方面更加谨慎,”Lorica 说。
当然,这并不是说 Meta 和 OpenAI 已经完蛋了。特别是 OpenAI 还有回旋的余地,因为 ChatGPT 的普及,据报道 ChatGPT 现在拥有 10 亿用户。尽管如此,Gemini 的强劲排名和基准测试表现表明,LLM 世界的风向正在发生变化,而目前有利于 Google。