“`html
GPT-4.5:巨型语言模型的精妙进化
OpenAI最新发布的GPT-4.5,无疑是其旗舰级大型语言模型的又一次飞跃。官方宣称,这是迄今为止最全面、最强大的对话模型。“这确实是向前迈进的一大步,”OpenAI的研究科学家Mia Glaese表示。
自推出o1和o3等所谓的“推理模型”以来,OpenAI一直同时推进两条产品线。GPT-4.5属于非推理系列,正如Glaese的同事、研究科学家Nick Ryder所言,它是“经典GPT系列的最新力作”。
目前,订阅ChatGPT Pro(每月200美元)的用户可以率先体验GPT-4.5。OpenAI表示,下周将向其他用户逐步开放。
OpenAI以往的GPT模型发布都印证了“越大越好”的规律。然而,这种模式是否已触及瓶颈,业内争议不断,甚至OpenAI前首席科学家Ilya Sutskever也曾表达过类似观点。GPT-4.5的发布,无疑是对质疑者的有力回应。
所有大型语言模型都是通过学习海量文本数据中的模式运作的。较小的模型主要学习语法和基本事实,而更大的模型则能捕捉更细微的模式,例如情感线索,比如说话者的语气是否带有敌意。Ryder解释道:“人类对话中所有这些微妙的模式,都是更大模型能够捕捉到的。”
“它能够进行温暖、直觉、自然流畅的对话,”Glaese说道,“我们认为它对用户意图的理解更深刻,尤其是在用户期望较为隐含的情况下,能够给出更细致入微、富有深意的回应。”
精益求精
“我们已经了解了引擎的运作机制,现在关键在于优化性能,”Ryder解释道,“这主要体现在提升计算能力、扩大数据规模、寻找更有效的训练方法,以及不断突破技术瓶颈。”
OpenAI并未透露新模型的具体规模,但声称GPT-4.5相较于GPT-4o的提升幅度,与GPT-3.5到GPT-4o的提升幅度相当。专家估计,GPT-4的参数量可能高达1.8万亿个。
GPT-4.5的训练方法与前代GPT-4o类似,包括人工微调和基于人类反馈的强化学习。
“创造智能系统的关键在于我们多年来一直遵循的模式:找到可扩展的范式,投入越来越多的资源,从而获得更智能的系统,”Ryder说道。
与o1和o3等推理模型(逐步推导答案)不同,大多数大型语言模型,包括GPT-4.5,都直接给出第一个想到的答案。但GPT-4.5的通用性更强。在OpenAI去年开发的SimpleQA(一种涵盖科学技术、电视节目和电子游戏等主题的常识性问答测试)中,GPT-4.5的得分达到62.5%,而GPT-4o为38.6%,o3-mini仅为15%。
更重要的是,OpenAI声称GPT-4.5生成的虚假答案(即“幻觉”)大大减少。在同一测试中,GPT-4.5的虚假答案比例为37.1%,而GPT-4o为59.8%,o3-mini高达80.3%。
然而,SimpleQA只是众多基准测试之一。在其他测试(包括常用的大型语言模型比较基准MMLU)中,GPT-4.5对OpenAI之前的模型的优势并不明显。在标准的科学和数学基准测试中,GPT-4.5的得分甚至低于o3-mini。
魅力升级
GPT-4.5的独特魅力在于其卓越的对话能力。OpenAI聘请的人类测试员表示,在日常查询、专业查询和创意任务(包括创作诗歌)方面,他们更倾向于选择GPT-4.5而非GPT-4o。(Ryder还提到,它在创作老式互联网ASCII艺术方面也很出色。)
例如,如果你告诉它你正经历一段艰难时期,GPT-4.5可能会先表示同情,然后说:“你想谈谈发生的事情,还是只想找点乐子?无论如何,我都在这里。”GPT-4o在解读社交暗示方面表现较差,可能会不请自来地试图解决你的问题,并列出一些让你振作起来的方法。
然而,即使OpenAI多年来一直处于领先地位,它也面临着严峻的挑战。“关注情商和创造力对于写作辅导和头脑风暴等利基应用场景来说是很酷的,”Writer(一家为企业客户开发大型语言模型的初创公司)的联合创始人兼首席技术官Waseem Alshikh表示。
“但GPT-4.5感觉就像给同一辆旧车涂了一层闪亮的新漆,”他说道,“投入更多的计算资源和数据可以让它听起来更流畅,但这并非革命性的改变。”
“考虑到能源成本以及大多数用户在日常使用中不会注意到差异,这种投入产出比并不划算,”他补充道,“我宁愿看到他们转向效率提升或利基问题解决,而不是继续沿用同样的模式进行规模扩张。”
Sam Altman曾表示,GPT-4.5将是OpenAI经典系列的最后一个版本,GPT-5将是一个混合模型,结合通用大型语言模型和推理模型。
“GPT-4.5是OpenAI在暗中筹划更大的计划时,采取的一种权宜之计,”Alshikh说道,“在此之前,这只是一个短暂的停顿。”
当然,OpenAI坚称其规模化策略仍然具有生命力。“我个人对找到突破瓶颈、继续扩展规模的方式非常乐观,”Ryder说道,“我认为在整个人类知识范围内进行模式匹配,是一件极其深刻而令人兴奋的事情。”
“`