GPT-5.1 “马甲”泄露!现在免费就能用,年底 AI 一大波更新要来了
Gemini 3 尚无消息,而 GPT 5.1 似乎已在路上。7 号深夜,OpenRouter 平台悄然上线了一个隐名模型。部分网友迅速尝鲜体验后推测,这正是披着马甲的 GPT 5.1,暂时命名为 Polaris Alpha。
该模型目前支持 API 调用(包括通过 OpenRouter 平台),其知识库截止日期为 2024 年 10 月,且不支持推理模式。它拥有 256K 的最大上下文容量和 128K 的单次最大输出。尽管开发商信息保密,但在网友的深入探索下,Polaris Alpha 成功「越狱」,并透露了其出身。
图片来自 X 用户 @LarryAtherton1 此信息并非确凿证据,可能源于模型训练数据中的专有供应商内容。除非在系统提示或指令调优中明确设定,模型通常无法真正「知晓」自身身份。鉴于目前尚未有官方宣布,该模型暂称 Polaris。APPSO 团队亦第一时间进行了简要试用。由于是通过 API,部分功能比如处理语音素材暂时受限,除此之外,Polaris 的表现,让人相当期待 GPT 5.1。
案头工作:流畅,一如既往
首先是一些比较基础的简单任务:根据要求写邮件。这是一封道歉邮件,跟嘉宾通报活动改期。测试时,文章特意强调了邮件口吻需兼具歉意与亲近感,以考察 Polaris 的情感理解能力。
其表现算是中规中矩,信息齐全,行文逻辑清楚,语气没有强烈的「人机感」。比较神奇的是,在打开 Search 模式的前提下,Polaris 会去检索一些道歉信的写法,而其引用信息里,居然有淘宝百科。看上去 Polaris 覆盖的信息源越来越多,也越来越冷门了。
对于创意文案写作任务,给出的提示词(prompt)较为模糊,仅要求文案具备网络流行感,并适合在小红书平台传播。
Polaris 给出了三种不同风格的完整文案,并附带了活动具体执行方案。从这里可以看出,其措辞风格与 GPT 系列模型高度相似,有网友甚至进行了专门的相似性统计,这使得其「马甲」身份越发难以掩饰。
文字风格仍然是每一个大语言模型的立身之本,毕竟现在最主流的应用场景就是案头工作。2026 年都快要来了,还给出「人机味」的文字,是不能被原谅的。目前 Polaris 的文风,有相当典型的「GPT」风味,很多网友都有同样的感受。
此外,在聊天机器人、对话互动和智能陪伴等应用场景中,Polaris 的文风能否快速适应用户节奏,并灵活「习得」个性化口吻,将是 GPT 5.1 面临的挑战。OpenAI 显然不希望再次经历全球用户呼唤 4o 归来的情景。
由于无法直接处理音频文件,测试者上传了转录后的播客文字稿,要求 Polaris 整理并提炼信息点,适当调整口语化内容,并根据不同主题维度生成一个层次明确的提纲,同时保留时间戳。目前来看,单条输入可超过 1 万字。受限于 OpenRouter 每个窗口仅能保存八条记忆的限制,超长输入可能在一定程度上影响输出稳定性。然而,其自我纠正能力表现良好,首次运行时虽生成了不存在的时间戳,但在重新尝试后便自行纠正。
自从 GPT 5 之后,ChatGPT 的单个窗口容量明显增大。从社交媒体上的反馈来看,最高的 token 总数可以达到 60 万-80 万。这对于个性化用户信息而言是个非常好的信号,但不可避免的是,超长上下文后,可能会出现记忆调度的失序以及输出稳定性的下降。这留给了 GPT 5.1 全新的挑战,即如何在进一步扩大窗口容量之后,依然保持灵活准确的记忆调度。对于用户而言,几乎是第一秒就能感受到的决定性体验。
编程:超简单,超顺滑
OpenRouter 提供几种基础的编程工作实现和预览。文章快速测试了 Polaris 编写小游戏的能力。
最直观的感受是生成时间略长,大约需要五分钟。不过它无需提供复杂的提示词,仅凭「设计一个贪吃蛇游戏代码」便足以生成一个可上手的小游戏。甚至还提供不同的模式、设置,在预览中的试玩也很顺畅。随后,文章又让其生成了一个打地鼠游戏,同样顺利完成。
在网页设计方面,Polaris 的表现也令人满意。测试者将之前生成的咖啡馆文案提供给 Polaris,要求其设计一个活动的落地页。
Polaris 研究了整个文案,并加入了一些补充,最终呈现的视觉效果也不错。其为按钮设计的发光效果颇受喜爱,这似乎是 Polaris 的一个「独家特色」,在其他网友的测试中也曾出现:
图片来自 X 用户 从网上其他测试来看,其美学表现值得期待。这些基础工作都没有太大的问题,但老实说,现在 AI 编程的赛道堪称白热化,而 GPT 系产品在编程上的竞争力一直不算很强。GPT 5.1 实装后,在编程上的表现能否有大突破,仍需继续等待。
近期,Sam Altman 曾明确表示,ChatGPT 将于年底推行 NSFW 模式(成人模式)。在目前的 Polaris 上,这一趋势似乎已显现。
如果这一推测属实,则 Polaris 是 GPT 5.1 的证据又增添了一条,尤其考虑到 OpenAI 最近已在小范围内进行年龄验证,此举并非全面推行,而是针对不确定实际年龄的用户进行定向推送。
成人模式的争议很大,实际执行也并不如想象中简单,除了验证,还有隐私信息识别、储存等一系列麻烦。到底能否有一个平衡多方诉求的解决方案,还得看真正的 GPT 5.1 如何应对。
展望年底,AI 领域预计将迎来一场激烈的竞争。Gemini 3 虽早有传闻(但持续跳票),Nano Banana 2 亦突然崭露头角。此前 Kimi K2 Thinking 的发布,以其仅 460 万美元的训练成本,赢得了海内外广泛关注。OpenAI 尽管拥有庞大的活跃用户群,但仍面临高昂的运营支出,盈利前景尚未明朗。在一系列强大且成本更低的中国模型的冲击下,GPT 5.1 能否不负众望?答案或许将在网传的 11 月中旬发布时揭晓。
