当前,AI浏览器热潮涌动,甚至有产品开始以“OS”命名浏览器,例如“AI Browser = XXX OS !?”。这引发了对操作系统(OS)概念的疑问。
一些营销策略似乎刻意模糊了操作系统和浏览器的边界,按照这个趋势发展,未来甚至可能将其称为二进制(01)…
浏览器越来越“像”系统?
或许您已注意到,浏览器的“覆盖面”已超越了传统范畴。PWA、Service Worker、File System Access、WebGPU、通知/后台同步,乃至多Profile/多分区隔离等技术,使其承载了大量过去属于系统壳层的能力。当这些能力与“AI代理”——即在页面内实现读取、写入、点击、拖拽、表单填写、脚本注入等操作——叠加时,用户体验上仿佛有了一个“微内核”在替用户支配电脑。
然而,感觉像 ≠ 职责像。浏览器并不拥有进程调度权,不控制内存隔离的底层机制,也不负责驱动与内核系统调用。它仅仅获得了更多“可近似系统”的用户态能力。这为营销话术提供了空间:将“运行时 + 编排层”包装成“OS”,听起来更具吸引力,也更便于讲述产品故事。
AI带来的错位感在于:当代理能够“自动操作电脑/网页”时,它的确“像”一个掌管资源与权限的系统层,从而导致“OS”一词被滥用。浏览器本质上是应用运行时(Runtime),而非硬件/内核层的仲裁者。
如果任何事物都可以被称为OS,那么真正的操作系统(如鸿蒙)的定位又将如何?
真正的操作系统(Operating System,OS)位于硬件和应用层之间。一个能被严肃地称为OS的系统,至少应满足以下能力:
- 进程/线程调度(决定程序执行顺序及CPU资源分配);
- 内存管理与隔离(地址空间分配、分页机制、内存溢出OOM策略);
- 设备与驱动栈(管理存储、显示、输入、网络、功耗等硬件资源);
- 文件系统与权限模型(用户ID/组ID、访问控制列表ACL、沙箱机制、能力令牌);
- 系统调用与内核态/用户态边界;
- 多会话/登录与后台守护进程(启动、关机、服务管理)。

因此,macOS、Windows、Linux等才是真正的操作系统。Chrome是一个浏览器,但ChromeOS则是一个真正的操作系统(其基于Linux内核实现,而非仅限于营销概念)。

浏览器(即使是功能强大的“重型”浏览器)通常只覆盖用户态的一小部分:包括渲染、JavaScript运行时、网络栈的抽象层、权限提示和扩展机制。它可能非常“像平台”,但并非操作系统。“像 OS” ≠ “是 OS”。ChromeOS是操作系统,因为它包含内核与系统服务;而“浏览器 + 若干守护服务”仅仅是运行时分发。
代理操作层(AOL)
若要为此层功能赋予一个更工程化的名称,建议将其命名为Agent Operating Layer(AOL,代理操作层)。AOL是运行在操作系统之上的“可编排能力 + 权限/审计 + 状态记忆”层,它是浏览器/客户端自动化时代的“系统空间”。AOL的职责包括:
- 能力编排:将“能做什么”抽象为能力(如openTab、evalJS、screenshot、readFile、writeKV等),实现统一协议、类型化、稳定可调用。
- 权限与审计:提供最小授权原则、支持人机共驾模式、记录动作日志以便回放、对比及导出。
- 状态与记忆:统一管理对话记忆、向量记忆、长期档案,支持迁移、压缩及分层冷热存储。
- 事件与调度:通过定时器、触发器或外部Webhook,确保代理持续可靠运行。
- 模型解耦:将大语言模型(LLM)视为“算子”,实现可路由、可替换、可本地化,不与能力层紧密绑定。
- 双态运行:支持有头模式(可视化、人机协作)与无头模式(自动化)之间的自由切换。
换言之,操作系统仍是操作系统;我们所需的是一层“像系统一样严肃的运行治理”,但其“底盘”依然是macOS/Windows/Linux/ChromeOS。
Chromium & AI 浏览器
AI浏览器大多基于Chromium套壳(例如Dia[1]、ChatGPT Atlas[2]、Comet[3]等),更准确地说,大部分套壳产品都基于Electron进行开发(此类产品众多,不再一一列举,以避免营销嫌疑)。
简而言之,能力强大的产品直接基于Chromium进行二次定制开发,而追求快速交付的产品则主要在Electron上进行。
现实的割裂现象是:尽管普遍吐槽Electron臃肿且运行缓慢,但其“真香”定律(使用体验良好)依然让开发者青睐。值得一提的是,一般应用开发很少会遇到性能瓶颈,因此我们可以相信Chromium团队在性能优化方面已做到极致(V8[4]引擎值得信赖)。即使使用原生技术开发应用(如Swift),在面对大数据处理时,如果缺乏特殊的优化手段,应用也可能出现卡顿甚至崩溃。
通用容器
从模型中心到能力中心,未来趋势或许是:
- 能力优先:行业将从“追求更强大模型”转向“定义更稳定、可治理的能力集”,将智能限定在“可审计动作”范围内。
- 标准互通:增强围绕工具/动作协议(如MCP、agents协议、llm.txt等)的互操作性,使容器逐渐“可插拔”。
- 边缘与私有化:本地向量库、本地模型、端侧推理与端云协同,将成为企业/高敏感场景的默认需求。
预计未来将出现适用于任意大模型的API容器化平台。如果当前市场缺失,Noi 将致力于此方向。
通用容器是一个与模型无关的容器化平台(如浏览器),它能够提供system、browser相关API操作能力(比单纯的浏览器插件更进一步,也更符合Agent操作需求)。这必将成为主流需求,因为目前发布的AI浏览器数量庞大,用户根本无法全部安装(它们都在试图接管用户入口,导致割裂和混乱)。
若要定义API的数据结构,它可能如下所示:
// 统一的意图(Intent),一切动作的“凭证”type Intent<T = any> = { id: string; // 可回放/关联 actor: "agent" | "human"; capability: string; // "tabs.create" | "dom.eval" | "fs.write" | "kv.put" ... args: T; scope?: string[]; // 能力域,如 ["activeWindow", "workspace:/docs"] policy?: { requireApproval?: boolean; ttl?: number }; createdAt: string;};// 容器操作 API(节选)interface OperatingAPI { // 浏览器/页面 "tabs.create": (p: { url: string; partition?: string }) => Promise<{ tabId: string }>; "dom.eval": (p: { tabId: string; script: string }) => Promise<{ result: unknown }>; "tabs.capture": (p: { tabId: string; script?: string }) => Promise<{ pngBase64: string }>; // 文件/存储(沙盒化路径) "fs.read": (p: { path: string }) => Promise<{ data: string }>; "fs.write": (p: { path: string; data: string }) => Promise<void>; "kv.put": (p: { ns: string; key: string; value: unknown }) => Promise<void>; "kv.get": (p: { ns: string; key: string }) =>Promise<{ value: unknown | null }>; // 调度/事件 "task.schedule": (p: { cron: string; job: Intent }) => Promise<{ taskId: string }>; // 权限与审计 "auth.request": (p: { capability: string; reason: string }) => Promise<{ granted: boolean }>; "audit.export": () => Promise<{ ndjson: string }>;}
结语
AI Browser = Runtime (运行时) + Orchestration (编排)这一等式似乎更合理。“AI Browser = OS”的说法虽然吸引眼球,但在工程上并不成立。操作系统依然是位于内核层的,而AI的“系统性价值”应体现在操作层:即能力编排、权限与审计、状态与记忆、事件与调度,以及对模型的彻底解耦。
当这一层被认真打磨成熟,“AI浏览器”自然会演变为一个可信赖的代理平台。届时,其名称是否包含“OS”已不再重要。重要的是:它能否让人与智能在同一条可治理的轨道上,运行得更稳定、更长远。
References
- Dia:https://www.diabrowser.com
- ChatGPT Atlas:https://chatgpt.com/atlas
- Comet:https://comet.perplexity.ai
- v8:https://v8.dev
