前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

OpenAI 公开 Atlas 架构:为AI Agent重新发明浏览器

NEXTECH
Last updated: 2025年11月1日 上午10:46
By NEXTECH
Share
16 Min Read
SHARE

OpenAI 公开 Atlas 架构:为 Agent 重新发明浏览器

今天,OpenAI 公开 Atlas 的核心技术实现,这是一个专门为 Agent 开发的浏览器,让 AI 能够看到完整的界面渲染,而不是需要像人一样,挨个的点击所有元素,才能获得所有信息。

Contents
OpenAI 公开 Atlas 架构:为 Agent 重新发明浏览器OWL 怎么做的Agent mode 的特殊处理工程效率的改变总结

这也是 OpenAI 首次在工程领域,进行的官方发布。

Atlas 看起来就是个 Chromium 套壳,毕竟…还能看到 Chrome 应用商店,能装 Chrome 插件。

Atlas浏览器界面,显示Chrome应用商店
Edge、Brave、Arc 也都是这样,看起来都是 Chromium 套壳。

但底层架构完全不同。

Atlas 把 Chromium 整个搬出去了

You Might Also Like

构建AI原生应用:从大模型到知识中台,数据与规则逻辑,探究模型、知识、价值原生及与AI赋能的差异
OpenAI ChatGPT Pulse:告别被动,AI主动服务新范式
OpenAI与艾夫联手打造AI硬件,苹果人才流失加速竞争
Meta研究:失败步骤比例(FSF)是AI思维链质量关键,颠覆“越长越好”的LLM推理直觉

传统浏览器里,Chromium 挂了,整个浏览器挂。

Chromium 卡了,浏览器界面跟着卡。

有用户反馈,在 Sora 这种复杂网页,别的 AI 浏览器会卡住,Atlas 是正常的。

Atlas 主应用是独立的 Swift 应用,Chromium 作为独立进程在后台运行,两者通过 IPC 通信。

这套架构叫OWL(OpenAI’s Web Layer)。

OWL系统架构图
按 OpenAI 的说法,这种方式实现了:

  • 启动快:Chromium 在后台慢慢加载,Atlas 界面瞬间显示;
  • 不崩溃:Chromium 挂了,Atlas 不受影响;
  • 开发快:大部分工程师不用编译 Chromium,构建从小时级降到分钟级;
  • Agent 能看清屏幕:强行把所有弹窗合成回主页面。

在项目开发上,也能做到足够的解耦,新员工第一天下午就能提交代码。

OWL 怎么做的

Atlas 和 Chromium 之间通过 Mojo 通信,这是 Chromium 自己的 IPC 系统。

OpenAI 写了自定义的 Swift 绑定,让 Swift 应用能直接调用 Chromium 的接口。

这里有几个核心概念:

Session:全局控制 Chromium;

Profile:管理用户配置;

WebView:控制单个网页的渲染、输入、导航;

LayerHost/Client:在 Atlas 和 Chromium 之间交换渲染信息。

Atlas与Chromium之间Mojo IPC高层设计图
网页内容怎么显示?

Chromium 渲染好的 layer 通过CALayerHost传给 Atlas。

Atlas 用NSView把这个 layer 嵌进界面。

输入事件怎么处理?

输入事件处理流程图
Atlas 收到用户输入(鼠标、键盘),翻译成 Chromium 能理解的WebInputEvent格式,发给 Chromium。

如果网页没处理这个事件,Chromium 会把事件退回来,Atlas 重新合成NSEvent,给应用的其他部分处理。

Agent mode 的特殊处理

这里的思路很巧妙。

computer use model 需要一张完整的屏幕截图。

问题来了,浏览器里有些元素是独立渲染的。

<select>下拉菜单、颜色选择器、日期选择器,这些在 Chromium 里是单独的弹窗。

AI 只看主页面,看不到这些弹出元素。

OpenAI 的做法:强行把所有弹窗合成回主页面。

这些弹窗虽然是独立窗口,但有自己的RenderWidgetHostView和AcceleratedWidget。

OWL 用跟主页面一样的 delegated rendering 模型,把这些弹窗的 layer 抓出来,按正确的坐标位置合成回主页面。

AI 拿到的就是一张完整的截图。

下拉菜单元素的委托渲染示意图
还有个细节:

Agent 生成的输入事件,直接发给 renderer,不走 browser 层。

这样能保持沙箱边界,Agent 不能通过快捷键触发浏览器的特权操作。

相关的任务,也进行了隔离。

Agent browsing 可以跑在 ephemeral context 里,不共享用户的 Incognito profile。

每个 agent session 用独立的StoragePartition,完全隔离。

session 结束,所有 cookies 和站点数据全部丢弃。

可以同时开多个 agent session,每个都在独立的 tab 里,互相隔离。

工程效率的改变

Chromium 代码库太大,checkout 要很久,编译要几个小时。

OWL 把 Chromium 编译成预构建的 binary,内部分发。

大部分做 Atlas 的工程师,只编译 Swift 代码,几分钟完事。

OpenAI 有个工程文化:新员工第一天下午就能提交代码。

对 Chromium 这种项目,这几乎做不到。

但 OWL 做到了。

而且因为 UI 层完全重写,对上游 Chromium 的改动很少,升级版本也容易。

总结

传统浏览器是为人设计的,Agent 浏览器要解决的问题不一样。

人需要各种交互,进行辅助认知,可以点击菜单然后弹出阅读。

AI 则不同,需要在一张图里看到所有元素,需要快速响应。

新的浏览器架构,很有必要。

TAGGED:AgentAI前沿技术AtlasOpenAI浏览器
Share This Article
Email Copy Link Print
Previous Article 20251101103054787.jpg 解锁浏览器AI潜能:Comet智能助手,提升效率新体验
Next Article 20251101110709537.jpg 幽灵鲨下线:Anduril澳洲工厂揭幕,引领水下自主战新时代
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

Image 2
AI 前沿技术

智能体关键技术深度解析:从产品实践到核心概念

2025年11月6日
SKILL.md文件结构示意图:YAML前置元数据与Markdown正文指令
AI 前沿技术

Claude Skills:知识工程赋能AI Agent,实现通用模型向专业‘行家里手’的范式转变

2025年10月18日
AI

沃伦参议员质询特朗普政府:AI巨头是否将获纳税人资金救助?

2025年11月19日
OpenAI与ChatGPT应用集成概念图
AI

OpenAI重磅推出应用整合:开发者可直接在ChatGPT内部构建功能,赋能智能助手新时代

2025年10月7日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up