本周 AI 重磅新闻:OpenAI 推出 Operator,腾讯发布 Hunyuan3D 2.0
本周,人工智能领域可谓是热闹非凡,从 OpenAI 推出的全新任务执行代理 Operator 到腾讯在 3D 设计领域的突破性进展,AI 领域的创新步伐从未放缓。
OpenAI、谷歌和腾讯等行业巨头纷纷发布了旨在塑造 AI 未来发展方向的工具和计划。从能够代表你浏览网页的个人助理到突破性的 3D 建模工具,这些更新体现了 AI 在简化和增强日常任务以及复杂工作流程方面的巨大潜力。
随着数十亿美元的投资和尖端技术的涌现,我们正处于 AI 变革的浪潮之中。以下列举了本周不容错过的 10 大 AI 新闻:
1. OpenAI 推出 Operator
OpenAI 推出了 Operator,这是一个能够直接在网络上执行任务的 AI 代理。目前,Operator 作为“研究预览版”提供给美国 ChatGPT Pro 用户使用,旨在执行网站上的操作,例如输入、点击和滚动,以完成购买杂货或管理费用报告等任务。
从预订航班到预订餐厅,Operator 旨在减轻你的工作负担。Operator 还与 Instacart 和 Uber 等服务合作,为简化日常需求提供便捷选择。除了推出 ChatGPT Operator,OpenAI 还宣布免费版 ChatGPT 用户将很快可以使用 o3-mini 模型,扩展平台的功能。
Operator 的研究预览版,一个能够使用自己的浏览器为你执行任务的代理。
— OpenAI (@OpenAI) 2025 年 1 月 23 日
2. Stargate 项目计划巨额 AI 投资
被称为美国历史上最大的 AI 项目,Stargate 项目是一项大胆的计划,将在未来四年内向先进的 AI 基础设施注入 5000 亿美元(约合人民币 35000 亿元)。该计划得到 OpenAI、甲骨文、软银和 MGX 等行业巨头的支持,包括在全国范围内建设数据中心和相关设施。该项目预计将创造数千个就业机会,同时显著提升美国的 AI 能力。
Stargate 项目由美国总统唐纳德·特朗普于 2025 年 1 月 21 日公布,代表着美国在人工智能发展方面建立领导地位的合作努力。软银首席执行官孙正义被任命为公司董事长。该计划的目标是在 2029 年之前完成 5000 亿美元的投资,这将改变该地区 AI 基础设施的格局。
3. Anthropic 为 Claude 添加引文功能
本周,OpenAI 并非唯一一家登上头条的企业。周四,Anthropic 宣布为其 Claude AI 添加名为引文的新功能,就在一天前,该公司获得了谷歌的 10 亿美元投资。
此更新使模型能够将答案建立在源材料的基础上,引用特定文档和段落以提高可靠性。这是朝着使 AI 输出更加透明和基于事实迈出的重要一步。
“推出引文功能。我们的新 API 功能使 Claude 能够将答案建立在你提供的来源的基础上。Claude 然后可以引用为每个响应提供信息的特定句子和段落。”Anthropic 在 X 上的一篇帖子中说道。
推出引文功能。我们的新 API 功能使 Claude 能够将答案建立在你提供的来源的基础上。
Claude 然后可以引用为每个响应提供信息的特定句子和段落。
— Anthropic (@AnthropicAI) 2025 年 1 月 23 日
4. Freepik 与谷歌 Imagen 3 合作
Freepik 已将其工具包中添加了谷歌的Imagen 3,此举加强了其在 AI 生成设计方面的产品。Imagen 3 已成为文本到图像功能的领导者,提供创意人员会发现有用的高度详细的视觉效果。
Imagen 3 还迅速在文本到图像领域占据了第一的位置,以 70 分的优势领先于 Recraft-v3 等竞争对手。此项添加加强了 Freepik 作为创意专业人士寻求尖端 AI 驱动的设计工具的首选平台的地位。
令人难以置信的细节和惊人的灯光
使用 Imagen 3 的谷歌驱动的创作,现已在 Freepik 的 AI 套件中提供
前 24 小时内免费生成 2 次。快来吧!
![]()
— Freepik (@freepik) 2025 年 1 月 23 日
5. DeepSeek 发布经济实惠的模型
DeepSeek 是一款免费的开源 AI 模型,自 12 月份推出以来一直备受关注,它通过以更低的价格提供可比的性能,继续挑战 OpenAI 和 Meta 等行业领导者。
这家中国 AI 初创公司最近推出了DeepSeek-R1,这是一个推理模型,被定位为 OpenAI 的 o1 模型的强有力替代方案。这种开源选项因其价格实惠以及在关键基准测试中的性能而受到开发人员的欢迎。
DeepSeek 采用 MIT 许可,允许用户自由地提取和商业化其功能,使其成为寻求强大 AI 解决方案的预算紧张的开发人员的极具吸引力的选择。
DeepSeek-R1 来了!
性能与 OpenAI-o1 相当
全面开源模型和技术报告
MIT 许可:自由提取和商业化!
网站和 API 现已上线!立即在 https://t.co/v1TFy7LHNy 尝试 DeepThink!
1/n
— DeepSeek (@deepseek_ai) 2025 年 1 月 20 日
6. Perplexity Assistant 登陆安卓
为了不落后于 OpenAI 和 Anthropic,Perplexity AI 本周正式推出了其针对安卓的Assistant,这款多功能工具旨在简化日常生活。
该应用程序无缝地集成了推理、搜索和应用程序功能,使其能够处理各种任务。无论是回答快速问题还是管理更复杂的多应用程序操作,Perplexity Assistant 都能应对挑战。
需要预订晚餐吗?识别一首萦绕在你脑海中的歌曲?叫车、起草电子邮件或设置提醒?Perplexity Assistant 让这一切变得轻而易举。
该应用程序现已在 Play 商店上架。
推出 Perplexity Assistant。
Assistant 使用推理、搜索和应用程序来帮助完成从简单问题到多应用程序操作的日常任务。你可以预订晚餐、查找遗忘的歌曲、叫车、起草电子邮件、设置提醒等等。
在 Play 商店上架。
— Perplexity (@perplexity_ai) 2025 年 1 月 23 日
7. 谷歌 DeepMind 的 Gemini 2.0 掀起波澜
谷歌 DeepMind 发布了Gemini 2.0,这是一个旨在解决数学、科学等领域高级挑战的模型。此最新更新已跃居 LM Arena 排行榜榜首,现在可以通过谷歌的 AI 平台进行测试。
谷歌 DeepMind 联合创始人兼首席执行官 Demis Hassabis 在 X 上的一篇帖子中分享了 Gemini 2.0 Flash Thinking 取得的令人印象深刻的基准测试结果。“我们对 Gemini 2.0 Flash Thinking 模型的最新更新(可在以下位置获取:https://goo.gle/4jsCqZC)在 AIME(数学)上的得分率为 73.3%,在 GPQA Diamond(科学)上的得分率为 74.2%。”Hassabis 说。“此最新更新代表了 DeepMind 自去年 12 月首次发布以来取得的超快进展!”
Gemini 2.0 带来了多项新功能,包括代码执行、100 万个令牌的内容窗口以及改进的一致性以减少思维与答案之间的矛盾。Hassabis 还强调了 DeepMind 在开创 AI 规划系统方面的历史,可以追溯到 AlphaGo 等创新,以及这些进步如何与最强大的基础模型相结合。
我们对 Gemini 2.0 Flash Thinking 模型的最新更新(可在以下位置获取:https://t.co/Rr9DvqbUdO)在 AIME(数学)上的得分率为 73.3%,在 GPQA Diamond(科学)上的得分率为 74.2%。感谢大家的反馈,这代表了我们自去年 12 月首次发布以来取得的超快进展…
— Demis Hassabis (@demishassabis) 2025 年 1 月 21 日
8. 腾讯发布 Hunyuan3D 2.0
腾讯发布了Hunyuan3D 2.0,这是一个将简单输入转换为详细 3D 资产的工具。其功能包括生成逼真的纹理,甚至动画角色。这项技术可以大幅减少 3D 设计工作流程所需的时间和精力。
“我非常荣幸地宣布,我们的 3D 开源项目已进入 2.0 版本,呈现出与商业产品相媲美的革命性效果。”腾讯在 X 上的一篇帖子中分享道。
我非常荣幸地宣布,我们的 3D 开源项目已进入 2.0 版本,呈现出与商业产品相媲美的革命性效果。 https://t.co/YM3GVb9BQM https://t.co/IexQULxv2U
— Hunyuan (@TXhunyuan) 2025 年 1 月 21 日
9. 字节跳动扩展 AI 产品
字节跳动,抖音的母公司,本周在 AI 领域掀起了波澜,推出了Doubao 1.5 Pro 和UI-TARS。
Doubao 1.5 Pro 是一款升级后的 AI 模型,旨在增强推理和性能,直接与 GPT-4o 等行业领导者竞争。主要功能包括:
- 增强性能:在 AIME 基准测试中优于 OpenAI 的 o1 模型,展示了其处理复杂指令的能力。
- 资源高效训练:利用成本效益更高的服务器集群,使用低端芯片来降低基础设施支出。
- 推理重点:专注于高级推理任务,使其适用于各种应用。
除了 Doubao 1.5 Pro,字节跳动还发布了UI-TARS,这是一个能够执行复杂计算机交互的新代理。这些创新突出了字节跳动在快速发展的 AI 行业中保持竞争力的决心,将该公司定位为 OpenAI 等公司的一位严肃竞争者。
9. 字节跳动发布了 Doubao 1.5 Pro,这是一款与 GPT-4o 和 Claude 3.5 Sonnet 等顶级竞争对手竞争的多模态 AI 模型。
字节跳动还发布了 UI-TARS,这是一个能够推理和执行计算机交互的 GUI AI 代理。
— Alvaro Cintas (@dr_cintas) 2025 年 1 月 23 日
10. AI 在日常工具中的作用越来越大
总的来说,本周的进展强调了 AI 如何融入我们日常使用的工具。从简化 3D 建模到使个人助理更智能,这些更新展示了 AI 正在不断进军实用和创意领域。
结论
从 OpenAI 的 Operator 到腾讯的 3D 突破,本周的公告反映了 AI 创新的快速步伐。随着格局不断发展,敬请关注更多消息。