前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI 听、看、点,已不再是梦

NEXTECH
Last updated: 2024年10月8日 下午6:11
By NEXTECH
Share
10 Min Read
SHARE

multimodal.jpg?resize=1200,600

这篇文章最初发表在我们的 AI 周报《算法》中。要第一时间在您的收件箱中收到此类文章,请在此处注册。

AI 的新纪元:多模态模型的崛起

与 AI 聊天机器人对话已经是 2022 年的事了。最新的 AI 热门玩具利用了多模态模型,这些模型可以同时处理多种内容,例如图像、音频和文本。

一个典型的例子是 Google 的 NotebookLM。NotebookLM 是 Google 一年前低调推出的一个研究工具。几周前,Google 为 NotebookLM 添加了一个名为 Audio Overview 的 AI 播客工具,允许用户创建关于任何主题的播客。例如,添加您 LinkedIn 个人资料的链接,AI 播客主持人将在九分钟内吹捧您的成就。这项功能已成为意外的爆款。我在这里写了人们使用它的各种奇特而奇妙的方式。

为了让您体验一下,我创建了我们 125 周年纪念杂志的播客。AI 在挑选杂志的一些亮点并向您介绍它们的内容方面做得很好。请在下面收听。

多模态生成内容在很短的时间内也变得明显更好。2022 年 9 月,我报道了 Meta 的第一个文本到视频模型 Make-A-Video。与今天的技术相比,那些视频看起来笨拙而愚蠢。Meta 刚刚宣布了其 OpenAI 的 Sora 的竞争对手,名为 Movie Gen。该工具允许用户使用文本提示创建自定义视频和声音、编辑现有视频以及将图像转换为视频。

You Might Also Like

谷歌官宣:Android设备上Gemini取代Assistant的时间表推迟至2026年
从想法到6.5亿美元:AI产品创业的三大关键要素
付费订阅AI?五个关键因素先考虑
英伟达Nemotron模型家族推动AI代理发展

我们与 AI 系统的交互方式也在发生变化,越来越少依赖文本。OpenAI 的新 Canvas 界面允许用户与 ChatGPT 协作完成项目。与传统的聊天窗口不同,传统的聊天窗口需要用户进行多轮提示和重新生成文本才能获得所需的结果,Canvas 允许用户选择文本或代码片段进行编辑。

甚至搜索也正在进行多模态升级。除了在 AI 概述中插入广告外,Google 还推出了一个新功能,允许用户上传视频并使用语音进行搜索。在 Google I/O 的演示中,该公司展示了如何打开 Google Lens 应用程序,拍摄水族馆中鱼类游泳的视频,并询问有关它们的问题。Google 的 Gemini 模型将搜索网络并以 Google 的 AI 摘要形式提供答案。

这些功能的共同点是更具交互性和可定制的界面,以及将 AI 工具应用于各种来源材料的能力。NotebookLM 是近一段时间以来第一个让我感到惊奇和喜悦的 AI 产品,部分原因是 AI 语音的差异、真实性和出乎意料。但 NotebookLM 的 Audio Overviews 尽管是隐藏在更大产品中的一个辅助功能,却大受欢迎,这仅仅说明了 AI 开发人员实际上并不了解他们在做什么。现在很难相信,ChatGPT 本身对 OpenAI 来说是一个意外的成功。

我们正处于价值数十亿美元的生成式 AI 热潮的第二年。对 AI 的巨额投资促使生成内容的质量迅速提高。但我们还没有看到杀手级应用,这些新的多模态应用是 AI 公司承受着巨大的盈利和交付压力的结果。科技公司正在向人们投掷不同的 AI 工具,看看哪些能流行起来。

Share This Article
Email Copy Link Print
Previous Article a-photo-of-a-smiling-man-in-a-chair-outs 科技创业元老:AI颠覆一切
Next Article SAP开源LLM支持扩展,Joule升级为协作代理
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251228110101819.jpg
中国拟规管AI伴侣:防沉迷新规与全球监管趋势
科技
20251228103248390.jpg
阿里通义千问将主导2026年AI格局?Wired深度解析
科技
20251228100451990.jpg
OpenAI高薪55.5万美元急聘安全主管,AI安全危机何解?
科技
20251228093716882.jpg
谷歌AI眼镜2026回归,布林反思初代失败教训
科技

相关内容

a-smiling-man-has-a-laptop-open-in-front
AI

AI

2025年2月14日
AI

Meta翻译AI,巴别鱼再现

2025年1月16日
20241125190546512.png
AI

AI 代理入门:流程、角色和连接

2024年11月26日
voices-people2.jpg?resize=1200,600
AI

基层行动让AI语音更多元化

2024年11月17日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up