前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI 听、看、点,已不再是梦

NEXTECH
Last updated: 2024年10月8日 下午6:11
By NEXTECH
Share
10 Min Read
SHARE

multimodal.jpg?resize=1200,600

这篇文章最初发表在我们的 AI 周报《算法》中。要第一时间在您的收件箱中收到此类文章,请在此处注册。

AI 的新纪元:多模态模型的崛起

与 AI 聊天机器人对话已经是 2022 年的事了。最新的 AI 热门玩具利用了多模态模型,这些模型可以同时处理多种内容,例如图像、音频和文本。

一个典型的例子是 Google 的 NotebookLM。NotebookLM 是 Google 一年前低调推出的一个研究工具。几周前,Google 为 NotebookLM 添加了一个名为 Audio Overview 的 AI 播客工具,允许用户创建关于任何主题的播客。例如,添加您 LinkedIn 个人资料的链接,AI 播客主持人将在九分钟内吹捧您的成就。这项功能已成为意外的爆款。我在这里写了人们使用它的各种奇特而奇妙的方式。

为了让您体验一下,我创建了我们 125 周年纪念杂志的播客。AI 在挑选杂志的一些亮点并向您介绍它们的内容方面做得很好。请在下面收听。

多模态生成内容在很短的时间内也变得明显更好。2022 年 9 月,我报道了 Meta 的第一个文本到视频模型 Make-A-Video。与今天的技术相比,那些视频看起来笨拙而愚蠢。Meta 刚刚宣布了其 OpenAI 的 Sora 的竞争对手,名为 Movie Gen。该工具允许用户使用文本提示创建自定义视频和声音、编辑现有视频以及将图像转换为视频。

You Might Also Like

Narvar如何用AI和数据提升售后体验
人工智能错误与人类错误的区别
Slack AI 赋能,重塑效率新纪元
ChatGPT 完成 80% 工作,实习生还错了吗?

我们与 AI 系统的交互方式也在发生变化,越来越少依赖文本。OpenAI 的新 Canvas 界面允许用户与 ChatGPT 协作完成项目。与传统的聊天窗口不同,传统的聊天窗口需要用户进行多轮提示和重新生成文本才能获得所需的结果,Canvas 允许用户选择文本或代码片段进行编辑。

甚至搜索也正在进行多模态升级。除了在 AI 概述中插入广告外,Google 还推出了一个新功能,允许用户上传视频并使用语音进行搜索。在 Google I/O 的演示中,该公司展示了如何打开 Google Lens 应用程序,拍摄水族馆中鱼类游泳的视频,并询问有关它们的问题。Google 的 Gemini 模型将搜索网络并以 Google 的 AI 摘要形式提供答案。

这些功能的共同点是更具交互性和可定制的界面,以及将 AI 工具应用于各种来源材料的能力。NotebookLM 是近一段时间以来第一个让我感到惊奇和喜悦的 AI 产品,部分原因是 AI 语音的差异、真实性和出乎意料。但 NotebookLM 的 Audio Overviews 尽管是隐藏在更大产品中的一个辅助功能,却大受欢迎,这仅仅说明了 AI 开发人员实际上并不了解他们在做什么。现在很难相信,ChatGPT 本身对 OpenAI 来说是一个意外的成功。

我们正处于价值数十亿美元的生成式 AI 热潮的第二年。对 AI 的巨额投资促使生成内容的质量迅速提高。但我们还没有看到杀手级应用,这些新的多模态应用是 AI 公司承受着巨大的盈利和交付压力的结果。科技公司正在向人们投掷不同的 AI 工具,看看哪些能流行起来。

Share This Article
Email Copy Link Print
Previous Article a-photo-of-a-smiling-man-in-a-chair-outs 科技创业元老:AI颠覆一切
Next Article SAP开源LLM支持扩展,Joule升级为协作代理
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250508174846548.png
Omdia:2024财年,LTE和5G专网跟踪报告
报告
图片描述
彭博:2025年Q1扎克伯格净资产2120亿美元跃居全球第二
报告
图片描述
新汽车:2025年4月特斯拉英国销量536辆,同比暴跌62%
报告
DeepSeek R2 模型震撼来袭,超越 R1 颠覆世界
初创

相关内容

20250324225416837.png
AI

谷歌神经网络架构分离内存控制成本爆炸

2025年3月25日
AI

模拟

2024年11月20日
AI

企业优先:加速人工智能应用趋势研究

2024年11月22日
亚马逊云端运算部門AWS宣布,將免費提供研究人員其定製的人工智慧(AI)晶片運算資源。
AI

AWS免费算力争夺AI芯片霸主

2024年11月25日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?