前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI 听、看、点,已不再是梦

NEXTECH
Last updated: 2024年10月8日 下午6:11
By NEXTECH
Share
10 Min Read
SHARE

multimodal.jpg?resize=1200,600

这篇文章最初发表在我们的 AI 周报《算法》中。要第一时间在您的收件箱中收到此类文章,请在此处注册。

AI 的新纪元:多模态模型的崛起

与 AI 聊天机器人对话已经是 2022 年的事了。最新的 AI 热门玩具利用了多模态模型,这些模型可以同时处理多种内容,例如图像、音频和文本。

一个典型的例子是 Google 的 NotebookLM。NotebookLM 是 Google 一年前低调推出的一个研究工具。几周前,Google 为 NotebookLM 添加了一个名为 Audio Overview 的 AI 播客工具,允许用户创建关于任何主题的播客。例如,添加您 LinkedIn 个人资料的链接,AI 播客主持人将在九分钟内吹捧您的成就。这项功能已成为意外的爆款。我在这里写了人们使用它的各种奇特而奇妙的方式。

为了让您体验一下,我创建了我们 125 周年纪念杂志的播客。AI 在挑选杂志的一些亮点并向您介绍它们的内容方面做得很好。请在下面收听。

多模态生成内容在很短的时间内也变得明显更好。2022 年 9 月,我报道了 Meta 的第一个文本到视频模型 Make-A-Video。与今天的技术相比,那些视频看起来笨拙而愚蠢。Meta 刚刚宣布了其 OpenAI 的 Sora 的竞争对手,名为 Movie Gen。该工具允许用户使用文本提示创建自定义视频和声音、编辑现有视频以及将图像转换为视频。

You Might Also Like

最
SambaNova和Hugging Face一键集成,轻松部署AI聊天机器人
宏碁发布搭载RTX 5090显卡的掠夺者 Helios AI 电竞笔记本
AI 工作负载推动更大内存驱动器

我们与 AI 系统的交互方式也在发生变化,越来越少依赖文本。OpenAI 的新 Canvas 界面允许用户与 ChatGPT 协作完成项目。与传统的聊天窗口不同,传统的聊天窗口需要用户进行多轮提示和重新生成文本才能获得所需的结果,Canvas 允许用户选择文本或代码片段进行编辑。

甚至搜索也正在进行多模态升级。除了在 AI 概述中插入广告外,Google 还推出了一个新功能,允许用户上传视频并使用语音进行搜索。在 Google I/O 的演示中,该公司展示了如何打开 Google Lens 应用程序,拍摄水族馆中鱼类游泳的视频,并询问有关它们的问题。Google 的 Gemini 模型将搜索网络并以 Google 的 AI 摘要形式提供答案。

这些功能的共同点是更具交互性和可定制的界面,以及将 AI 工具应用于各种来源材料的能力。NotebookLM 是近一段时间以来第一个让我感到惊奇和喜悦的 AI 产品,部分原因是 AI 语音的差异、真实性和出乎意料。但 NotebookLM 的 Audio Overviews 尽管是隐藏在更大产品中的一个辅助功能,却大受欢迎,这仅仅说明了 AI 开发人员实际上并不了解他们在做什么。现在很难相信,ChatGPT 本身对 OpenAI 来说是一个意外的成功。

我们正处于价值数十亿美元的生成式 AI 热潮的第二年。对 AI 的巨额投资促使生成内容的质量迅速提高。但我们还没有看到杀手级应用,这些新的多模态应用是 AI 公司承受着巨大的盈利和交付压力的结果。科技公司正在向人们投掷不同的 AI 工具,看看哪些能流行起来。

Share This Article
Email Copy Link Print
Previous Article a-photo-of-a-smiling-man-in-a-chair-outs 科技创业元老:AI颠覆一切
Next Article SAP开源LLM支持扩展,Joule升级为协作代理
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
戴眼镜的黑西装男士
OpenAI斥资65亿美元收购Ive新创公司
初创
20250604232150455.jpg
机器人技术50大创新特辑
机器人
2025-02-21-boss-is-watching-newsletter.p
AI监控员工:隐忧与应对
AI
图片描述
卫报:TikTok心理健康视频52%含错误信息
报告

相关内容

稍早外媒消息指出OpenAI正积极与三星展开接洽,并望将旗下的AI技术導入其手機中。
AI

OpenAI 瞄准三星,AI 帝国扩张之路

2024年12月16日
20250126225219328.png
AI

OpenAI o3 推进 ARC-AGI 引发 AI 推理辩论

2025年1月27日
AI

Perplexity AI:我的AI搜索神器

2024年7月30日
AI

IBM发布开源Granite 3.0大型语言模型,助力企业AI

2024年11月14日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?