摘要
全球生成式人工智能(AI)市场仍处于起步阶段。根据最新预测,该市场将在五年内增长五倍,从2024年的146亿美元增长到2029年的728亿美元。顶尖的应用领域包括消费类、企业服务、零售业、媒体娱乐业以及医疗保健业。
作为生成式AI的下一个前沿领域,多模态生成式AI技术凭借其日益增强的多样化功能,正在推动各行业的应用案例,例如客户服务、企业知识管理、3D数字分身以及制造业等。
目前,专注于多模态生成服务的生成式AI基础模型厂商的能力主要面向通用用途,缺乏针对特定用例的定制化选项,无法重新训练以满足特定需求,尤其是在高度监管的行业或业务关键的应用场景中。尽管这些模型在用户中很受欢迎,但对于希望构建企业级多模态生成式AI应用的企业来说,这些模型的限制性很高。
相反,企业始终需要寻求基于最适合企业数据和业务目标的模型来开发多模态生成式AI应用。这些模型需要具备高度的定制化能力、准确性、安全性,并符合市场的数据安全法规。由于并非所有开发者和企业都精通多模态生成式AI,因此他们需要一个开发平台,该平台能够提供多样化的多模态生成式AI模型选择,同时易于部署、优化和维护,以及满足高标准的AI治理和安全要求。
百度智能云在多模态生成式AI上已经在支持广泛的开发者和企业,从生成式AI模型厂商,如生数科技,到系统集成商如软通动力和大型企业如蔚来汽车,协助他们推动多模态生成式AI的应用。与此同时,百度智能云其强大的开发者社区与用户积极互动,也有助于其持续优化其产品与服务。
Omdia 观点
生成式AI已在各行各业得到广泛应用。在开源和专有大型语言模型(LLM)的推动下,生成式AI已应用于所有行业的120个应用场景中。虽然基于LLM的应用程序越来越受欢迎,但其本身仍存在固有的局限性。LLM主要针对文本和语音数据的理解、处理和生成进行了优化,无法进行多模态学习,也无法生成除文本和语音之外的其他输出。
为了解决上述问题,越来越多的厂商和开发者开始采用多模态生成式AI技术。该技术能够处理多种输入形式,包括文本、图像和音频,并将这些提示转换为几乎任意类型的输出。这将进一步提升用户体验,因为模型可以实现多模态的理解和生成。
一方面,凭借其理解能力,用户可以通过文本、语音、图像和视频与应用程序自然交互。通过多模态数据理解上下文,多模态生成式AI应用能够以更全面的方式作出响应,帮助企业从其他数据类型中获取情景感知的见解。
另一方面,多模态生成式AI技术的多模态生成能力允许用户生成从文本到语音、图像、视频、音频、音乐、点云数据、遥测数据、3D模型和数字孪生等各种类型的输出。通过充分的预训练和微调,这些模型可以生成高保真且物理准确的输出,非常适合企业应用场景。
希望部署多模态生成式AI应用的企业可以与两类厂商合作。
• 第一类:专注于多模态生成服务的生成式AI基础模型厂商。这类厂商以提供多模态生成服务为主,例如,OpenAI推出了Sora,这是一项文本到视频的生成服务,能够生成超逼真的视频,主要面向消费、媒体和娱乐行业。
• 第二类:提供多模态的生成式AI模型和应用的生成式AI开发平台厂商。这些厂商通常是拥有深厚生成式AI基础设施、工程和服务专业知识的超大规模企业。例如,百度智能云支持文心大模型、多模态模型系列和多模态生成式AI应用,如百度智能云曦灵(数字人),能帮助企业快速构建多模态生成式AI应用。
与这两类厂商合作各有利弊:
第一类厂商提供的模型对于不熟悉该技术的开发者和企业提供了一个甚佳的起点。由于多模态生成能力是通过服务方式提供的,用户可以轻松访问并使用该能力。这种使用便利性也为个人开发者降低开发门槛。然而,这类模型的多模态生成能力主要面向通用的应用场景,缺乏针对特定用例的定制化选项,无法重新训练以满足特定需求,尤其是在高度监管的行业或业务关键的应用场景中。尽管这些模型在用户中很受欢迎,但对于希望构建企业级多模态生成式AI应用的企业来说,这些模型的限制性很高。
相反,企业始终需要寻求基于最适合企业数据和业务目标的模型来开发多模态生成式AI应用。这些模型需要具备高度的定制化能力、准确性、安全性,并符合市场的数据安全法规。由于并非所有开发者和企业都精通多模态生成式AI,因此他们需要一个开发平台,该平台能够提供多样化的多模态生成式AI模型选择,同时易于部署、优化和维护,以及满足高标准的AI治理和安全要求。
为了创建真正符合业务目标的多模态生成式AI应用,提供全面多模态生成式AI解决方案的全栈厂商更适合企业。鉴于该领域缺乏专业知识和资源,企业难以期望仅提供基础模型的厂商(第一类厂商)提供完全可定制的模型以及相关服务。全栈生成式AI解决方案厂商的核心业务并非仅销售生成式AI模型及服务,而是致力于推动企业落地。他们不会将自己局限于单一模型,而是会帮助客户挑选最合适的生成式AI模型。企业和开发者可以使用其云产品和服务开发、部署和优化这些模型,从而实现业务目标。
为何要将百度智能云千帆大模型平台纳入您的关注焦点?
随着越来越多的企业和开发者意识到多模态生成式AI的潜力,一款从模型开发到智能体的端到端解决方案,同时具备无缝开发和集成能力的多模态生成式AI开发平台,将对技术的普及至关重要。
百度智能云已经注意到了上述市场需求,并正在迅速行动以抓住机遇。该云服务提供商已经推出了一系列多模态生成式AI产品和服务,即文心系列基础模型以及千帆生成式AI开发平台。多模态生成式AI对百度智能云而言已是驾轻就熟,因为该云服务提供商早在2023年初就推出了其大语言模型文心一言,并通过百度智能云千帆大模型平台为客户和开发者提供了全面的应用开发工具、丰富的大模型、完善的模型开发工具链以及易用的应用模板,用于多模态生成式AI应用开发,使百度智能云成为企业在构建多模态生成式AI应用时,无论处于哪个阶段,都能信赖的理想合作伙伴。
虽然百度智能云将继续在中国引领多模态生成式AI应用的部署和实施。不过,其需要进一步巩固其行业领导地位,必须向市场传达其多模态专业知识,创造更多超越日常用例的多模态生成式AI应用模板,并加大对多模态多智能体开发框架和解决方案的投入。