AI 时代企业平台的构建之道:以用户为中心,拥抱多租户架构
在人工智能 (AI) 蓬勃发展的时代,企业平台的构建与演进变得至关重要。它们不仅要支持 AI 应用的开发和部署,更要能随着技术发展不断迭代升级。过去,许多企业采用联邦式平台架构,为不同业务部门提供定制化的功能和服务。然而,随着生成式 AI 等新技术的涌现,企业平台面临着新的挑战,需要更灵活、更强大的架构来应对。
Capital One 作为一家金融科技巨头,深谙企业平台构建的精髓。他们认为,企业平台应该遵循一套最佳实践和标准,才能有效地实现 AI 的大规模应用。以下四个核心原则,是 Capital One 在实践中总结出的经验之谈:
1. 以用户为中心:洞察需求,构建信任
任何企业平台的最终目标都是赋能用户。因此,构建平台的第一步,就是要深入了解用户的需求。这包括他们如何使用平台,他们试图解决什么问题,以及他们在使用过程中遇到了哪些障碍。
Capital One 将用户体验视为重中之重,即使是平台的间接用户,他们也同样关注。例如,他们针对数据和访问管理方面的问题,推出了多项举措,即使这些问题并非平台本身的直接责任。通过持续关注用户体验,Capital One 赢得了用户的信任和参与,并在此基础上不断创新,探索新的可能性。
2. 多租户架构:共享资源,灵活扩展
多租户架构是企业平台的关键要素,它允许多个业务部门和分布式团队共享平台的核心功能,例如计算资源、存储、推理服务、工作流编排等。这种架构能够有效解决数据访问问题,实现抽象化,支持多种计算模式,并简化核心服务的资源配置和管理,例如 AI/ML 工作负载所需的 GPU 和 CPU 集群。
Capital One 利用 Kubernetes 构建了一个强大的多租户平台控制平面,并将其部署在 AWS 上,为数千名 AI/ML 用户提供服务。他们不断探索和采用最佳的开源和商业软件组件,并根据自身需求开发专有功能。这种灵活的架构,让用户能够轻松访问最新的技术,并拥有更高的自助服务能力,无需依赖工程团队的支持。
3. 自动化与可观测性:提高效率,降低风险
在构建新的平台时,建立完善的日志收集和模型洞察机制至关重要。企业可以通过自动化流程,实现模型和功能的端到端生命周期管理,包括血缘追踪、企业控制合规性、可观测性、监控和异常检测等。这些自动化流程能够显著缩短模型开发和部署时间,将原本需要数周甚至数月的流程缩短至几天。
Capital One 更进一步,建立了一个可复用组件和软件开发工具包 (SDK) 的市场,这些组件和 SDK 内置了可观测性和治理标准。这使得员工能够轻松找到可复用的库、工作流和用户贡献的代码,并放心地开发 AI 模型和应用程序,因为他们知道这些组件和代码在平台上得到了良好的管理。
4. 跨职能团队:协作创新,持续迭代
构建一流的 AI 平台需要一支世界级的跨职能团队。一个有效的 AI 平台团队必须是多学科和多元化的,包括数据科学家、工程师、设计师、产品经理、网络安全和模型风险专家等。每个团队成员都拥有独特的技能和经验,他们在构建和迭代 AI 平台的过程中发挥着关键作用,确保平台能够满足所有用户的需求,并随着时间的推移不断扩展。
Capital One 致力于跨部门合作,共同构建和部署 AI 平台功能。他们还设立了机器学习工程师和 AI 工程师职位,吸引和留住技术人才,帮助他们继续站在 AI 技术的前沿,解决金融服务领域最具挑战性的问题。
构建或改造企业平台并非易事,但它将为企业带来更高的敏捷性和可扩展性。Capital One 的实践证明,这些基础设施能够有效地推动 AI/ML 的大规模应用,为企业和数百万用户创造价值。通过打好技术基础,从一开始就建立治理机制,并投资人才,企业将能够赋能用户,让他们在整个业务范围内以安全可靠的方式利用 AI。