前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

AI 产品管理中的期望值分析:不确定性决策的指路明灯

NEXTECH
Last updated: 2025年11月7日 上午7:14
By NEXTECH
Share
45 Min Read
SHARE

在产品团队的工作中,不确定性下的决策是一个核心问题。无论决策大小,都常常需要在时间压力下做出,尽管对问题和解决方案空间的信息可能不完整,甚至不准确。这可能是由于缺乏相关的用户研究、对业务背景细节了解有限(常见于那些未能充分培养客户中心主义和跨团队协作的公司),和/或对某项技术的能力和局限性存在误解(尤其是在使用新颖、未经测试的技术构建前沿产品时)。

Contents
期望值案例研究1:电商欺诈检测案例研究2:采购订单自动完成案例研究3:标准化AI设计指南总结

对于AI产品团队而言,情况尤其具有挑战性,这至少有三个原因。首先,许多AI算法本质上是概率性的,因此会产生不确定的结果(例如,模型预测可能有一定的概率是对或错)。其次,用于适当训练AI系统的高质量相关数据可能并非总是充足。第三,近期围绕AI——特别是生成式AI——的炒作热潮,导致客户、华尔街分析师以及(不可避免地)高层决策者产生了不切实际的期望;许多利益相关者似乎认为,现在几乎所有问题都可以通过AI轻松解决。不言而喻,产品团队管理此类期望可能相当困难。

那么,AI产品团队还有什么希望呢?虽然没有万能的解决方案,但本文将向读者介绍“期望值”的概念,以及如何利用它来指导AI产品管理中的决策制定。在简要概述关键理论概念后,本文将探讨三个真实案例研究,这些案例强调了期望值分析如何帮助AI产品团队在产品生命周期中针对不确定性做出战略决策。鉴于该主题的基础性质,本文的目标受众包括数据科学家、AI产品经理、工程师、用户体验研究员和设计师、管理者以及所有致力于开发优秀AI产品的专业人士。

期望值

在正式定义期望值之前,可以考虑两个简单的游戏来建立直观理解。

掷骰子游戏

在第一个游戏中,想象您与朋友进行一场掷骰子比赛。每人掷一个公平的六面骰子 N 次。每次掷骰子的得分是骰子正面朝上的点数;因此,每次掷骰只能得到1、2、3、4、5或6分。N次掷骰结束后,总分最高的玩家获胜。假设N是一个很大的数字(比如500),那么在游戏结束时,应该预期会看到什么?会有明显的赢家还是平局?

事实证明,当N变得很大时,每个玩家的总分很可能会收敛到3.5N。例如,在500次掷骰后,您和朋友的总分很可能在3.5*500 = 1750左右。要理解其中原因,请注意,对于一个公平的六面骰子,每次掷骰后任何一面朝上的概率都是1/6。平均而言,单次掷骰的得分将是(1 + 2 + 3 + 4 + 5 + 6)/6 = 3.5,即每次掷骰所有可能得分的平均值——这恰好也是单次掷骰的期望值。假设所有掷骰的结果彼此独立,可以预期N次掷骰的平均得分将是3.5。因此,即使每位玩家的总分在500次掷骰后都大致为1750,也无需感到意外。事实上,数学中有所谓的“大数定律”,它指出,如果重复一个实验(例如掷骰子)足够多次,所有这些实验的平均结果几乎必然会收敛到期望值。

You Might Also Like

音乐、歌词与智能代理AI:用Python和OpenAI打造智能歌词解读器
亚马逊深化与Rivian合作,计划采购数千辆定制电动货运自行车,拓展微出行配送网络
军工巨头试图瓦解美军维修权法案,数据服务模式或成新障碍
ChatBI实体标准查询名优化实战:利用RAG与三层架构将准确率从80%提升至90%

轮盘赌游戏

接下来,考虑轮盘赌,这是一种赌场中流行的游戏。想象您与朋友玩一个简化版的轮盘赌,规则如下。轮盘有38个口袋,游戏在N轮后结束。每轮,您必须选择一个1到38之间的整数,之后朋友将旋转轮盘并将一个小球扔到旋转的轮盘上。一旦轮盘停止旋转,如果小球落入您选择的数字口袋,朋友将支付您35美元;如果小球落入任何其他口袋,您必须支付朋友1美元。在N轮游戏后,您和朋友预计会赚多少钱?

读者可能会认为,由于35美元远多于1美元,游戏结束时朋友会支付您相当多的钱——但不要急于下结论。可以应用与掷骰子游戏相同的基础方法来分析这个看似有利可图的轮盘赌游戏。对于任何给定的一轮,小球落入您选择的数字口袋的概率是1/38。小球落入其他口袋的概率是37/38。从玩家的角度来看,每轮的平均结果因此是 35*1/38 – 1*37/38 = -0.0526美元。所以,看起来每轮游戏玩家将输掉大约0.0526美元。在N轮后,您将损失约0.0526*N美元。如果像掷骰子游戏那样玩500轮,您最终将支付朋友约26美元。这是一个对“庄家”(即赌场,或在本例中,您的朋友)有利的游戏。

正式定义

设 X 是一个随机变量,可以产生 k 个结果值中的任意一个,即 x 1, x 2,…, x k,每个结果分别以概率 p 1, p 2,…, p k 发生。X 的期望值 E(X) 是结果值与其各自发生概率的加权和:

图1:期望值公式
N 次独立事件 X 的总期望值将是 N*E(X)。

在接下来的案例研究中,本文将展示期望值分析如何辅助不确定性下的决策制定。所有公司名称均为虚构,以保护相关企业的匿名性。

案例研究1:电商欺诈检测

Cars Online 是一个在欧洲转售二手车的在线平台。合法的汽车经销商和二手车私人车主都可以在 Cars Online 上发布待售车辆。典型的列表会包括卖家的要价、车辆信息(例如其基本属性、特殊功能以及任何损坏/磨损的细节)以及车辆内外照片。买家可以浏览平台上的众多列表,找到喜欢的车辆后,可以点击列表页面上的按钮联系卖家安排看车,并最终完成购买。Cars Online 向卖家收取少量月费以在平台上展示列表。为了推动这种订阅收入,卖家注册平台和创建列表的流程被设计得尽可能简单。

问题在于,平台上的某些列表实际上可能是虚假的。降低创建列表的门槛带来的一个意想不到的后果是,恶意用户可以设置虚假卖家账户并创建虚假列表(通常冒充合法汽车经销商),以引诱并可能诈骗毫无戒心的买家。虚假列表可能通过两种方式对 Cars Online 产生负面业务影响。首先,受影响的卖家可能担心声誉受损,会将他们的列表转移到其他竞争平台,公开批评 Cars Online 显然松懈的安全标准(这可能导致其他卖家也离开平台),甚至提起诉讼要求赔偿。其次,受影响的买家(以及那些在媒体、社交媒体和亲友那里听说欺诈事件的买家)也可能放弃平台,并在网上撰写负面评论——所有这些都可能进一步促使卖家(平台的主要收入来源)离开。

在此背景下,Cars Online 的首席产品官(CPO)已责成一位产品经理和由客户成功代表、数据科学家和工程师组成的跨职能团队,评估利用AI打击虚假列表泛滥的可能性。CPO不满足于仅仅是意见——她希望获得一个数据驱动的估算,以了解实施AI系统以快速检测并删除平台上的欺诈性列表、防止其造成任何损害的净价值。

期望值分析可用于通过考虑正确和不正确预测的概率及其各自的收益和成本来估算AI系统的净价值。具体而言,可以区分四种情况:(1)正确检测到的虚假列表(真阳性),(2)被错误地认定为虚假的合法列表(假阳性),(3)正确检测到的合法列表(真阴性),以及(4)被错误地认定为合法的虚假列表(假阴性)。每种情况 i 的净货币影响 C(i) 可以通过历史数据和利益相关者访谈来估算。真阳性和假阳性都会导致 Cars Online 为删除已识别的列表付出一些努力,但假阳性会产生额外成本(例如,因删除合法列表而损失的收入以及恢复这些列表的努力成本)。同时,真阴性不应产生任何成本,而假阴性可能代价高昂——这正是CPO旨在打击的欺诈行为。

给定一个具有特定预测准确度的AI模型,如果 P(i) 表示每种情况 i 在实践中发生的概率,那么总和 S = C(1)*P(1) + C(2)*P(2) + C(3)*P(3) + C(4)*P(4) 反映了每次预测的期望值(见下方图2)。N次预测的总期望值将是 N*S。

图2:Cars Online 案例研究中欺诈预测的期望值

图2:Cars Online 案例研究中欺诈预测的期望值

基于AI模型的预测性能概况和四种情况(从真阳性到假阴性)的期望值估算,CPO可以更好地了解构建欺诈检测AI系统的预期价值,并据此做出项目启动或中止的决策。当然,通常与构建、运营和维护AI系统相关的额外固定和可变成本也应纳入整体决策考量。

案例研究2:采购订单自动完成

美国汽车制造商 ACME Auto 的采购部门每月创建大量的采购订单。制造一辆汽车需要数千个单独的零件,这些零件需要及时、按正确的质量标准从获批供应商处采购。一个采购员团队负责手动创建采购订单;这涉及填写一个在线表格,其中包含几个数据字段,用于定义每个订单中要购买的每个项目的精确规格和数量。不言而喻,这是一项耗时且易出错的活动,作为公司范围内的成本削减计划的一部分,ACME Auto 的首席采购官已责成其部门内的一个跨职能产品团队,利用AI大幅自动化采购订单的创建。

在与采购员密切合作进行用户研究后,产品团队决定构建一个AI功能,用于自动填充采购订单中的字段。该AI可以根据采购员提供的任何初始输入,以及从主数据表、生产线输入等其他相关信息组合来自动填充字段。采购员随后可以审查自动填充的订单,并可以选择接受AI生成的每个字段建议(即预测),或者用手动输入覆盖不正确的建议。在AI不确定要填充的正确值时(例如给定预测的模型置信度分数较低),该字段将留空,采购员必须手动填充一个合适的值。以这种方式灵活自动填充表单的AI功能可以使用一种称为“去噪”(denoising)的方法来构建。

为确保高质量,产品团队希望为模型置信度分数设定一个阈值,使得只有置信度分数高于此预定义阈值的预测才展示给用户(即用于自动填充采购订单表单)。问题是:应该选择哪个阈值?

设 c 1 和 c 2 分别表示向用户显示正确和不正确预测的收益(因为它们高于置信度阈值)。设 c 3 和 c 4 分别表示不向用户显示正确和不正确预测的收益(因为它们低于置信度阈值)。通常,显示正确预测(c 1)和不显示不正确预测(c 4)应该产生正收益(即益处)。相反,c 2 和 c 3 应该产生负收益(即成本)。选择过低的阈值会增加显示错误预测的可能性,而这些错误预测需要采购员手动更正(c 2)。但选择过高的阈值会增加正确预测未被显示的可能性,导致采购订单表单上出现空白字段,采购员需要花费一些精力手动填写(c 3)。因此,产品团队面临着权衡取舍——期望值分析能否帮助解决这个问题?

事实上,该团队能够通过利用用户研究发现和业务领域知识来估算收益因素 c 1, c 2, c 3 和 c 4 的合理值。此外,产品团队中的数据科学家能够通过在 ACME Auto 历史采购订单数据集上训练一个示例AI模型并分析结果,来估算产生这些成本的概率。假设 k 是附加到预测的置信度分数。那么,给定一个预定义的模型置信度阈值 t,设 q(k>t) 表示置信度分数大于 t 的预测比例;这些预测将用于自动填充采购订单表单。置信度分数低于阈值值的预测比例是 q(k ≤ t) = 1 – q(k>t)。此外,设 p(k>t) 和 p(k ≤ t) 分别表示置信度分数大于 t 和至多为 t 的预测的平均准确度。每次预测的期望值(或期望收益)S 可以通过将四个收益驱动因素(表示为 s 1, s 2, s 3 和 s 4)各自的期望值相加得出,如下方图3所示。产品团队的任务是测试各种阈值 t,并确定一个能最大化期望收益 S 的值。

图3:ACME Auto 案例研究中每次预测的期望收益

图3:ACME Auto 案例研究中每次预测的期望收益

案例研究3:标准化AI设计指南

全球企业软件供应商 Ex Corp 的首席执行官最近宣布,她打算让公司“AI优先”,并将其所有产品和服务注入高价值的AI功能。为了支持这项全公司范围的转型工作,Ex Corp 的中央设计团队被责成创建一套一致的设计指南,以帮助团队构建能增强用户体验的AI产品。一个关键挑战是如何平衡:既要避免指南过于宽松/高层次(给予各产品团队更大的解释自由度,但可能导致指南在不同产品团队间应用不一致),又要避免指南过于严格(在不充分考虑产品特定例外或定制需求的情况下,强制跨产品团队标准化)。

中央设计团队最初提出的一条善意指南,是建议在用户界面(UI)上预测旁边显示标签(例如,“最佳选项”、“良好替代品”或类似表述),以向用户提供关于预测预期质量/相关性的一些指示。人们认为,显示这种定性标签将帮助用户在与AI产品交互时做出明智决策,而不会被难以解释的统计数据(如模型置信度分数)所困扰。特别是,中央设计团队认为,通过规定一套一致的、全局的模型置信度阈值,可以为 Ex Corp 的所有产品创建模型置信度分数与定性标签之间的标准化映射。例如,置信度分数大于0.8的预测可以标记为“最佳”,置信度分数介于0.6和0.8之间的预测可以标记为“良好”,依此类推。

正如在之前的案例研究中所探讨的,期望值分析可以用于推导特定用例的模型置信度阈值,因此很自然地会尝试将此阈值推广到产品组合中的所有用例。然而,这比看起来要棘手得多,而期望值分析背后的概率论可以帮助理解原因。考虑两个简单的游戏:抛硬币和掷骰子。抛硬币会产生两个可能的结果,正面或反面,每个结果发生的概率都是1/2(假设是公平硬币)。与此同时,如前所述,掷一个公平的六面骰子会产生六个可能的结果(1、2、3、4、5或6点),每个结果发生的概率都是1/6。这里的关键洞察是,当随机变量的可能结果数量(也称为结果集的基数)增加时,正确猜测任意事件结果的难度通常会越来越大。如果猜测下一次抛硬币会是正面,平均而言,猜对的几率是一半。但如果猜测下一次掷骰子会是任何一个特定数字(比如3),平均而言,猜对的几率只有六分之一。

那么,如果将抛硬币和掷骰子游戏的全局置信度阈值都设定为0.4呢?如果一个AI模型对掷骰子游戏预测下一个结果是3,置信度为0.45,团队可能会愉快地将其标记为“良好”甚至“优秀”;毕竟,置信度高于预设的全局阈值,并且显著高于1/6(随机猜测的成功概率)。然而,如果一个AI模型对抛硬币游戏预测下一个结果是正面,置信度同样是0.45,团队可能会怀疑这是一个假阳性,并完全不向用户显示该预测;尽管置信度高于预设阈值,但它仍低于0.5(随机猜测的成功概率)。

上述分析表明,在AI用例的标准化设计指南中,应删除在预测旁边显示定性标签的单一、一刀切的规定。相反,或许应该授权各个产品团队根据具体用例来决定如何显示定性标签(如果需要显示的话)。

总结

不确定性下的决策制定是AI产品团队关注的重点,并且在未来AI主导的世界中,其重要性可能会日益增加。在此背景下,期望值分析可以帮助指导AI产品管理。不确定结果的期望值代表了该结果的理论长期平均值。通过真实案例研究,本文展示了期望值分析如何帮助团队在产品生命周期中,针对不确定性做出明智的战略决策。

TAGGED:AI基础产品管理决策制定期望值分析机器学习
Share This Article
Email Copy Link Print
Previous Article TDS周报:掌握AI高效应用之道——理论与实践深度融合
Next Article 特斯拉股东批准埃隆·马斯克万亿薪酬方案:深层影响与未来挑战
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

20251121073009355.png
未分类

Grok对马斯克的崇拜失控:AI聊天机器人竟称老板超越耶稣和超人

2025年11月21日
插图:结论
未分类

强化学习进阶:时序差分学习(TD)深度解析与高效探索策略——Q-learning、Dyna-Q、Dyna-Q+算法实战对比

2025年10月3日
图片1:AI无缝集成的五大战略步骤
人工智能基础

解锁AI潜力:企业无缝集成人工智能的五大关键策略

2025年9月21日
Agent生态未分类

从企业AI SaaS到个人设计助手:Agent实践经验揭示,普通人与大厂站在同一起跑线

2025年10月16日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up