数据科学家的核心职责在于利用数据解决业务难题并创造价值,通常通过构建各种模型实现。这一般会涉及一系列实验,不断迭代各种想法,最终选出最佳解决方案作为业务提案的一部分。在评估模型优劣时,通常会通过最小化或最大化某个性能指标来衡量,例如回归模型的均方误差(Mean Squared Error, MSE)或二分类模型的F1分数。
然而,模型构建仅仅是整个流程中的一环。围绕模型,存在两个至关重要的问题:一是解决方案是否真正回应了最初的业务问题;二是它能为企业带来多大效益。这些问题的答案,唯有项目利益相关者才能给出,因为他们是需求和成功标准的制定者。在理想情况下,这些标准会明确无误,但实际工作中往往并非如此。需求可能模糊宽泛,有时甚至简单到“阻止客户流失”或“防范客户欺诈”这类描述。此时,数据科学家与利益相关者需携手合作,共同细化问题并明确“成功”的定义。为此,双方必须保持高度一致的理解,否则沟通不畅和摩擦将不可避免地导致项目失败。
在职业生涯中,观察发现利益相关者和数据科学家之间经常出现沟通障碍,一方关注业务前景,另一方则专注于数据细节。这种差异导致许多优秀项目未能达到预期效果,也未能获得应有的重视,最终无法成功部署。要成为一名杰出的数据科学家,必须能够弥合业务与技术之间的鸿沟。通过业务成果来展示解决方案的影响力,并清晰阐述其带来的具体收益,是赢得利益相关者支持的关键。本文将探讨一些有助于提升与业务部门沟通效率的理念和策略。
需求转化与绩效汇报
新项目启动伊始通常伴随着一系列繁忙的活动,如启动会议、团队组建以及权限配置等。然而,作为数据科学家,可能并未参与到最初决定项目必要性的环节。这一决策通常由利益相关者和产品负责人等组织管理层成员完成。这意味着,项目的高层目标往往在数据科学家加入之前便已确定。
由于需求已预先确定,数据科学家可能会倾向于直接进入实验阶段,而未能充分关注项目的核心目标。他们可能认为只要了解大方向就足以推进工作。然而,关键在于,此时必须投入时间将业务问题细化为一系列非常明确的需求。这能确保:
- 数据科学家与更广泛的业务部门之间不存在歧义;
- 对所要解决的问题有清晰的理解;
- 有明确的指标来衡量目标是否已达成。
以利益相关者要求“保护客户免受欺诈”为例。这个需求可能导向多种不同的解决方案,因此,细化这一需求是确保项目精准成功的关键。为此,务必安排会议进行后续提问,例如:
- 是希望在欺诈发生时立即阻止,还是在客户面临风险时进行通知?
- 需要一个简单的“是/否”答案,还是更细致的判断?
- 倾向于自动化决策,还是增强现有流程的辅助系统?
- 解决方案的执行频率如何?是离线批处理还是在线实时?
- 是否有需要注意的运营限制?
例如,开发一个实时欺诈防御解决方案,与预测客户在未来30天内可能面临欺诈风险,是两种截然不同的项目方向。提出这些问题将有助于引导项目团队探索更具针对性的解决方案。

数据推理只是整个价值链中的一个环节。
项目实验阶段的结束同样繁忙。此时,需要选择最佳解决方案并向业务部门进行展示。这一点至关重要,因为无法保证解决方案会被采纳并进一步发展成为新产品。将任何新流程(例如模型)投入实际运行都会产生相应成本,这些成本必须与预期效益进行权衡。还需要考虑谁负责部署和监控,以及当性能不再满足要求时的维护问题。必须评估不良结果发生的频率、潜在严重性以及可能带来的影响。此外,新流程可能带来的额外运营影响也不容忽视。以欺诈检测平台为例,需要思考以下问题:
- 检测器会漏掉多少欺诈交易?
- 检测器会错误地将多少真实交易标记为欺诈,从而影响客户体验?
- 总共有多少交易会被标记为欺诈?运营部门是否有足够的能力调查所有这些事件?
要消除任何疑虑或顾虑,必须能够有效地“推销”解决方案,仅仅构建模型是远远不够的。在展示解决方案时,应遵循以下原则:
从问题出发,而非技术
在展示时,人们很容易将重点放在解决方案的技术细节上,例如所使用的模型或数据处理流程。毕竟,这是团队投入数月心血的地方,也希望借此展示为解决问题所付出的努力。因此,在向利益相关者汇报时,可能会情不自禁地谈论如何使用独热编码、执行均值填充以及如何利用 Optuna 库对 LightGBM 模型进行超参数调优等技术细节。
然而,问题在于利益相关者关心的并非模型的工作原理,而是它的实际作用。他们更关注业务问题如何得到解决,以及从中能获得哪些具体收益。因此,在呈现结果时,需要重新调整视角,以业务为导向,侧重于解决方案“解决了什么”而非“如何解决”。因此,应减少使用以下这类表述:
开发了一个用于欺诈检测的 LightGBM 二分类模型
而应更多地使用:
提出的解决方案显著提升了当前系统检测欺诈的能力
业务绩效与模型性能
与上一点相关,过度侧重于汇报模型性能是常见误区。F1、AUC 等指标提供了客观评估最佳模型的方法,并且渴望将这些信息传递给利益相关者。对于数据科学家而言,召回率从0.8到0.9的差异意味着什么一目了然。
然而,对于利益相关者来说,模型性能并不能直接说明解决方案为业务带来了什么价值。他们需要了解解决方案将对现有流程和程序产生何种影响。因此,数据科学家应将模型性能转化为业务层面的关键绩效指标(KPIs)来呈现。一个好的做法是始终思考:
- 它是否能创造收入、节省成本或节省时间?如果能,具体节省或创造了多少?
清晰量化解决方案带来的价值将有助于提高业务参与度,并大大增加其被采纳的可能性。因此,应减少使用以下这类表述:
LightGBM 模型召回率达到了 0.9
而应更多地使用:
我们的解决方案每年可以检测出价值 1000 万英镑的欺诈
绝不忽视可解释性
能够理解并解释解决方案做出决策的原因,是与利益相关者建立信任的关键。例如,如果正在实施一个关于抵押贷款申请审批的解决方案,那么在客户对拒绝决定提出质疑时,能够解释被拒绝的原因至关重要。这还能确保模型没有习得任何可能导致法律或监管风险的偏见。
可解释性还可以提供逻辑校验,甚至挑战关于哪些信息有用的先入之见。所有这些都意味着,在整个流程中融入可解释性,能够向利益相关者保证项目团队已经进行了充分的思考和周全的考虑。需要遵循的关键点包括:
- 能够说明模型依赖了哪些特征;
- 能够根据特征来解释模型的决策。
这意味着要么选择本身具有良好可解释性的模型(如回归模型、决策树等),要么依赖第三方可解释性库(如 SHAP、LIME 等)。

了解“为什么”是关键。
展示成果以最大化参与度
实验结束后并选定解决方案,下一步便是向利益相关者展示成果,以获得他们的批准。这通常以演示文稿的形式进行,需要阐述问题的重要性,并展示为何所提出的解决方案是最佳选择。这是一个至关重要的环节,必须能够与利益相关者清晰沟通。曾观察到许多优秀的提案因演示文稿未能吸引听众,甚至适得其反,而最终未能通过。设计一场引人入胜的演示文稿,既是一门艺术,也是一项技能,需要积极投入精力去提升。
以下是一些通用的指导性建议:
了解听众与目标
在开始准备演示文稿时,需要扪心自问:
正在“推销”什么?以及“推销”的对象是谁?
虽然仅仅为了记录工作成果而做演示有其价值,但如果目标是为项目争取支持,那么就必须高度聚焦于要传达的核心观点。一次演示中试图涵盖过多内容会导致混乱,并可能稀释整体信息。应该问自己:“希望听众了解的最重要的一点是什么?”然后围绕这一点来构建整个演示。
了解听众的技术背景和项目知识水平,会影响如何决定传达信息的方式。如果利益相关者对主题非常熟悉,那么可以假定他们具备一定的背景知识。但如果他们不熟悉,就需要仔细考虑哪些信息可以省略,哪些必须解释清楚,以确保所有参与者都能理解。如果利益相关者具备更强的技术技能,可以适当提供一些方法细节,但仍建议将其控制在最低限度。如前所述,关键在于强调项目的业务效益。

思考听众需要了解哪些信息。
风格至关重要
听众能否跟上演示节奏,受多种因素影响。听众需要同时听讲并查看屏幕内容,因此演示文稿的风格将对其理解能力产生巨大影响。在设计演示文稿时,以下技巧有助于最大化其影响力:
- 使用主题:无论是公司提供的模板还是来自素材网站的模板,预设的配色方案、字体大小等都能产生显著影响;
- 利用分区引导视线:用彩色方框框住重点内容,有助于引导听众的目光;
- 避免文字和视觉元素过载:不要在幻灯片上写下听众难以阅读的冗长段落,图表等视觉元素应保持大而简洁。

信息过载会分散听众注意力并造成困惑。
精简高效,直击要点
与利益相关者沟通的时间有限。在推销解决方案时,需要在有限时间内产生影响力并牢牢抓住他们的注意力。因此,需要在背景介绍、理论、解决方案和影响力之间找到平衡点。必须确保每一页幻灯片都带来有用的信息。实现这一目标的一些方法包括:
- 开门见山,直接展示结果:这并非悬疑小说,无需铺垫,应直截了当地说明所推销的方案和成果;
- 用标题制造影响力:标题是对幻灯片内容的总结,应传达最核心的信息;
- 以实例引导:如果试图解释工作原理,请使用具体数据来支撑观点,避免空泛抽象的论述。

时间有限,务必高效利用。信息传递应基于“需要知道”原则。
