可以观察到,实验方法在当下仍未得到充分利用,甚至可能比以往任何时期都更为罕见。随着观测数据的成本日益降低、获取愈发便捷、数量持续激增,这无疑带来了巨大便利。然而,正因如此,许多数据科学家或许缺乏保罗·罗森鲍姆在其著作《因果推断》中所提及的“实验思维”。换言之,观测数据在诸多领域已然挤占了实验数据的空间。尽管观测数据在因果分析中具有其合理用途,但实验数据始终是衡量因果关系的黄金标准。
业界流传着一句实用主义哲学:“有测试总比没测试好。”在商业实践中,学习本身不具备内在价值——开展实验并非仅仅为了获取知识,而是为了创造实际价值。鉴于实验所得的洞察必须转化为经济效益,因此需要将其与实验成本进行权衡,而实验成本同样以经济价值衡量。企业的目标是只做那些能为组织带来净收益的事情。正因如此,统计学上理想的实验设计,在经济层面往往并非最优选择。数据科学家应将重点放在理解不同层面的业务约束对实验设计的影响,并清晰阐明这些约束如何作用于学习成果的价值。掌握这些关键要素后,便能做出恰当的折衷,从而确保实验能为整个组织带来积极的经济效益。在实践中,一个最小可行实验应是能够获得利益相关者认可,并预计能为公司带来积极经济影响的实验。
人工智能如何影响数据科学家的日常工作?
总体而言,生成式AI已显著提升了数据科学家的工作效率。然而,也应认识到,若不加节制地“滥用”它,仍存在潜在弊端。
生产力提升
编码
生成式AI在加速编码方面发挥了重要作用,具体体现在协助编写代码和调试代码两个方面。
生成式AI带来的大部分生产力提升,主要体现在基础Python代码的编写上。它能以比人工更快的速度生成基础代码片段。例如,可以向ChatGPT提出编写一个相对简单的函数的需求,然后在AI生成代码期间处理其他消息或查阅邮件。早期,ChatGPT生成的代码质量有时不尽如人意,需要大量调试。但如今,其代码质量已普遍较高——当然,对生成的代码进行审查和测试始终是必要的,但代码质量的提升进一步增强了工作效率。
通常来说,Python的错误提示信息是相当有用的,但有时也会显得晦涩难懂。此时,只需复制粘贴错误信息,便能立即获得关于其原因的线索,这极大地方便了调试工作。过去,需要花费大量时间筛选Stack Overflow及类似网站,希望能找到与当前问题足够接近的帖子来寻求帮助。现在,调试过程已大幅加速。
尽管尚未尝试利用生成式AI来编写代码文档或解答关于代码库的问题,但未来计划探索这些功能。业内对这些工具的评价普遍非常积极。
研究
生成式AI提升生产力的第二种方式体现在研究领域。在研究和学习数据科学主题时,它是一个优秀的学习伙伴。尽管始终谨慎对待其生成的所有内容,但发现其提供的信息通常相当准确。当需要学习新知识时,通常会查阅论文或出版书籍。在阅读过程中,若遇到文本中不清晰的部分,ChatGPT能够很好地帮助澄清疑惑。
ChatGPT在查找学习资源方面也表现出色。例如,可以向它描述工作中遇到的特定问题,并请求它推荐相关论文和书籍。实践证明,其推荐内容通常非常有帮助。
弊端——用人工智能取代真实智能
苏格拉底对将知识存储于书面形式持怀疑态度(因此,我们主要通过柏拉图的著作了解他,因为苏格拉底本人并未著书)。他担忧书写会削弱记忆力——人们会转而依赖外部文本,而非内在的记忆与对主题的深刻理解。对生成式AI,也存在类似的担忧,这不仅针对个人,也关乎全人类。由于AI始终唾手可得,人们很容易反复询问相同的问题,却并未真正记住甚至理解它所生成的内容。例如,就曾多次要求AI编写类似的代码。理想状态下,应只询问一次,然后记下笔记,并内化其生成的技术和方法。然而,在面对截止日期、邮件、即时通讯等时间争夺时,坚持这一标准无疑是一项挑战。从根本上说,令人担忧的是,人们可能将人工智能视为真实智能的替代品,而非其辅助与倍增器。
另一个担忧是,快速获取答案的便利性可能导致对主题的理解流于表面。人们可以针对任何问题生成答案,并迅速把握信息要点。然而,这往往会导致“一知半解,足以误事”的局面。因此,将生成式AI作为学习的辅助工具,而非主要信息来源。
对职业转型者进入数据科学领域的建议?
之前文章中分享的所有策略在今天依然适用。如果重新撰写那篇文章,可能会补充以下两点:
第一点是,并非所有数据科学岗位都寻求生成式AI经验。尽管它是一项非常重要且热门的技能,但仍有大量“传统”数据科学职位,它们更看重传统的数据科学技能。因此,求职者务必明确自己申请的职位类型。切勿将一份充斥着生成式AI经验的简历投递给传统职位,反之亦然。
第二点是追求数据科学基础知识的深度掌握。在人工智能时代,真正的智能是区分人才的关键。当前的教育领域充斥着各种短期的、速成的数据科学硕士项目,这些项目往往只教授学生皮毛,让他们能够进行一些表面化的数据科学对话,用Python训练一个套路化的模型,并随意抛出几个流行词汇。然而,在面试过程中,深层次的对话更能揭示候选人的真实水平——那些知识肤浅的应聘者往往在此环节暴露出问题。例如,在面试中曾遇到许多实习生表示,准确率是回归模型的一个良好性能指标。然而,准确率通常甚至不是分类问题的一个好性能指标,对于回归问题来说更是毫无意义。那些这样说的候选人,仅仅知道准确率是一个性能指标,而对其背后的原理和适用性知之甚少。因此,求职者需要对基础知识建立深刻的理解,以便在面试中进行深入交流,并在后续工作中有效解决分析问题。
如何决定下一篇文章的写作主题?
通常,文章主题的灵感来源于需求和好奇心的结合。
需求
许多时候,为了解决工作中的某个问题,需要对某个主题进行深入了解。这促使人们进行研究和学习,以获取更深层次的知识。在深入学习之后,往往会非常乐意分享所学。以线性规划系列文章为例,作者曾在大学时期修读过线性规划课程(并非常喜欢),但当时感觉并未真正掌握其精髓。在工作中,曾有一个项目涉及使用线性规划作为描述性分析优化引擎。基于此,便下决心要成为线性规划领域的专家。于是,购买教材、仔细研读,并用Python从头复现了许多过程,最终撰写文章来分享新近掌握的知识。
好奇心
强烈的好奇心和对学习的乐趣,使得人们常常阅读书籍并思考那些引人入胜的话题。这种特质自然地产生了源源不断可供撰写的文章素材。好奇心驱动的学习方法包含两个要素:一是阅读与研究;二是有意识地放下书本,消化所读内容并建立关联——这正是Kethledge和Erwin在其著作《领导自己:通过独处激发领导力》中所定义的“独处”。这种结合方式所产生的效果远超其各部分之和。如果仅仅是持续阅读而不花时间思考所读内容,便无法真正内化信息或形成独到的见解。反之,如果只是一味思考而不顾及他人数十年甚至数百年的研究成果,则会错失宝贵的知识积累。通过将这两个要素结合起来,不仅能够学到大量知识,还能对所学内容形成深刻的洞察和独立的观点。
曾撰写的数据科学与哲学系列文章,便是好奇心驱动的典范。几年前,对哲学产生了浓厚的兴趣,阅读了多本相关书籍并观看了多场讲座。此外,还花费大量时间放下书本,深入思考其中的思想。正是在这个过程中,意识到所学到的许多哲学概念,与数据科学工作有着深刻的关联和启示。于是将这些思考记录下来,便形成了第一系列文章的提纲!
文章草稿的撰写流程是怎样的?如何决定何时加入代码或视觉内容,以及是否请人审阅草稿?
通常,会在开始撰写文章前,对一个想法进行数月的深思熟虑。任何时候,脑海中都会有2-4个文章构思。由于长时间的思考,在动笔之前,通常已形成相当清晰的文章结构。开始写作时,会先列出文章的标题,然后记下之前构思好的优秀句子。接着,便开始填补空白,直到认为文章清晰地呈现了通过学习和思考所形成的观点。这种方法对于每月撰写一篇文章的目标来说非常有效。如果希望产出更多文章,可能就需要让写作过程更有计划性,而非如此自然随性。
每当发现自己写出的段落晦涩难懂、读起来费劲时,便会尝试用图表或视觉内容来替代它。图形和简洁的注释具有强大的力量,在帮助理解方面远胜于冗长而笨重的段落。
文章中插入代码的原因与插入视觉内容相同。阅读代码行为的口头描述令人感到不便——直接阅读注释良好的代码效果要好得多。此外,也喜欢在文章中展示问题的“初级”解决方案,这些问题在实际工作中,任何实践者都会使用预构建的包来解决。这样做有助于(也希望能帮助他人)直观地理解其底层运作原理。
