订阅我们的每日和每周通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
面对人工智能,我们既不恐惧,也不兴奋,而是感到疲惫。尽管人工智能承诺重塑行业、智慧和生活方式,但我们必须以一种拥抱复杂性的新鲜热情来应对喧嚣和希望。这种热情鼓励辩论,并保持健康的怀疑态度。保持怀疑的心态是解放的、务实的,它挑战传统,并滋养了一种似乎经常缺失的理智,尤其是在你对无尽的假设和谣言感到厌倦的时候。
我们似乎陷入了“急于等待”的困境,一边观察着人工智能的现实和益处,一边又充满期待。我们知道,人工智能的未来一片光明,预计到2024年底,全球人工智能市场规模将超过4540亿美元,这比包括芬兰、葡萄牙和新西兰在内的180个国家的GDP总和还要大。
然而,另一方面,最近的一项研究预测,到2025年底,至少30%的生成式人工智能项目将在概念验证阶段后被放弃。另一份报告指出,“据估计,超过80%的人工智能项目失败,是与人工智能无关的IT项目的失败率的两倍”。
虽然怀疑和悲观主义经常被混淆,但它们在方法上有着根本的不同。
怀疑涉及探究、质疑主张、渴望证据,并且通常具有建设性,带有批判性的关注。悲观主义倾向于限制可能性,包括怀疑(也许还有警觉),可能预示着负面结果。它可能被视为一种非生产性的、不吸引人的和没有动力的状态或行为——尽管如果你认为恐惧可以带来利益,那么它就不会消失。
怀疑植根于哲学探究,它涉及质疑主张的有效性,并在接受它们为真理之前寻求证据。希腊语“skepsis”的意思是调查。对于现代的怀疑论者来说,对人工智能探究的承诺是评估风险和益处的理想工具,它可以确保创新是安全、有效和负责任的。
我们对批判性探究如何造福社会有着深刻的历史理解,尽管它在早期经历了一些非常不稳定的阶段:
- 疫苗接种由于安全和伦理问题而面临着严厉的审查和抵制,但持续的研究导致了拯救了数百万人生命的疫苗。
- 信用卡引发了人们对隐私、欺诈和鼓励不负责任消费的担忧。银行行业通过用户驱动的测试、更新的基础设施和健康的竞争,广泛改善了体验。
- 电视最初因分散注意力和可能导致道德沦丧而受到批评。批评者质疑它的新闻价值和教育价值,认为它是一种奢侈品,而不是必需品。
- 自动取款机面临着人们对机器出错或人们不信任技术控制自己资金的担忧。
- 智能手机由于缺乏键盘、功能有限、电池续航时间短等问题而受到质疑,但通过界面和网络改进、政府联盟和新的货币化形式得到了缓解。
值得庆幸的是,我们拥有不断发展的现代协议,当我们勤勉地使用它们(而不是完全不使用它们)时,它们提供了一种平衡的方法,既不盲目接受也不完全拒绝人工智能的效用。除了帮助上游需求与风险决策框架之外,我们确实拥有一套经过验证的工具来评估准确性、偏差,并确保道德使用。
为了减少抵触,提高辨别力,也许是怀着希望和快乐的怀疑,以下是一些不太为人所知的工具:
评估方法 | 它做了什么…… | 示例 | 它所寻求的“真理”…… |
幻觉检测 | 识别人工智能输出中的事实错误 | 检测人工智能何时错误地陈述历史日期或科学事实 | 寻求确保人工智能生成的内容在事实上有准确性 |
检索增强生成 (RAG) | 将经过训练的模型的结果与其他来源相结合,以包含最相关的信息 | 人工智能助手使用当前新闻文章来回答有关近期事件的问题 | 来自多个输入的当前且与上下文相关的的信息 |
精确度、召回率、F1 分数 | 衡量人工智能输出的准确性和完整性 | 评估医疗诊断人工智能正确识别疾病的能力 | 准确性、完整性和人工智能模型整体性能之间的平衡 |
交叉验证 | 测试模型在不同数据子集上的性能 | 在电影评论上训练情感分析模型,并在产品评论上测试它 | 寻求确保模型在不同数据集上始终如一地表现良好,表明可靠性 |
公平性评估 | 检查人工智能决策在不同群体中的偏差 | 评估金融人工智能中不同种族群体的贷款批准率 | 公平的待遇和没有歧视性模式,并且不延续偏见 |
A/B 测试 | 运行实验以比较新的人工智能功能与现有标准的性能 | 测试人工智能聊天机器人与人工客户服务代表 | 来自比较性能指标的验证、改进或更改 |
异常检测检查 | 使用统计模型或机器学习算法来发现与预期模式的偏差。 | 在欺诈检测系统中标记异常的金融交易 | 一致性和符合预期标准、规则和/或协议 |
自我一致性检查 | 确保人工智能的响应在内部一致 | 检查人工智能对相关问题的答案是否相互矛盾 | 逻辑连贯性和可靠性;结果不是不稳定或随机的 |
数据增强 | 使用现有数据的修改版本扩展训练数据集 | 使用不同的口音和语音模式增强语音识别模型 | 改进模型的泛化能力和鲁棒性 |
提示工程方法 | 改进提示以从 GPT 等人工智能模型中获得最佳性能 | 以产生最准确响应的方式构建问题 | 人与人工智能之间的最佳沟通 |
用户体验测试 | 评估最终用户如何与人工智能系统交互以及对它们的感知 | 测试人工智能驱动的虚拟助手的可用性 | 用户满意度和有效的人工智能交互 |
随着我们继续在这个人工智能恐惧和兴奋的时代中航行,拥抱基于怀疑的方法将是确保创新服务于人类最佳利益的关键。以下四个建议值得我们铭记并广泛实践。
- 要求透明度:坚持清晰的技术解释,并提供可参考的用户或客户。除了外部供应商和行业/学术界联系人之外,对内部团队(除法律和 IT 部门外,如采购、人力资源和销售部门)也应有相同的期望设定。
- 鼓励以人为本的基层参与:许多自上而下的举措都失败了,因为目标可能排除了对同事以及更广泛的社区的影响。首先问问:作为非等级制的团队成员,我们如何理解人工智能的影响,而不是立即指派一个工作组列出并排名排名前五的使用案例。
- 严格跟踪(并拥抱?)法规、安全、伦理和隐私裁决:虽然欧盟正在部署其人工智能法案,而加州等州试图启动有争议的人工智能监管法案,但无论你的立场如何,这些法规都会影响你的决策。定期评估这些人工智能进步的伦理影响,优先考虑人类和社会的影响,而不是规模、利润和推广。
- 验证性能声明:尽可能要求证据并进行独立测试。询问上面列出的评估方法。对于与新的“人工智能优先”公司和供应商合作时,这一点尤其重要。
怀疑是滋养的。我们需要方法来超越日常的闲聊和喧嚣。无论你处于营养不良的怀疑中,还是处于辨别力的敬畏中,这都不是一场零和博弈。一个愤世嫉俗者或悲观主义者的收益不会导致其他人乐观情绪的等量损失。我敬畏人工智能。我相信它将帮助我们获胜,我们成功的规则建立在谦逊的判断之上。
在某种程度上,尽管带有挑衅意味,但怀疑是一种性感的脆弱。它是一种明智的选择,应该出现在每个员工手册中,以确保新技术在没有令人不快的警报的情况下得到负责任地审查。
马克·史蒂文·拉莫斯是一位首席学习官,在谷歌、诺华、甲骨文、埃森哲和红帽拥有 20 多年的经验。他目前是哈佛学习创新实验室研究员。
DataDecisionMakers
欢迎来到 VentureBeat 社区!
DataDecisionMakers 是专家(包括从事数据工作技术人员)分享数据相关见解和创新的平台。
如果你想阅读有关前沿理念、最新信息、最佳实践以及数据和数据技术的未来,请加入我们 DataDecisionMakers。
你甚至可以考虑自己撰写文章!
阅读 DataDecisionMakers 的更多内容