数据工业革命:我们错在何处?

A large number of business graphs and charts in three-dimensional space.

Joe Hellerstin是Trifacta的联合创始人和首席战略官,也是加州大学伯克利分校计算机科学的Jim Gray主席。

2010年2月,《经济学人》发表了一份名为 “数据,数据无处不在 “的报告。当时我们还不知道数据景观实际上是多么简单。

《经济学人》中谈到了,社会进入了 “数据工业革命”,它以围绕大数据的兴奋而拉开序幕,并延续到我们当前的数据驱动的人工智能时代。该领域的许多人预计这场革命将使世界更加标准化。也就是说,我们将有更难的数据问题,但也会有更大的潜在商业成果。

而且,我们也看到了人工智能的巨大进步。这对我们现在的数据世界意味着什么?让我们回顾一下我们当时的情况。

写《经济学人》那篇文章的时候,我正从加州大学伯克利分校休假,为英特尔研究中心管理一个与校园合作的实验室。我们当时一直专注于我们现在所说的物联网(IoT)研究。

当时,我们谈论的是由微小的互连传感器组成的网络被嵌入到一切事物中,如建筑物、大自然、墙壁上的油漆。我们的愿景是,可以测量物理世界,并以数据的形式捕获其现实。我们正在探索理论,并朝着这个愿景建立设备和系统。

我们一直在展望未来。但在那个时候,大多数关于数据的流行兴奋点都是围绕着网络和搜索引擎的崛起,谈论以 “文件 “形式出现的大量数字信息。

现在,我们看到的是一个更大机器生成的数据浪潮。即所谓 “数据工业化 “的一个方面——数据被机器打印出来后,数量会大大增加。的确是这样。

我所期待的 “数据工业革命 “的第二个方面是标准化的出现。简单地说,如果机器产生的东西,它们每次都会以同样的形式产生,那么更易于我们应结合无数来源数据。

标准化的先例是在经典的工业革命中,所有各方都有动力在运输和航运等共享资源以及产品规格上实现标准化。这似乎也应该适用于新的数据工业革命,经济和其他力量将推动数据的标准化。

但目前还没实现。

事实上,情况恰恰相反。我们得到是巨大的 “数据耗竭”,但标准化的数据只有少量的增长。

因此,我们没有得到统一的、面向机器的数据,而是得到了数据种类和数据类型的大量增加以及数据治理的减少。

除了数据枯竭和机器生成的数据之外,我们开始出现数据的对抗性使用。这是因为不同的人使用数据有不同动机。

考虑一下社交媒体数据和最近的 “假新闻 “谈话。21世纪初是一个巨大的实验,即如何使数字信息成为病毒,不仅对个人,而且对希望接触大众的品牌或政治利益集团也是如此。

今天,为了机器生成的内容主要是为了人类的消费和人类的行为模式。这与多年前 “以人为本 “的网络形成了鲜明的对比。

简而言之,今天的数据生产行业高容量,令人咋舌。但它不是为标准的数据表示法而调整的,不如我十多年前的预期发展。

创新:人工智能与人工输入

在过去十年左右的时间里,人工智能取得了明显的进步。大量数据在短短几年内将人工智能从科幻小说变成了现实。

但是人工智能在业务数据处理领域并没有我们想象的那么有用,至少现在还没有。自然语言处理等人工智能技术与结构化数据之间仍然存在脱节。尽管已经取得了一些进展,但在大多数情况下,我们仍无法与数据交谈,找到预期答案。在某些情况下,您可以通过 Google 搜索定量问题并返回一个小表格或图表,前提是您提出了的问题正确。

在大多数情况下,人工智能的进步仍然与电子表格和日志文件等所有其他更量化的结构化数据(包括物联网数据)相分离。事实证明,与图像搜索或简单的自然语言问答等消费者应用程序相比,传统类型的数据用 AI 破解要困难得多。

举个例子:你可以尝试让 Alexa 或 Siri 清理数据!这很有趣,但几乎没用。

人工智能的热门应用还没有回归到传统数据行业,但这并不是因为缺乏尝试。许多聪明人都无法破解传统数据集成问题。

然而,全自动化避开了这个行业。部分原因是人类很难预先从数据得到预期想要的。

如果你说,“我希望你用这 700 个表做些事”,之后你再跟进目标。也许算法可以完成这些事,但实际情况并非如此。相反,人们看到 700多张表,第一个想法就是了解它是什么,关于什么,然后再开始查询。只有多次查询后,人们才知道这些表格可以用来做什么。

探索仍然是创造性的工作,因为数据空间太大,成功的衡量标准也多种多样。您我们不能总是把数据提供给优化算法,让它来帮助我们寻找最佳结果。

与其等待 AI 的完全自动化,人类应该从 AI 中获得尽可能多的帮助,但实际上保留一些代理权,确定什么有用或没用,然后朝着某个方向进行下一步。不过这需要AI 的大量反馈。

了解数据,控制传播

然而,人工智能最厉害的是内容推荐。事实证明,计算机在定位和传播内容方面非常有效。

那时,对于数据和 AI 使用,最令人担心的是隐私问题。我记得,大家曾围绕公共图书馆是否应该拥有我们预订书籍的数字记录进行过辩论。同样,杂货店会员卡计划也存在争议。购物者不希望杂货连锁店跟踪他们什么时候购买的食物。

不过现在,这种心态已经有了很大变化。今天,青少年在社交媒体上分享的个人信息比他们购买的食品品牌要多得多。

说数字隐私处于良好状态其实很勉强,但我们可以说这并不是当今数据问题中最糟糕的。现在的数据仍旧存在一些问题,例如有些人想要利用数据再网上引战。二十年前,很少有人看到这些东西,人们对伦理问题的理解也不是很到位。

于是,数据使用的下一个问题也就应运而生。不过,政府和善立法的作用是什么?缺乏对工具使用的了解,就很难知道如何智能地管理和限制它们。今天,我们需要弄清楚数据的控制、激励措施及其发布方式,但技术的变化速度超过了社会能够确定风险和保护措施的速度。这很令人不安。

那么,预测准确吗?

我只给他一个及格分。可供使用的数据比想象要多得多。这导致人工智能和机器学习分析已经到了令人难以置信的进步,但在许多任务上,我们仍然只是触及表面,而在其他任务上还未可知。等等10年或20 年后吧,到时我们再回顾这些问题。

 

声明:本站原创文章文字版权归前途科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表前途科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

已有 0 条评论 新浪微博