在当今数据科学领域,某些技术备受追捧,然而,它们或许只是次要环节,更重要的是一个常被忽视的领域核心。
在处理数据时,存在两个至关重要的步骤:
- 处理和分析数据,以提取有意义的洞察。
- 将这些洞察传达给他人。
第二点至关重要,却常常被忽视。世界上最先进的算法或最有益的洞察,如果无人能理解,便毫无用处。作为数据科学家,必须学会将洞察传达给他人。这背后有不止一个原因,显而易见的一点是,如果正确的人理解了数据,整个世界将从中受益。然而,还有另一个同样重要的原因:通常在向他人描述发现的过程中,才能发现错误、获得更深层次的知识,或者发现进一步探索的领域。
本文将探讨一个强大而有效的工具,它能帮助实现上述第二步:数据可视化。这是系列文章的第一篇,旨在引导初学者深入数据可视化的世界。本文内容通用且轻松,旨在作为该领域的整体介绍。在后续文章中,将深入探讨更技术性的方面,最终教授如何构建自己的数据可视化作品。
掌握这些知识后,将能以全新、激动人心的方式处理数据。
“图片最大的价值在于,它迫使我们注意到那些我们从未预期看到的事物。” –约翰·图基(John Tukey)
何为数据可视化?
许多人对数据可视化持狭隘的看法,仅将条形图、折线图等标准图表归类为真正的数据可视化。从这个角度看,数据可视化直到18世纪中期才出现。(下文将展示一些例子。)
然而,拓宽思路至关重要。数据的视觉转化绝不局限于传统的观念。它们已经存在了数千年。例如,这是《世界地图》(Imago Mundi)[1],世界上已知最古老的地图,作为古巴比伦的遗迹被发现:

图片来源:维基共享资源
这张地图将巴比伦置于中心,很可能是用于可视化我们现在正式称之为地理空间数据的极其有用的工具。它是世界上最早的数据可视化之一。
从各种古代文明中,有大量类似的图形和图像——洞穴壁画、日历、石刻,甚至埃及象形文字——这些都有效地将难以理解的原始数据进行了视觉呈现。将这些例子视为数据可视化,引导我们得出一条重要原则:
数据可视化的核心,无非是将一些数据——无论是数字、文本还是其他形式——进行转换,以视觉方式呈现出来。
这一基本原则引出了几个相关主题,主要涉及进行这些转换最有效的方法,其中“有效”大致意味着“真实、易懂且信息丰富”。
数据可视化的早期案例
既然拓宽了对数据可视化定义的认识,接下来审视一些现代示例。下图是迈克尔·弗洛伦特·范·朗伦(Michael Florent Van Langren)于1644年绘制的图表[2]。它是我们所认为的传统统计数据最早的图形表示之一,描绘了罗马和托莱多之间经度差异的估算值。

这张图描绘了罗马和托莱多两城市之间经度差异的12个估计值。
接下来考虑一个更复杂的例子——它直接印证了约翰·图基的上述名言。
下图是约翰·斯诺(John Snow)于1854年绘制的伦敦苏荷区地图[3]。他设计这张地图是为了确定当时困扰该镇的霍乱疫情是否存在任何模式:

描绘了1854年霍乱疫情期间伦敦苏荷区死亡人数的地图。图片来源:Picryl公共领域
看向地图中心,可以发现布罗德街水泵附近有异常大量的死亡病例。调查证实,这个水泵受到污染,是疾病传播的主要原因。
这个例子恰好突显了约翰·图基上述的原则:数据可视化的最佳用途之一是能够迅速发现数据原始形式难以察觉的洞察。
精确性与灵活性
数据可视化是一个广阔而深入的话题,可以通过多种方式进行探讨。尽管如此,无论采用何种具体形式的数据可视化,都应牢记两条原则:精确性和灵活性。
好的数据可视化不会试图完成定义模糊的任务,例如展示数据集的“精髓”或总结“所有重要信息”。这样的说法是主观的,并且本质上不可能实现。
相反,好的数据可视化应以一种更易于用户理解的方式,突出相关数据中特定且明确的方面。在开始设计可视化之前,始终应准确阐明想要通过数据表达的内容。
为了内化这一原则,回顾数据可视化的初衷很有帮助:以清晰有用的方式展示数据集中的洞察。目标是让数据更容易理解。保持精确性确保实现这一目标。一个试图做太多事情的可视化最终可能会让观看者更加困惑。呈现少量数据但表达更清晰的可视化效果要好得多。质量比数量更重要。
请看下面的数据表,其中包含美国不同城市薪资的信息。
| 姓名 | 城市 | 收入 | 职业 |
| — | — | — | — |
| Sarah Mitchell | Denver, CO | $72,500 | Marketing Manager |
| Jamal Rodriguez | Houston, TX | $58,300 | Electrician |
| Priya Desai | Seattle, WA | $91,200 | Software Engineer |
| Thomas Nguyen | Chicago, IL | $64,800 | Nurse |
对于上述数据,以下哪种可视化选择更好?
- 一种可视化,试图通过条形图简化数据表中的信息,其中一个轴是姓名,另一个轴是薪资,使用颜色区分城市,并使用条形上的纹理(虚线、斜线等)区分职业。
- 与上述可视化相同,但这次排除了职业。换句话说,是一个以姓名和薪资为轴,并根据地点对条形进行着色的条形图。
选择第一种方案很诱人,但事实是,它试图承载的信息过多。最好是展示有限、有针对性的信息,而不是让受众感到困惑。
除了精确性,保持灵活性也同样重要。不存在完美的数据可视化。总有改进的空间,数据可视化通常会随着每次修订而变得更好。当然,在某个时候,数据可视化必须与他人分享并发挥其作用。
这引出了一个难题——多少次修订才算足够?这个问题没有明确的答案。修订可视化的过程必须谨慎进行。向太多人征求意见可能会导致一堆半生不熟、相互冲突的意见。另一方面,发布可视化作品的初稿——即完全不修订——很可能导致结果不尽人意。
虽然没有完美的解决方案,但可以遵循以下几项指导原则:
-
确定2-3位人员对可视化作品提供反馈。
-
尽量确保这份名单涵盖以下角色:
-
一位精通数据可视化设计的人员
-
一位对用于开发可视化的数据有深入理解的人员(例如,一位政治学家负责选举数据)
-
一位属于可视化目标受众的人员
-
-
与同一批人员进行2-3轮反馈和修订。这将确保可视化作品的改进是持续且逻辑连贯的。
结语与展望
在许多方面,数据可视化都类似于写作。即使是最多产、最有才华的作者也有编辑,他们的书籍在获准出版之前也会经历广泛的修订。为什么?原因很简单,好的写作很大程度上取决于受众,而精心策划的修订确保了书籍最终读者的最佳体验。同样的理念也适用于数据可视化。
遵循这些指导原则,便能确保开发出健壮的数据可视化作品,它不仅以最佳实践为基础,正确展示了现有数据,而且对目标受众而言易于理解。
它们是有效数据可视化的关键,也是未来文章中将讨论的先进可视化技术的基础。期待与您再见。
参考文献
[1] https://commons.wikimedia.org/wiki/File:TheBabylonianmapoftheworld,fromSippar,Mesopotamia..JPG
[2] The Visual Display of Quantitative Information, Edward Tufte
