此文为数据可视化系列文章的第二篇。若需回顾第一篇,请参阅《数据可视化解析:它是什么,为何如此重要?》。
现在,读者们已经了解了数据可视化背后的基本理念及其在数据科学生态系统中不可或缺的重要性。 (如果对此尚不熟悉,请务必查看上面链接的文章。)
正如前一篇文章所讨论的,数据可视化的核心思想是找到一种有效的方式,以视觉形式呈现各种类型的数据。
实现这种视觉呈现的关键基础概念被称为视觉编码通道。一个视觉编码通道实际上是将数值、文本或任何其他形式的数据转化为视觉标记的手段。可以将其理解为数据整体或部分对应的视觉特征。有效的数据可视化通常会为数据的不同方面运用多个视觉编码通道。
在本系列的第二篇文章中,将深入探讨视觉编码通道的细节,并通过实践学习如何将复杂的视图拆解为组成部分。这将为未来设计自己的可视化做好准备。
视觉变量导论
在法国制图师雅克·贝蒂(Jacques Bertin)1967年的著作《图形符号学》(The Semiology of Graphics)中,他概述了七个“视网膜变量”[1],之所以如此命名,是因为人眼的视网膜对它们敏感:
- 位置(如坐标图上的坐标)
- 大小
- 形状
- 颜色色相
- 颜色明度(从亮到暗)
- 方向
- 纹理
尽管贝蒂的工作已是数十年前,但其视觉变量至今仍是现代数据可视化设计的优秀指导原则。在可视化开发的早期阶段,审视可用的视觉变量并确定哪些变量应与数据中的特定变量关联,是一种良好的实践。
这可能是一个令人困惑的概念,但通过示例更容易理解。下图常被认为是可视化的杰作之一,由查尔斯·米纳德(Charles Minard)设计和绘制。它描绘了拿破仑远征俄罗斯的失败。

图片来源:维基共享资源
为了便于阅读,这是地图的简化和翻译版本;如需查看原版,请点击此处[2]。
上图中使用了哪些不同的视觉变量?(提示:数量相当多。)作为练习,建议拿出纸笔,尝试自行判断。稍后将详细讲解。
最大化视觉变量的有效性
针对特定可视化选择最佳视觉变量取决于数据本身的特性。以下将探讨三种不同类型的数据:
-
定量数据:具有自然顺序且适用于数学运算(即加/减/乘/除单个数据值有意义)的数值数据。例如,薪资和年龄是定量变量。
-
有序数据:具有自然顺序的分类数据(即非数值数据,可取固定数量的值)。如果曾填写过包含“非常同意”、“同意”、“中立”、“不同意”和“非常不同意”等选项的调查问卷,那么就接触过有序数据。尽管对这类数据进行数学运算没有意义,但其不同值仍可按“好”到“差”进行排序。
- 这也包括可能具有顺序但并非严格“排名”的变量,例如交通信号灯的模式。
-
名义数据:没有自然顺序的分类数据。一个很好的例子是颜色。虽然可以区分不同的颜色,但它们没有自然的序列。(这也解释了为什么颜色通常是名义变量的绝佳视觉编码方式,稍后将看到!)
重要提示:仅仅因为一个变量是数字,并不意味着它就是定量数据。例如,邮政编码是数字,但它们没有自然顺序,也不能对其进行数学运算。因此,邮政编码是名义变量。
下表由可视化专家乔克·D·麦金莱(Jock D. Mackinlay)和斯图尔特·卡德(Stuart Card)设计,并在此基础上进行了修改,它概述了不同视觉变量根据数据类型表现出的有效性[2]:
定量数据 有序数据 名义数据
位置 位置 位置
长度 密度 色相
角度 饱和度 纹理
斜率 色相 连接
面积 纹理 包含
体积 连接 密度
密度 包含 饱和度
饱和度 长度 形状
色相 角度 长度
~~纹理~~ 斜率 角度
~~连接~~ 面积 斜率
~~包含~~ 体积 面积
~~形状~~ ~~形状~~ 体积
关于这些排名,有几个关键点:
-
位置对于所有变量类型都是最佳选择。例如,一个X轴显示姓名、Y轴显示血压的条形图,分别使用位置来表示名义变量和定量变量。
-
在位置之后,每种变量类型的理想选择会有所不同。这一点很重要,因为如果需要绘制多个变量,最终会因为位置已被使用而不得不选择其他方式(通常在具有两个轴的二维图中)。
- 长度是位置的延伸,特别适用于定量比较。
- 密度和饱和度非常适合有序变量,因为观察者不需要确定精确值,只需看到排序即可。
- 色相和形状非常适用于名义变量,使类别差异一目了然。
-
有些选项被完全划掉,因为它们根本没有意义。例如,形状不能作为定量或有序变量的编码选择,因为无法比较数量或理解顺序。
现在,将详细分析一个如何拆解视觉编码通道的示例。
米纳德地图:变量解析
重新审视米纳德的拿破仑入侵地图,以方便参考。此示例选自爱德华·塔夫特(Edward Tufte)著名的可视化书籍《定量信息的视觉呈现》(The Visual Display of Quantitative Information)[3]。

图片来源:维基共享资源
仔细研究这张地图,查尔斯·米纳德对视觉编码通道的精湛运用简直是天才之作。他的可视化图表显示了六个不同的变量:
- 地理位置(定量数据):位置用于在二维平面上显示拿破仑军队的位置(因此这在技术上是两个变量)。入侵始于地图的左侧,波兰-俄罗斯边境。还可以看到,有时部分军队会根据拿破仑的战略分支到不同的地点。
- 地理位置(定量数据):同上。
- 时间(定量数据):仔细观察,会发现在可视化图表底部的X轴上列出了不同的时间点。这里同样使用位置来显示此变量。
- 温度(定量数据):温度在地图下方的图表中以时间为参照进行绘制。位置再次被用作Y轴。
- 军队剩余兵力(定量数据):在地图上移动的形状的宽度表示拿破仑军队的兵力。随着入侵的推进,拿破仑军队的规模越来越小,这一点清晰可见。他们最终仅带着最初422,000名士兵中的10,000名幸存者返回波兰。
- 军队移动方向(名义数据):颜色用于描绘军队在不同位置的移动方向。米色/棕褐色(简化图中为白色)表示军队向莫斯科进发,而黑色则表示其撤退返回波兰。
在他的著作[3]中,塔夫特将米纳德的地图称为“有史以来最优秀的统计图表”。研究它能够启发我们构思巧妙的方法来视觉化编码自己的数据。
总结与展望
通过本系列第二篇文章的学习,读者们掌握了可视化设计背后的核心理念:视觉编码通道。在回顾所学知识时,请牢记以下关键点:
- 视觉编码通道的选择往往决定可视化的成败。即使图表设计精美,但如果视觉编码通道难以解读,观察者将无法理解其所要表达的信息。
- 位置对于所有变量类型都至关重要,但在二维环境中空间有限。因此,请仔细考虑用位置来显示哪些变量;它们通常是最重要的。
- 尝试不同的设计!没有“唯一”完美的解决方案。相反,必须不断修改和迭代,直到达到满意的程度。
在下一篇文章中,将探讨可视化设计的重要技巧以及技术在过去几十年中如何演变和扩展。敬请期待。
参考文献
[1] 图形符号学, 雅克·贝蒂 (J. Ronald Eastman 译)
[2] https://ageofrevolution.org/200-object/flow-map-of-napoleons-invasion-of-russia/
[3] 信息可视化阅读:利用视觉进行思考 (卡德、麦金莱和施耐德曼)
