前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
数据科学与工程

数据可视化进阶(二):解锁数据叙事的视觉编码通道与变量

NEXTECH
Last updated: 2025年10月2日 上午5:54
By NEXTECH
Share
36 Min Read
SHARE

此文为数据可视化系列文章的第二篇。若需回顾第一篇,请参阅《数据可视化解析:它是什么,为何如此重要?》。

Contents
视觉变量导论最大化视觉变量的有效性米纳德地图:变量解析总结与展望参考文献

现在,读者们已经了解了数据可视化背后的基本理念及其在数据科学生态系统中不可或缺的重要性。 (如果对此尚不熟悉,请务必查看上面链接的文章。)

正如前一篇文章所讨论的,数据可视化的核心思想是找到一种有效的方式,以视觉形式呈现各种类型的数据。

实现这种视觉呈现的关键基础概念被称为视觉编码通道。一个视觉编码通道实际上是将数值、文本或任何其他形式的数据转化为视觉标记的手段。可以将其理解为数据整体或部分对应的视觉特征。有效的数据可视化通常会为数据的不同方面运用多个视觉编码通道。

在本系列的第二篇文章中,将深入探讨视觉编码通道的细节,并通过实践学习如何将复杂的视图拆解为组成部分。这将为未来设计自己的可视化做好准备。

视觉变量导论

在法国制图师雅克·贝蒂(Jacques Bertin)1967年的著作《图形符号学》(The Semiology of Graphics)中,他概述了七个“视网膜变量”[1],之所以如此命名,是因为人眼的视网膜对它们敏感:

You Might Also Like

数据科学演进三阶段:如何明智选择传统机器学习、深度学习与大型语言模型?
数据科学必备!十大免费API接口,助你轻松获取真实世界数据
构建多页仪表盘:Plotly Dash 分层项目框架实战指南
2026年数据科学:依然是明智的职业选择吗?
  1. 位置(如坐标图上的坐标)
  2. 大小
  3. 形状
  4. 颜色色相
  5. 颜色明度(从亮到暗)
  6. 方向
  7. 纹理

尽管贝蒂的工作已是数十年前,但其视觉变量至今仍是现代数据可视化设计的优秀指导原则。在可视化开发的早期阶段,审视可用的视觉变量并确定哪些变量应与数据中的特定变量关联,是一种良好的实践。

这可能是一个令人困惑的概念,但通过示例更容易理解。下图常被认为是可视化的杰作之一,由查尔斯·米纳德(Charles Minard)设计和绘制。它描绘了拿破仑远征俄罗斯的失败。

米纳德描绘拿破仑入侵俄罗斯的地图

图片来源:维基共享资源

为了便于阅读,这是地图的简化和翻译版本;如需查看原版,请点击此处[2]。

上图中使用了哪些不同的视觉变量?(提示:数量相当多。)作为练习,建议拿出纸笔,尝试自行判断。稍后将详细讲解。

最大化视觉变量的有效性

针对特定可视化选择最佳视觉变量取决于数据本身的特性。以下将探讨三种不同类型的数据:

  1. 定量数据:具有自然顺序且适用于数学运算(即加/减/乘/除单个数据值有意义)的数值数据。例如,薪资和年龄是定量变量。

  2. 有序数据:具有自然顺序的分类数据(即非数值数据,可取固定数量的值)。如果曾填写过包含“非常同意”、“同意”、“中立”、“不同意”和“非常不同意”等选项的调查问卷,那么就接触过有序数据。尽管对这类数据进行数学运算没有意义,但其不同值仍可按“好”到“差”进行排序。

    • 这也包括可能具有顺序但并非严格“排名”的变量,例如交通信号灯的模式。
  3. 名义数据:没有自然顺序的分类数据。一个很好的例子是颜色。虽然可以区分不同的颜色,但它们没有自然的序列。(这也解释了为什么颜色通常是名义变量的绝佳视觉编码方式,稍后将看到!)

重要提示:仅仅因为一个变量是数字,并不意味着它就是定量数据。例如,邮政编码是数字,但它们没有自然顺序,也不能对其进行数学运算。因此,邮政编码是名义变量。

下表由可视化专家乔克·D·麦金莱(Jock D. Mackinlay)和斯图尔特·卡德(Stuart Card)设计,并在此基础上进行了修改,它概述了不同视觉变量根据数据类型表现出的有效性[2]:

定量数据        有序数据        名义数据
位置            位置            位置
长度            密度            色相
角度            饱和度            纹理
斜率            色相            连接
面积            纹理            包含
体积            连接            密度
密度            包含            饱和度
饱和度            长度            形状
色相            角度            长度
~~纹理~~        斜率            角度
~~连接~~        面积            斜率
~~包含~~        体积            面积
~~形状~~        ~~形状~~        体积

关于这些排名,有几个关键点:

  • 位置对于所有变量类型都是最佳选择。例如,一个X轴显示姓名、Y轴显示血压的条形图,分别使用位置来表示名义变量和定量变量。

  • 在位置之后,每种变量类型的理想选择会有所不同。这一点很重要,因为如果需要绘制多个变量,最终会因为位置已被使用而不得不选择其他方式(通常在具有两个轴的二维图中)。

    • 长度是位置的延伸,特别适用于定量比较。
    • 密度和饱和度非常适合有序变量,因为观察者不需要确定精确值,只需看到排序即可。
    • 色相和形状非常适用于名义变量,使类别差异一目了然。
  • 有些选项被完全划掉,因为它们根本没有意义。例如,形状不能作为定量或有序变量的编码选择,因为无法比较数量或理解顺序。

现在,将详细分析一个如何拆解视觉编码通道的示例。

米纳德地图:变量解析

重新审视米纳德的拿破仑入侵地图,以方便参考。此示例选自爱德华·塔夫特(Edward Tufte)著名的可视化书籍《定量信息的视觉呈现》(The Visual Display of Quantitative Information)[3]。

米纳德描绘拿破仑入侵俄罗斯的地图

图片来源:维基共享资源

仔细研究这张地图,查尔斯·米纳德对视觉编码通道的精湛运用简直是天才之作。他的可视化图表显示了六个不同的变量:

  1. 地理位置(定量数据):位置用于在二维平面上显示拿破仑军队的位置(因此这在技术上是两个变量)。入侵始于地图的左侧,波兰-俄罗斯边境。还可以看到,有时部分军队会根据拿破仑的战略分支到不同的地点。
  2. 地理位置(定量数据):同上。
  3. 时间(定量数据):仔细观察,会发现在可视化图表底部的X轴上列出了不同的时间点。这里同样使用位置来显示此变量。
  4. 温度(定量数据):温度在地图下方的图表中以时间为参照进行绘制。位置再次被用作Y轴。
  5. 军队剩余兵力(定量数据):在地图上移动的形状的宽度表示拿破仑军队的兵力。随着入侵的推进,拿破仑军队的规模越来越小,这一点清晰可见。他们最终仅带着最初422,000名士兵中的10,000名幸存者返回波兰。
  6. 军队移动方向(名义数据):颜色用于描绘军队在不同位置的移动方向。米色/棕褐色(简化图中为白色)表示军队向莫斯科进发,而黑色则表示其撤退返回波兰。

在他的著作[3]中,塔夫特将米纳德的地图称为“有史以来最优秀的统计图表”。研究它能够启发我们构思巧妙的方法来视觉化编码自己的数据。

总结与展望

通过本系列第二篇文章的学习,读者们掌握了可视化设计背后的核心理念:视觉编码通道。在回顾所学知识时,请牢记以下关键点:

  • 视觉编码通道的选择往往决定可视化的成败。即使图表设计精美,但如果视觉编码通道难以解读,观察者将无法理解其所要表达的信息。
  • 位置对于所有变量类型都至关重要,但在二维环境中空间有限。因此,请仔细考虑用位置来显示哪些变量;它们通常是最重要的。
  • 尝试不同的设计!没有“唯一”完美的解决方案。相反,必须不断修改和迭代,直到达到满意的程度。

在下一篇文章中,将探讨可视化设计的重要技巧以及技术在过去几十年中如何演变和扩展。敬请期待。

参考文献

[1] 图形符号学, 雅克·贝蒂 (J. Ronald Eastman 译)

[2] https://ageofrevolution.org/200-object/flow-map-of-napoleons-invasion-of-russia/

[3] 信息可视化阅读:利用视觉进行思考 (卡德、麦金莱和施耐德曼)

TAGGED:数据可视化数据科学米纳德地图视觉变量视觉编码
Share This Article
Email Copy Link Print
Previous Article 图像1:CPU与GPU交替空闲的低效数据管理示例 PyTorch训练循环优化指南:解锁深度学习模型的高效潜力
Next Article 图1 — 数据集中的一个示例图像——欧洲醋栗类别。 超越肉眼极限:利用CNN与Vision Transformer实现高精度花粉视觉分类
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

数据科学与工程

数据科学家:驾驭第一性原理思维,突破框架限制

2025年10月16日
数据科学与工程

Python数据处理新选择:Polars与DuckDB实战教程

2025年11月22日
使用API函数调用的生产计划n8n工作流 – (图片来源:Samir Saci)
数据科学与工程

n8n中的数据分析:从Python到JavaScript的代码节点应用策略

2025年9月22日
图片由Kai Damm Jones通过Unsplash提供
大模型与工程化

揭秘AI核心:深度洞察大模型运作机制与安全部署

2025年9月26日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up