前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
数据科学与工程

数据可视化深度解析:它究竟是什么,又为何举足轻重?

NEXTECH
Last updated: 2025年9月22日 上午9:19
By NEXTECH
Share
23 Min Read
SHARE

在当今数据科学领域,某些技术备受追捧,然而,它们或许只是次要环节,更重要的是一个常被忽视的领域核心。

Contents
何为数据可视化?数据可视化的早期案例精确性与灵活性结语与展望参考文献

在处理数据时,存在两个至关重要的步骤:

  1. 处理和分析数据,以提取有意义的洞察。
  2. 将这些洞察传达给他人。

第二点至关重要,却常常被忽视。世界上最先进的算法或最有益的洞察,如果无人能理解,便毫无用处。作为数据科学家,必须学会将洞察传达给他人。这背后有不止一个原因,显而易见的一点是,如果正确的人理解了数据,整个世界将从中受益。然而,还有另一个同样重要的原因:通常在向他人描述发现的过程中,才能发现错误、获得更深层次的知识,或者发现进一步探索的领域。

本文将探讨一个强大而有效的工具,它能帮助实现上述第二步:数据可视化。这是系列文章的第一篇,旨在引导初学者深入数据可视化的世界。本文内容通用且轻松,旨在作为该领域的整体介绍。在后续文章中,将深入探讨更技术性的方面,最终教授如何构建自己的数据可视化作品。

掌握这些知识后,将能以全新、激动人心的方式处理数据。

“图片最大的价值在于,它迫使我们注意到那些我们从未预期看到的事物。” –约翰·图基(John Tukey)

何为数据可视化?

许多人对数据可视化持狭隘的看法,仅将条形图、折线图等标准图表归类为真正的数据可视化。从这个角度看,数据可视化直到18世纪中期才出现。(下文将展示一些例子。)

You Might Also Like

AI时代下的真实智能:数据科学家的成长与思考
数据文化:是症状,非解药——解锁数据和AI价值的关键
打造数据科学与机器学习高薪Offer简历:从实战经验到ATS优化秘籍
DAX 用户定义函数实战:构建智能通胀预测模型

然而,拓宽思路至关重要。数据的视觉转化绝不局限于传统的观念。它们已经存在了数千年。例如,这是《世界地图》(Imago Mundi)[1],世界上已知最古老的地图,作为古巴比伦的遗迹被发现:

世界最古老地图——巴比伦世界地图

图片来源:维基共享资源

这张地图将巴比伦置于中心,很可能是用于可视化我们现在正式称之为地理空间数据的极其有用的工具。它是世界上最早的数据可视化之一。

从各种古代文明中,有大量类似的图形和图像——洞穴壁画、日历、石刻,甚至埃及象形文字——这些都有效地将难以理解的原始数据进行了视觉呈现。将这些例子视为数据可视化,引导我们得出一条重要原则:

数据可视化的核心,无非是将一些数据——无论是数字、文本还是其他形式——进行转换,以视觉方式呈现出来。

这一基本原则引出了几个相关主题,主要涉及进行这些转换最有效的方法,其中“有效”大致意味着“真实、易懂且信息丰富”。

数据可视化的早期案例

既然拓宽了对数据可视化定义的认识,接下来审视一些现代示例。下图是迈克尔·弗洛伦特·范·朗伦(Michael Florent Van Langren)于1644年绘制的图表[2]。它是我们所认为的传统统计数据最早的图形表示之一,描绘了罗马和托莱多之间经度差异的估算值。

1644年描绘罗马和托莱多之间经度差异估计值的图表

这张图描绘了罗马和托莱多两城市之间经度差异的12个估计值。

接下来考虑一个更复杂的例子——它直接印证了约翰·图基的上述名言。

下图是约翰·斯诺(John Snow)于1854年绘制的伦敦苏荷区地图[3]。他设计这张地图是为了确定当时困扰该镇的霍乱疫情是否存在任何模式:

1854年伦敦苏荷区霍乱疫情死亡人数分布图

描绘了1854年霍乱疫情期间伦敦苏荷区死亡人数的地图。图片来源:Picryl公共领域

看向地图中心,可以发现布罗德街水泵附近有异常大量的死亡病例。调查证实,这个水泵受到污染,是疾病传播的主要原因。

这个例子恰好突显了约翰·图基上述的原则:数据可视化的最佳用途之一是能够迅速发现数据原始形式难以察觉的洞察。

精确性与灵活性

数据可视化是一个广阔而深入的话题,可以通过多种方式进行探讨。尽管如此,无论采用何种具体形式的数据可视化,都应牢记两条原则:精确性和灵活性。

好的数据可视化不会试图完成定义模糊的任务,例如展示数据集的“精髓”或总结“所有重要信息”。这样的说法是主观的,并且本质上不可能实现。

相反,好的数据可视化应以一种更易于用户理解的方式,突出相关数据中特定且明确的方面。在开始设计可视化之前,始终应准确阐明想要通过数据表达的内容。

为了内化这一原则,回顾数据可视化的初衷很有帮助:以清晰有用的方式展示数据集中的洞察。目标是让数据更容易理解。保持精确性确保实现这一目标。一个试图做太多事情的可视化最终可能会让观看者更加困惑。呈现少量数据但表达更清晰的可视化效果要好得多。质量比数量更重要。

请看下面的数据表,其中包含美国不同城市薪资的信息。

| 姓名 | 城市 | 收入 | 职业 |
| — | — | — | — |
| Sarah Mitchell | Denver, CO | $72,500 | Marketing Manager |
| Jamal Rodriguez | Houston, TX | $58,300 | Electrician |
| Priya Desai | Seattle, WA | $91,200 | Software Engineer |
| Thomas Nguyen | Chicago, IL | $64,800 | Nurse |

对于上述数据,以下哪种可视化选择更好?

  1. 一种可视化,试图通过条形图简化数据表中的信息,其中一个轴是姓名,另一个轴是薪资,使用颜色区分城市,并使用条形上的纹理(虚线、斜线等)区分职业。
  2. 与上述可视化相同,但这次排除了职业。换句话说,是一个以姓名和薪资为轴,并根据地点对条形进行着色的条形图。

选择第一种方案很诱人,但事实是,它试图承载的信息过多。最好是展示有限、有针对性的信息,而不是让受众感到困惑。

除了精确性,保持灵活性也同样重要。不存在完美的数据可视化。总有改进的空间,数据可视化通常会随着每次修订而变得更好。当然,在某个时候,数据可视化必须与他人分享并发挥其作用。

这引出了一个难题——多少次修订才算足够?这个问题没有明确的答案。修订可视化的过程必须谨慎进行。向太多人征求意见可能会导致一堆半生不熟、相互冲突的意见。另一方面,发布可视化作品的初稿——即完全不修订——很可能导致结果不尽人意。

虽然没有完美的解决方案,但可以遵循以下几项指导原则:

  • 确定2-3位人员对可视化作品提供反馈。

  • 尽量确保这份名单涵盖以下角色:

    • 一位精通数据可视化设计的人员

    • 一位对用于开发可视化的数据有深入理解的人员(例如,一位政治学家负责选举数据)

    • 一位属于可视化目标受众的人员

  • 与同一批人员进行2-3轮反馈和修订。这将确保可视化作品的改进是持续且逻辑连贯的。

结语与展望

在许多方面,数据可视化都类似于写作。即使是最多产、最有才华的作者也有编辑,他们的书籍在获准出版之前也会经历广泛的修订。为什么?原因很简单,好的写作很大程度上取决于受众,而精心策划的修订确保了书籍最终读者的最佳体验。同样的理念也适用于数据可视化。

遵循这些指导原则,便能确保开发出健壮的数据可视化作品,它不仅以最佳实践为基础,正确展示了现有数据,而且对目标受众而言易于理解。

它们是有效数据可视化的关键,也是未来文章中将讨论的先进可视化技术的基础。期待与您再见。

参考文献

[1] https://commons.wikimedia.org/wiki/File:TheBabylonianmapoftheworld,fromSippar,Mesopotamia..JPG

[2] The Visual Display of Quantitative Information, Edward Tufte

TAGGED:信息传达可视化原则数据可视化数据科学霍乱地图
Share This Article
Email Copy Link Print
Previous Article 20250922002729957.jpg PlayStation与Xbox:游戏主机之战,何以不再关乎“盒子”与“平台”本身?
Next Article 曼德尔布罗特集合性能比较图 Python性能突破:集成Mojo实现代码加速与高效计算
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

图片由Kai Damm Jones通过Unsplash提供
大模型与工程化

揭秘AI核心:深度洞察大模型运作机制与安全部署

2025年9月26日
数据科学与工程

超越预测:数据科学家如何利用搜索理论模型驾驭平台经济复杂性

2025年10月3日
利用API函数调用进行生产计划的n8n工作流 – (图片由Samir Saci提供)
数据科学与工程

n8n数据分析:从Python到JavaScript的实战攻略与性能优化

2025年9月22日
数据科学与工程

Python数据处理新选择:Polars与DuckDB实战教程

2025年11月22日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up