前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

解码海量观测数据中的非线性信号:气候模式识别的机器学习之旅

NEXTECH
Last updated: 2025年9月25日 上午6:35
By NEXTECH
Share
111 Min Read
SHARE

近几十年来,全球气候监测取得了显著进展,促成了大量新型、全面的观测数据集的创建(Karpatne et al., 2019)。这些数据集通过提供对复杂物理过程的详细见解,对于改进数值天气预报和优化遥感反演至关重要(Alizadeh, 2022)。然而,随着数据量和复杂性的增长,从观测数据中识别模式变得愈发具有挑战性(Zhou et al., 2021)。从这些数据集中提取关键特征,有望在理解对流和降水等现象方面取得重要突破,从而进一步加深对全球气候变化的认识。

Contents
1. 微物理数据集2. 使用PCA检验线性嵌入3. 使用UMAP进行非线性维度约减结论参考文献

本文将以降水为例,探索其中一些复杂的数据模式。在全球气温变暖的背景下,降水被认为是极具研究价值的关键领域(IPCC, 2023)。本次项目并非依赖随机生成或模拟数据,而是采用全球范围内的真实观测数据,这些数据已公开可供读者探索和实验。本文旨在作为一份研究指南,从高质量数据的重要性入手,最终深入探讨数据中的线性和非线性解释。

若读者希望通过代码进行实践,可查阅随附的交互式Google Colab笔记本。

本次分析分为三个部分,每个部分均对应一篇已发表的独立研究文章:

  1. 构建一个鲁棒的多维数据集
  2. 分析线性嵌入
  3. 探索非线性特征

1. 微物理数据集

https://doi.org/10.1029/2024EA003538

当讨论理解降水特征时,究竟在探究什么?像雨或雪这样常见的事物,能有多复杂?在暴风雨天气中,人们很容易说“下雨了”或“下雪了”。但这些时刻实际发生了什么?能否更精确地描述?例如,降雨强度如何?雨滴是大是小?如果下雪,雪花是什么样子?它们是蓬松的树枝状晶体,还是由多个融合粒子组成的大块聚合物(例如图1)?如果温度徘徊在零摄氏度附近,雪花是否会变得致密而泥泞?它们下落的速度有多快?这些差异可能会对粒子到达地面时发生的情况产生巨大影响,将这些过程分类为不同的组并非易事(Pettersen et al., 2021)。

You Might Also Like

强化学习进阶:时序差分学习(TD)深度解析与高效探索策略——Q-learning、Dyna-Q、Dyna-Q+算法实战对比
军工巨头试图瓦解美军维修权法案,数据服务模式或成新障碍
超薄iPhone Air:惊人坚固,弯曲测试揭示216磅极限
机器学习在面板数据应用中的陷阱:数据泄露与实践指南

图1:由多个融合雪花组成的聚合物雪粒的微距照片

图1:由多个融合雪花组成的聚合物雪粒的微距照片 — 作者摄

理解这些过程对于更好地监测和缓解洪水、径流、冻雨和极端降水等潜在危险事件的影响至关重要,这些事件每年在全球造成数十亿美元的损失(Sturm et al., 2017)。然而,数千个粒子在短短几分钟内落在几平方米的区域内,如何量化这一复杂过程?这不仅仅是计数粒子,还需要捕捉尺寸和形状等关键特征。研究人员通常依赖遥感仪器来完成这项繁重的工作,而不是手动尝试(这是一项不可能完成的任务)。美国国家航空航天局(NASA)的降水成像包(PIP)就是这样一种工具,它是一种视频粒子谱仪,能够提供对下落雨滴和雪粒的详细观测(Pettersen et al., 2020),如图2所示。

图2:PIP仪器在密歇根州马凯特市的设置(摄像头和灯泡)

图2:PIP仪器(摄像头和灯泡)在密歇根州马凯特市的设置照片 — 图片由Claire Pettersen提供

这种相对经济的仪器由一个150瓦的卤素灯泡和一个高速摄像机(以每秒380帧的速度捕捉)组成,两者相距两米(King et al., 2024)。当粒子在灯泡和摄像机之间落下时,它们会阻挡光线,形成剪影,可用于分析尺寸和形状的变化。通过在多个帧中跟踪同一粒子,PIP软件还可以确定其下落速度(图3)。通过对空气中粒子运动的额外假设,PIP数据还能够推导出一分钟尺度的粒子尺寸分布(PSD)、下落速度和有效粒子密度分布(Newman et al., 2009)。这些微物理测量结果与附近地表变量(如温度、相对湿度、压力和风速)的气象观测结果相结合,提供了观测时环境的全面快照。

图3:2021年圣诞前夜在康涅狄格州斯托尔斯录制的PIP视频,显示下落的雪花(1/20倍速),受风干扰导致粒子横向飘落。

图3:2021年圣诞前夜在康涅狄格州斯托尔斯录制的PIP视频,显示下落的雪花(1/20倍速),受风干扰导致粒子横向飘落 — 视频由Larry Bliven提供 [来源: https://www.youtube.com/@larrybliven832]

在长达10年的时间里,研究人员在10个不同地点(图4)收集了超过100万分钟的粒子微物理观测数据,以及共定位的地表气象变量。从多个区域气候在如此长的时间内收集数据,对于建立一个鲁棒的降水事件数据库至关重要。为确保一致性,所有微物理观测均使用相同类型的仪器,并采用相同的校准设置和软件版本进行记录。随后,研究人员进行了一项广泛的质量保证(QA)过程,以消除错误数据,纠正时间漂移,并移除任何不符合物理规律的异常值。这些经过整理的信息随后被标准化,打包成网络通用数据形式(NetCDF)文件,并通过密歇根大学的DeepBlue数据存储库公开。

鼓励读者下载并探索该数据集!有关所包含站点、质量保证过程以及不同地点之间观察到的微物理差异的更多详细信息,请参阅发表在《地球与空间科学》期刊上的相关数据论文。

图4:a) 测量站点的地理位置;b) 各站点观测数据覆盖时间的甘特图。

图4:a) 测量站点的地理位置;和 b) 各站点观测数据覆盖时间的甘特图 — 作者绘图

为了描述粒子尺寸分布(PSD),研究人员计算了一对参数(n0和λ),它们分别代表逆指数拟合的截距和斜率(公式1)。选择这种拟合是因为它在以往文献中已被广泛用于准确描述降雪PSD(Cooper et al., 2017; Wood and L’Ecuyer, 2021)。然而,未来工作中也可以考虑其他拟合方法(例如伽马分布),以更好地捕捉大型聚合粒子(Duffy et al., 2022)。

图5
各站点n0-λ联合2D直方图如图5所示,展示了不同区域气候下发生的各种降水PSD。请注意,有些站点(如OLY)显示出双峰分布,而另一些站点(如NSA)则显示出非常窄的分布。研究人员还为此构建了一个名为pipdb的Python API,用于与这些数据进行交互和可视化。有关如何安装和使用此软件包的更多信息,请参阅readthedocs上的文档。

图6

图5:各站点逆指数截距(n0)和斜率(λ)PSD参数的2D联合直方图 — 作者绘图

总之,本研究汇编了一个高质量、多维度的降水微物理观测数据集,捕捉了粒子尺寸分布、下落速度和有效密度等细节。这些测量数据辅以一系列附近的地表气象变量,为每分钟发生的具体降水类型(例如,当时是温暖还是寒冷?)提供了关键的背景信息。本项目收集的所有变量列表如表1所示。

图7

表1:DeepBlue数据集中收集并提供的所有微物理和地表气象变量摘要 — 作者绘图

那么,**如何利用这些数据进行进一步的探索呢?**


2. 使用PCA检验线性嵌入

https://doi.org/10.1175/JAS-D-24-0076.1

数据收集完毕后,便可开始对其进行利用。研究人员首先通过主成分分析(PCA)探索线性嵌入,遵循了Dolan等人(2019)的方法。他们的工作侧重于揭示降雨滴谱分布(DSDs)中的潜在特征,识别出与不同地点雨滴形成物理过程相关的六个关键变异模式。在此基础上,本研究旨在利用第一部分中的定制数据集,将分析扩展到降雪事件。PCA 的具体机制在此不再赘述,因为在TDS上已有许多优秀资源详细介绍了其实现。

在应用PCA之前,研究人员将整个数据集分割成离散的5分钟间隔。这种分割方式允许在足够大的样本量下计算PSD参数。随后,研究人员过滤这些间隔,仅选择那些有效密度值低于0.4 g/cm³的样本(即通常与降雪相关且以密度较小的粒子为特征的值)。经过此过滤,数据集最终包含**210,830个5分钟时段**,可用于分析。对于用于拟合PCA的变量,研究人员从表1中选择了与降雪相关的子集,这些变量来源于PIP。这些变量包括**n0、λ、Fs、Rho、Nt和Sr**(详见表1)。本次分析仅关注了来自粒子谱仪的较小观测子集,这是因为未来的站点可能不具备共定位的地表变量,因此研究人员更关注仅从这个六维数据集中能提取到什么信息。

在深入分析之前,首先检查数据以确保一切符合预期至关重要。数据质量对结果有着决定性影响,因此需尽量减少不良数据的影响。通过检查每个变量的数值分布,研究人员确认它们落在预期范围内。此外,还审查了输入变量的协方差矩阵,以获得对其联合行为的一些初步见解(图6)。例如,与粒子数量密切相关的n0和Nt等变量,如预期般显示出高度相关性;而有效密度(Rho)和Nt等变量之间的关系则较弱。在对输入进行缩放和归一化之后,研究人员将它们输入到scikit-learn的PCA实现中。

图8

图6:PCA输入变量的协方差矩阵热图 — 作者绘图

将PCA应用于输入数据,产生了三个经验正交函数(EOFs),它们共同解释了数据集中95%的变异性(图7)。第一个EOF最为显著,捕捉了数据集中约55%的方差,这从图6.a中其广泛的分布可见一斑。当检查每个输入变量EOF值的标准异常时,EOF1显示出与所有输入变量的强负相关。第二个EOF解释了约20%的方差,具有稍窄的分布(图6.b),并且与下落速度(Fallspeed)和密度(Rho)输入变量关联最强。最后,EOF3解释了约15%的方差,主要与λ和降雪率变量相关(图6.c)。

图9

图7:a) EOF1与EOF2的标准化计数2D联合直方图;b) EOF2与EOF3的标准化计数2D联合直方图;c) EOF3与EOF1的标准化计数2D联合直方图;d) 每个标准化输入特征的EOF值(请注意每个异常值的符号是任意的) — 作者绘图

单独来看,这些EOF在物理上难以解释。它们到底捕捉了哪些潜在特征?这些嵌入是否具有物理意义?一种简化解释的方法是关注每个分布中最极端的值,因为它们与每个EOF的关联性最强。虽然这种手动聚类方法使大部分靠近原点的分布变得模糊不清,但它允许我们将数据分成不同的组,以便更仔细地分析。通过应用σ > 2的阈值(在图6.a-c中由细白色虚线表示),可以将这个3D点分布划分为六个具有相同采样体积的离散组。由于在2D中可视化这种分离特别具有挑战性,研究人员提供了一个使用Plotly创建的交互式数据查看器(图8),以使这种区分更加清晰。读者可点击下方图表,自行探索数据。

图10

图8:PCA EOF嵌入的交互式3D Plotly散点图。点按其各自手动聚类组着色(模糊点为灰色)。点击可与数据交互 — 作者绘图

选定最极端的EOF聚类后,现在可以将它们绘制在物理变量空间中,开始对其进行解释。这在图9中通过不同变量空间进行演示:n0-λ(面板a)、Fs-Rho(面板b)、λ-Dm(面板c)和Sr-Dm(面板d)。从图9.a中的红色和蓝色聚类(分别代表EOF1的正值和负值)开始,观察到n0-λ空间中存在明显分离。红色聚类以高PSD截距和斜率(表示高强度分组,暗示存在大量小粒子)为特征,而蓝色聚类则显示出相反的行为。这表明可能存在强度嵌入。

在面板b中,紫色和浅蓝色聚类(分别对应EOF2的正值和负值)之间存在明显分离。紫色聚类与高下落速度和密度相关联,与显示相反特征的浅蓝色聚类形成对比。这种模式可能代表了粒子温度/湿度的嵌入,描述了雪花下落时的“粘性”。较温暖、较致密的粒子(例如部分融化或冻结的粒子)往往下落速度更快,就像泥泞的雪球比干燥的雪花下落得更快一样。

最后,在面板c和d中,黄色和洋红色聚类根据PSD斜率和质量加权平均直径进行分离。尽管不如前两组清晰,但这表明可能与粒子尺寸和潜在降雪模式(例如复杂浅层系统和深层系统之间的差异)存在关联。

图11

图9:各PC组的物理变量空间比较,包括:a) n0-λ,b) Fs-Rho,c) λ-Dm 和 d) Sr-Dm,彩色等高线突出了每个PC组的平滑核密度近似。 — 作者绘图

为了增强对这些归因的信心,研究人员通过将基于PCA的降雪分类结果与附近的地面雷达观测(例如微雨雷达)及再分析数据(例如ERA5)进行交叉比对,以评估其物理一致性。这也是在维度约减过程中不建议始终使用所有可用数据的原因之一,因为这会限制后续评估嵌入稳健性的能力。为验证该方法,研究人员检查了密歇根州马凯特(MQT)的一系列案例研究,以评估这些分类的吻合程度。例如,在图10中,观察到降雪从高强度暴风雪(红色)过渡到部分融化的混合相雪晶(雨夹雪),因为温度短暂升高到零摄氏度以上(面板h),随后在当天晚些时候温度降至零度以下时,又回到了高强度降雪。这与反射率的变化(面板a)也保持一致,并且可以在面板i的n0-λ图中看到这种转变。

图12

图10:2018年12月2日马凯特MQT站点的PC组2和4以及辅助观测数据。图中上方显示了PC组在5分钟时间步长内与共定位的a) MRR反射率(Ze)观测值;b) ERA5大气温度(T)估计值(黑色虚线表示零度等温线);c) MRR多普勒速度(DV)观测值;d) ERA5大气相对湿度(RH)估计值;e) MRR谱宽(SW)观测值;f) ERA5大气垂直速度(ω)估计值;g) PCA的EOF1、EOF2和EOF3值;h) 2米气温(T)(黑色)、相对湿度(RH)(灰色)和气压(P)(棕色)的地表气象观测值;i) 每个PIP观测值在n0-λ空间中的绘图,灰色表示模糊点,红色表示PC组2,紫色表示PC组4(黑色圆圈表示所有其他站点的所有点)。黑色虚线表示枝状晶体生长区的位置。 — 作者绘图

在PCA分析及其与共定位观测数据的一致性基础上,研究还构建了图11,总结了通过PCA识别出的主要线性嵌入在不同物理变量空间中的分布情况。这些分类提供了关键的微物理见解,可以增强先验数据集,最终提高最先进模型和降雪反演的准确性。

图13

图11:a) n0-λ空间和b) Fs-Rho空间中PCA衍生的降雪属性概念模型。黑点代表所有站点所有的PIP观测值,彩色等高线描绘了通过平滑核密度近似生成的每个PC组。每个推断的物理属性都用白色标签标注在各等高线上。 — 作者绘图

然而,由于PCA仅限于线性嵌入,这引出了一个重要问题:**数据集中是否存在尚未探索的非线性模式?**此外,如果将分析范围从降雪扩展到其他降水类型,又将发现哪些新的见解?

接下来的章节将深入探讨这些问题!


3. 使用UMAP进行非线性维度约减

https://doi.org/10.1126/sciadv.adu0162

为了探究更复杂的非线性嵌入,需要考虑一种不同类型的无监督学习方法,它放宽了PCA等技术的线性假设。这引入了流形学习(manifold learning)的概念。流形学习的核心思想是,高维数据通常位于原始数据空间中一个较低维度的弯曲流形上(McInnes et al., 2020)。通过映射这个流形,可以揭示线性方法可能遗漏的底层结构和关系。t-SNE、UMAP、VAE或Isomap等技术能够揭示这些复杂的模式,提供对数据集潜在特征更细致的理解。将流形学习应用于本研究的数据集,有望发现非线性嵌入,进一步区分降水类型,从而对所涉及的微物理过程提供更深入的见解。未来研究方向的初步线索可参见图12。如前所述,这类方法的实现细节在此不再赘述,在TDS上已有诸多详细介绍。

图14

图12:降水数据集的3D UMAP嵌入 — 作者绘图

此外,本研究希望此次能使用整个数据集,包括粒子谱仪观测和共定位的地表气象变量,以探究额外维度是否能为更好地区分高度复杂的物理过程提供有用背景。例如,如果了解观测时的温度和湿度,能否检测到不同类型的混合相降水?因此,与上一节中仅限于**PIP数据**和**降雪数据**作为输入不同,本次分析现在包含了**整个数据集的所有12个维度**。由于并非所有站点都配备运行中的地表气象站以获取数据,这也将总样本量减少到7个地点的128,233个5分钟时段。正如这类问题常有的情况,随着维度增加,研究人员将面临可怕的**维度灾难**。

随着特征空间维度的增加,配置的数量可以呈指数级增长,因此观测所覆盖的配置数量会减少 — Richard Bellman

输入数量与特征稀疏性之间的这种权衡是需要持续关注的挑战。幸运的是,本研究只有12个维度,这看起来可能很多,但与自然科学中许多可能拥有数千个维度的其他项目相比,这实际上相当小(Auton et al., 2015)。

如前所述,本研究在项目此阶段探索了多种非线性模型(参见表2)。在任何机器学习(ML)项目中,通常会优先采用更简单、更具可解释性的方法,再逐步过渡到更复杂的模型,因为较不复杂的方法往往更高效且易于理解。

本着这一策略,研究人员首先在第2部分的结果基础上,再次使用PCA作为这个包含雨雪粒子的更大数据集的基线。随后,将PCA与Isomap、VAE、t-SNE和UMAP等非线性技术进行了比较。经过一系列敏感性分析,发现UMAP在生成清晰嵌入方面表现优于其他方法,且计算效率更高,因此成为本文讨论的重点。此外,由于UMAP改进了数据在流形上的全局分离效果,研究人员可以超越手动聚类,采用更客观的方法,如基于分层密度空间聚类的带噪声应用(HDBSCAN)来将相似案例分组(McInnes et al., 2017)。

图15

表2:项目中非线性比较部分所检验方法的概述 — 作者绘图

将UMAP应用于这个12维数据集,识别出了三个主要的潜在嵌入(LEs)。研究人员尝试了各种超参数,包括嵌入数量,发现与PCA类似,前两个嵌入最为重要。第三个嵌入在某些组之间也显示出一些分离,但超过第三个级别后,额外的嵌入几乎不提供分离,因此被排除在分析之外(尽管未来在进一步研究中可能会对其进行探讨)。前两个LE,连同密歇根州马凯特市的一个案例研究示例,展示了24小时内的离散数据点,如下图13所示。

图16

图13:UMAP+HDBSCAN降水过程聚类概述。a) 所有站点所有观测值的UMAP坐标(灰色点),叠加了HDBSCAN衍生的彩色密度聚类(质心显示为白色圆圈),并标注了归因的物理降水过程和关键摘要特征。b) 示例日期显示了密歇根州马凯特市全天粒子习性演变。c) 图b所示事件的辅助观测数据。 — 作者绘图

研究人员立即注意到与之前使用PCA进行的降雪专题研究的几个关键差异。随着雨和混合相数据的加入,第一和第二经验正交函数(EOF1和EOF2)现在交换了位置。主要的嵌入现在编码的是粒子相态信息,而不是强度。强度转移到第二潜在嵌入(LE2),仍然很重要,但现在是次要的。第三个LE似乎仍然与粒子尺寸和形状有关,特别是在流形的降雪部分。

将HDBSCAN应用于UMAP生成的流形组,产生了九个不同的聚类,以及一个模糊聚类(图13.a)。与PCA相比,聚类之间的分离更加清晰,这些组似乎代表了不同的物理降水过程,范围从降雪到混合相再到不同强度级别的降雨。有趣的是,模糊点和图中节点之间的连接形成了**清晰的粒子习性演化路径**。这一发现尤其引人入胜,因为它描绘了明确的粒子演化途径,展示了雨滴在适当的大气条件下如何转化为冰冻的雪晶。

图13.b展示了这一现象的一个真实世界示例,该现象于2023年2月15日在马凯特市观测到。每个彩色环代表当天的一个独立(5分钟)数据点,箭头指示时间方向。在图13.c中,研究人员叠加了辅助雷达观测数据和地表温度。直到世界协调时12:00左右,在大约1公里处可以看到清晰的反射率亮带,表明存在融化层,在该层温度足够高,雪会融化成雨。这一时期使用UMAP+HDBSCAN(UH)聚类方法被正确分类为降雨。随后,在世界协调时17:00左右,温度迅速降至冰点以下,导致粒子被分类为混合相,最终为降雪。这类测试对于确保流形形状所暗示的物理意义至关重要。

若读者想自行探索此流形,查看不同站点以及不同变量如何映射到嵌入空间,可访问此交互式数据分析工具,或点击下方图14。

图17

图14:UMAP LE嵌入的交互式3D Plotly散点图。点按其各自HDBSCAN聚类组着色(模糊点为黑色)。点击可与数据交互。 — 作者绘图

当读者探索上述工具时,会注意到将各种输入特征映射到流形嵌入中会产生平滑的梯度。这些梯度表明数据的整体全局结构可能以有意义的方式被捕获,为嵌入所编码的内容提供了有价值的见解。

将UMAP与PCA(PCA应用于与UMAP完全相同的数据集)的点分离进行比较,结果显示UMAP具有显著更好的分离效果,尤其是在降水相态方面。虽然PCA可以大致区分“液体”和“固体”粒子,但它难以处理更复杂的混合相粒子。这一局限性在图15.d-e所示的分布中显而易见。PCA常受困于原点附近的方差过密,导致可识别的聚类数量与模糊超聚类的大小之间存在权衡。尽管HDBSCAN可以像UMAP一样应用于PCA,但它仅生成两个聚类(雨和雪),这本身并没有特别大的用处,并且可以通过简单的线性阈值实现。相比之下,UMAP提供了更好的分离效果,模糊点减少了37%,聚类的轮廓系数比PCA高0.14(0.51)。

图18

图15:使用相同数据集训练的PCA与UMAP对比图,显示了a) PCA和b) UMAP的聚类组;c) 显示了两种技术之间模糊点的总数;d) 和e) 显示了每种技术的LE1/EOF1和LE2/EOF2的1D KDE。 — 作者绘图

如同之前对PCA所做的那样,在使用UMAP时,研究人员同样进行了一系列案例研究比较,以强化对物理聚类的归因。通过将这些结果与共定位的MRR观测数据进行比较,可以评估PIP上方大气中报告的条件是否与UH聚类产生的归因一致,以及这些归因与PCA聚类结果的比较。在下面的图16中,研究人员在马凯特市检查了其中几个案例。

图19

图16:UMAP和PCA分类与马凯特MQT站三天共定位地面雷达数据的案例研究比较。 — 作者绘图

在第一列(a)中,展示了一个长时间混合相事件的示例,重点关注LE1,该事件已通过马凯特市的记录天气报告证实。在顶部面板中,PCA和UMAP均将世界协调时19:00之前的时间段识别为降雨。然而,在此之后,PCA的聚类变得稀疏且大部分模糊,而UMAP则成功地将世界协调时19:00之后的时间段映射为混合相,区分了湿冰粒(绿色)和较冷的泥泞雪粒(紫色)。

在面板(b)中,着重展示了一个强度变化(LE2)的案例,其中条件从高强度混合相转变为低强度混合相,随后随着温度降低又回到高强度降雪。UMAP再次提供了比PCA稀疏结果更详细和一致的分类。

最后,在面板(c)中,探索了一个涉及LE3的案例:直到世界协调时15:00是一个浅层系统,随后一个深层对流系统移过该站点,导致雪粒的尺寸、形状复杂性和强度增加。在这里,UMAP同样展示了对事件更全面的映射。需要指出的是,这些仅是几个精选案例研究;更全面的跨年度比较,建议查阅完整的论文。

总体而言,研究发现使用UMAP生成的非线性3D流形对降水相态、强度和粒子尺寸/形状提供了平滑且准确的近似(图17)。当与基于层次密度的聚类方法结合时,所得的聚类结果清晰且与独立观测在物理上保持一致。尽管PCA能够捕捉一般的嵌入结构(EOF 1-3与LE 1-3大致相似),但它在表示数据的全局结构方面存在不足,因为许多这些过程本质上是非线性的。

图20

图17:降水数据集最终UMAP流形的3D可视化。 — 作者绘图

那么,这些研究结果意味着什么呢?


结论

本研究已开发了一个高质量的多年多站点降水观测数据集,并利用这些数据应用了线性和非线性维度约减技术,旨在深入了解数据本身的结构!在所有方法中,与粒子相态、降水强度和粒子尺寸/形状相关的嵌入最为显著。然而,只有非线性技术能够捕捉到数据复杂的全局结构,揭示出与独立观测高度吻合的独特降水群。

研究人员认为,这些群组(以及粒子转变路径)可用于改进当前的卫星降水反演和数值模型微物理参数化。鉴于此,研究人员已构建了一个操作参数矩阵(查找空间如图18所示),该矩阵根据温度(T)和粒子数量(Nt)为每个群组生成一个平滑的条件概率向量。请查阅相关手稿以获取此表的访问/API详细信息。

图21

图18:UMAP+HDBSCAN查找表直方图的2D映射。 — 作者绘图

UMAP等非线性维度约减技术仍相对较新,尚未在地球科学领域涌现的大规模数据集中得到广泛应用。需要注意的是,这些技术并非完美,且存在根据问题背景而定的权衡,因此应牢记这一点。然而,本研究首先基于PCA,再进一步探索非线性技术,结果表明这些方法能高效地捕捉数据结构,凸显了精心策划和全面观测数据库的价值,期待未来能有更多此类数据库的涌现。


数据与代码

用于PCA和UMAP输入的PIP和地表气象观测数据可在密歇根大学的DeepBlue数据存储库上公开下载(https://doi.org/10.7302/37yx-9q53)。该数据集以一系列文件夹形式提供,包含每个站点和年份的NetCDF文件,并采用标准化的CF元数据命名约定。欲了解更多详细信息,请参阅数据论文(https://doi.org/10.1029/2024EA003538)。ERA5数据可从哥白尼气候数据存储库下载。

PIP数据预处理代码可在公共GitHub存储库(https://github.com/frasertheking/pip_processing)上获取,并提供了一个名为pipdb的自定义Python API,用于与粒子微物理数据进行交互(https://github.com/frasertheking/pipdb)。降雪PCA项目代码可在GitHub上获取(https://github.com/frasertheking/snowfall_pca)。此外,用于拟合维度约减方法、聚类案例、分析输入和生成图表的代码也可在另一个公共GitHub存储库(https://github.com/frasertheking/umap)下载。


参考文献

Alizadeh, O. (2022). Advances and challenges in climate modeling. Climatic Change, 170(1), 18.https://doi.org/10.1007/s10584-021-03298-4

Auton, A., Abecasis, G. R., Altshuler, D. M., Durbin, R. M., Abecasis, G. R., Bentley, D. R., Chakravarti, A., Clark, A. G., Donnelly, P., Eichler, E. E., Flicek, P., Gabriel, S. B., Gibbs, R. A., Green, E. D., Hurles, M. E., Knoppers, B. M., Korbel, J. O., Lander, E. S., Lee, C.,… National Eye Institute, N. (2015). A global reference for human genetic variation. Nature, 526(7571), 68-74.https://doi.org/10.1038/nature15393

Cooper, S. J., Wood, N. B., & L’Ecuyer, T. S. (2017). A variational technique to estimate snowfall rate from coincident radar, snowflake, and fall-speed observations. Atmospheric Measurement Techniques, 10(7), 2557-2571.https://doi.org/10.5194/amt-10-2557-2017

Dolan, B., Fuchs, B., Rutledge, S. A., Barnes, E. A., & Thompson, E. J. (2018). Primary Modes of Global Drop Size Distributions. Journal of the Atmospheric Sciences, 75(5), 1453-1476.https://doi.org/10.1175/JAS-D-17-0242.1

Duffy, G., & Posselt, D. J. (2022). A Gamma Parameterization for Precipitating Particle Size Distributions Containing Snowflake Aggregates Drawn from Five Field Experiments. Journal of Applied Meteorology and Climatology, 61(8), 1077-1085.https://doi.org/10.1175/JAMC-D-21-0131.1

IPCC, 2023: Climate Change 2023: Synthesis Report. Contribution of Working Groups I, II and III to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change [Core Writing Team, H. Lee and J. Romero (eds.)]. IPCC, Geneva, Switzerland, pp. 35-115, doi: 10.59327/IPCC/AR6-9789291691647.

Karpatne, A., Ebert-Uphoff, I., Ravela, S., Babaie, H. A., & Kumar, V. (2019). Machine Learning for the Geosciences: Challenges and Opportunities. IEEE Transactions on Knowledge and Data Engineering, 31(8), 1544-1554.https://doi.org/10.1109/TKDE.2018.2861006

King, F., Pettersen, C., Bliven, L. F., Cerrai, D., Chibisov, A., Cooper, S. J., L’Ecuyer, T., Kulie, M. S., Leskinen, M., Mateling, M., McMurdie, L., Moisseev, D., Nesbitt, S. W., Petersen, W. A., Rodriguez, P., Schirtzinger, C., Stuefer, M., von Lerber, A., Wingo, M. T.,… Wood, N. (2024). A Comprehensive Northern Hemisphere Particle Microphysics Data Set From the Precipitation Imaging Package. Earth and Space Science, 11(5), e2024EA003538.https://doi.org/10.1029/2024EA003538

McInnes, L., Healy, J., & Astels, S. (2017). hdbscan: Hierarchical density based clustering. The Journal of Open Source Software, 2(11), 205.https://doi.org/10.21105/joss.00205

McInnes, L., Healy, J., & Melville, J. (2020). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction (arXiv:1802.03426). arXiv.https://doi.org/10.48550/arXiv.1802.03426

Newman, A. J., Kucera, P. A., & Bliven, L. F. (2009). Presenting the Snowflake Video Imager (SVI). Journal of Atmospheric and Oceanic Technology, 26(2), 167-179.https://doi.org/10.1175/2008JTECHA1148.1

Pettersen, C., Bliven, L. F., von Lerber, A., Wood, N. B., Kulie, M. S., Mateling, M. E., Moisseev, D. N., Munchak, S. J., Petersen, W. A., & Wolff, D. B. (2020). The Precipitation Imaging Package: Assessment of Microphysical and Bulk Characteristics of Snow. Atmosphere, 11(8), Article 8.https://doi.org/10.3390/atmos11080785

Pettersen, C., Bliven, L. F., Kulie, M. S., Wood, N. B., Shates, J. A., Anderson, J., Mateling, M. E., Petersen, W. A., von Lerber, A., & Wolff, D. B. (2021). The Precipitation Imaging Package: Phase Partitioning Capabilities.Remote Sensing,13(11), Article 11.https://doi.org/10.3390/rs13112183

Sturm, M., Goldstein, M. A., & Parr, C. (2017). Water and life from snow: A trillion dollar science question. Water Resources Research, 53(5), 3534-3544.https://doi.org/10.1002/2017WR020840

Wood, N. B., & L’Ecuyer, T. S. (2021). What millimeter-wavelength radar reflectivity reveals about snowfall: An information-centric analysis. Atmospheric Measurement Techniques, 14(2), 869-888.https://doi.org/10.5194/amt-14-869-2021

Share This Article
Email Copy Link Print
Previous Article 微软人工智能CEO穆斯塔法·苏莱曼 微软AI CEO苏莱曼:Edge与Copilot将如何重塑浏览器未来
Next Article 骁龙8 Elite Gen 5芯片官方图 高通正式发布骁龙8 Elite Gen 5:旗舰级性能与AI体验新标杆
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

评估流程概览图
未分类

大模型应用评估实践:构建高效可迭代的评估流程

2025年9月26日
Sam Altman在东京一场名为“通过人工智能改变商业”的活动上与软银集团首席执行官孙正义对话。
未分类

Altman投资的14家潜力公司

2025年7月18日
未分类

Python 实现你的“真实”生日计算:天文与地理空间时序分析实战

2025年10月9日
图片 1
未分类

2025年企业治理前瞻:加拿大市场趋势深度解析与未来挑战

2025年11月18日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up