介绍

地球表面的卫星观测为各种环境应用提供了重要数据,包括灾害管理12、土地覆盖变化检测3.、生态的4、城市5和农业6监控。目前,地球观测(EO)卫星收集并下行原始图像或低压缩率图像,以便在地面上进行进一步处理7。下行链路容量和速度的限制导致数据可用性延迟和地面站使用效率低下。这对时间敏感的应用程序(如灾难管理)产生不利影响,在这些应用程序中,需要低延迟的数据来为时间关键型决策提供信息。随着遥感分辨率和在轨EO卫星数量的增加,这一问题将变得更加严重8,以及对无线电频谱和许可的进一步限制。

一种解决方案是为特定场景识别机载最有用的数据,并优先考虑快速下行。尽管长期以来,使用机器学习处理有效载荷数据一直被认为是提高效率的潜在方法910然而,最近硬件和机器学习的进步使得部署变得可行,这使得人们对这一领域的兴趣重新燃起7。近年来,监督分类器已经成功地在轨道上测试了云的分割1112和洪水13的建议应用,例如风暴识别14。然而,监督分类器有一个明显的缺点,即只有在训练时确定的特定类型的事件才会被识别。因此,该模型无法推广到新的事件类型、成像仪规格、传感器退化、场景照明或局部特征。

在这项工作中,我们呈现雷夫Æn一种新的完全无监督新颖性检测模型,避免了监督分类器固有的局限性,适合在遥感平台上部署。我们用a变分Auto-Encoder(VAE)15在特定区域上生成输入传感器数据的潜在表示。使用连续通过的表示之间的潜在空间中的距离为该数据分配新颖性分数。与现有的监督方法相比,该技术具有很大的优势,因为无论特定事件类型的训练数据是否可用,都可以在船上检测到通道之间的任何变化。此外,即使在复合事件的情况下,这种一般方法也支持检测该地区存在的所有类型的变化。

我们评估了该模型在探测来自Sentinel-2多光谱仪器的地表观测变化中的性能16在自然灾害的时间序列图像数据集上。紧急机构必须迅速作出反应的四种事件类型包括:洪水、山体滑坡、野火和飓风。雷夫Æn被证明为已知变化的区域分配更高的新颖性分数,并且优于需要60\ \(\倍)机载存储更少。我们通过模拟机载处理器的受限硬件上的实验进一步证明,该模型适合部署在遥感平台上。

本文的其余部分组织如下:背景“我们在机器学习和卫星机载部署的背景下提出了我们的建议,”数据“我们展示了我们用于训练模型的数据集,以及为这项工作收集的测试数据集,这些数据集与本文一起公开,”方法“提出了变更检测和基线模型的建议方法,”实验装置讨论了我们用于实验的指标和硬件;最后,“结果"显示模型和基线在带注释的数据集上的结果,并在受限硬件和"结论总结了论文的结论。

背景

异常检测

应用VAEs进行无监督异常检测17,其中以模型重构误差作为异常评分。我们的方法的不同之处在于,我们的预测不是基于单个输入的重建误差,这已经在18为了成为无监督环境下的不可靠指标,我们考虑来自同一位置的一系列输入图像,并根据它们在VAE潜在空间中的距离对它们进行评分。我们还可以将一系列图像(或提取的图块)表示为单个数据点,稍后我们将使用Reed-Xiaoli等方法19,或混合高斯函数来检测异常序列和背景序列。然而,我们的问题最好被定义为变化检测。

变化检测

监督变更检测技术的注释需求,如连体网络20.,可以使用主动学习方法来减少21,但它仍然缺乏通用性。无监督变化检测的主要挑战是能够区分感兴趣的变化和由于噪声引起的虚假变化。许多现有的方法222324通过结合降维技术(如主成分分析)来实现这一点2526,以及聚类,例如k-表示只检测连续通过的图像之间的相关变化。基于神经网络的方法(参见27(回顾一下)依赖于有监督的辅助任务,例如语义分割,来提取信息特征,然后用于检测时间序列中的变化。我们的方法利用神经网络,在任何阶段都不需要监督。我们选择的方法最接近于28然而,机载部署的重点是新颖的。

机器学习在卫星上的部署

在遥感平台上部署机器学习模型已被确定为优化下行通信和机载存储的潜在解决方案132930.。大多数目前的公共和商业任务,如欧空局棱镜31或者Maxar的WorldView-3在地面执行任务时(特别是在飞越特定感兴趣的区域时),可以根据需要获取图像。即使是全球任务,例如Sentinel-1或Sentinel-2也只能在特定的预配置条件下获取图像(更频繁的是在欧洲和陆地位置上)。我们的建议表明,使用相对简单的ML模型,我们可以部署自主算法,以根据检索到的观测结果决定采集中的哪些瓷砖应该下行。有了这个系统,我们的目标是展示遥感操作范式的变化:从传感器获取和下行数据的机制特别的手动配置到自主采集,其中传感平台不断评估检索到的数据是否有价值,以优先下载或丢弃它。

数据

图1
图1

培训地点(一个)及验证(b)图像。

作为本研究的一部分,我们编译并发布了一个新的数据集来评估所提出的无监督变化检测模型。图像来自Sentinel-2多光谱成像仪(MSI)仪器16(使用数据的L1C处理级别)从中我们使用10个最高分辨率通道,所有通道内插到10m的最高分辨率。训练数据取自WorldFloods数据集13(无花果。1A),总共有233个场景,每个场景有5个图像的时间序列。

图2
图2

验证示例的示例—在本例中为飓风事件—及其相应的地面真相掩码(其中包含变化和云的标签)。

RaVÆn数据集

验证集由从Sentinel-2捕获的19个场景组成,包含四类灾害中的一类:飓风、火灾烧伤疤痕、山体滑坡和洪水(图2)。1b).我们在哥白尼EMS系统的帮助下,通过对Sentinel-2记录的广泛搜索,确定了这些类别中的每个事件32。验证集中的每个事件由五个图像的时间序列组成,其中前四个图像是在灾难发生之前拍摄的,而第五个图像是在灾难发生之后拍摄的。为了减轻云覆盖的影响,我们丢弃了云覆盖大于20%的验证图像。只有在事件发生前180天和事件发生后90天内的所有图像才包含在事件中。对于每个事件,一个变化掩码被手工标注,以标记时间序列中最后两幅图像之间的差异,如图2所示。2。云覆盖生成使用s2cloudless33无效像素也被标注在更改掩码中。我们强调这些标签仅用于评估。

我们在表中描述了手动标注验证数据集的统计信息1。虽然每种类型的事件都有相似数量的地点,但受影响的地区因灾害类型而有很大差异。也就是烧伤疤痕的区域数据集具有最大的影响面积和最大的变化像素占所有非浑浊像素的比例(报告为正比例)。

表1 RaVÆn数据集统计信息。

方法

预处理

瓷砖\ (x ^ {a、b} \)\(32 \ * 32\)像素,也就是3.2亿像素\ \(\倍)从Sentinel-2场景中提取320m区域,如图所示。3.并用作所考虑的模型的输入。在这里,一个b表示贴图在场景中的位置。

通过应用对数变换和缩放来将瓦片约束到\ ((1 + 1) \)对每个波段使用以下变换进行间隔:

$ $ \{对齐}开始x ' = & \ log (x) = & \ \ nonumber \ \ x”2 * \压裂{x - min (x)}{马克斯(x) - min (x)} - 1 \{对齐}$ $
(1)

根据对训练数据分布的可视化分析,手动选择min和max的值,并对所有实验进行固定。注意,乘法和减法是逐像素的。这些预处理步骤与其他论文一致34。星载卫星、成像仪采样和存储器接口制度各不相同,这项工作忽略了将我们的架构与任何一种采样方法相匹配。

图3
图3

提出的系统示意图。瓷砖\ (x ^ {a、b} \)的维度\(32 \乘以32 \乘以10\)来自原始Sentinel-2多波段L1C数据的训练数据被馈送到VAE模型中。在这里,一个b对应于瓷砖的位置。VAE以一种无监督的方式进行训练,因为它的编码器学习在高斯嵌入表示中压缩图像\ \(μ^ {a、b} \)\ \(σ^ {a、b} \)以及从那里重建它们的解码器。在推理时,当我们压缩评估数据集块时,只需要训练好的编码器\ (x ^ {a、b} _t \)嵌入其中\ \(μ^ {a、b} _t \)\ \(σ^ {a、b} _t \)哪一个可以与历史相比较k在同一位置提取嵌入,以评估瓷砖是否发生了重大变化,并优先考虑下行链接。

模型

我们采用变分自编码器(VAE)模型,如图所示。3.,学习瓦片的低维嵌入空间\ (x ^ {a、b} \)然后用于变更检测。一个通用的自动编码器(AE)模型由两个网络组成编码器译码器-通常由卷积或完全连接的神经元层组成。编码器网络φ\ (q_ \ \)学习将原始域的数据投射到通常较低维的“瓶颈”表示中——称为潜在的空间-而解码器网络\(θp_ \ \)学习从这个潜在向量表示中重建原始数据。整个模型端到端学习,不需要任何特定的标签,任务是重建原始数据,同时获得一个有代表性的潜在空间。考虑到这个潜在空间的维数比原始数据的维数要小,它可以被理解为一个压缩的空间,在表示中只存在显著的特征。这种学习到的潜在空间可以用于进一步的下游任务,例如使用标记数据进行训练(在我们的数据中,这将例如将瓷砖分类为云状或非云状瓷砖),或者通过比较嵌入的潜在空间进行变化检测,如本文中进一步描述的那样。VAEs对学习到的潜在变量的分布施加了进一步的限制,详见15。特别是,VAE为嵌入施加了一个对角高斯分布,该分布由每个维度的平均值和标准差参数化,\ ({\ mathcal {N}} ^ {a、b} = {\ mathcal {N}}(\μ^ {a、b}, \σ^ {a, b}) \)。潜在表征\(\mu ^{a,b}, \sigma ^{a,b} \in {\mathbb {R}}^n\),在那里n被称为潜在的大小

变化检测新颖性评分

在推理时,我们可以放弃解码器\(θp_ \ \)并且只使用经过训练的编码器网络φ\ (q_ \ \)作为一种特征提取器,以压缩表示的形式对单个块进行编码,其优点是提高了对噪声和块之间轻微不对齐的鲁棒性35并且减少了存储以前通过的图像的计算和内存需求,这在受限的环境中是至关重要的。

更正式地说,给一个新瓷砖\ (x ^ {a、b} _t \)在时间t,我们试图了解是否发生了相关的变化k在同一地点采集样本的历史\ (\ {x ^ {a、b} _ {tk}, \点x ^ {a、b} _ {t - 1} \} \)。为了实现这一点,我们定义了一个新颖性评分函数R \ (S ({\ mathbb{}} ^{32 \×32 \乘以10})\ rightarrow {\ mathbb {R}} \)为:

$ $ \{对齐}年代开始(x_t ^ {a, b}) = \分钟_ {i = 1 \ ldots k} d(间{我}^ {a、b}, \, x_t ^ {a, b}) \{对齐}$ $
(2)

在哪里dR \ (({\ mathbb{}} ^{32 \×32 \乘以10},{\ mathbb {R}} ^{32 \×32 \乘以10})\ rightarrow {\ mathbb {R}} \)是两个瓦片之间的任意差函数。我们建议使用内部瓷砖的潜在代表d我们测试了三种不同的距离函数结果,均值之间的欧几里得距离和余弦距离\ \(μ^ {a、b} _t \)\ \(μ^ {a、b} _{我}\),以及高斯势之间的KL散度\ ({\ mathcal {N}} ^ {a、b} _t \)\ ({\ mathcal {N}} ^ {a、b} _{我}\)。在Eq. (2),我们使用最小值作为函数来汇总各个距离,并假设它是包含相关变化的瓦片时间序列的最后一个样本。这有助于我们忽略之前贴图的小波动。

压缩

在本分析中,我们将潜在大小固定为\ \ (n = 128)正如最初的实验表明,较大的潜在大小并不会产生更好的结果,较低的潜在大小会降低模型的性能。这在部署时为我们提供了重要的压缩功能,而不是保存原始图像或提取的tile (\(32 \ * 32\)根据Sentinel-2辐射分辨率规范,该应用程序仅存储其计算的潜在表示(在某些情况下,仅编码的平均向量128具有16位浮点精度)。这种方法为用户提供了60\ \(\倍)减少必要的存储空间,但警告潜在向量的进一步压缩是可能的36。当将此解决方案与现有卫星实践进行比较时,典型的EO卫星主要使用CCSDS-123等无损压缩37或JPEG-LS38。它们的压缩比分别约为6.5:1和2.5:1。我们的解决方案是有损的,原始的原始像素值不能完全重建。与现有的无损系统不同,我们的方法可确保快速有效地利用准确的信息来补充实时决策系统。

预印

本文的简短版本先前在NeurIPS 2021(虚拟)举行的人道主义援助和灾害应对人工智能研讨会(HADR)上发表。39。预印本经过同行评审后纳入研讨会,这不是档案,也不构成NeurIPS会议记录的一部分。本文已根据后续思路进行了更新,并进行了重大重组。

实验装置

模型架构设计

我们的VAE编码器由一系列下采样块组成。每个下采样块首先有一个2D卷积层,内核大小为3,步长为2,零填充为1,这样在空间域中的维度就减半了。在这一层之后,块也有一系列额外的二维卷积层(数字额外的深度表所述2)。使用跳过连接,以便额外的深度卷积层形成残差块。然后网络可以很容易地学会跳过这些非下采样层。在残差块中,保留了隐藏通道数和图像大小。每个卷积层使用泄漏的ReLU激活和批量规范化。在给定数量的下采样块之后,使用输出均值和对数方差的全连接层将结果平化并进一步降低维数。解码器本质上是反向的编码器。使用的上采样方法是最近邻上采样,然后进行单次卷积。这种方法优于转置卷积,以避免棋盘伪影4041。解码器网络的最后一层使用线性激活函数在原始数据范围内进行重构。最后,对于训练,我们使用Adam优化器,学习率为0.001。

效率的考虑

为了优化模型的大小并在受限设备上最大化效率,我们对编码器网络中的层数和每层单元数进行了参数搜索E还有解码器网络D。更准确地说,我们测试了三种不同的模型架构配置(媒介),详情见表2。本文提出的主要模型表示为餐桌上2,它使用了3个下采样块,每个块上依次有32、64、128个通道。最后的完全连接层将输入投影到128的潜在维数。在每次低尺度卷积之后,有2个(额外深度)额外卷积层的残差块。

硬件部署

我们使用不同的环境来训练VAE和进行推理。对于开发(培训和验证),我们使用n1-standard-16使用两个NVIDIA Tesla V100 gpu的谷歌云平台实例。此外,我们测量了模型在Xilinx Pynq FPGA板上的性能,该板具有有限的计算能力,650 MHz ARM Cortex-A9 CPU和512 MB RAM,模拟了典型小型卫星上可用的资源(由42)。

表2不同建议模型大小的体系结构差异。

基线

为了将这种方法的性能与不使用机器学习的更简单的机载处理方法进行比较,我们将我们的方法与基线进行比较,后者在应用与VAE相同的数据预处理后,使用欧几里得距离或余弦距离直接比较输入空间中的瓷砖。

结果

数字4显示了本研究中开发的VAE模型与图像差异基线之间的定性比较。的之前图片显示了一条河流泛滥,因此改变了颜色的形象。来自我们的VAE和基线方法的标签和变更分数显示在旁边。在本例中,分数是使用历史记录计算的\ (k = 3 \)框架,虽然只是最近的之前为简洁起见,显示框架。在这个例子中,我们的方法——余弦嵌入——产生了一个比余弦基线更清晰的变化图;值得注意的是,在余弦嵌入图像中可以看到小的被淹没的运河,但在基线中看不到。以类似的方式,图。5显示了在烧伤区域检测情况下的定性比较。

图4
图4

比较使用基线和用VAE方法对一条洪水泛滥的河流进行了实例分析。显示了变化之前和变化之后的两幅图像,以及变化的人工标签和计算的变化分数。这两种方法都使用了\ (k = 3 \)帧。

图5
图5

检测到的更改的附加比较使用基线和VAE方法对火灾灾害的一个例子。这两种方法都使用了\ (k = 3 \)帧。余弦基线预测似乎更接近地复制图像中存在的细节,使其容易受到两幅图像之间小而嘈杂的变化的影响。

变化得分图,如图1所示。45,为评价集中的每张图像生成。我们使用这些地图和我们的标签来计算精确度召回曲线(AUPRC)下的面积。我们逐块生成曲线,这样每个图像上的每个单独的图像都被视为变化的正面或负面示例,而不是将整个图像视为一个示例。这意味着我们的质量指标对我们的评估图像不相等这一事实很敏感;它们具有不同数量的贴图和不同比例的正像素(如表所示)1)。我们也忽略了有云的贴图图像或在事件发生前的最新图像中。我们为评估集中的四种不同事件类型中的每一种生成了一个精确召回率曲线,并分别计算AUPRC。

我们进一步注意到,所使用的AUPRC度量不需要选择特定的阈值。在实践中,阈值将根据操作约束来选择。例如,如果从遥感平台上只能下载一定数量的瓦片,那么将选择变化值最大的瓦片进行传输。

表格3.报告针对所有灾难类型的变更检测实验的结果。我们发现余弦距离,应用于输入空间或嵌入,通常提供最好的分数。这与其他研究一致,该研究使用余弦距离在潜在空间中进行比较43或者在训练对比学习方法的时候44。对于基于嵌入空间的度量,事件类型之间存在一些差异。令人惊讶的是,kl -散度是表现最差的度量,在所有事件中都被余弦和欧几里得嵌入分数打败,即使这些方法不使用VAE计算的方差值。基于VAE嵌入的指标在洪水、飓风和火灾方面的表现优于基线,在山体滑坡方面也达到了类似的表现。

表格4显示包含更长的帧历史记录的效果。当提供三个先前的图像而不是一个图像时,除了滑坡数据集的情况外,嵌入和基线都表现得更好,其中记忆1的余弦基线以较小的余弦基线优于记忆3。该表还显示,我们基于嵌入空间检测重大变化的方法在每个数据集中优于基线\ (k = 3 \)遥遥领先。

表3有时间窗的基线和VAE方法的AUPRC\ (k = 1 \)(平均超过5次)。
表4 AUPRC为表中最佳性能指标3.不管有没有悠久的历史k(平均超过5次)。

建模计时和内存占用

提出的变化检测方法的目的是在卫星上运行,用于过滤或优先考虑要下行的图像块。因此,需要设计模型以跟上即将到来的数据流,这些数据流使用的是类似于实际遥感卫星上可用的受限低功耗硬件。在这里,我们报告了不同模型架构的准确性和推理时间(见表1)2)。

表5不同尺寸模型的AUPRC和计时(平均超过5次运行)。

表格5显示了几种模型大小变化的准确性以及处理574所需的时间\ \(\倍)509像素的图像(大约。5公里\ \(\倍)5公里(Sentinel-2 10m分辨率),同时在赛灵思PYNQ的CPU上运行。我们看到所有测试模型的结果都是可比性的,并且以最小的模型为目标是合理的,它只需要2.06 s来处理patch。在PYNQ板上运行意味着,通过直接部署在FPGA模块上而不是使用板上的CPU,有很大的可能加快这个运行时的速度。

此外,我们报告说,在设备上执行我们的代码至少会为其他进程留下67%的总RAM(我们注意到这包括在干净的Pynq环境中与我们的代码一起运行的任何其他后台进程)。

表6 AUPRC和不同潜在大小的模型(平均超过5次运行)。

表格6表中为改变默认模型潜量(表示为“大模型”)的实验2),同时不改变任何其他架构超参数。我们看到,随着潜在大小的减小,大多数数据集的性能都会下降。我们用这些结果来确定潜影大小为\(n = 128\)在所有其他实验中。

潜在空间可视化

为了演示学习的嵌入空间的质量,我们使用UMAP展示了它的图形表示45方法如图所示。6。我们包括了事件发生前和事件发生后的图片。我们展示了某种类型的块聚集在一起(例如“淹水”瓷砖)。我们认为这是后续工作的可能动机-进一步使用每个tile的潜在表示进行下游任务。这可以通过无监督聚类来实现,也可以通过对对应于选择所需更改(白名单)或要忽略的更改(黑名单)的tile的弱注释来实现。

图6
图6

洪水场景中编码贴图的UMAP可视化如图2所示。4。事件发生前的图像中的图像块被标记为绿色,而事件发生后的图像块则显示为红色。与被淹的瓷砖相对应的瓷砖,用蓝色标记,可以看到聚集在一起,与此场景的其他数据形成对比。

结论

总之,我们介绍了一种新的方法雷夫Æn用于遥感数据的无监督变化检测。我们的方法是在一个新的灾害遥感图像数据集上进行评估的,这些数据集是我们在工作中发布给公众使用的。在考虑过去三帧的AUPRC度量中,所提出的模型在所有测试的灾难类别中比经典计算机视觉基线平均高出18%(飓风中高出27%,火灾场景中高出6%)。这证明了雷夫Æn是一种鲁棒的变化检测方法,适用于改善灾害响应的数据采集。我们还确认,在处理真实世界的噪声数据时,访问较长的时间序列数据可能是有益的(如46),特别是当使用我们提出的技术时,可以访问过去三帧而不仅仅是一张先前的图像,平均提高了10.6%的AUPRC度量。最后,我们证明在保持模型性能的同时(% \ \ 3下午(\ \))模型大小和运行时可以在Xilinx PYNQ板上大大减少(减少85%),这对于演示实际部署的可能性至关重要。

未来的工作可能包括将获得的潜在表示用于下游任务,如无监督聚类或弱监督分类的变化类型(检测或忽略),以及在未来的小卫星星座中有效地传递信息。我们的研究结果还揭示了几个令人兴奋的研究方向,例如改进了用于测量编码潜在表征之间变化的度量标准。我们希望探索其他无监督的学习特征提取器的方法,比如一般的对比学习方法,比如SimCLR44或特定于遥感数据(如SeCo)的方法47。可以更好地压缩学习到的潜在向量的方法36也有利于实际应用。最后,我们还想探索访问更长的时间序列数据的情况,在那里有可能模拟循环变化,这是系统行为的一部分,并将这些与其他检测分开。