背景与总结

需要一个新的美国电站级每月水力发电数据集

对为电网服务的水力发电厂每一年进行一次净发电量观测,对于了解电力供应对季节性变化的水资源可用性的脆弱性至关重要。在美国,能源信息管理局(EIA)通过对公用事业和工厂运营商的定期调查,即EIA-923表格,来满足这种数据需求1(以前EIA-906/920)。尽管EIA-923提供了超过1500个水电站的月分辨率净发电量,但其中只有~150个电站(约占美国常规水电铭牌总容量的一半)具有月分辨率观测发电量(此处)观察到的植物)。对于剩余的植物(在此估算植物),EIA收集每个植物的年净发电量,然后使用同一状态下观察到的植物的组合发电量的分配因子在月份之间分配该发电量2(无花果。1).如果一个州观察到的植物少于五种,抽样范围将扩大到美国的多州地区,称为人口普查区。重要的是,这种归因在EIA-923的支持文件中并不明显,尽管人们可以通过每年电子表格中的“报告频率”一栏(“a”表示年度,意味着每月提供的数据是归因的,而不是观测的)来判断一个工厂是被观测的还是被归因的。在意识到EIA-923月水电净发电量估计数主要是估算后,我们对上述估算程序进行了逆向工程,然后通过电子邮件联系EIA确认了该方法。

图1
图1

2020年EIA-923提交的水力发电厂,说明月度数据是基于公用事业/运营商提供的观察还是EIA进行的估算。下方地图显示美国人口普查局。

环评所采用的程序不太可能在估算的工厂中得出切合实际的每月发电模式。EIA所采用的行政边界可能被选择来代表能源市场区域,或月负荷相似的区域。但是,即使各州和人口普查部门很好地与这些因素保持一致,一般的方法仍然存在问题,因为这些行政边界与气候或水文(如河流流域)的相似区域不一致。月常规水力发电量是天气和河流流量的函数,高于所有其他因素,工业中采用的模拟月度水力发电量的模型是由河流流量而不是电力需求驱动的3.45.与电力市场有关的因素,如负荷和价格,会以小时或日的时间尺度影响水力发电,但不会推动月总产量。

我们可以借助举例说明,目前基于州和人口普查划分的分解方法必须导致许多估算电厂在一年内实现不切实际的平稳水力发电模式。首先,单一一组分配因素所适用的空间尺度太大。例如,在2020年EIA-923数据集中,山区人口普查区域(包括爱达荷州、犹他州、内华达州、亚利桑那州、蒙大拿州、怀俄明州、科罗拉多州和新墨西哥州)所有239种估算植物的年生成仅使用一组分配因子分解为每月分辨率,这些分配因子来自仅15种观察到的植物种群。其中两个电站是科罗拉多河上的格伦峡谷大坝和胡佛大坝,这两个巨大的项目使用多年蓄能来保持一年内相对稳定的水力发电产量。由于EIA的分配因素是基于观察到的电厂的总发电量,最大的电厂占主导地位,导致一年内相对平坦的形状,不太可能反映整个广大地区较小的存储和河流运行项目的发电量概况。储水量相对于流入水量较低的河道项目无法从一个月储存到下一个月,因此产生的电力具有反映河流流动模式的强烈季节性信号。对该地区观察到的少量植物的每月繁殖模式的比较揭示了估算的繁殖可能是多么不现实(图2)。2).

图2
图2

在山地分区观察到的不同的年内生成行为突出表明,使用单一的年内形状进行估算不适合大型多盆地地区。以上数据基于2018年EIA-923月度观测数据。

与山地区一样,观察到的中大西洋区(纽约、新泽西、宾夕法尼亚)的世代主要由一个大型植物(Robert Moses Niagara)的非常平坦的世代轮廓所主导,这不能代表该地区较小植物的世代。在其他地方,重要的瀑布项目(如密苏里河,俄亥俄河)是每月规模未观测到的,并从数百英里外的小工厂的小群体中估算。西北中部地区任何一年内不同的水文条件必然会导致过度平滑,因为一个地区的低流量(因此低于平均发电量)抵消了另一个地区的高流量(高于平均发电量),导致月度分配因子不能代表任何一种情况。

即使在月观测资料相对丰富的地区,现有的归算方法也可能不合适。例如,尽管太平洋普查区(华盛顿州、加利福尼亚州、俄勒冈州)每月的观察数量相对丰富,但俄勒冈州的特征是只观察到三种植物。因此,这个州的电厂依赖于哥伦比亚河上的大容量电厂和加州位于完全不同河流上的小容量电厂的组合。在华盛顿,每月观测到的许多电厂都是哥伦比亚河上的大型河道设施(容量为1000兆瓦),发电量在很大程度上受春季融雪季节和上游大古里蓄能项目的排放控制(相对于河流流量,河流项目的蓄能较小,大古里下游的电厂可能有一两天的流量;因此,这些电厂的月发电量与河流流量高度相关)。这些哥伦比亚河特定的发电剖面可能不适合代表哥伦比亚河较小支流的季节性发电模式,或喀斯喀特山脉以西向太平洋海岸的水库蓄水能力较低和多目标用水的工厂。

在这个美国规模的水力发电数据集中,当地水文和水库操作的遗漏具有重要的意义。EIA-923电厂级每月水力发电数据用于训练电网级水力发电模拟4并为电力系统运行模型和扩容模型提供季节性变化的水电能源预算6.EIA-923月度数据也被纳入其他数据集,包括现有水电资产(EHA)净发电厂数据库7以及EIA的电力数据浏览器提供的州和全国水电月度摘要。重要的是,EIA-923水电数据支持了大量的能源和水资源研究(例如。891011121314)以及区域发电组合的回顾性分析,这些分析反过来为市场预测、政策分析和长期规划提供信息。用户往往没有意识到数据的局限性,因为EIA-923中的大多数月度水力数值并不是从公用事业或电厂运营商那里收集的实际观测值,这一点并不广为人知。在可能的情况下,了解现有月度数据中的任何缺陷并将其最小化是至关重要的。

在这个数据描述符中,我们引入了RectifHyd15-一个新的数据集,它依赖于大幅增加的年内分配因子来估计估算电厂的历史水力发电量。我们不是依赖已观测工厂的现有发电量数据(这些数据过于稀疏,往往不能代表估算工厂的水文和操作),而是使用工厂发电量的代理观测数据,即观测到的水库释放和下游测量的流量,开发独特的分配因子(参见方法)。水库释放是首选的代理,因为下游的计量流量可能受到河流支流进入大坝和计量流量之间的影响。后者用于油藏释放数据不可用时。这些代理确保每个电厂都有反映当地水资源可用性和水库运行情况的年内发电模式。RectifHyd 1.0版本提供2001-2020年期间的每月发电量估算。

RectifHyd每月生成

RectifHyd月发电量与现有EIA-923月估算发电量显著不同(图2)。3.).RectifHyd中用于推断代的代理信息表明,所有普查分区的特征是植物间季节性代的多样性远远大于EIA-923 imputation所建议的多样性。最多样化的水文条件存在于最大的、因此也是气候最多样化的普查区,即太平洋和山地区。图中所示为山地分区在年内产生行为的变化。2在RectifHyd发电因子中是清晰的,突出了在该地区为估算电厂分配年发电量时单一、平滑的月因子的局限性。

图3
图3

EIA-923在每个普查分区内应用的每月水力发电分配因子(黑色,折线)与从流量代理(2020年数据)计算的RectifHyd因子(灰色)进行比较。具有多个EIA-923生成因子的普查分区(即,东北中部,新英格兰,太平洋,南大西洋)是那些包含有>5种观测植物的州,在这些情况下允许州级归责。

这些差异说明了EIA-923和RectifHyd在数百个工厂中的相对差异。对于一些研究应用,总(绝对)月发电量的差异将更重要。例如,在电网弹性研究中,1000mw电厂5%的相对误差可能比5mw电厂50%的相对误差影响更大。这可以通过分析各植物组的总绝对误差来解决。与EIA-923相比,ReftifHyd月发电量在州级上存在显著差异(图2)。4).影响在缺乏水力发电观测数据的州最为明显,例如在东北中部地区(如印第安纳州、俄亥俄州),EIA-923发电是使用邻近州的观测数据进行估算的。一些重要的水力发电状态在发电时机上存在显著差异。例如,在爱达荷州(ID), RectifHyd显示了一个稍早的峰值和整体更清晰的水文曲线,突出了先前讨论的Glen Canyon (AZ)和Hoover (NV/AZ)稳定生成影响的山地划分imputation的缺陷。在华盛顿州、加利福尼亚州和亚利桑那州等观察到的发电厂占发电能力相对较大份额的州,这种影响不那么明显。

图4
图4

与所有年份(2001-2020年)使用RectifHyd重新评估的发电量相比,国家级每月水电净发电量EIA-923。

EIA-923和RectifHyd州级月度生成之间的差异在孤立特定年份时往往更为明显(图2)。5).例如,在2019年,水力发电贡献巨大的几个州,包括北达科他州(ND)、南达科他州(SD)、肯塔基州(KY)和科罗拉多州(CO)等数据稀疏的州,在发电时间上存在巨大差异。相对于RectifHyd,阿拉巴马州(AL)和田纳西州(TN)的月生成总量在EIA-923中都遵循显著平滑的模式。

图5
图5

2019年国家级每月水电净发电量EIA-923与使用RectifHyd重新评估的发电量进行比较。

方法

概述

为了在估算的工厂中分解观察到的年净发电量,我们采用图中概述的程序。6.简而言之,我们依赖于每个电厂每月发电量的两个代理之一:观察到的水库释放时间序列,如果没有释放,则记录水库下游的流量。水电大坝通过涡轮机放水来发电,因此,描述这些放水的数据或描述受这些放水影响的下游流量的数据,理论上应该为每年几个月的发电量变化提供一个很好的代理。储层释放是两个代发电量指标中较好的,因为这些流量不受支流流入的影响。然而,即使是水库的释放也是不完美的,因为一部分的释放可能经常是非动力的释放(受控或不受控的泄漏),并且因为通过涡轮机释放的每体积水的发电量随水库水头水平而变化。我们将在技术验证中回到这些限制。

图6
图6

RectifHyd在估算电厂年发电量月分配的方法流程图Py.关键输入数据集以灰色文本标识,即(1)水电基础设施湖泊、水库和河流(HILARRI)数据集17, (2) ResOpsUS19(3)美国地质调查局国家水信息系统20.;(4) EIA-923观测的年发电量总量1.*调整泄漏盖水库释放在90th每日时间序列的百分比。

用于创建RectifHyd的油藏释放和下游流量记录以每日时间分辨率提取(分别参见第2.2节和2.3节中的数据源)。为了考虑涡轮流量能力和高流量期间可能的非动力溢出,我们将日流量时间序列限制在Q90(90th2001-2020年期间每日时间序列的百分比)。在未来的工作中,这一阈值可以针对单个大坝进行调整,既可以获得历史发布时间序列,将动力流与非动力流分开,也可以获得描述大型大坝样本中压力管和涡轮机容量的数据。然后,我们将上限日流量汇总为月流量,并使用这些数据来计算每个工厂的临时月度能源分配因子。每年每个月的配置因子等于每月总流量除以全年总流量。这些因素是暂时的,因为在某些情况下,由于不切实际的峰值行为,需要进一步调整,这意味着违反现有水电资产数据库中报告的电厂容量16.造成这种错误的一个可能原因是支流流动;如果下游计量表受到流量不受调节的支流的影响,则代理可能会显著偏离季节性发电模式。另一个可能的原因是Q没有充分代表泄漏90假设如上所述。如果存在这种误差,我们将黄土平滑样条应用于临时分配因子(低平滑度;跨度= 0.2),重复直到生成更合理,铭牌容量不超过且月因子不大于0.25,这意味着每年四分之一的生成发生在一个月。这个阈值是根据对所观察到的工厂现有月度发电数据的分析选择的(很少超过0.25)。然后将最终调整的因素乘以观测到的年发电量,以创建一组校正后的月发电量估计值,总和为每个工厂的观测到的年发电量。

RectifHyd提供了2001-2020二十年期间大约1500座水电站的每月发电量估算(根据EIA-923数据的可用性,每年的电厂数量略有变化)。我们选择在2001年启动RectifHyd,因为这一年与EIA调查中捕获的电厂数量显著增加有关(2001年之前,EIA数据以不同的格式提供,与2001 - 2020年数据相比,大约少了300个水电站;1970年至2000年,环评以月分辨率收集所有水电数据,意味着这些数据不需要进行统计归因)。RectifHyd还包括原始的EIA-923月生成数据和一列,表明这些数据是观察到的还是估算的,允许用户为观察到的植物保留EIA-923数据点,并为其他植物采用RectifHyd。用于创建RectifHyd的所有代码都可以在Github元存储库上公开使用(参见代码可用性)。

油藏释放代理

为了确定水电站是否与公开的水库释放记录相关联,我们首先使用水电基础设施湖泊、水库和河流(HILARRI)数据集将EIA电厂标识符与水库标识符连接起来17.具体来说,我们使用全局水库和大坝(GRanD)18每个油藏的标识符,允许我们将这些数据连接到ResOpUS数据库中的油藏19.ResOpsUS是CONUS提供的最全面的油藏作业数据集,涵盖了历史油藏流入、释放和存储量,包括679个主要油藏。我们通过合适的释放数据确定了180个储层,为RectifHyd的分配因素提供信息。ResOpsUS中的许多油藏释放记录将在2020年年中终止,这意味着这些记录无法用于EIA-923数据的最后一年的能源分配。由于这个原因,我们的分解程序每年单独进行,如果水库释放数据缺失或不适合任何特定年份,允许工厂使用的代理从水库释放切换到下游测量流量。

下游流量代理

大约有1200个估算电站缺乏公开的水库运行记录。对于这些工厂,我们使用下游美国地质调查局(USGS)的测量流量作为代发电量20.21.一些电站所在的水库在大坝的下游有美国地质勘探局的流量计,但绝大多数电站没有。此外,许多位于电厂下游合适位置的测量仪缺乏过去20年的完整流量记录。一般来说,美国地质勘探局的量规太少,无法用一个独特而理想的调节排放记录来代表所有1200个估算植物。

为了克服这些挑战,我们采用了一种实用的简化方法,即手动为植物组而不是所有单个植物确定合适的代理测量仪。植物首先根据USGS水文单元代码4 (HUC4)流域进行分组。在美国,有150个不同的HUC4流域有传统的水力发电厂;我们通过目视检查和专家判断,确定了每个HUC4流域水力发电的最佳代理计量器具。具体来说,我们将工厂位置、USGS仪表位置和NHDPlusV2流量累积光栅叠加在一起,以(通过目测)识别位于HUC4中大多数水力发电厂下游的流量仪表,并将发电厂和流量仪表之间不受调节的河流的干扰最小化。我们将观测到的水力发电厂排除在手动搜索之外,以确保用于估算的流量计与被估算的发电厂最相关。避免使用放电记录中间隔超过几天的量规。

数据记录

本文中描述的RectifHyd数据已存放在Zenodo,登录代码为660782415并可从。csv格式下载https://zenodo.org/record/6607825#.YplTvi-cZTZ

技术验证

双重评价法

RectifHyd使用两种不同的方法进行评估。我们首先使用EIA-923中所有127种观察到的植物进行评估。与估算的植物一样,我们使用最佳可用代理计算每个观察到的植物的月产量,然后与观察到的产量进行比较。我们使用克林古普塔效率(KGE)、纳什萨克利夫系数(NSE)和r平方来评估每个电厂的发电量。在2013年之前,EIA没有包括哪些工厂被计算为月发电量的信息。因此,该评估仅基于2013-2020年的月度发电量。

EIA-923中观察到的127种植物中,有31种与ResOpsUS的储层释放记录有关。其余96个观察植物必须依赖下游流量代理。如上所述,RectifHyd中采用的USGS仪器被选择来最好地代表估算植物。这意味着基于观察到的植物的验证分数(KGE, NSE, r平方)可能低估了使用流的imputation的性能。第一个评估主要用于确认RectifHyd数据中的预期行为,并比较两个替代代理之间的性能。由于观察到的植物数量相对较少,且它们集中在美国少数几个州(主要是华盛顿州和加利福尼亚州),评估受到了限制。

重要的是,将这一评估与同样127个植物的EIA-923估算方法的类似评估进行比较,可以了解到的内容存在重大限制。EIA-923方法依赖于用于评估模型的同一代观测数据。为这些站点计算的性能指标不会反映用于估算的性能指标。对EIA-923归算的“排除”验证是可能的,但会产生误导和信息不足。这是因为观察到的植物通常分布在水文相似的地区。例如,华盛顿州的EIA-923因子在与其他观察到的植物进行分析时可能表现良好,因为几乎所有观察到的植物都位于哥伦比亚河上。如果将华盛顿其他地区的工厂进行分类,那么剔除一个因素的分析将无法提供这些因素的表现。

为了将EIA-923的imputation性能与RectifHyd采用的基于代理的方法进行比较,使用1970-2000年期间的EIA数据进行了第二次评估。这些数据比2000年后的EIA-923少了大约300个植物,但所有的月度观察都是观察到的(没有估算),为进行评估提供了一个相对较大的植物样本。由于为RectifHyd选择的代理信息不能扩展到20个电厂,因此不能对1970-2000月发电量数据集中包括的所有电厂进行评估th在所有情况下都是世纪。

为了复制现有的923 imputation方法进行评估,我们首先分离了在EIA-923数据集(2001-2020)中观察到的植物。将这些植物的代数与人口普查部门的月总数相加,再除以年代数,以确定分配因素。然后,按照EIA-923中使用的相同程序,将这些分配因子乘以每个估算植物的观测年发电量(n = 946)。一旦删除了缺乏合适代理信息的植物,就剩下946个植物,其中132个可以使用储层释放来代理,814个可以使用收集到的下游流量信息来创建RectifHyd。

127株观察植物评价结果

对RectifHyd与观测到的月发电量进行评估表明,每月的水库释放量比每月的下游流量更能代表植物的发电量(图2)。7).结果显示,在观察到水库释放的工厂中,KGE的中位数为0.74,90%置信区间[−0.07,0.93],使用下游流量计估算的情况下,KGE为0.51[−0.28,0.79]。在NSE和r平方指标上也发现了类似的差异。当从发布数据中受益的工厂将代理切换到下游流时,代理类型的影响也很明显,这将导致性能的显著下降。

图7
图7

使用储层释放代理(n = 31)、下游流量代理(n = 31)和下游流量代理(n = 96)对观察植物进行RectifHyd评估。下游流量代理的结果可能会低估RectifHyd的性能,因为流量计被选择来最好地代表估算的而不是观察到的植物。

在此评估中,由于所选代理流量计的位置不适当,一些观察到的植物被分配不准确的发电(回想一下,RectifHyd的目的是分解估算的植物,而不是观察到的植物)。例如,在俄勒冈州观察到的三种植物(Bonneville, John Day和the Dalles)都位于HUC 1707(“中哥伦比亚”)下游的哥伦比亚河上。该HUC4中的估算植物位于哥伦比亚河的支流,包括德舒特河。因此,所选的流量计(14103000 Deschutes River at Moody, Near Biggs, OR)适用于这些工厂的分解发电,但不适用于该HUC4中观察到的三个工厂。对于观察到的每月发电量的发电厂评估,我们没有调整美国地质勘探局的代表性仪表的位置,这可能导致下游流量代理方法的性能被低估。所有观察到的植物的植物水平时间序列包括在补充图中。

采用1970-2000年月度观测进行评价的结果

在1970-2000年的月度观测中,RectifHyd优于EIA-923方法,储层释放代理提供了最大和最稳健的改进(图2)。8).基于132个油藏的结果,储层释放代理的中位数KGE为0.82,90%置信区间[0.26,0.96]。相比之下,同样应用于132种植物的EIA-923方法的KGE为0.42[−0.19,0.79]。基于814座大坝的结果,下游流量代理的KGE中值为0.56[−0.12,0.84]。相比之下,应用于相同植物的EIA-923方法的KGE为0.43[−0.44,0.80]。

图8
图8

1970-2000年期间创建的月水力发电的KGE评分,将EIA-923 imputation方法与RectifHyd代理比较,用于水库释放案例(132个电厂)和下游流量案例(814个电厂)。

对于大多数普查区域,RectifHyd方法比EIA-923实现了稳健的性能改进(图2)。9).在植物相对较少的地区,以及大多数植物可以与水库释放记录相关联的地区,可以发现最大和最强劲的性能改进,以区分年发电量。RectifHyd在太平洋或新英格兰人口普查地区对所评估的植物总体上没有优于EIA-923 imputation方法。这些地区拥有数百个水电设施,特别是在新英格兰,有限的水库释放数据作为发电代理。RectifHyd在这些地区可能会得到改进,如果下游流量测量信息的数量更多;在这些地区,每个HUC4流域选择一个计量表可能不足以代表分布在许多不同河流上的水力发电厂的巨大多样性。所有地区水库释放代理的强劲表现表明,如何进一步收集水库运行数据,以大幅提高美国可用的月度水力发电数据的准确性。

图9
图9

可获得观测数据的1970-2000年期间每月水力发电的KGE评分,将每个普查区域的EIA-923 imputation方法与RectifHyd进行比较。