介绍

COVID-19首次被发现是一个最近发现的传染病,在武汉,中国和蹂躏的世界成为流行。2021年1月,世界卫生组织(WHO)宣布超过9300万例感染病例的COVID-19和世界各地的超过200万人死亡(世界卫生,2020年)。第一种情况的COVID-19沙特阿拉伯王国(KSA) 3月2日报道,2020年。2021年7月,根据Health-KSA、疫情蔓延,收益率超过206个城市40万例感染病例的KSA造成超过6000人死亡。图1介绍了13 KSA地区关于COVID-19病例。很明显,大多数感染KSA集中在中间的,更确切地说在Ar Ryiad和麦加地区。

图1
图1

哪些国家地区分类的数量COVID-19感染。

KSA开始应用早期预防措施防止COVID-19的传播。帮助阻止其扩散至全球和本地,KSA跟着一些严格的方法。这些方法是关闭国际边界,两个大在麦加和麦地那清真寺任何游客,空中旅行,所有的公共机构,教育机构。

COVID-19广泛的分析是非常重要的,并且应该认真研究控制疫情。统计技术和软计算方法的学习和研究中发挥重要作用的大流行,和相关的不同方面。COVID-19引发了有关的关键问题背后的原因减少或增加感染的人数,世界将面临和预期的场景。这项研究由Alkhowailed et al。(2020年)解决气象参数的影响,如温度、湿度、风速持续的传播COVID-19在沙特阿拉伯。在中国进行的一项类似研究谢和朱(2020年)。罗梅罗斯达克et al。2020年)调查年龄的影响感染倾向使用meta回归分析。Eybpoosh et al。(2021年)调查的严重程度和死亡率COVID-19感染艾滋病病毒感染者使用回归分析。相同的调查进行精神疾病患者‏Chang et al。2020年)。熊等。2020年)分析人口子组感染率的差异在人口学特征的组合,使用逻辑回归模型。

此外,不同的研究目的来构建预测方法预测预期由于COVID-19感染和死亡人数。这种技术是多样化的,包括大量的预测方法。然而,两种主要的方法获得特殊利益,这是自回归移动平均(ARIMA)的集成模型,人工神经网络(ANN)方法。例如,Elsheikh et al。(2021 b)采用深度学习方法预测确诊病例的总数,恢复的情况下,和死亡在哪些国家,使用长短期记忆(LSTM)网络。几篇文章不同变体的ARIMA模型适用于日常感染/死亡COVID-19预测COVID-19发病率。这些研究包括Benvenuto et al。(2020年),Kufel (2020年),Sahai et al。(2020年)、腓骨(2020年),Sharma et al。(2020年),Alabdulrazzaq et al。(2021年)。相比之下,其他研究解决同样的问题使用各种类型的安网络,如不批评的智力的方法。这些研究包括Pal et al。(2020年),Wieczorek et al。(2020年),Namasudra et al。(2021年),Dhamodharavadhani et al。(2020年)、黄et al。(2020年),Dandekar和Barbastathis (2020年),Tamang et al。(2020年),Distante et al。(2020年)、耶拿et al。(2021年),Mollalo et al。(2020年)。

本研究旨在进行广泛的统计、机器学习和深入学习分析,有三个主要目标:

  1. 1。

    首先是调查可能的决定因素的增加/减少累计COVID-19感染人数KSA个省。从社会的角度研究Covid感染KSA个省没有解决之前。

  2. 2。

    第二个是将COVID-19感染在集群的数量和决定因素分析,以分类KSA个省分为同质组或集群。可以提供更多的信息关于这个省高度受到Covid流行以及如何有效地处理它的感染的因素。

  3. 3所示。

    第三是预测未来每天每个构建集群的感染人数预测未来的感染人数KSA个省。

我们所知,连接这三个目标,需要回归建模、分类技术和时间序列预测方法在一项研究中叙述当前Covid-19和预测其未来的故事还没有完成之前。

本文组织除了在五个主要部分的结论。“数据源”一节提出了本研究的数据来源。概述一节中提供了哪些个省KSA个省的“概述”。各种统计方法在本研究中突出显示的部分数据分析方法和部分嵌入。最后,结果解释和调查部分“结果”。研究最后以一些结论意见。附件附录包含辅助表和数据。

数据源

数据收集从两个不同的资源。每天和累积在沙特阿拉伯的感染病例数个省收集从KAPSARC数据门户脚注1从3月22日期间,2020年7月11日,2021年。累计感染数量KSA个省代表了受感染的病例总数为135省7月11日,2021年。的特点,本研究中使用的不同的KSA个省得到沙特通用权威的统计数据,提供详细的数据对所有KSA个省和地区服务统计公报。在这项研究中使用的所有数据收集7月11日,2021年。表1介绍了对所有个省收集数据的主要特征。COVID-19感染的数据收集从KAPSARC数据门户连接到他们的匹配KSA服务统计公报的数据,合并在一个数据模型,使用电力BI软件,用于数据转换和准备工作。

表1研究变量的描述性统计。

概述KSA个省

沙特阿拉伯王国是13个地区广泛的分类,这是最广泛的分类。每个区域划分为若干个省,除了地区负责人称为“Emarah。”的数量在每个区域范围从3个省23个省。个省的总数是137。个省进一步细分为sub-governorates称为“Markez。“最大的地区,根据人口规模和数量的个省,是“Ar Riyad,”其中包括哪些国家的首都名称相同的。第二大地区“麦加”,其中包括16个省。表2提出了研究变量意味着在每个区域。它可以指出,“Ar Riyad”和“麦加”地区的最高价值的大部分变量预计最大的地区。武装力量,冰雹,Al Bahah Al Jawf Jazan Najran和北地区有相对较低的值。其他地区有适度的值在研究变量。

表2的方法研究变量在哪些地区。

数据分析方法

分析在这项研究分为三个部分连接。首先,KSA个省之间的差异是对感染的累积数量调查。后来,KSA个省集中使用累积感染病例数,和重要的变量证明是相关的,使用K意味着集群方法,这是一个机器学习技术。在最后一部分,四个预测方法进行比较,以确定最佳模式以适应日常感染病例数为每个集群。根据研究结果提出的建议是“结论”。

因为该研究有不同的目标,不同的统计和数据分析软件。权力BI用于合并和准备所有的数据在一个数据模型。SPSS v。26is used for building elementary regression model, clustering data and creating forecasting models using seasonal exponential smoothing (SES), seasonal autoregressive-integrated moving average (SARIMA) models and multilayer perceptron (MLP) neural network. R package V4.1.2 is invoked to test and deal with heteroscedasticity problem cursed the model-dependent variable. NCSS v.2021 is used for estimating the parameters of the principal component regression model. Finally, MATLAB v.2019 is employed for constructing long short-term memory (LSTM) neural network models.

COVID-19-infected可能决定因素的情况下,研究依赖于服务统计公报发布的沙特一般权威统计数据,提供regional-based以及governorate-based统计数据。这项研究还包括所有相关的变量,这些变量可能COVID-19感染。这导致三套在该模型解释变量。由于人口规模和密度是最强的影响因素累积在沙特的感染病例数个省,第一组的预测因子包括人口规模和数量的房屋。第二组可用的预测因子包括人口统计变量在一个省基地,包括数量和平均课堂密度本科学校的男孩,和教室的数量和平均密度的本科学校的女孩。第三组包含变量没有在省基地,还可用在地区基本相反,那里个省在同一地区有相同的值。这些变量属于卫生部门和其他人口统计变量,如表所示1

回归分析

回归模型被定义为统计技术旨在找到一个或多个因变量之间的关系使用一组解释变量。传统的回归模型的表达式

$ $ Y = XB + \ varepsilon $ $

在哪里Y在左边代表结果X表示一组解释变量的可能影响Y使用一组模型系数Bε模型的误差项。

回归分析的主要目的是解释的差异累积之间的感染病例数量KSA个省。那里我们试图建立一个回归模型的决定因素的增加/减少累积感染病例。因变量因此累积感染病例数个省。

回归模型设置

首先,回归分析的数据准备运用对数变换的依赖和独立变量,为了减少异质性和离群值,除了老,没有离群值。接下来,确定模型的预测。选择合适的解释变量是一个国家的艺术。由于伟大的协变量的数量,一个灵活的实用方法,从建设简单线性回归,其中每个协变量分别输入到模型中。只有重要的变量在上述模型是包含在一个模型来衡量每个预测条件的影响。13个变量显示显著的影响在简单的回归模型,所以它们都包括在模型中。

不过,估计的条件影响因素被认为是一个障碍提出了回归模型,考虑到这一事件预测因子之间的相关性。在这项研究中,使用的回归模型的大部分变量高度相关,尤其是与人口规模和数量的房屋,导致严重的多重共线性问题。解释变量的皮尔森相关系数矩阵表(a - 1)在附录中得出结论,之间存在高度相关的变量。因此,估计变量的影响都是巨大的挑战与人口规模,人口和房屋的数量,同时保持房屋的大小和数目相同的模型。

回归模型的诊断

为了诊断模型的性能,一个基本模型是使用普通最小二乘(OLS)估计的估计方法,以及所有的预测残差计算模型。共线性诊断措施也使用特征值和条件数计算。如表所示(a)在附录中,大多数预测都是彼此共线。另一个问题,违反了回归假设出现通过绘制studentized残差与拟合值(Blatna,2006年)。图(a - 1)在附录中清楚地揭示了异方差性问题。除此之外,两个离群点检测代表Ar Riyad和Gedda个省。然而,比较结果,没有两个离群值显示没有实质性的区别。

因为我们有多重线性回归假设违反,Box-Cox转换和主成分回归受聘的对数转换的模型结果和普通最小二乘回归分析技术。Box-Cox转换经常用来规避违反常态或同质性假设。Box-Cox转换的一般形式

$ $ x \离开λ(\ \)= \ \{{\开始数组{}{* {20}{c}} \ displaystyle{\压裂{{x ^ \λ- 1}}{\λ},,\ \λ\ \ \,0}\ \ {\ ln \离开(x \右),\ \λ= 0}\结束{数组}}\正确。$ $

在哪里x(λ)是应用Box-Cox变换后转换变量的值取决于λ。选择不同的值λ,导致不同变体的Box-Cox转换。作为λ趋向于零,Box-Cox变换相当于对数变换。

使用“插入符号R包”,感染的数量改变了估计λ−0.2这是它的最大似然估计量。方差齐性的假设测试使用studentized Breusch-Pagan测试(Breusch和异教徒,1979年)和单一全球测试(佩纳和石板,2006年)。可以采用单一全球测试检查等线性回归假设线性关系,偏态、峰态和异方差性。此外,Durbin-Watson执行测试来验证假设的残差之间没有相关性。表(a - 3)在附录中给出了测试数据和假定值单一全球测试和studentized Breusch-Pagan测试都确认后的残差方差齐性应用Box-Cox转换。类比推理,Durbin-Watson测试保证残差之间不存在自相关。

为了解决多重共线性问题,采用主成分回归的OLS回归模型。利用主成分回归的动机是使用特征向量中心和比例变化的预测,预测本身,而是排除低方差的特征向量;即。,年代mall eigenvalues. Since eigenvectors are orthogonal, the model overcomes the collinearity problem. Afterwards, the eigenvectors are re-transformed to the original predictors for the purpose of obtaining interpretable estimates and calculating their significance levels. Regression results are presented in the sub-section “Regression model results”.

聚类分析

以下部分检查的结果估计回归模型采用累积感染病例数及其重要的决定因素,以集群KSA个省分成组类似的单位,使用K意思是集群的方法。执行的步骤K意味着集群非常简单:

  1. 1。

    第一个k数据项是数据集作为初始聚类质心的任意选择。

  2. 2。

    第二每个数据项分配给对象是最相似的集群之间的欧氏距离,确定基于每个项目和集群的意思。

  3. 3所示。

    之后的每个集群将被重新计算并作出相应更新。

  4. 4所示。

    第二和第三步之间的算法迭代直至收敛。

然而,K意味着集群方法有一个缺点是没有任何选择的标准数量的集群k。因此,集群的数量是由两个标准。首先是使用层次结构的集群,瓦尔德联系系数,计算和应用肘部规则使用小石子图图表(多元的解决方案,2014年)。二是进行轮廓分析寻找最优数量的集群。聚类分析实现,其结果是小节中所讨论的“集群分析结果”。

预测分析

这部分的目的是将组成集群的预测模型,以预测每日COVID-19病例数在每个集群。预测方法通常可以分为传统的统计技术,人工智能和新方法。在这项研究中,四种方法都包含在找到最好的模型比较适合每日感染病例数为每个集群,可用于未来的预测。

ARIMA模型,也称为Box-Jenkins模型,首次提出通过盒子et al。(2015年)基本上是线性估计退化过去值(自回归条件)或过去的预测错误(移动平均计算)。传统的ARIMA模型ARIMA(表示为p,,d),p,,d自回归模型的参数顺序,程度的差异和移动平均模型,分别。季节性ARIMA或SARIMA模型是传统的ARIMA模型的修改版本,适用于季节性数据。季节性是一个重复的规律变化年代时间,年代是时间的数量,直到再次重复模式。SARIMA模型SARIMA的形式(p,d,)x(P,D,)年代。更多细节见de Oliveira和奥利维拉(2018年)。

此外,指数平滑法(ES)方法指的是传统的程序不断修改最近天气预报的信息估计数据分配指数降低权重随着观察过时了。指数平滑模型的一种特殊类型的季节性指数平滑法(SES)模型,模型中包括季节性术语。几种方法并给出了指数平滑技术;其中Holt-Winters添加剂/乘法模型是最常见的(de Oliveira和奥利维拉,2018年)。

与上述统计方法,可以很容易地用简单的方程显式地定义独立和相关的变量,ANN方法的术语相关的输入和输出通过层类似于生物神经系统的中子。两种常见类型的安通常用于时间序列预测:多层感知(MLP)和短期(LSTM)网络。MLP网络属于前馈人工神经网络,通常包括三种类型的层,输入层、隐藏层(年代)和输出层。LSTM递归神经网络,网络的进化版本使用反馈连接使它更复杂的比传统的MLP网络。然而,这种复杂性带来的优点解决MLP网络无法解决的复杂问题(Elsheikh et al .,2021年,一个)。

典型的结构LSTM神经是由细胞组成的。每个单元的输出多个进程的结果。LSTM网络有关过去的信息存储在一个额外的内存被称为细胞状态。在细胞状态是由盖茨的信息。每个单元有三个门;输入门,忘记门,门输出。数据可以被移除或添加到使用激活细胞状态盖茨乙状结肠激活函数应用到数据。

结果

下一节介绍的结果分析的三个主要部分:即。,principal regression analysis, cluster analysis, and forecasting analysis, respectively.

回归模型结果

我们运行主成分回归获得无偏估计在共线的预测因子的存在。估计模型参数见表3

表3主成分估计回归系数研究的回归模型。

模型的结果表明,人口规模和数量的房屋都有积极影响累积感染病例。更大的个省往往有较大的累积感染病例。一个重要的结果是积极的估计系数lMSCHOOLS,lFSCHOOLS,l飞行器强度,l喜欢的强度,代表的条件影响下属预测因子包括人口规模和密度的影响。因此比较个省和类似的人口规模和密度较高的揭示了个省课堂密度(男或女学生),和/或更多的学校(男或女学生)倾向于有更高的累积比其他受感染的病例数个省。更高的课堂密度反映了许多学生经常近距离接触。高等学校数字表明,更多的学生和老师经常离开他们的房子让他们容易接触受感染的患者,这可能导致他们的感染。

此外,有趣的是表明个人医疗保险覆盖的百分比l保险负面影响的累积感染病例,而与健康有关的变量等l医院,l,l护士l医生有积极的系数。这可以解释为KSA政府分配更多的医疗艾滋病,如医院、床,护士和医生,高度受到COVID-19个省,反映良好的措施在应对流感大流行。的负斜率估计l保险是一个好迹象,健康保险,及其相关护理提供给市民,减少COVID-19感染的数量。最后,两个l.EMPLOYEES似乎没有一个重要条件的影响。为l.EMPLOYEES,微不足道的效果可以由于工作场所中采用的预防措施,有助于限制感染成年雇员。的渺小表明,老年人容易感染年轻公民,这两者都是同等的风险,这是观察在分析感染不同变体的COVID-19(表3)。

聚类分析结果

在运行集群分析之前,准备聚类的数据转换所有的变量z分数摆脱单元规模。下一个层次的集群技术调用找到最佳数量的集群。最后十行集聚调度表的展示在表(4)。轮廓系数除了小石子图绘制受聘找到理想的数量的集群。在无花果。23两个最优值数量的集群。的K——集群方法应用K等于2。图4强调沙特个省的分布在集群。第一个集群中,占23%的KSA个省,特点是相对较高的感染与第二个集群,包括77%的KSA个省。

表4集群中心K意味着集群。
图2
图2

小石子图图表定义集群使用肘部规则。

图3
图3

轮廓分析最优数量的集群。

图4
图4

在每个集群数量和比例的KSA个省。

5显示每个集群的方式表4显示了所有集群的集群中心。了,很明显,个省更多的感染与一个集群分组。此外,这些个省也在其他集群变量除了更高的值l.INSURANCE。这些发现与获得的结果从主回归模型链接数的感染与协变量模型更高的价值和更低的值l.INSURANCE

图5
图5

意味着每个集群的集群的变量。

预测每日COVID-19病例数

在本部分中,SARIMA模型的性能,SES方法、延时和LSTM网络验证使用一系列日常感染情况下为每个集群构造使用K意味着集群方法小节“集群分析结果”。为每个集群中,受感染的情况下时间序列分为训练集和测试集,训练集代表了第一个89%的测试集的系列最后11%。那里的所有方法在比较被训练使用数据的时间间隔”2021”2020年3月30日至5月22日,比较使用间隔中的数据来完成“2021”2021年5月23日至7月11日。

不幸的是,在所有集群数据有许多缺失值并不是所有的个省提交感染数量每天都在研究期间。处理缺失值是至关重要的,主要取决于missingness机制生成失踪(Yaseen et al .,2016年)。如果missingness失踪完全随机随机(MCAR)或失踪(3月),可以使用传统和古典归罪技术。复杂的和复杂的方法必须继承如果missingness类型失踪不是随机(MNAR) (Yaseen迦得支派,2020年)。这里我们没有任何理由认为missingness MNAR,因此我们可以使用线性插值转嫁所有缺失的值,适合时间序列性质。

我们准备将所有缺失值的数据,然后运用对数变换系列的两个集群减少异质性。下一步是设置预测模型的预测。因为我们没有时间相关的独立变量,时间作为预测因子,即。,年、月、季度、年周和日是作为独立的变量。

后建立模型和准备数据进行分析,比较方法是每个集群的运行基于数据。SES技术和SARIMA模型,模型的参数设置使用SPSS modeler专家,它允许选择最佳参数值根据估计预测错误。表5显示了每个模型的估计参数。MLP网络,SPSS决定最好的中子数隐藏层,和时代的数量。一个共同的经验法则来确定数量的中子在隐藏层之间选择一个值的输入和输出的数量(数量Hornik,1991年)。SPSS软件包集的中子数使用自动的隐层结构4。双曲正切函数激活选择隐层和身份的激活函数为输出层。向MLP网络适用于批量训练使用尺度共轭梯度优化算法与SPSS v的默认值。26日培训设置。LSTM网络,各种各样的价值观是未遂的时代,细胞的数量,和初始速度,确定最佳的性能来完成600时代,隐层和四个中子,初始速率的0.3,0.2,学习速率下降的因素。亚当优化器包膜的反向传播算法。不同的替代前面的设置进行测试,但是没有检测到明显的改变。表5总结了模型设置为每个技术进行了比较。

表5估计参数预测模型。

训练过程完成后,拟合值计算所有技术来验证模型的准确性。测试不同的方法的行为是根据三种不同的标准进行;均方误差(MSE),均方根误差(RMSE)和平均绝对偏差(疯狂)可以表示为

$ $ {\ rm {MSE}} = \压裂{1}{n}{\}和{\离开({y - \ widehat y} \右)^ 2}$ $
$ $ {\ rm {RMSE}} = \√6{\压裂{1}{n}{\}和{\离开({y - \ widehat y} \右)^ 2}}$ $

$ $ {\ rm{疯狂}}= \压裂{1}{n}{\}和{\左| {y - \ widehat y} \右|}$ $

在哪里y\ \ widehat y \)代表的实际和预测数据n时间点。

6强调所有集群的比较指标。延时达到最低的值在所有比较标准两个集群,其次是SARIMA模型。相比之下,SES方法有最大的预测误差在两个集群。这表明MLP网络是最理想的方法,预测未来感染病例。

表6预测错误措施四methodsis相比。

比较不同预测技术清楚地揭示了简要研究集群最准确的模型。这个结果一致意见报告文学在神经网络的优越性在经典统计模型(见,例如Elwasify,2015年;侯赛因et al .,2017年)。

最后,延时是用来预测未来这两组患者的感染数量,直到12月31日,2021年。图6一个,b绘制每个集群的观察和预测价值。注意到,一般来说,每日感染病例数将减少在两个集群。这是采取预防措施的逻辑在树荫下和疫苗运动KSA持有的王国。两个集群,似乎减少的速度大于集群的下降率。这是合乎逻辑的,因为集群有一个省的最高价值观感染相关因素,积极影响感染的数量。

图6:预测每日Covid感染人数在KSA个省集群。
图6

一个观察和日常Covid感染对集群的期望值。b观察和日常Covid感染两个集群的期望值。

结论

本研究解决多个研究目标。首先是调查KSA个省之间的差异背后的原因,对累积COVID-19病例数。结果表明,几个因素解释的变化累积COVID-19病例数。除了人口规模和密度,高数量的学校和课堂密度在这些学校与大量的感染有关。这些变量直接或间接贡献密切接触的增加,和减少公民之间的社会距离。相比之下,员工的数量没有显著的影响,它揭示了工作场所内的预防措施的有效性,不包括教育机构。此外,该研究的回归模型证明了个省高感染获得更多的医疗服务和资源,这表明采用有效的策略来应对流感大流行。此外,本研究的第二个目的是分类KSA个省使用累积的感染,和与之关联的重要预测因子。结果表明,所有的KSA个省都可以分为两组。集群KSA个省使用Covid感染人数除了其决定因素提供了更多信息,地区严重遭受Covid流行以及如何有效地处理它。 Finally, different methods are adopted to predict the future number of daily infections for each cluster. Results highlight the superiority of MLP over all other comparing techniques. Fortunately, the forecasted data show a sharp decrease in the number of infections for cluster two, which includes most of KSA governorates. Overall, this study concludes that maintaining the current governmental strategies regarding COVID-19 is the best measure to keep the infections in the KSA to a minimum. Stricter strategies, such as decreasing classroom density in schools, may be needed for governorates with high number of schools and classroom density.