前景
2022年10月26日

算法能预测下一次大流行吗?

机器学习可以帮助识别最可能从动物传染给人类并导致未来大流行的病毒。

西蒙·马金⁰

西蒙·马金
1. 西蒙·马金，英国雷丁自由撰稿人。
看来作者出版物

您也可以在中搜索这个作者PubMed谷歌学者

您可以通过您的机构访问本文。

一对戴着口罩的中国男女在野生动物市场工作。 — 2013年，在人类感染禽流感期间，香港一个市场上出售的活鸡。图片来源:Jerome Favre/Bloomberg via Getty Images

2021年2月，据报道，7名俄罗斯养鸡场工人感染了H5N8禽流感。这种亚型禽流感之前从未有人感染过，病毒的基因序列很快被上传到基因数据库GISAID。对于华盛顿特区乔治敦大学的生物学家科林·卡尔森来说，这是一个机会。他说:“我立刻想到，‘我想通过FluLeap来运行这个项目’。

FluLeap是一种机器学习算法，它使用序列数据将流感病毒分为禽流感病毒和人类病毒。该模型已经训练了大量的流感基因组，包括H5N8的例子，以了解感染人类的基因组和感染鸟类的基因组之间的区别。但该模型从未见过H5N8病毒被归类为人类，卡尔森很好奇，想看看它是如何处理这种新的亚型的。

《自然展望:大流行防备》的一部分

有点令人惊讶的是，该模型以99.7%的信心将其识别为人类。该模型并没有简单地重申训练数据中的模式，比如H5N8病毒通常不会感染人类的事实，而是似乎推断出了与人类兼容的一些生物学特征。卡尔森说:“这种模式居然起了作用，真是令人震惊。”“但这只是一个数据点;如果我能再做一千次，那就更令人震惊了。”

病毒从野生动物跳到人类的人畜共患过程导致了大多数流行病。随着气候变化和人类对动物栖息地的侵占增加了这些事件发生的频率，了解人畜共患疾病对预防大流行的努力至关重要，或至少对做好更好的准备至关重要。

研究人员估计，地球上大约1%的哺乳动物病毒已经被确认¹因此，一些科学家试图通过对野生动物的采样来扩大我们对这种全球病毒的认识。这是一项艰巨的任务，但在过去十年左右的时间里，一门新的学科出现了——在这门学科中，研究人员使用统计模型和机器学习来预测疾病出现的各个方面，例如全球热点、可能的动物宿主或特定病毒感染人类的能力。这种“人畜共患病风险预测”技术的支持者认为，它将使我们能够更好地将监测目标对准正确的地区和情况，并指导最有可能需要的疫苗和治疗方法的开发。

然而，一些研究人员怀疑预测技术是否有能力应对病毒体的规模和不断变化的性质。改进模型和它们所依赖的数据的努力正在进行中，但如果要减轻未来的流行病，这些工具将需要成为更广泛努力的一部分。

病毒狩猎

一些研究人员长期以来一直认为，扩大我们对病毒多样性的认识将有助于管理大流行威胁。PREDICT是一个由美国国际开发署(USAID)资助的2亿美元项目，花了大约10年时间寻找动物病毒。到2020年结束时，它已经在34个国家的野生动物、牲畜和人的样本中发现了949种新病毒。

事后看来，PREDICT的一些发现似乎很有先见之明。2017年的一项研究²他估计，蝙蝠体内有数千种未被发现的冠状病毒(被广泛认为是SARS-CoV-2病毒的来源)，并预测东南亚将是SARS-CoV-2所属家族中病毒数量最多的国家。它还将涉及大量人类与野生动物接触的活动，如野生动物市场，与冠状病毒的较高流行率有关。

另一个2017年的研究^3.收集关于哪种病毒感染哪种哺乳动物的数据，创建病毒-宿主关联数据库。“我们的目标是了解哪些病毒能够感染人类，我们最常从什么动物身上感染新病毒，以及驱动这些模式的潜在因素，”纽约市生态健康联盟的生态学家和研究负责人凯文·奥利瓦尔说，该联盟是一家专注于生物监测和保护的非营利机构。研究小组的分析表明，特定宿主物种中能够感染人类的病毒比例受到人类与该物种亲缘程度的影响，也受到影响人类与野生动物接触的因素的影响，比如该物种地理范围内的人口密度和城市化程度。该团队使用统计模型来预测可能藏匿大量未发现病毒的动物群体和地区——在包括南美洲、非洲和东南亚在内的地区，蝙蝠以及啮齿动物和灵长类动物是主要特征。研究人员还发现了与人畜共患病毒相关的特征，比如它可以感染的物种范围。

该团队表示，这些信息可以帮助指导监控工作。“它使我们能够预测风险最大的地区，”加州大学戴维斯分校的流行病学家Jonna Mazet说，她是PREDICT的负责人。确定具体威胁还可使当地研究人员和保健工作者调整缓解和应对能力。“它允许社区说，‘我们有这个，这个和这个，我们可以通过这些方式降低风险，’”马泽特说。

PREDICT原本只是一个试点项目。“它产生了大量的数据，但这只是九牛一毛，”奥利瓦尔说。“我们需要更大的东西。”因此，研究人员在2016年提出了全球病毒罗马项目(GVP)，该项目被视为政府机构、非政府组织和研究人员的全球伙伴关系，目的是发现哺乳动物和鸟类中的大多数病毒(大多数人畜共患病毒源自它们)。然而，面对一些研究人员的批评，它从未得到资助。马泽特说，它今天作为一个非盈利组织存在，旨在为各国提供开展病毒式调查所需的知识。美国国际开发署于2021年10月启动了一个规模更小、成本更低的项目，名为“发现和探索新型病原体-病毒性人畜共患病”(DEEP VZ)。

一群蝙蝠倒挂着，映衬着漆黑的夜空。 — 蝙蝠含有许多未知的冠状病毒。来源:AttilaBarsan /盖蒂图片社

对全球价值链的一个批评是，这项任务的规模根本无法管理。预测研究人员估计⁴哺乳动物和鸟类体内有167万未知病毒，尽管这个数字存在争议，但毫无疑问，病毒群是庞大的。它还在不断变化，所以一次性的发现努力是不够的。“RNA病毒的进化速度非常快，”澳大利亚悉尼大学的病毒学家爱德华·霍姆斯说。“所以你必须一直这么做。”

还有人怀疑该项目是否能够发现潜在的流行病。“在理解病毒进化和生态学方面，我没有任何问题，”霍姆斯说。“但作为一种预测工具来了解接下来会发生什么，这是行不通的。”一个问题是，一些宿主物种和病毒家族已经被深入研究，但其他的几乎没有被触及。现有数据也倾向于已经溢出的病毒⁵．新西兰奥塔哥大学的病毒学家Jemma Geoghegan说，因此，到目前为止，大多数预测都是基于“完全有偏见的数据”。此外，即使发现了一种病毒并对其基因组进行了测序，许多可能影响其引发大流行可能性的因素，例如它感染人类和在人与人之间传播的能力，仍不清楚。“然后你必须做所有这些实验，这将花费数年时间和一大笔钱，”霍姆斯说。

这就是机器学习可能提供捷径的地方。与其试图完全描述每一种新病毒，模型可以用来标记高优先目标，以便进一步研究。科罗拉多大学博尔德分校的病毒学家Sara Sawyer说:“我们需要的是一个下游分类系统，这样我们就知道哪些病毒需要进行深入的病毒学研究。”

在模型

当一种病毒被发现时，除了它的基因序列外，通常对它知之甚少。因此，仅使用病毒基因组就能对病毒进行分类的模型将特别有用。英国格拉斯哥大学的计算病毒学家Nardus Mollentze和他的同事已经开发了一个这样的模型，该模型通过测量病毒与人类基因组的部分基因相似性来部分评估病毒⁶．病毒的进化压力可能导致与宿主基因组相似的遗传片段——要么是为了躲避先天免疫系统，要么是为了帮助复制。在对一个包含861种已知病毒的库进行测试时，该算法可以将它们分类为人畜共患病或非人畜共患病，准确率高达70%。

从那以后，莫伦兹加入了病毒出现研究计划(Verena)，这是一个研究人员联盟，旨在开发和改进人畜共患疾病的预测模型。Mollentze与Verena的研究人员合作，将他的算法与利用哪些病毒感染哪些宿主的知识的技术结合起来，包括推断未知的宿主-病毒关联的方法。这种综合方法将业绩提高了大约10个百分点⁷．未来，病毒与宿主在分子水平上如何相互作用的知识可能被纳入。“这将全是关于蛋白质和生物化学的，”Verena的导演卡尔森说。“这就是它的未来。”

一个重要的目标是了解哪些模型运行良好，以及为什么。有些模型只是根据数据中的模式进行分类，有些则推断出这些模式的原因，但很难将它们区分开来。“有一个问题:我们只是在教机器重复它们已经知道的东西，还是它们在学习将应用到新领域的原理?””卡尔森说。

为了取得进展，验证模型的过程将至关重要。例如，一些研究试图预测哪些物种携带人畜共患病毒，但结果好坏参半，但几乎没有进行系统比较，因此很难知道哪种方法有效。为了解决这一问题，2020年初，Verena的研究人员将哪些蝙蝠物种可能携带β冠状病毒的预测作为案例研究⁸．他们创建了8个统计模型，并用它们生成了一个可疑主机的列表。在接下来的16个月里，47个新的蝙蝠宿主被发现。当研究人员将这些结果与他们的预测进行比较时，他们发现一半的模型的表现明显优于随机预测。这些模型包括物种寿命或大小等特征。其他四种模型没有考虑到这些特性，表现很差。

数据开发

任何人工智能(AI)算法从根本上都受到其输入数据的限制。Sawyer表示:“当算法接受大量高质量数据训练时，人工智能才能发挥作用。”“但每年只发生少量溢出，有关病毒的数据往往是脏的，有很多信息缺失。”大多数研究人员都认为目前的数据是不够的。“我们没有足够的高质量数据来做好预测工作，”马泽特说。

在某种程度上，建模依赖于科学家收集新数据，但到目前为止，病毒式发现努力的动机是考虑到风险最高的地方和情况。卡尔森说，建模者真正需要的是旨在提高地理和分类覆盖率的采样。提供更多这类数据的模型改变了可以提出的问题的范围。卡尔森说:“有了100万个数据点，你就可以展示森林砍伐是如何增加蝙蝠中的病毒流行率的。”“有了一万亿点，你就可以像预测天气一样预测溢出效应。”

更多内容来自《自然展望》

要想接近这一目标，就需要全球合作，将开放数据共享作为规范和每个人都遵守的数据标准。这方面的障碍更多的是政治、文化和伦理上的，而不是科学上的。例如，围绕出版物的学术激励是快速数据共享的一个障碍。确保共享基因数据的国家从中受益也是至关重要的。奥利瓦尔说:“这是关键问题，解决这个问题需要建立信任。”“确保你回馈社会，不仅是通过疫苗，而且是通过培训、能力建设和论文的共同作者。”

2014年生效的《名古屋议定书》(Nagoya Protocol)确立了各国对自然资源(包括生物样本)的主权，并允许各国要求签订利益分享协议，以换取这些样本的使用权。然而，一些实验室现在可以仅仅利用基因测序数据合成病原体或开始开发疫苗。卡尔森说:“我们在国际法中没有任何处理序列数据的规定。”“名古屋不适合那个世界。”有一天，类似的问题可能会应用于人畜共患疾病的风险预测。“我们使用的数据是由全球南部的研究人员收集的，”卡尔森说。“获取这些数据并创造一项技术意味着什么，这是一个合理的问题。”

预测和准备

为了使建模具有现实世界的影响，它必须导致公共可访问的工具，提供可操作的、本地相关的信息。建模还需要与实验工作更好地结合，以探究病原体的特征。就像一个模型可能标记出候选病毒供进一步研究一样，这些调查也可能产生用于验证和改进模型的信息。然而，跨学科的交流目前是有限的。索耶说:“这些社区不怎么交流，甚至不怎么读彼此的报纸。”

建模人员还需要清楚地传达他们工作中固有的不确定性，以及他们预测的含义，这样他们就不会过度吹嘘好处。Olival说:“没有人说我们会知道导致下一次大流行的确切时间、地点和物种。”研究人员正在处理概率问题，意料之外的事情可能而且确实会发生。

即使在最好的情况下，预测工具也无法完全阻止疫情的爆发。卡尔森说:“我绝对不认为我们应该把世界安全依赖于这些模式。”但是，与改进的全球监测系统、有针对性的疫苗开发和在全球范围内建设卫生保健能力的努力一起，它们的价值是显而易见的。卡尔森说:“它们让我们做两件事:了解周围发生的事情，分清轻重缓急。”最终，这可能有助于减少流行病的发生频率。“我们可以更好地预防其中一些，”卡尔森说。“但这需要我们做得更好。”

自然610S42-S44 (2022)

doi: https://doi.org/10.1038/d41586 - 022 - 03358 - 4

本文是自然展望:防范大流行，是一份独立编辑的增刊，由第三方提供财务支持。关于这个内容．

参考文献

卡尔森,c·J。et al。菲尔。反式。r . Soc。Lond。B376, 20200358(2021)。
文章谷歌学者
安东尼,s . J。et al。病毒的另一个星球．3.vex012(2017)。
文章 PubMed 谷歌学者
Olival, K。et al。自然546, 646 - 650(2017)。
文章 PubMed 谷歌学者
卡罗尔,D。et al。科学359, 872 - 874(2018)。
文章 PubMed 谷歌学者
威尔，M.，盖根，J. L.和福尔摩斯，E. C。公共科学图书馆杂志。19e3001135(2021)。
文章 PubMed 谷歌学者
莫伦泽(N. Mollentze)，巴巴扬(S. A. Babayan) &斯特里克(D. G. Streicker)。公共科学图书馆杂志。19e3001390(2021)。
文章 PubMed 谷歌学者
Poisot, T。et al。预印在https://arxiv.org/abs/2105.14973(2022)。
贝克尔,d J。柳叶刀的微生物3.E625-E637(2022)。
文章谷歌学者