来自EMS宏基因组图谱网站的100万个蛋白质的多色表示。

ESM宏基因组图谱包含6.17亿个蛋白质的结构预测。来源:ESM宏基因组图谱(CC BY 4.0)

总部位于伦敦的人工智能(AI)公司DeepMind公布今年预测了大约2.2亿蛋白质的结构在美国,这一发现几乎涵盖了DNA数据库中所有已知生物的蛋白质。现在,另一家科技巨头正在填补蛋白质宇宙中的“暗物质”。

Meta(前Facebook,总部位于加利福尼亚州门洛帕克)的研究人员使用人工智能预测了来自细菌、病毒和其他尚未被鉴定的微生物的约6亿种蛋白质的结构。

“这些是我们所知最少的结构。这些是非常神秘的蛋白质。我认为它们为深入了解生物学提供了潜力,”Meta AI蛋白质团队的研究负责人亚历山大·里夫斯(Alexander Rives)说。

科学家们在11月1日的一份报告中描述了这些预测预印1-使用“大型语言模型”,这是一种可以从几个字母或单词中预测文本的人工智能。

通常,语言模型是在大量文本上进行训练的。为了将它们应用于蛋白质,里夫斯和他的同事们给人工智能输入已知蛋白质的序列,这些序列可以写成一系列字母,每个字母代表20种可能的氨基酸中的一种。然后,该网络学会了填充一些氨基酸被遮蔽的蛋白质序列。

蛋白质“自动完成”

Rives说,这种训练使网络对蛋白质序列有了直观的理解,蛋白质序列包含了关于它们形状的信息。第二步——受到DeepMind开创性的蛋白质结构预测AI AlphaFold的启发——将这种见解与已知蛋白质结构和序列之间关系的信息结合起来,以产生预测。

今年早些时候,里夫斯的团队报告称,Meta的ESMFold网络并不像AlphaFold那样准确2他说,但在预测短序列的结构方面,它要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库。”

作为一项测试,研究人员将他们的模型放在了一个包含大量“宏基因组”DNA测序的数据库中,这些DNA来自土壤、海水、人类肠道和皮肤等环境来源。绝大多数编码潜在蛋白质的条目来自从未分离或培养过的单细胞生物,科学界对此一无所知。

总的来说,该团队预测了超过6.17亿个蛋白质的结构。这项工作只用了两周时间(相比之下,AlphaFold生成一个预测结果需要几分钟)。Rives说,这些结构可以免费使用,就像模型下面的代码一样。

在6.17亿个预测中,该模型认为超过三分之一的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,可以识别原子级的细节。数以百万计的这些结构完全不同于实验确定的蛋白质结构数据库中的任何结构,也不同于AlphaFold对已知生物的任何预测。

首尔国立大学(Seoul National University)计算生物学家马丁•施泰因格(Martin Steinegger)表示,AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而宏基因组数据库“应该涵盖以前未见过的蛋白质宇宙的很大一部分”。“现在有一个很大的机会来揭开更多的黑暗。”

马萨诸塞州剑桥市哈佛大学的进化生物学家谢尔盖·奥夫钦尼科夫(Sergey Ovchinnikov)对ESMFold低可信度做出的数以亿计的预测表示怀疑。一些可能缺乏明确的结构,至少在孤立的情况下,而另一些可能是非编码DNA被误认为是蛋白质编码物质。他说:“似乎还有一半以上的蛋白质空间是我们所不知道的。”

更精简,更简单,更便宜

德国慕尼黑工业大学的计算生物学家Burkhard Rost对Meta模型的速度和准确性印象深刻。但他质疑,在从宏基因组数据库预测蛋白质时,ESMFold是否真的比AlphaFold的精度更有优势。基于语言模型的预测方法——包括他的团队开发的一种方法3.-更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。他说:“我们将看到结构预测变得更精简、更简单、更便宜,这将为新事物打开大门。”

DeepMind的一位代表表示,目前还没有计划将宏基因组结构预测纳入其数据库,但不排除将其添加到未来的版本中。但是Steinegger和他的合作者已经使用AlphaFold的一个版本来预测大约3000万个宏基因组蛋白质的结构。他们希望通过寻找以前未知的病毒基因组复制酶的形式来发现新的RNA病毒。

斯坦格认为拖网生物学的暗物质显然是这类工具的下一步。“我确实认为,我们很快就会在这些宏基因组结构的分析方面出现爆炸式增长。”