来自 Meta AI 的 Facebook AI Research (FAIR) 的研究人员在《科学》杂志上发表了一篇论文,详细介绍了机器学习创建的包含 617.60 亿个预测蛋白质结构的数据库。ESMFold语言模型描述结构的速度比DeepMinds AlphaFold2快<>倍,尽管报告的准确性较低。
折叠预测在短短两周内在大约 2,000 个 GPU 的集群上完成。初始序列长度范围为20至1,024个核苷酸。365.225亿个预测具有很好的置信度,∼<>.<>亿个预测在高置信度范围内。
根据该报告,“使用语言模型对原子级蛋白质结构进行进化规模的预测”,1万个高置信度结果的随机样本显示,767,580种蛋白质的序列一致性低于UniRef90中的任何序列的90%,UniRef90是已知蛋白质序列的数据库。研究人员认为,这表明这些蛋白质与现有的UniRef<>序列不同。
然后,Meta AI团队将预测结构的样本与蛋白质数据库(三维蛋白质结构数据库)中的已知结构进行了比较。在阈值0.5 TM评分时,12.6%(125,765种蛋白质)没有结构成分匹配。基于此,研究人员估计,具有高置信度预测的大约28万种蛋白质(占12.6亿种蛋白质的225.<>%)可以表征与现有知识相去甚远的蛋白质结构区域。
基于序列的预测
蛋白质开始于从DNA复制的核苷酸的线性序列(转录),产生信使RNA,这是它将要成为的蛋白质的原始成分愿望清单。然后将mRNA核苷酸翻译成氨基酸(原料)。然后,这条氨基酸链经历了令人难以置信的转变,变成了复杂的三维折叠形状,根据其折叠结构,执行特定的复杂细胞功能。
蛋白质或酶的折叠方式部分决定了它的功能,因为它限制和优化了它可以与之相互作用的东西。该结构创建了一个开口或“锁”,仅使用正确的分子“钥匙”进行操作。人们一直在使用这些锁和钥匙酶,从食品工业和啤酒酿造到纺织品和生物燃料,却没有详细了解蛋白质的实际折叠方式。
洗衣粉通常含有几种类型的酶,其中一些是分解植物物质的纤维素酶。当纤维素酶遇到草渍中的纤维素时,纤维素成为适合锁的钥匙。该酶触发化学反应,分解草渍内的键。当遇到口红或油渍时,相同的酶将无济于事,这可能是另一种酶的工作。
一种蛋白质酶每秒可以执行数千甚至数百万次的任务而不会中断,为工业提供催化剂的低能量动力,并使酶成为一种工具技术。
我们身体的每个系统也依赖于蛋白质来执行生物功能。由于蛋白质的折叠结构对其可以参与的活动至关重要,因此了解这种结构对于了解它们在调查疾病原因时如何工作至关重要。
根据氨基酸(原料)的主要序列预测蛋白质如何折叠的能力将使医学研究人员能够更好地了解蛋白质代谢物相互作用和整个身体的生物学功能。这种更高分辨率的理解可以识别隐藏的疾病特征,加速对新的或更好的治疗方法的研究,并在某种程度上彻底改变现代医学。精确地了解结构如何遵循原材料(翻译的mRNA)的形式,也将使研究人员能够构建定制蛋白质来执行医疗保健和工业中的特定任务。
在人工智能预测模型之前的几十年里,科学家们对大约190,000种感兴趣的蛋白质的结构进行了建模。机器学习现在已经产生了数以亿计的预测,这些预测仍然需要得到证实和研究才能有用。虽然仍然不够可靠,无法取代较慢的有条不紊的结构X射线晶体学或功能受控测定实验,但人工智能才刚刚开始。未来几十年获得的知识可能会使之前的一切黯然失色。