巴塞尔大学和 SIB 瑞士生物信息学研究所的一个研究小组发现了一个未知蛋白质的宝库。拥抱最近的深度学习革命,他们发现了数百个新的蛋白质家族,甚至是一种新的预测蛋白质折叠。该研究现已发表在《自然》杂志上。
在过去的几年里,AlphaFold 彻底改变了蛋白质科学。该人工智能 (AI) 工具接受了生命科学家 50 多年来收集的蛋白质数据的训练,能够高精度预测蛋白质的 3D 形状。它的成功促使去年对惊人的 2.15 亿个蛋白质进行了建模,为几乎所有蛋白质的形状提供了见解。这对于尚未经过实验研究的蛋白质尤其有趣,这是一个复杂且耗时的过程。
该研究的负责人 Joana Pereira 表示:“现在蛋白质信息的来源有很多,其中包含有关蛋白质如何进化和工作的宝贵见解。” 然而,研究长期以来一直面临着数据丛林。由巴塞尔大学 Biozentrum 和瑞士生物信息学研究所 (SIB) 组长 Torsten Schwede 教授领导的研究小组现已成功解密一些隐藏信息。
鸟瞰图揭示了新的蛋白质家族和折叠
研究人员构建了一个由 5300 万个具有高质量 AlphaFold 结构的蛋白质组成的交互式网络。第一作者 Janani Durairaj 博士强调说:“这个网络是从理论上大规模预测未知蛋白质家族及其功能的宝贵来源。” 该团队能够识别出 290 个新的蛋白质家族和一个类似花朵形状的新蛋白质折叠。
基于 Schwede 团队在开发和维护领先软件 SWISS-MODEL 方面的专业知识,他们将该网络作为交互式网络资源提供,称为“蛋白质宇宙图集”。
人工智能作为研究中的宝贵工具
该团队采用基于深度学习的工具来寻找该网络中的新奇事物,为从基础研究到应用研究的生命科学创新铺平了道路。“例如,了解蛋白质的结构和功能通常是开发新药或通过蛋白质工程修改其功能的第一步”,佩雷拉说。这项工作得到了 SIB 的“kickstarter”资助的支持,以鼓励在生命科学资源中采用人工智能。它强调了深度学习和智能算法在研究中的变革潜力。
借助蛋白质宇宙图谱,科学家现在可以更多地了解与其研究相关的蛋白质。Janani Durairaj 表示:“我们希望该资源不仅能帮助研究人员和生物管理员,还能为学生和教师提供一个了解蛋白质多样性(从结构、功能到进化)的新平台。”