Skoltech的高中生生物信息学训练营变成了人类与科学人工智能之间正在进行的竞赛的最新篇章的场所。在早些时候解决了结构生物信息学这一长达50年的关键问题之后,突破性的人工智能程序AlphaFold被证明不适用于该领域研究人员面临的另一个挑战。
这一发现在PLOS ONE的一项研究中进行了报道,该研究的作者驳斥了一些AlphaFold爱好者的说法,即DeepMind的AI已经掌握了终极蛋白质物理学,并且是结构生物信息学的全部和最终目标。
结构生物信息学是探索蛋白质,RNA,DNA结构及其与其他分子相互作用的科学分支。这些发现为药物发现和创造具有令人兴奋的特性的蛋白质提供了基础,例如自然界中看不到的反应催化剂。
从历史上看,结构生物信息学的核心问题是预测蛋白质结构。也就是说,给定构成蛋白质的任意氨基酸序列,您如何可靠地计算该蛋白质在体内将呈现的3D形状,从而计算其功能。
50年后,这个问题由AlphaFold解决,AlphaFold是由谷歌的DeepMind创建的人工智能程序,其前身早些时候在国际象棋,围棋游戏和视频游戏星际争霸II中取得了超人的表现而成为头条新闻。
这一里程碑式的成就引发了人们的猜测,即神经网络一定以某种方式内化了蛋白质的基本物理学,并且应该超越其设计的任务。有些人,甚至在结构生物信息学界,预计人工智能很快就会对该学科的剩余问题给出明确的答案,并将其委托给科学史。
“我们决定解决这个问题,并将AlphaFold用于结构生物信息学的另一个核心任务:预测单个突变对蛋白质稳定性的影响。这意味着你选择某种已知的蛋白质,并只引入一种突变,这是可能的最小变化。你想知道由此产生的突变体是更稳定还是更不稳定,以及在多大程度上更稳定。AlphaFold显然无法做到这一点,正如其预测与已知的实验结果相矛盾所证明的那样,“该研究的首席研究员,Skoltech Bio的助理教授Dmitry Ivankov说。
当被问及参与该项目的高中生的角色时,研究人员表示,他们参与了突变数据处理,编写处理预测结果的脚本,可视化AlphaFold指定的结构,基本上是在线版本的人工智能。
伊万科夫强调,AlphaFold的创造者从未真正声称人工智能适用于其他任务,除了根据其氨基酸序列预测蛋白质结构。“但一些机器学习爱好者很快就预言了结构生物信息学的终结。所以我们认为继续检查是个好主意,我们现在知道它无法预测单个突变的影响,“伊万科夫补充道。
在实际层面上,预测单个突变如何影响蛋白质稳定性对于筛选许多可能的突变以确定哪些可能有用很有用很有用。例如,如果您想为洗衣粉制造耐高温的蛋白质添加剂,这样它就可以分解较热水中的脂肪、淀粉、纤维或其他蛋白质,这将派上用场。此外,众所周知,甜蛋白质有朝一日可以用来代替糖,只要它们能承受一杯咖啡或茶的热量。
在更基本的层面上,这项研究的结果表明,今天的人工智能并不是万能的,虽然它可能在解决一个问题方面取得了巨大的成功,但其他问题仍然存在,包括结构生物信息学的十几个主要挑战。其中包括预测由蛋白质和小分子或DNA或RNA组成的复合物的结构,确定突变如何影响蛋白质与其他分子的结合能,以及设计具有氨基酸序列的蛋白质,赋予它们所需的特性,例如催化其他不可能的反应的能力,作为微小“分子工厂”的元素。
除了提醒人们,即使在AlphaFold之后,他们领域的科学家也有一两件事要做,PLOS ONE研究的作者还研究了人工智能计划的成功源于其“学习物理学”的论点,而不仅仅是内化人类已知的蛋白质结构的整体并巧妙地操纵它们。显然情况并非如此,因为了解所涉及的物理特性,就稳定性而言,比较两个非常相似但不完全相同的结构应该相对容易,但这正是 AlphaFold 没有完成的任务。
这一点得到了之前对人工智能“物理知识”的两个保留意见的支持。首先,AlphaFold预测了一些侧基悬挂的结构,这表明锌离子与它们结合。然而,该程序的输入仅限于蛋白质的氨基酸序列,因此“看不见的锌”存在的唯一原因是AI被训练了与该离子结合的类似蛋白质结构。没有锌,预测的侧基方向与物理学相矛盾。
其次,AlphaFold可以预测一种孤立的蛋白质结构,它看起来有点像螺旋,而且确实是准确的——只要它与另外两条这样的链交错。没有它们,预测在物理上是不合理的。因此,程序必须简单地复制它从化合物结构中分离出来的形状,而不是依赖物理学。
“有趣的是,这项研究源于一个以分子与理论生物学学院参与者为特色的'有趣'项目。我们称之为“AlphaFold游戏”。当AlphaFold变得公开访问的那一刻,我们的实验室就将其安装在Zores超级计算机上。其中一个游戏涉及将已知的突变效应与AlphaFold对原始和突变蛋白的预测进行比较。这导致了一项研究,其中高中生有机会同时体验超级计算机和先进的人工智能,“该研究的主要作者,Skoltech博士生Marina Pak说。