【猎云网(微信号:)】12月6日报道 (编译:孙洋)
谷歌的人工智能专家和DeepMind公司发表声明,称他们已经使用人工智能,在仅仅基于基因序列的情况下,就可以预测蛋白质复杂的三维结构,这是一个“重要的里程碑”。
了解蛋白质结构对疾病诊断和治疗有重要意义,可以提高科学家对人体的认识,并可能有助于蛋白质设计和生物工程技术。
两年前,在一篇关于利用人工智能来预测蛋白质折叠结构的博客文章中写道:“构建蛋白质的三维模型是生物学的核心挑战之一,AlphaFold (DeepMind公司的人工智能)构建的模型在准确度上得到了很大的提高,这是生物学上的重大进步。”
预测蛋白质分子怎样从DNA上附着的氨基酸转化而来(即蛋白质链如何折叠到三维状态)有各种各样的方法。
但是,对三维结构进行建模是一项非常复杂的任务,因为蛋白质折叠排列组合取决于多种因素,例如氨基酸之间的相互作用。甚至有一个众包游戏(FoldIt),试图利用人类的直觉来预测可行的蛋白质结构。
DeepMind公司说,它的方法是基于多年的超前研究,尝试利用大数据来预测蛋白质结构。具体来说就是利用深度学习处理基因组数据。
博客中写到:“幸运的是,由于基因测序的成本迅速降低,基因组学领域的数据变得非常丰富。因此,基于基因组数据进行预测的深度学习在过去几年变得流行起来。DeepMind因而开发了AlphaFold,今年我们已经将其提交到了CASP(注:蛋白质结构预测的相关的一个大会)。”
“CASP的组织者称我们在预测蛋白质结构计算方面取得了前所未有的进步,我们感到自豪,我们在大会参与者中位居第一梯队(我们的位置是A7D)。”
“我们的团队攻关的是硬骨头,从零开始搭建目标结构,并不需要已有的方案作为模板。我们预测蛋白质结构的物理特性,达到了很高的准确性,然后用两种不同的方法来构建完整蛋白质结构的预测模型。”
DeepMind公司说,这两种方法都是基于经过训练的深度学习神经网络,根据基因序列预测蛋白质的性质。
“我们的神经网络预测的性质包括:(a)氨基酸对之间的距离以及(B)连接这些氨基酸之间的化学键的角度。第一个进步是判断氨基酸对是否彼此靠近的技术得到了发展。”
“我们训练了一个神经网络来预测蛋白质中每对氨基酸之间距离的分布情况。然后,这些概率被组合成一个评分,估计构建的蛋白质结构的准确度。我们还训练了另外一个神经网络,利用计算出来的距离来估计构建的蛋白质结构的正确程度。
然后,使用新的方法尝试构建蛋白质的预测结构,并搜索与预测相匹配的结构。
“我们的第一种方法建立在结构生物学中常用的技术上,并用新的蛋白质片段反复替换蛋白质结构种的片段。我们训练了一个神经网络用于创造新的片段,并利用它们来不断提高蛋白质结构的预测分数。”
“第二种方法通过梯度下降的算法来优化分数,梯度下降是机器学习中常用的一种算法,能够产生小而累积的优化提升,这种方式也可以获得高预测准确性。这项技术应用于整个蛋白质链,而不是片段,在装配之前必须要单独折叠,从而降低预测的复杂程度。
DeepMind公司将取得的成果称为“使用计算方法计算蛋白质折叠取得的早期进展”,并且声称这体现了人工智能在科学研究中的应用。
当然,它也强调,确定深度学习到底能够产生多大的影响,还为时尚早。
“尽管距离我们能够对疾病治疗、环境管理等方面产生明显的影响还有很长的路要走,但我们知道它的潜力是巨大的。我们有一个专门的团队研究机器学习如何推进科学的进步,我们期待我们的技术能够在多领域有所作为。”