一秒计算海量mRNA序列 百度LinearDesign算法十分钟找到“最佳配方

 新冠疫情期间,mRNA疫苗以更高的安全性和有效性,以及更快的研发和生产速度被寄予厚望,成为各国生命科学领域的关键竞争点,也是百度研究院前瞻技术研究的重点方向。

虽然目前mRNA技术已被成功商业化,但全球的科研团队仍面临一个统一难题:mRNA疫苗普遍稳定性低,致使它非常“脆弱”,很容易因为降解而失效。mRNA的这种不稳定性给mRNA疫苗的存储、运输和免疫原性都带来了挑战。目前业内普遍认可的破解之道,就是设计出具有稳定结构且蛋白质翻译效率高的mRNA序列。

虽然找到了解决路径,但是要想破局并不容易。序列设计所需要的庞大的计算量,成为研发过程中最严峻的“拦路虎”。与新冠病毒刺突蛋白对应的mRNA,若采用最传统的遍历方法去寻找一条稳定的序列,需要查看10^632次方个mRNA序列。打个比方,假设一台超级计算机每秒计算一个序列,在宇宙诞生到现在的138亿年时间里,可能连潜在序列亿万分之一都无法搜索完成。面对如此庞大的搜索空间,必须要有全新的算法,才能在有限的时间内寻找到那条最稳定有效的疫苗序列。

百度研究院早在几年前就预见了计算生物学和生物信息学的重要性,更是在 2018 年便开展了 RNA 二级结构领域的研究。基于在生物计算领域长期前瞻性的研究积累,百度研究院在疫情之初快速响应,在2020年4月成功推出LinearDesign mRNA序列优化算法。

与依靠穷举法搜索稳定mRNA序列的思路不同,LinearDesign通过动态规划算法,将序列稳定性和蛋白质翻译效率指标进行联合优化,可在10分钟内找到比天然序列更加稳定且蛋白质表达水平更高的新冠mRNA疫苗序列,真正实现了在最短时间内用最高的效率得出最优化的方案。

近日,百度和行业领先的mRNA药物公司斯微生物联合,公布了mRNA疫苗序列设计算法LinearDesign的新冠病毒疫苗生物实验结果:在稳定性、蛋白质表达水平以及免疫原性等多个衡量疫苗的重要指标上,LinearDesign设计的新冠疫苗序列均大幅优于传统方法设计的基准序列,尤其在抗原中和抗体滴度这一衡量疫苗有效性的关键指标上,LinearDesign设计的序列最高超过基准序列达到20倍,表示LinearDesign设计的疫苗能够有效产生免疫保护;其实际有效性和应用于生物制药领域的巨大价值被充分验证。

百度LinearDesign算法设计的七条疫苗序列(A-G)以及基准序列(H)等相关信息

百度LinearDesign算法从理论层面和生物学实验层面得到有效性验证,为将AI应用于生命科学探索出一条实际可行的道路。更可贵的是,这项技术具有广泛的适用性,可用于包括传染病疫苗、肿瘤疫苗、单抗等各种疫苗和药物的研发,也进一步验证了人工智能、生物计算技术在生命科学领域的实际应用价值。

以LinearDesign算法为代表的生物计算技术,将大大缩短新药研发的周期、降低研发成本,并提高医疗诊断的准确性和效率,为全人类的生命健康保驾护航。