新冠疫情全球流行,疫苗研制成为当务之急。
mRNA作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一。
新冠疫情爆发后,RNA设计领域世界知名专家、斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题:
找到一个既具有稳定二级结构,而且还有效的mRNA疫苗。
然后是有效性,需要找一个mRNA序列,能够翻译成特定的蛋白质(抗原)。
单是满足这两个条件,若是采用遍历的方式去寻找,那就需要查看10632个mRNA序列!
这是什么概念?用一台超级计算机来处理,即便一秒钟能计算一个新冠RNA序列的二级结构,哪怕是从宇宙诞生到现在(130-140亿年),连“潜在”mRNA序列的亿万分之一都没算到。
仅靠科研人员的力量是远远不够的,那就“全民参赛”吧!
这个可以有。
其实,回顾近二十年的历史,随着全球化和城市化的深入发展,全球疫情爆发周期越来越短——从2002年的SARS,到2012的MERS,再到现如今的新冠病毒。
面对一次又一次的冠状病毒的侵袭,快速研制出特定疫苗成为了解决问题的一种途径。
那么,在mRNA疫苗如此庞大的搜索空间面前,LinearDesign又能起到什么作用?
针对新冠病毒的mRNA疫苗序列,通常是以自然界存在的新冠刺突蛋白对应的mRNA段为基础,经过一些改动后作为备选序列。
这一能量衡量了mRNA二级结构的稳定性,能量越低(越负)表明越稳定。
那么能量最低的序列什么样子,其能量可以低到多少?有请LinearDesign算法来回答这个问题。
它的二级结构非常紧密,几乎所有的碱基都形成了碱基对。而碱基对越多,通常能量越低,结构越稳定。
从上面对比图可以看出,在新冠病毒的刺突蛋白序列上的计算机模拟实验表明,LinearDesign算法可以设计出比Wildtype序列稳定得多的结构,而且设计时间只需要1个半小时。
野生型和随机生成的序列都集中在右下方,而LinearDesign设计的序列在左上方。其中最左侧的点是LinearDesign设计出的最稳定的序列,其MFE为-2477.7 kcal/mol. 而随着调整lambda值(一个平衡MFE和CAI的超参数),可得到一条淡蓝色的曲线,这个曲线就是所有满足条件的mRNA 序列中最优序列上界。粉色的曲线是近似算法设计出的序列,可以看到它和精确算法找出的序列(淡蓝色曲线)非常接近,但设计时间大大缩短。
更重要的是,LinearDesign不仅有助于解决当下的新冠病毒问题,更是适用于所有的mRNA疫苗。
那么,LinearDesign到底是如何做到这点的呢?
LinearDesign原理:降低搜索空间至多项式级
主要面临的问题,就是如何解决如此庞大的搜索空间。
LinearDesign通过动态规划算法,来将这一问题的搜索空间从指数级降低到多项式级。
具体来说,首先用确定有限状态自动机(DFA)来表达氨基酸和蛋白质,这样不同位置上密码子的选择就可以抽象为计算理论中常用的DFA图。
这里借用了计算语言学中常用的一个工具,随机上下文无关语法(SCFG)。RNA二级结构可以通过SCFG构建语法树来表示。
mRNA疫苗序列设计优化问题实际上是将单个RNA序列的二级结构计算(RNAfolding)推广到多个RNA序列。
在用DFA抽象表示多个RNA序列后,研究人员通过取DFA与SCFG的交集,来从多个mRNA序列中找到具有最稳定二级结构的序列。
借用LinearFold思想,进一步将计算复杂度从三次方复杂度降低到线性,大幅度缩短设计mRNA序列所需要的时间;
从提供一个最优的mRNA序列,到可以提供前k个次优的mRNA序列作为备选。疫苗公司可以在这些备选中选出最适合生产的疫苗序列;
同时优化二级结构稳定性和蛋白质表达效率,设计出稳定性好、蛋白质表达效率高的mRNA疫苗序列。
CoV-Seq:数据、工具都呈上,大家一起来抗疫
解决了寻找稳定、有效mRNA之后,对于科学家来说其实还存在一个困扰。
为了了解新冠病毒的进化和各个基因的功能,科学家们需要从不同年龄段、性别、种族和疾病阶段的患者身上收集SARS-CoV-2基因组并进行全基因组测序。
然而,公共存储库每天都在迅速发布基因组序列,每周有成千上万的新序列。
那么,问题就来了:
为了跟上最新发展,科学家需要经常下载并重新整理新的数据集,这可能会花费大量时间和精力。
另一方面,对于生物信息学知识有限的科学家可能会发现,当他们拿到新序列时,很难快速有效的进行分析。
而且,目前没有可以自动注释SARS-CoV-2基因和基因突变的软件。
数据分析工具,该工具接受FASTA格式的序列并生成VCF格式的突变数据。工具会自动过滤低质量的序列并删除重复的序列,执行序列比对,调用并注释遗传变异。
百度研究院开展RNA二级结构领域的研究,其实是在2018年刚刚开始。
但就是在这短短的2年时间里,百度研究院RNA团队,除了此次的LinearDesign外,还推出了LinearFold、LinearPartition,研究成果相继被计算生物学领域顶级会议ISMB接收,引起业内的关注。
这也足以体现百度在生物计算研究领域的技术实力。
正所谓能力越大,责任越大。面对突如其来的疫情,百度于1月份对外免费开放了可以大大提升新冠RNA二级结构分析速度的LinearFold服务,引起了全世界科研机关、防疫机构和生物医学公司的广泛关注,多家机构联系百度,提出了建立后续合作的意向。
现如今,在此基础上,百度再次发力,提出的LinearDesign能够大大减少寻找mRNA疫苗序列的搜索空间,还提供了CoV-Seq这样方便的工具平台,让研究人员能够加速科研的进展。
不仅如此,这样的技术、工具组合,还大大降低了上手的门槛。
那么,就快快加入“全民抗疫”这场战斗中,在LinearDesign的基础上从更多维度继续优化mRNA疫苗序列。说不定找到最优mRNA疫苗序列的,就会是你。
拯救人类的重任,就交给你啦。
传送门
LinearDesign 论文地址:https://arxiv.org/abs/2004.10177
以上就是本篇文章【百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/7178.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多