本答案偏技术,枯燥预警。
有新的结果会放在末尾,不定时更新。
先放主要结论:
现阶段数据无法通过溯祖分析得到病毒从哪个国家传来的。
“随意的猜测是不负责任的”“应当避免在证据不充足的时候随意发布消息” ——张文宏
本答的目的在于:通过复现实验过程,来告诉你这些结论有多不靠谱。
另外,说点与正文无关的东西。穿山甲是哺乳动物,蝙蝠也是哺乳动物!他们跟人类的系统发育关系都不算特别近!或许蝙蝠还稍微近那么一点点。参见下图(绿色蝙蝠、红色穿山甲、蓝色人类)。并不是说因为穿山甲是哺乳动物,所以它比蝙蝠更适合成为中间宿主,而是因为它身上的病毒的某些关键基因与人类病毒更加接近。但是,无论是穿山甲还是蝙蝠,目前检测到的他们身上的病毒离人类病毒都还有着相对较远的距离(4%~1%)。
正文开始:
这两天看了很多关于病毒发源地的猜测,连60多岁的老父亲都开始说“五毒尊者”了,主要的依据来源于下面这篇文章:
文章使用了生物地理的研究方法,分析了93个病毒基因组,计算了单倍型网络并进行了分组。有H13和H38因为在网络图中与蝙蝠的序列最为接近(见下图),被认为是祖先单倍型(ancestral haplotypes),而这两个单倍型不存在于中国,由此引发了一系列猜想。
然而作为一篇预印本的文章,其方法和数据都有很大的缺陷,不完善的结果很容易成为滋生各种阴谋论的土壤。下面我们来用最新的数据重复一下这个实验,看看会有什么样的结果,大部分人对分析过程不会感兴趣,可以跳到最后看结论。
首先亮数据,我们的数据来自Global Initiative on Sharing All Influenza Data、NCBI以及新型冠状病毒信息库,共计171条全基因组数据,包括170条人类来源的SARS-CoV-2和1条蝙蝠的冠状病毒序列RaTG13,数据更新到今天早上(2020-2-28)。有5条数据质量由于质量较低而被删除,最终使用了166条全基因组数据。
在Geneious里面使用MAFFT插件进行排序并预测orf,拆分orf后使用自编脚本进行单倍型的计算(与DNASP的结果一致),算好的单倍型导入popart计算单倍型TCS网络(Medion Joining Network的结果基本一致)。
上图是全长13218的ORF1的结果。图中,红色表示中国,蓝色表示美国,绿色是蝙蝠的序列,其他的国家和地区都用黑白表示。在增加了大量数据的情况下,祖先单倍型(其实这么说是错误的,下文会解释)是Hap16,Hap22,Hap31,分别分布于新加坡、德国和韩国,图中也没有明显的分组。
接下来,我们用蝙蝠病毒作为外类群对单倍型建ML树,建树的结果导入RASP中用DEC模型进行祖先分布区重建,因为图比较大,因此只保留的接近基部的位置。
在这张图里,中国、德国和韩国是最可能的祖先分布区。其他几个ORF这里就不做了,感兴趣的可以自己做来试试。
德国!?韩国!?显然不太可能。为什么我们增加了数据,完善了方法,却得到了更加奇怪的结果?原因是:虽然我们增加了很多数据,但是从蝙蝠病毒到人类病毒这部分依然是缺失的。蝙蝠病毒和人类病毒还有着遥远的距离,导致现阶段的溯祖分析无法得到稳定的有意义的结果。或者可以说:外类群离得太远了。
结果不稳定到了什么程度呢?用不同ORF和全基因组数据做出来的结果各不相同。如果只看ORF1区,蝙蝠病毒和新冠的同源性是96%左右,这4%的差距在单倍型分析中意味着什么呢?如果仅仅考虑165个新冠病毒,可以获得146个变异位点,两两之间平均变异数量约为3个,但如果把蝙蝠病毒加上,其和其他新冠病毒之间的平均变异数量约为130个。这样的研究相当于在130米开外放一堆苹果,苹果之间平均间隔3米,让你蒙上眼睛走过去抓,当然是抓到哪个苹果都有可能啊。在之前的答案下有位答友也给了个很好的例子:这种研究相当于用红毛猩猩跟各色人种相比较,来推断哪个人种最先出现。显然是不可靠的!不可靠的!
那么,如上的研究能够相对准确的说明什么呢?
1、在全球范围内,SARS-CoV-2变异度依然很低。
2、增加了城市数据后(可以自己做做看),可以发现华南海鲜市场的数据全部集中在最主要的单倍型中(图中H1),这意味着华南海鲜市场只是病毒的一个扩散中心,并不是发源地。
3、增加时间数据后,可以发现病毒在2019年12月初就已经开始流行。
4、来自美国病毒的单倍型种类很丰富,仅次于中国。
不能说明的是(甚至无法进行合理推测):
1、某些某些病毒单倍型是“祖先单倍型”。
2、病毒从某个国家最先开始人传人。
3、对病毒单倍型的各种分组。
更新一下ORF合并分析的单倍型图和单倍型分布地图:
3月1日更新
关于美国的问题,现在主要有3种假说:
1、美国病毒的早期的单倍型主要来自于中国的直接输入。(截止到最后的基因组数据的采样日期2月23日)
2、美国病毒的早期的单倍型主要来自于中国的输入病例在本地爆发后的变异。
3、美国病毒的早期的单倍型部分源自于本土爆发后的变异,部分来自中国的输入和输入后的变异。
简单的说,假说1和假说2都是中国起源,区别是1认为美国并未爆发,2认为美国已经爆发。假说3是美国起源,也就是现在认为的阴谋论。
目前的基因组数据不足以否定任何一个假说。
用BEAST基于全基因组建树,重新进行了分组,绿色的样本来自中国或者有中国旅行史(没有完全统计)。基于这张图和单倍型的分析,目前的数据更加支持假说1,但是因为分支的支持率较低,传播链不完善,不能否定假说2和3。
未来有了更多数据会怎样呢?
如果美国重新检测了11月或更早期的流感病人样本,在其中发现了新冠阳性,那么结论会倒向假说3,美国政府可以出来谢罪了;如果中国也检测了11月或更早期的病人样本,在其中发现了新冠阳性,结论又会回到假说1和2。
如果始终没有发现11月或更早期的样本,但有了更多12月及以后的基因组数据,并且完善了传播链,那么假说1或2会有更强的支持。其中:如果美国的样本分散在树的各个部位,那么假说1胜出,如果部分没有中国旅行史的美国样本聚成一支,那么假说2胜出。
让我们拭目以待。
来源:知乎 www.zhihu.com
作者:石头鱼
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 1149 个回答,查看全部。
延伸阅读:
武汉疫情是否可以征用高校宿舍进行隔离轻症患者和疑似患者?