对新冠病毒(SARS-CoV-2)分型和早期测序准确度的回顾与展望




撰文:傅毓涛
目前武汉已解封,高校也陆续开学,人们正陆续回到和平生活中来。想必科研人员也能有点余力,回顾下新冠疫情早期的一些数据和结论。
病毒全基因组测序是流行病学的常用手段,通过系统发育研究推断各毒株的演化顺序,很多精彩的科普文章中已有详细解释,此处不再赘述。蝙蝠RaTG13冠状病毒有已知与SARS-CoV-2最接近的基因组序列,在多项研究中不约而同地被选作组外对照。由此所得的系统发育树根部,即被认为较古老的毒株,是从美国首位COVID-19患者身上分离出来的[1]。该患者有武汉旅行史,但其毒株未曾在武汉被发现过。
相对而言,来自武汉华南海鲜市场的毒株被认为只是后来者,但传播得更快更广。这种观点引起了公众广泛的兴趣和关相互甩锅的争论。因此,有必要对疫情爆发初期患者感染的病毒基因组的序列数量和质量进行一下梳理。
中国国家生物信息中心(CNCB,https://bigd.big.ac.cn/ncov/network?lang=zh-CN46)收集的SARS-CoV-2基因组序列相当广泛[2]。其网站包含了不同来源的数据,包括指向专业病毒数据库GISAID的连接,并提供了方便的数据下载和单倍型树图。如图1所示,查询2020年1月1日或之前在武汉采集的样品时,可以得到由24条完整的SARS-CoV-2基因组序列构建的系统发育树。
图1:2020年1月1日或之前武汉样品的病毒单倍型关系图
根据公开的报告,当时武汉累计确诊的患者仅41人[3]。因此,根据年龄和性别信息足以匹配不同测序样品来源的身份,除非其他已知信息不符。恰好GISAID可用于检索每条序列的患者年龄、性别、测序平台和序列组装方法,整合后的部分信息见图2。
图2——整合来自GISAID的患者数据(红色)与CNCB序列信息
表中第一列为年龄+性别(男M/女F),U代表未知。灰色三行因与其他序列的首尾缺失及全部碱基相同,怀疑为重复提交而被排除。注意41M1和41M2代表两个不同的41岁男性患者,可根据入院日期和是否在华南海鲜批发市场工作加以区别[4,5]。
由此可见,从一名49岁女性(49F)身上同一天采集的SARS-CoV-2样品被测序至少5次。另外三名患者(52F、61M和32M)也各自贡献了至少2条序列。通过公开媒体的文章可以确认49F、52F和61M同日采集的样品的确曾被多次分析,而41M1和41M2虽然连姓都一样,却毫无疑问是两个不同的人[6,7]。
这些重复的测序工作虽然为下面的准确度评估提供了契机,但对于SARS-CoV-2早期演化的流行病学研究而言,实际可用数据的进一步萎缩并不是什么好消息。反映在系统发育树上,每份多次测序样品的序列都分散在不同的位置,如图3所示。
图3——多次测序的四份样品在单倍型关系图中的分布
测序或装配错误可用以下规则保守地计算(首尾缺失不计):
1、当样品只测得两条基因组序列时,它们的差异就是两者的错误总数;
2、由于SARS-CoV-2的参考基准序列Wuhan-Hu-1的质量已被广泛认可,与之完全匹配的样品序列可认为无误;
3、彼此完全匹配的序列若非重复提交方可视为无误;
4、一旦某条序列被认为无误,同一样品的其他序列以与此序列的差异作为错误数;
4、无法用以上规则判定的序列不计入后续分析的分母。
经过统计,在可判定的16条基因组序列中,有7条(44%)序列出现了总共至少17个错误,详见图4。除规则1外的错误均可在参考序列上定位,经CNCB突变检索,绝大多数没有在任何其他SARS-CoV-2毒株基因组中出现过,符合对随机测序错误的预期。CNCB的质量控制流程只挑出了错误最多(6个)的一条序列,标记为包含密集突变(另一条对应图3中最长一枝的序列也被标记,但因规则5排除)。
根据GISAID的记录进一步分析,测序错误对所用的仪器平台和序列组装工具似乎没有明显的偏好。
图4——2020年1月1日及以前武汉样本测序错误统计
总之,武汉COVID-19疫情爆发初期至少有4例患者的病毒样品进行了重复测序,产生的基因组序列中有44%含1-6个错误,导致系统发育树出现明显的假分支。在当时的测序工作如此缺乏而杂乱的情况下,如何能区分华南海鲜市场毒株和美国首例毒株的先后顺序,又如何能推断是哪一株在传播竞争中获得了相对优势呢?
本文开头提到的一方观点,其实很早就撞上了一个反例。美国第二例COVID-19确诊患者是芝加哥一名63岁女性(hCoV-19/USA/IL1/2020),在武汉旅行时同时被两株病毒感染,其一正是被归入所谓L亚型的华南海鲜市场的毒株,另一株则与于美国首例毒株同属S亚型[8]。被她传染的家人身上只有S亚型,这显然不符合华南海鲜市场毒株传染力更强的观点。
如果S亚型出现更晚且传染力更强,那就说明以蝙蝠作为系统发育树的组外对照并不合适。实际上,虽然美国首例毒株总体与蝙蝠病毒序列最接近,但其他毒株能找到很多更接近蝙蝠的位点,散布在除Spike蛋白以外的基因组各处,显然绕不开回复突变的存在,而Spike蛋白正是SARS-CoV-2与蝙蝠差异最大的基因。恐怕只有等确认病毒的中间宿主之后,才能为系统发育树配上更合适的组外对照。
中间宿主当然不是那么好找的,从蛇、龟、穿山甲,再到狗,你方唱罢我登场。有趣的是,最近多项研究表发现猫对SARS-CoV-2易感,证实了笔者之前的猜测。而被认为SARS-CoV-2致病性关键之一,Spike蛋白S1和S2亚基之间的弗林蛋白酶位点PRRAR,也赫然存在于猫肠道冠状病毒的同源位置,见图5。
图5——猫肠道冠状病毒S1/S2之间的弗林蛋白酶位点
SARS-CoV-2是否通过在武汉某只流浪猫肠道内的重组完成了最后一块拼图? 缺乏早期病人的高质量测序数据的遗憾,能否通过后期对中间宿主的研究加以弥补呢?
猜想种种,必然令科研人员对病毒基因组信息更加趋之若鹜。但有一点毫无疑问,在流行病学框架内,许多传统的调查手段和实时证据仍然是不可或缺的。
参考文献:
1.Yu, W., Tang, G., et al. (2020).Decoding evolution and transmissionsof novel pneumonia coronavirus using the whole genomicdata.[ChinaXiv:202002.00033]
2.Zhao, W., Song, S., et al. The 2019 novel coronavirusresource. Yi Chuan. 2020;42(2):212–221. doi:10.16288/j.yczz.20-030 [PMID:32102777]
3.Huang, C., Wang, Y., Li, X., et al. Clinical features ofpatients infected with 2019 novel coronavirus in Wuhan, China. Lancet 2020;395: 497–506.
4.Wu, F., Zhao, S., Yu, B. et al. A new coronavirusassociated with human respiratory disease in China. Nature (2020). https://doi.org/10.1038/s41586-020-2008-3
5.Ren, L., Wang, Y., et al. Identification of a novelcoronavirus causing severe pneumonia in human: a descriptive study. ChineseMedical Journal (English): February 11, 2020.  doi: 10.1097/CM9.0000000000000722
6.财新网 2020-02-27: 新冠病毒基因测序溯源:警报是何时拉响的 https://new.qq.com/omn/TWF20200/TWF2020022701654200.html
7.南方周末 2020-03-05:“重组”金银潭:疫情暴风眼的秘密     http://infzm.com/contents/178385
8.Tang, X., Wu, C., et al. On the origin and continuing evolution of     SARS-CoV-2. National Science Review,nwaa036, https://doi.org/10.1093/nsr/nwaa036. Published: 03 March 2020
BioWorld  
BioWorld始终致力于报道生命科学领域最前沿、最重要、最有趣的研究进展,目前全网已有30万学者关注,现组建生命科学/医学/科普领域交流群。如需进群,请长按下面二维码,添加管理员微信。
温馨提示:添加管理员微信时请备注(姓名/学校/专业/职位),以便我们邀请您进入相应交流群。

点在看,传递你的品味

到顶部