酷应用

不信谣不传谣，印度科学家并不靠谱

百家作者：人工智能学家 2020-02-02 10:09:15

来源：张某某某

? ? ? 印度学者Perumal Vivekanandan和Bishwajit Kundu在biorxiv预印版平台（无需经过同行评议）上传了名为“Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag”的文章，原文地址为https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1 .full.pdf，文中暗示新冠病毒被人工插入了HIV的片段，引发国内外恐慌。

? ? ? ?但其文中错误较多，已遭专业人士驳斥，特翻译一篇（主要靠机翻）来自于学者C. Goldsmith, P. Feorino, E. L. Palmer, W. R. McManus的辟谣文章，原文地址为https://theprepared.com/blog/no-the-2019-ncov-genome-doesnt-actually-seem-engineered-from-hiv/。

翻译如下：? ? ? ??

? ? ? ?周五，印度德里两所著名大学的一组生物信息学家在bioRxiv预印本服务器上发布了预印本科学手稿，导致许多人猜测2019-nCoV可能是故意使用HIV蛋白质序列进行工程改造的。

? ? ? 该论文题为“ 2019-nCoV穗蛋白中独特插入片段与HIV-1 gp120和Gag的独特相似性”，提出了对2019-nCoV基因组独特元素的序列比对分析，其中指出了与HIV元素的某些相似性基因组。作者似乎暗示这些相似性不可能是随机产生的，因此人们在阅读后联想到“这是一种生物武器”。

? ? ? 但是阅读本文之后，我仍然没有发现这种生物武器论点令人信服，尽管使用了这篇新论文的语言，但随机序列重叠仍然是它与HIV识别序列比对的主要解释。

? ? ? 2019-nCoV继续呈现出一种野生冠状病毒的外观，这种冠状病毒于2019年底在武汉的华南海鲜市场通过动物中介从蝙蝠传给人类。这不是生物武器。

（作者注：我拥有博士学位。是生物信息学领域的专家，并且是一家大型制药公司的首席数据科学家。）

三哥做了什么？

? ? ? ?这篇新论文的作者从28个不同的患者样本中提取了28个2019-nCoV基因组序列，并将它们与蝙蝠冠状病毒基因组进行比对，而蝙蝠冠状病毒基因组是2019-nCoV的最亲近亲戚。尽管两个病毒基因组具有96％的相同性，但它们留下了约1200个DNA碱基，并保留了较少的蛋白质残基，它们之间存在差异。

? ? ? 在这些差异中，印度研究小组确定了四个插入片段，其中2019-nCoV基因组包含一个小的额外序列，对应于其他相似蛋白质中的几个额外氨基酸，这些插入短至6个残基。

? ? ? 所有这四个插入片段都位于2019-nCoV的“突突蛋白”中，该蛋白是病毒圆形外壳上的突出蛋白，可识别ACE2受体并使病毒能够穿透粘膜细胞，并且也冠状病毒得名。这些识别区域的可变序列使病毒能够穿透人体中不同类型的细胞。

? ? ?作者采用了2019-nCoV版本的刺突蛋白序列，并进行了同源建模，以SARS病毒中已知的刺突蛋白3D结构为起点，生成了可能的刺突蛋白3D结构。他们发现，尽管四个序列在蛋白质的1D链中相距较远，但穗状蛋白的折叠将其中三个在3D空间中聚集在一起，并且它们位于ACE2识别位点的穗状“尖端” 。

? ? ? ?然后，作者使用pBLAST序列比对工具从任何已知的病毒基因组中鉴定出与2019-nCoV中鉴定出的短序列相似的任何序列。他们搜索了国家生物技术信息中心的病毒基因组数据库，该数据库包含超过300万个病毒基因组序列。

他们发现所有这四个刺突蛋白插入片段都与至少一种HIV病毒变体中的至少一个序列匹配。该序列来自HIV中的gp120和Gag蛋白，前者也是病毒包膜识别蛋白。这导致许多人难以置信地认为这是证据，甚至有力迹象表明，2019-nCoV是由蝙蝠祖先通过人类插入HIV序列改造而成的。

2019-nCoV仍然不是泄露的生物武器

? ? ? ?但是他们错了。对论文的分析清楚地表明：

? ? ? 关于2019-nCoV的序列与其最接近的已知亲戚的序列有所不同，或者在2019-nCoV的情况下其唯一序列均得到保守，这一事实并没有什么特别之处。

? ? ??与HIV匹配的序列非常短，且出现在两种病毒的高变区中，在2019-nCoV序列与许多其他生物之间也发现了相似的重叠。

? ? ?从理论上讲，HIV序列可以赋予另一种病毒的独特生物学特性在2019-nCoV中完全缺失，并且2019-nCoV没有已知的冠状病毒可能无法实现的独特临床特性。

? ? ? 换句话说，序列重叠实际上并不是不可思议的，不要总想着搞些大新闻。印度的这个小组被一些生物信息学研究的陷阱所笼罩。

没有值得解释的基因或临床异常

? ? ? ? 该病毒与天然蝙蝠冠状病毒有接近96％的序列重叠，而且已知冠状病毒会像SARS冠状病毒一样，通过中间物从蝙蝠传染人类。基因组序列之间的差异，包括印度研究确定的差异，都在我们期望差异的基因组可变区，而基因组中4％的差异很难称为“高”或“低”。因为我们不确切知道2019-nCoV毒株是哪个蝙蝠起源的，或者何时与最接近的已知祖先背道而驰。

? ? ? ?相对于已知亲本，已知的2019-nCoV序列均包含相同的基因组变化也就不足为奇了。它们都来自同一家动物水库的同一暴发，也就是说，它们最多只在几个月前彼此分开。彼此之间相距甚远，这并不奇怪。

? ? ? ?2019-nCoV的临床表现也不具有需要解释的新颖特征。它的症状特征，可传播程度，严重性，死亡率，持续时间，潜伏期和潜伏期，从动物跃迁至人类的能力以及无症状和通过皮肤接触传播的能力，均属于其他人类冠状病毒的先例。也就是说，2019-nCoV基因组及其影响人类的方式本身没有特殊的异常需要解释。

序列重叠并不明显，可能是随机的

? ? ? ?插入短至6个肽残基长，而较长的两个残基不完全匹配。很短的序列并不是pBLAST设计的真正目的，尤其是在搜索大型数据库时。在300万个病毒基因组中寻找一个短序列意味着一定会找到东西，而其他科学家指出，自印度论文发表以来的几个小时内，可能在各种各样的物种中发现相似的重叠，同样强烈的重叠。病毒，以及细菌，原生生物，真菌，果蝇和植物。

? ? ??与艾滋病毒的重叠不是针对艾滋病毒中保守的“特征性”艾滋病毒区域，而是针对特定样本（实际上，来自三个不同国家的三个不同样本）。它们属于可变区域，它们产生许多不同的序列，这些序列在大规模测序工作中被发现。

? ? ? 鉴定出的序列均来自包膜/膜蛋白表面上的短α螺旋区，并且均具有许多带正电的极性残基。这些类型的相似残基倾向于同时出现在这种类型的序列上，从而增加了不相关的序列，如果都来自这种类型的蛋白质结构域，则可能会出现短重叠的机会。

? ? ?印度所说的重叠不是哈姆雷特，甚至不是完整的句子，而是几个单词。

这种重叠没有特殊效果

? ? ? ?在临床上，这两者之间也没有联系。冠状病毒刺突蛋白和HIV gp120蛋白都是包膜表面的识别蛋白，但是它们有很大的不同。刺突蛋白使冠状病毒识别ACE2受体并侵入粘膜上皮，而gp120蛋白使HIV病毒识别CD4受体并侵入CD4 + T细胞。HIV病毒的Gag蛋白位于印度病毒内部，它是印度研究小组认可的第四个匹配序列的宿主。

? ? ? ?因此，如果三哥的假说是正确的，2019-nCoV株应该能够感染T细胞或识别CD4受体。但是到目前为止，没有证据表明2019-nCoV可以感染T细胞，或者可以感染任何表达CD4的细胞，或者可以感染任何不表达ACE2或不能被其他已知冠状病毒感染的细胞。

流行病学仍然表明动物起源，而不是生物武器

? ? ? ?人性，人群心理，小说故事情节的可用性启发以及其他许多因素使得“泄露的生物武器”故事情节反复出现，并且在传播时像野火一样蔓延。但是没有证据是真的。

? ? ? 2019-nCoV继续呈现出一种野生冠状病毒的外观，该冠状病毒于2019年底在武汉市华南海产品市场上通过动物中介从蝙蝠传染给人类。