關於說武漢冠狀病毒是非典類似的冠狀病毒加以HIV片段改造的說法,我這裏來給出我的分析。
太長不看:印度團隊的分析有問題,我並不能看出武漢病毒有人爲改造的痕跡。
緣起是印度硏究者1月31号發在bioRxiv上的這篇文章«Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag» ,他們比對了SARS和武漢病毒上的一個重要蛋白spike,發現武漢病毒相比SARS多了4個區域的插入序列,各4-6個鹼基這樣(圖1)。然後他們把這4段短序列在所有病毒的序列裏面搜索了一遍,發現這幾段序列的最近匹配都在艾滋病毒HIV上面(圖2)。於是他們猜測武漢冠狀病毒是用某種現實中自然存在的病毒裏面用生物工程辦法加入了這幾段HIV序列改造而成的。
我的分析方法也很簡單,就是看這幾段序列是否爲武漢冠狀病毒所獨有。因爲如果確實是用已有序列加上這幾段HIV序列改造而來的,那麼和武漢病毒和SARS最近的幾種冠狀病毒應該是和SARS一樣,只有武漢病毒多出這幾段。於是我從 NEJM這篇文章 裏面選了幾個全基因組序列,提出了其中的spike蛋白序列(我挑選的序列見圖3的箭頭,1是武漢病毒,2是和武漢病毒比較近的蝙蝠冠狀病毒,5是SARS,3和4是和SARS比較近的蝙蝠冠狀病毒),然後做了一下序列比對。(我其實也用再遠一層的蝙蝠病毒KF636752和MERS病毒放一起比對過,但序列差距過大,會干擾武漢病毒和SARS的比較,於是扔掉了。)
結果這四個區域(見圖4-7),第1個區域只有人SARS偏短,其它的差不多;第2個區域武漢病毒和接近的蝙蝠序列很接近;第3個區域武漢病毒、武漢相關蝙蝠病毒、所有類SARS病毒分成3類;第4個區域僅武漢病毒長了,但HIV序列相比武漢病毒的這個區域又插入了好幾個鹼基;甚至還有一個區域(圖8),人武漢病毒和人SARS差不多長,而蝙蝠的都短。也就是說,至少從這幾個區域來說,是不符合【用一個野生病毒加上人爲插入HIV序列改造】這麼一個模式的。
至於印度團隊的錯誤,今天也有很多不同的文章批判過了,國內國外的都有。比如 這篇文章 ,指出印度團隊只搜索了NCBI的病毒數據庫,而搜索的序列因爲都非常短,所以E值並不算顯著。如果放寬搜索範圍到所有生物,則有無數匹配。另外有其它人搜索過,也找到了蝙蝠冠狀病毒的序列,所以可能是印度搜索用的庫收錄不全。