新冠病毒检验的可信度和概率预测

百家 作者:人工智能学家 2020-02-12 13:30:51

    从抗病毒前线传来消息,核酸检验假阴性太多,这给救治和隔离带来极大困难,有人因此提出要配合CT等手段确诊。本文做一科普,说明假阴性和假阳性是怎么回事,根据阳性或阴性能做怎样的概率预测,以及我们应当在多大程度上相信阴性和阳性。

  对于医学检验中,我们用e1表示阳性,它是对有病或被感染(记为h1)的预测;e0表示阴性,是对没病或没被感染h0的预测. 设e是变量,作为证据;h是变量,作为假设。则不确定关系如下:

1  eh的关系

条件概率P(e1|h1)叫做敏感性,又叫真阳性率;P(e0|h0)叫特异性,又叫真阴性率。敏感性和特异性反映检验手段好坏。P(e0|h1)=1-P(e1|h1)叫假阴性率,也就是漏报比例,这个比例越小越好。 P(e1|h0)是假阳性率,也就是误报比例,这个也是越小越好。但是一个检验通常很难做到两者都小(参看下图)。漏报损失更大,所以漏报比例要小,这更加重要,要优先考虑。

2. 四个条件概率和检验分界x'的关系

然而,遗憾的是,目前核酸检验新冠毒肺炎,敏感性只有0.3-0.5 (参看 https://www.thepaper.cn/newsDetail_forward_5878994). 假设是0.5,这意味着真感染者有一半要漏报。有人会说,既然它这么低为什么还要用?

医学检验中用阳性似然比反映阳性有多可靠:

LR+= P(e1|h1)/P(e1|h0)=敏感性/(1-特异性)

只要特异性较大,LR+就大,根据阳性可以预测有病的概率较大。比方说,特异性是0.9(这是假设,我没有查到核酸检验的特异性),那么阳性似然比LR+=0.5/(1-0.9)=5.假设有疑似症状的人被感染的先验概率(又叫基础概率)是P(h1)=0.2(又叫基础概率,目前大概是0.2),那么可以算出

P(e1)=P(h1)P(e1|h1)+P(h0)P(e1|h0)=0.2*0.5+0.8*0.1=0.18;

P(e0)=0.82.

检查出阳性后,被感染的条件概率就是(根据贝叶斯公式):

P(h1|e1)=P(h1)P(e1|h1)/[P(h1)P(e1|h1)+P(h0)P(e1|h0)]

=0.2*0.5/0.18=1/1.8=0.56.

被感染的概率从0.2增加到0.56, 所以检验有用。

但是阳性也不完全可信。因为阳性的误报概率是P(h0|e1)=1-0.56=0.44.这意味着100个阳性者有44个不是真地被感染。 阴性也不完全可信,因为其中被感染和没被感染的概率是

P(h1|e0)=P(h1)P(e0|h1)/P(e0)=0.2*0.5/0.82=0.122。

P(h0|e0)=1- P(h1|e0)=0.878

这意味着100个阴性的人当中有12.2个是被感染的。

 这就是为什么有医生呼吁要使用CT辅助确诊——因为敏感性较低。对于被感染h1,一种检验阳性可以提高被感染的条件概率——作为另一种检验的先验概率。再使用另一种检验,如果也是阳性,则后验概率就更大。另一方面,某个被感染者被一种检验漏报后,另一种检验还可能查出来。

从上面分析可以看出敏感性的重要性。但是要注意,敏感性高,并不意味着阳性e1可信,而是意味着阴性e0可信,即预测没病可信。类似地,特异性高并不意味阴性e0可信,而是意味着阳性e1可信。

    本人研究归纳确证问题[1],得到确证度或可信度公式:

比如,对于新冠病毒检验,

b1*=(5-1)/5=0.8;

LR- =P(e0|h0)/P(e0|h1)=特异性/(1-敏感性)=0.9/0.5=1.8;

b0*=(1.8-1)/1.8=0.44

说明, 作为检验手段,阴性远不如阳性可信。

通过P(h1)和b1*也可以算出被感染的概率:

P(h1|e1)=P(h1)/[1-b1*P(h0)]。

同理有:

P(h0|e0)=P(h0)/[1-b0*P(h1)]。

上面确证测度b*被称为信道确证度,和似然比一样,只反映信道或检验手段好坏,并不反映概率预测好坏。为此我们还需要预测确证度c*:

c*在预测的概率大于0.5时大于0,否则小于0.

比如对于新病毒检验,

c1*=(0.56-0.44)/0.56=0.12/0.56=0.21.

c0*=(0.878-0.122)/0.878=0.86.

可见,对于概率预测,阴性比阳新更加可信——因为预测的没被感染的概率更大。通过c*能更方便算出被感染的概率:

P(h1|e1)=1/(2-c1*);

P(h0|e0)=1/(2-c0*).

对于上面新冠病毒检验,通过阳性和c1*可以预测被感染的概率:P(h1|e1)=1/(2-0.21)=1/1.79=0.56。

通过阴性和c0*可以预测没被感染的概率P(h0|e0)=1/(2-0.86)=1/1.14=0.878.

上面结果和用b*算出的结果相同。但是在基础概率P(h1)改变的情况下,要计算被感染的概率还是用使用b1*,即:P(h1|e1)= P(h1)/[1-b1*P(h0)]。 

总结:

假设敏感性是0.5, 特异性是0.9,被感染的基础概率是0.2;

则作为检验手段,阳性的可信度是0.8,阴性的可信度是0.44;

作为概率预测,阳性的可信度是0.21, 阴性的可信度是0.86.

检验为阳性时,被感染的概率是0.56;检验为阴性时,被感染的概率是0.122.

另外, 通过c*,还可以很好解释乌鸦悖论。详见:

信道确证和预测确证——从医学检验到乌鸦悖论  

笔者个人主页中相关讨论见:

http://www.survivor99.com/lcg/CM/Recent.html 

笔者最近每天提供疫情统计和简评,见:

http://blog.sciencenet.cn/home.php?mod=space&uid=2056&do=blog&view=me&from=space


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接