酷应用

吴恩达最新成果 CheXNet详解：肺炎诊断准确率超专业医师

百家作者：AI100 2017-11-17 09:01:22

离开百度之后，吴恩达在学术界异常活跃，除了推出最新的深度学习在线课程之外，他还带领着一支来自斯坦福的团队不断推进深度学习在医疗领域的应用。

近日，吴恩达团队在 arXiv 上发表了他们的最新成果——用来检测肺炎的 CheXNet。研究人员表示，这种被称为 CheXnet 的算法是一个 121 层的卷积神经网络，能够通过胸部 X 光片判断病人是否患有肺炎，而且它的水平已经超越了专业的放射科医师。

简介

仅在美国，每年就有 100 多万成年人因肺炎住院，其中约 5 万人因此死亡（CDC，2017）。目前，胸部 X 光检查是诊断肺炎的最佳方法（WHO，2001），它在临床护理和流行病学研究中发挥着至关重要的作用。然而，通过 X 光片来检测肺炎是一项具有挑战性的任务，需要依赖放射科医师的专业能力。在这项工作中，我们提出了一个模型，可以通过胸部 X 光片自动检测肺炎，其准确率甚至超过了放射科医师。

我们的模型 ChexNet（如图1所示）是一个 121 层的卷积神经网络，它的输入是胸部 X 光片，输出是肺炎的概率以及热点图（heatmap）——用来定位最能指示肺炎的图像区域。我们利用最近发布的 ChestX-ray14 数据集对 CheXNet 进行了训练，该数据集包含 112,120 个单独标注的 14 种不同胸部疾病（包括肺炎）的正面胸部 X 光片。我们使用密集连接（dense connections）和批量归一化（batch normalization ）来优化这种深度网络。

图1

对于放射科医师来说，通过胸部 X 光来检测肺炎是很困难的一件事。X 光片中肺炎的特征往往是模糊的，可能与其他诊断重叠，甚至会与其他良性的异常混淆，因此不同的放射科医师在诊断肺炎方面有相当大的差异。为了评估放射科医师的表现，我们请来了四名执业学术放射科医师，让他们对 ChestX-ray14 中的 420 张图像进行标注。然后让其他医师进行投票，以此来衡量这些医师的表现，接着我们用同样的方法来测试模型的表现。

我们发现该模型在敏感性和特异性肺炎的检测任务上的表现超过了放射科医师。为了将CheXNet 与之前的同类工作进行比较，我们对 ChexNet 进行了简单的修改，以检测 ChestX-ray14 中的所有 14 种疾病，结果我们在这 14 种疾病的诊断表现上都超过之前已公布方法的最好成绩。

CheXNet架构和训练

肺炎检测是一个二分类问题，其中输入是正向的正面的胸部 X 光片“X”，输出是指示肺炎的存在或不存在的二元标签 t∈{0,1}。对于训练集中的单个示例，我们优化二元交叉熵损失

其中 p(T = i|X) 是网络分配给标签 i 的概率。

CheXNet 是在 ChestX-ray 14 数据集上训练的 121 层密集卷积网络（DenseNet）。 DenseNets 通过改善网络的信息流和梯度，让非常深的网络的优化变得易于处理。我们将最终的全连接图层替换为单输出单元，之后我们应用非线性 sigmoid 函数，输出的是包含肺炎概率的图像。

网络权重的初始化是随机的，然后我们使用 Adam 的标准参数（β1= 0.9 和 β2= 0.999）对网络的进行端对端的训练。我们使用大小为 16 的批量数据来训练模型，并将初始学习速率设置为 0.01。

我们使用 Wang 等人发布的 ChestX-ray14 数据集，其中包含 30,805 名患者的 112,120 张正面X 光片。Wang 等人使用放射学报告中的自动提取方法，用多达 14 个不同的胸部病理学标签来标注每个图像。我们将确诊为肺炎的图像标记为正面示例（positive examples），并将所有其他图像标记为反面示例（negative examples）。我们将整个数据集随机分成 80％的训练数据和 20％的验证数据。

在将图像导入神经网络之前，我们将图像尺寸缩小到 224×224，并基于 ImageNet 训练集中的图像的均值和标准偏差进行归一化。我们还通过随机水平翻转来增加训练数据的数量。

CheXNet VS 放射科医师

我们收集了 420 张正面胸部 X 光片作为测试集，然后让斯坦福大学的四位执业放射科医师对其进行标注。

我们评估了放射科意识在肺炎检测任务的测试集上的表现。回想一下，test420 中的每一张图片都有来自 4 位执业放射科医师的真实标注。我们让其他 3 名放射科医师进行投票，然后用投票结果来评估每个放射科医师的表现，然后我们用同样的方法对 CheXNet 进行评估，并重复四次，以覆盖所有不同的医师组合。

我们比较了 CheXNet 和放射科医师诊断结果的 ROC（Receiver Operating Characteristic）曲线，该曲线将模型敏感性与1 - 特异性进行了比较。图 2 显示了 ROC 曲线模型和四名放射科医师的个人以及平均操作点：每名放射科医师的表现用橙色表示，而平均值以绿色表示。 CheXNet 的输出为检测数肺炎的概率，并且通过改变用于分类边界的阈值来生成 ROC 曲线。 CheXNet 的 AUROC 为 0.788，而每个放射科医师的敏感度特异性点数和平均值低于 ROC 曲线，表明 CheXNet 在检测肺炎这项任务上已经能够匹配甚超过放射科医师。

图2

模型解释

为了解释网络预测，我们还使用类激活映射（class activation mappings，CAMs）来产生热点图让图像中最具指示性的区域可视化。为了生成 CAMs，我们将图像导入到已经完全训练过的网络重，并提取由最终卷积层输出的特征图。令为第 k 个特征映射，令为特征映射 k 导致病理 c 的最终分类层的权重。我们通过使用与其关联权重的特征图的加权和来获得用于将图像分类为病理学 c 的最显着特征的图。