酷应用

吴恩达团队最新成果：用深度学习来改善临终关怀服务

百家作者：AI100 2017-11-23 06:07:32

翻译 | AI科技大本营（ID:rgznai100）

参与 | 尚岩奇，刘畅

AI可以是杀戮的武器，也可以是救世的良方。

上周，在日内瓦举行的联合国特定常规武器公约会议上，伯克利大学教授Stuart Russell向大众发出了警告：基于AI的杀人机器人将会对人类造成极大的威胁。

与此同时，吴恩达所在的斯坦福团队又将AI在医疗领域的作用往前推进了一不。与此前的“AI看片”不同，这次，吴恩达希望利用深度学习技术，为那些身患绝症、时日不多的病人，更好地提供临终关怀服务，让他们更有尊严地度过剩下的日子。

听起来似乎有点不可思议，那么吴恩达团队到底是怎么做的呢？下面的这篇论文或许可以给我们一些思考和启迪。

摘要

为住院病人提供更高质量的姑息治疗一直是医疗保健机构的重点工作之一。研究表明，医生们往往会过高估计预后效果，加之治疗手段的惯性，导致病人实际得到的姑息治疗不如预期。为此，我们提出了一种解决方案：利用深度学习的技术加上电子健康档案（EHR）数据。目前一家学术医疗中心已得到机构审查委员会的批准，正在对这种方法进行试验。算法会自动评估住院病人的EHR数据，帮助姑息治疗怀团队判断哪些病人可能需要姑息治疗。该算法实际上是用病人先前的HER数据训练出来的一个神经网络，它可以预测出病人由于各种原因在3至12个月内死亡的几率，以此作为是否为其提供姑息治疗的一个指标。我们的预测可以让姑息治疗团队以积极主动的方式找到此类病人，而不是依赖主治医师的推介，或花时间研究所有病人的病例。另外，我们还提出了一种新的解释方法，用以诠释模型作出的预测。

引言

研究表明，大约80%的美国人希望能在自己家中度过生命的最后时光，但是如愿的只有20%。事实上，超过60%的死亡发生在医院的急诊病房，而病人在临终前的最后一段时间会接受侵入性治疗。在过去10年间，可以提供姑息治疗的医院一直在增加。在2008年，全美所有病床数超过50张的医院中，有53%的医院设有姑息治疗团队，2015年这一比例已攀升至67%。虽然可以提供姑息治疗的医院越来越多，但是根据国家姑息治疗登记处（National Palliative Care Registry）的数据，在所有需要接受姑息治疗的病人（占所有住院病人7% - 8%）中，只有不到一半的人真正接受了这种治疗。造成这种情况的主要原因是姑息治疗专业人员的短缺以及缺乏让医疗系统聘用这些人员的激励措施。通过相关技术我们可以高效地识别出最需要姑息治疗的病人，但是在现有治疗模式下人们可能会忽视技术的应用。

在本文中，我们主要从两个角度探讨这个问题。首先，医生不推荐病人接受姑息治疗的原因有很多，例如：对病情的预估过度乐观、时间压力或治疗惯性。这可能会导致病人在临终前无法按照自己的意愿生活，反而接受过度的侵入式治疗。其次，姑息治疗专业人员短缺严重，这使得通过人工审查病例的方法对候选病人进行筛选既昂贵又耗时。

人们可能很难明确地规定一个标准，用来判定哪些病人能从姑息治疗中获益。在本论文中，我们使用深度学习算法对住院病人进行筛选，识别出最有可能需要接受姑息治疗的病人。该算法处理的是一个代理（proxy）问题：预测某一病人在未来12个月内的死亡几率，根据预测结果作出关于接受姑息治疗的建议。这样姑息治疗团队就可以根据病人的EHR数据作出客观的建议，帮助抵消主治医师潜在的诊断偏差，而且还不需要人工对每个病例都进行审查。当前用于识别此类病人的工具存在一些局限，我们会在下一部分进行讨论。

相关工作

准确的预后信息对病人、护理人员和临床医生都是有价值的。一些研究表明，临床医生一般都对自己的绝症患者的预后效果估计过于乐观。这里有几种解决方案试图使病人的预后信息更加的客观和智能化。在这些解决方案中，许多都是根据患者的临床和生物学两种参数来构建模型产生一个评分，而这个评分可以用来估计预期的存活率。

用于姑息治疗的预后方法

姑息性表现尺度是针对姑息治疗，修改了人体机能状态量表（KPS）而发展得来的。它是基于例如活动度、活动能力、自理能力、食物和体液摄入量、意识状态等可观察因子来计算的。姑息性预后评分（PPS）也是为姑息治疗制定的一种评分机制，它的重点是放在晚期癌症患者身上。PPS是基于以下的变量来进行多元回归分析计算：临床预测生存期（CPS）、卡氏评分（KPS）、厌食、呼吸困难、总的白细胞数量（WBC）和淋巴细胞百分比。而另一种与PPS在相同时期内发展起来的指标，姑息预后指数（PPI），也是基于性能状态指标进行了一个多元回归分析来得到了评分，例如口服摄入、水肿的基础得分、休息时呼吸困难和谵妄（急性脑综合征）。这些分数难以在大规模上进行实现，因为它们涉及面对面的临床评估，涉及临床医生对生存者状态的预测。此外，这些评分的目的是在姑息治疗中来使用，而那时病人已经处于疾病晚期阶段，不能达到更早鉴别他们疾病状态的目的。

加护病房ICU的预后方法

也有一些常常用在ICU上的预后评分模型。APACHE-II评分（急性生理、年龄、慢性健康评测）是用来预测ICU中危重住院患者住院死亡危险程度的。这种模型最近已经被APACHE-III改进了，主要是细化了评分项，采用了ICU入院之前的诸如主要的内科和外科疾病分类、急性生理异常、年龄、原有功能的局限性、主要的合并症和治疗地点等因素。另一个在ICU中常用的评分系统是简化急性生理评分，也称作SAPS II，它是根据病人的生理和潜在疾病这些变量来计算的。当病人已经转入ICU时，虽然这些评分对治疗组来说是有用的，但是他们在确定患者是否是有长期死亡风险的方面是有限的。但是这些评分仍然能够让他们对其目标和价值进行有意义的讨论，以便他们确定另一种护理方式。

早期识别的预后方法

为了尽早发现绝症患者，为其制定一个临终的计划并确保其有意义，现在这方面已经有许多的研究和开发的方法了。CriSTAL （适当的照顾和养护筛选标准）就是一种用来确定老年患者是否接近生命的尽头，以及量化在住院时的死亡风险或出院后不久的死亡风险的方法。为了识别濒死的病人，CriSTAL 提供了一个采用十八个预测因子的检查表。

CARING是一种用于识别可以从姑息治疗中获益患者的方法。其目标是使用六个简单的标准来判断1年内有死亡风险的患者。PREDICT也是基于六项预后指标，这些指标是从CARING中提炼出来的。该模型根据976名患者的情况建立的。

Intermountain死亡风险评分是一种基于实验室常规检查的针对所有原因进行死亡率预测的评分机制。该模型提供了30天、1年和5年死亡风险的评分，它的训练集包含71921人的数据，测试集包含47458人的数据。

大数据时代的预后信息

医疗保健系统中电子病历系统的普及和针对高维数据方面机器学习技术的进步，为我们在医疗上作出贡献提供了一个特殊的机会，特别是在疾病预后方面。上面描述的所有方法，以及我们所回顾的方法，至少有以下缺陷之一。他们都是采用了规模较小的数据集（仅限于特定的研究或一群人），或用太少的变量（故意使模型简单化，或是为了避免过拟合），或模型太简单而不能捕捉人类健康的复杂性和微妙之处，或者局限于某些亚群体（根据疾病类型，年龄等）。而我们在这篇工作中解决了这些限制。

方法

姑息治疗团队在很大程度上不清楚疾病的类型、阶段和严重程度（病人是否被送入加护病房进行治疗）以及病人的年龄等要素，我们从他们的角度探讨了如何预测死亡率的问题。我们采用一种由数据驱动的方法，构建了一个考虑每位病人EHR（长时间内的病例）的深度学习模型，并且确保分析不会局限于任何亚群体或类同的群体。我们要解决的问题是识别需要接受姑息治疗的病人，为了是这一问题便于处理，我们使用了下面这个代理（proxy）问题陈述：

给定某一病人和日期，使用该病人上一年的EHR数据，预测其在自该日期起的12个月之内的死亡率。

我们将这个问题看作为一个二分类问题，然后通过构建深度学习监督模型来解决。我们的目标不只是构建出可以很好地解决上述问题的模型，我们还希望探讨该模型在解决以下这个子问题（即：预测住院病人的死亡率）时的表现。因为姑息治疗工作者往往更容易介入住院病人的治疗。

为监督学习构建数据集

我们将已登记死亡日期的病人作为positive实例，将其他病人作为negative实例。然后，我们将病人的预期死亡时间作为分界点，将健康档案上的时间线划分为虚拟未来(virtual future)和过去事件。我们利用每位病人在虚拟过去（virtual past）的数据来预测他们在未来3-12个月内的死亡几率。注意：在定义预测日期时，必须避免违反常识性的限制条件（见下文），不然的话标签就会无效。我们只针对可以在满足这些约束情况的前提下找到预测日期的病人。

Positive实例：positive实例的限制条件的确定基于这一理论基础：在死亡之前的3-12个月内被推荐接受姑息治疗的病人最能从中获益。我们认为在病人死亡前的3个月内对其进行死亡几率预测为时太晚，因为病人在接受姑息治疗前需要一定的筹备时间；这一时间超过12个月也不可行，因为预测病人在很长时间范围内的死亡几率非常困难。更重要的是，姑息治疗介入协助是有限的，最好主要用于满足较为迫切的需求。

Positive实例的预测日期必须满足以下限制条件：

预测日期必须为记录在案的问诊日期。
预测日期必须至少比病人死亡日期早 3 个月（否则死亡日期会太靠近预测日期）。
预测日期最多只能比病人死亡日期早 12 个月（否则死亡日期会离预测日期太远）。
预测日期必须比首次问诊日期至少晚 12 个月（否则病人就没有足够的历史数据来作为预测的依据）。
预测对象最好为住院病人，前提是他们必须满足上述条件（因为相较于其他类型的病人，住院病人更愿意接受姑息治疗建议）
预测日期必须早于满足上述限制条件的其他所有候选日期。

negative 案例：对于negative案例（未记录死亡日期的病人），必须确保案例中的病人在自预测日期起的 12 个月内没有死亡。我们选择的预测日期必须满足以下所有条件：

预测日期必须为记录在案的问诊日期。
预测日期必须至少比最后一次接触病人的日期早 12 个月（以避免发生拍摄 EHR 快照后死亡日期不明确的情况）。
预测日期必须至少比首次问诊日期晚 12 个月（否则无法获得足够的历史数据）。
预测对象最好为住院病人（优先于其他类型的病人），前提是他们满足上述限制条件（作为 positive 实例的对照组）
预测日期必须早于满足上述限制条件的其他所有可能候选日期。

图 1. 以病人存活图表示右删失长度

纵坐标：病人比例；横坐标：天数
红线：死亡病人（死亡前存活的天数）
绿线：存活病人（确认存活时间）
黑色虚线：分割线
蓝色虚线：最少存活时间

住院病人（admitted patients）：预测日期与住院日期相对应的病人为住院病人，其余病人为非住院病人。（注意：非住院病人治疗历史中可能还有其他记录在案的住院经历）。对住院病人的预测日期进行再调整: 将住院后的第二天作为预测日期。这样做的理论根据是：在住院后的24小时内，医院通常会用最新的数据（初步检测数据、诊断数据等）对病人记录进行更新，住院后的第二天更适合作为预测日期。注意：住院病人是本试验所有病人的一个子集（而不是一个单独的数据集）。positive实例和negative实例都对预测日期后收集的所有数据进行审核。

表1：病人人数的划分

图2. 预测时病人的年龄

特征提取

我们将每位病人的预测日期之前的12个月作为观察期。在每位病人的观察期内，我们使用ICD9（国际疾病分类第9修订版）诊断和计费编码、《当代操作术语集》（Current Procedural Terminology，CPT）操作编码、RxNorm处方编码以及观察期内的医患接触来生成特征。

我们按照以下方法生成特征。为了捕获数据的纵向性质，我们将每位病人的观察期划分为4个观察阶段，表III显示了这四个阶段与预测日期（PD）的对比，阶段1最靠近预测日期，阶段4离预测日期最远。我们对各观察阶段分配不均匀的时间长度，目的是为了让模型更多关注靠近预测日期的数据。在每个病人的各观察阶段中，我们记录了每个编码类别中的每个编码出现的次数（开处方、计费等）。我们将这些编码出现的次数作为一个单独的特征。

我们还考虑了病人的人口统计数据（年龄、性别、种族、民族）以及观察期内各编码类别的汇总数据（如下所示）：

类别内特殊编码出现次数。
类别内编码出现的总次数。
在任一天所分配的编码的最大数量。
在任一天所分配的编码的最小数量（非零）。
一天内分配的编码的数量范围。
一天内分配的编码的数量均值。
一天内分配的编码的数量方差。

我们将所有这些特征（各观察阶段中编码出现的次数，观察期内各类别的汇总数据，以及人口数据）连接起来形成特征集。在特征集中，我们去除只在100或少于100位的病人群体中出现的特征。最后得出的特征集共有13654条特征。在这些特征中，每位病人平均有74个非零特征值（标准差为62），最多有892个特征值。总特征矩阵的稀疏值大约为99.5%。

图3. 在测试集数据上模型输出概率的可靠性曲线（标定线）

纵轴：positive实例的比例；横轴：预测值均值
虚线：校准线
蓝线：所有病人（0.042）

算法和训练

我们的模型是由一个输入层（13654个维度）、18个隐藏层（每层 512 个维度）和一个标量输出层构成的深度神经网络（DNN）。我们在输出层应用逻辑损失函数（logistic loss function），在模型每层上都应用缩放指数线性单元（Scaled Exponential Linear Unit ，SeLU）。我们使用 Adam optimizer 和大小为128个样本的 mini-batch 对模型进行了优化。然后，我们对每250 个mini-batch迭代提取中间体模型snapshot（Intermediate model snapshots），选择在验证集上表现最好的snapshot作为最终模型。我们发现没有必要进行明确的正则化操作。通过对各种网络深度（从2到32）和激活函数（tanh、ReLU和SeLU）进行广泛的超参数搜索，我们得到了最终的网络架构。

评估

由于数据是不均衡的，将准确度作为评价指标是不可行的。在不均衡问题中ROC曲线有时可能会有误导作用。因此，我们使用平均准确度（AP）分数作为评价指标，也称为模型选择AUPRC曲线（ Area Under Precision-Recall Curve ）。

结论

在本节中，我们将根据在验证集上获得最好AP分数选择的模型，来给出在测试集上获得的技术评估结果。我们观察到模型根据0.042的Brier score进行了合理的校正（如图3所示）。在我们感兴趣的高阈值的规则下，该模型在估计概率方面是一个比较保守（显得信心不足）的模型，但是这应该不会有什么坏的影响。

图4是插值精度召回曲线（ Interpolated Precision-Recall curve）

水平虚线表示0.9的精度水平。
垂直虚线表示曲线达到0.9精度时的召回率。

图5是模型在测试集上表现情况的受试者工作特性曲线（ROC）

插值精度召回曲线如图4所示。该模型的AP评分为0.69（入院病人为0.65）。早期召回这个结果是可取的，因此可以认为在精确为0.9时召回是一个度量指标。该模型在0.9的精度上实现了召回率为0.34（入院病人的召回率达到0.32即可）。受试者工作特性曲线如图5所示。该模型实现了0.93的正确率（0.87即可判定是患者）。ROC和精密召回图都显示出，该模型显示出强烈的早期召回行为。

定性分析

值得一提的是，预测死亡率是确定能从姑息治疗中获益病人的一个代理（proxy）问题。为了评估模型在原始问题上的性能，我们检验了高输出概率的假阳性患者情况。我们注意到，虽然这样的患者并没有在他们的预测日期12个月内死亡，但是他们经常被诊断为疾病晚期和/或需要高标准的医疗服务。这在第五节所示的阳性和假阳性例子中可以看到。

在达到精度为0.9的患者中，姑息治疗小组对其中50个随机选择的患者进行进行了图表检查，发现所有这些人在其预测日期内都适合转诊，即使他们存活了一年多。这表明，在解决代理（proxy）问题方面，死亡率预测是一个合理的（和易处理的）选择。