用于机械呼吸机的机器学习

用于机械呼吸机的机器学习
2022年11月16日 11:19 科技喔喔

机械呼吸机为呼吸困难或无法自行呼吸的患者提供重要支持。他们看到在COVID-19 大流行期间从常规麻醉到新生儿重症监护和生命支持等场景中频繁使用。典型的呼吸机由压缩空气源、控制空气进出肺部的阀门以及将呼吸机与患者连接起来的“呼吸回路”组成。在某些情况下,患者可能会通过一根插入肺部的管子连接到呼吸机。

机械呼吸机为不能完全靠自己呼吸的患者呼吸。在通气中,可控制的压缩空气源通过称为呼吸回路的管道连接到患者身上。

在有创和无创通气中,呼吸机根据来自患者的呼吸测量值(例如,气道压力、潮气量)遵循临床医生规定的呼吸波形。为了防止伤害,这项艰巨的任务需要对患者肺部的差异或变化具有鲁棒性,并坚持所需的波形。因此,呼吸机需要训练有素的临床医生的高度关注,以确保其性能符合患者的需求并且不会造成肺损伤。

给定一些控制器算法,以气道压力和实际压力(蓝色)为单位的临床医生规定的呼吸波形(橙色)示例

在“机械通气控制的机器学习”中,我们对基于深度学习的算法的设计进行了探索性研究,以改进有创通气的医用呼吸机控制。使用来自人工肺的信号,我们设计了一种控制算法,可以测量气道压力并计算对气流的必要调整,以更好、更一致地匹配规定值。与其他方法相比,我们展示了改进的稳健性和更好的性能,同时需要更少的临床医生手动干预,这表明这种方法可以减少对患者肺部造成伤害的可能性。

今天,呼吸机使用属于PID 系列(即,比例、积分、微分)的方法进行控制,这些方法根据观察到的状态和所需状态之间的误差历史来控制系统。PID 控制器使用三个特性来控制呼吸机: 比例 (“P”) — 测量压力和目标压力的比较;积分 (“I”) — 先前测量值的总和;和差分(“D”)——前两次测量之间的差异。PID 的变体自 17 世纪以来一直在使用,如今已成为工业(例如,控制热量或流体)和消费(例如,控制浓缩咖啡压力)应用中的许多控制器的基础。

PID 控制形成一个坚实的基线,依靠 P 控制的敏锐反应在吸气时迅速增加肺压力,以及 I 控制在呼气前屏住呼吸的稳定性。然而,操作者必须经常为特定患者调整呼吸机

当前的 PID 方法容易过冲然后低于其目标(振铃)。由于患者的生理机能不同,甚至可能在治疗过程中发生变化,训练有素的临床医生必须不断监测和调整现有方法,以确保不会发生上述示例中的剧烈振铃。

为了更有效地平衡这些特性,我们提出了一种基于神经网络的控制器来创建一组控制信号,这些信号比 PID 生成的控制更广泛、更具适应性。

机器学习的呼吸机控制器

虽然可以 通过有限次数的重复试验来调整 PID 控制器的系数(手动或通过详尽的网格搜索),但不可能将这种直接方法应用于深度控制器,因为深度神经网络 (DNN) 通常参数丰富,需要大量训练数据。同样,流行的无模型方法,例如Q-Learning或Policy Gradient,是数据密集型的,因此不适合手头的物理系统。此外,这些方法没有考虑到呼吸机动态系统的内在可微性,它是确定性的、连续的和无接触的。

因此,我们采用基于模型的方法,首先学习基于 DNN 呼吸机-患者动态系统模拟器。学习这种模拟器的一个优点是,它为基于物理的模型提供了更准确的数据驱动替代方案,并且可以更广泛地分布用于控制器研究。

为了训练一个忠实的模拟器,我们通过探索控制空间和由此产生的压力来建立一个数据集,同时平衡身体安全,例如,不要过度膨胀测试肺并造成损害。尽管 PID 控制可以表现出振铃行为,但它的性能足以用作生成训练数据的基准。为了安全地探索和忠实地捕捉系统的行为,我们使用具有不同控制系数的 PID 控制器来生成用于模拟器训练的控制压力轨迹数据。此外,我们向 PID 控制器添加随机偏差,以更稳健地捕捉动态。

我们通过使用由普林斯顿大学人民呼吸机项目设计的开源呼吸机在物理测试肺 上运行机械通气任务来收集训练数据。我们在服务器机架上建造了一个呼吸机农场,其中包含十个呼吸机-肺系统,它根据呼吸机系统的实际应用所需,捕获跨越患者肺部状况的多个气道阻力和顺应性设置。

Google使用基于机架的呼吸机(10 台呼吸机/人工肺)来收集呼吸机肺模拟器的训练数据。使用这个模拟器,Google训练了一个 DNN 控制器,然后在物理呼吸机上进行验证。

动力系统的真实基础状态不能直接用于模型,而只能通过观察系统中的气道压力。在模拟器中,我们随时将系统状态建模为先前压力观察和应用于系统的控制动作的集合(直到有限的回溯窗口)。这些输入被输入到 DNN 中,该 DNN 预测系统中的后续压力。我们根据通过与测试肺相互作用收集的控制压力轨迹数据来 训练这个模拟器。

模拟器的性能是通过模拟器的预测(在自我模拟下)与实际情况的偏差总和来衡量的。

虽然在所有可能的轨迹和控制输入上将真实动力学与其模拟对应物进行比较是不可行的,但我们测量了模拟与已知安全轨迹之间的距离。为了鲁棒性,我们围绕这些安全轨迹引入了一些随机探索。

在学习了一个准确的模拟器之后,我们用它来完全离线训练一个基于 DNN 的控制器。这种方法使我们能够在控制器训练期间快速应用更新。此外,模拟器的可微分特性允许稳定使用直接策略梯度,我们分析计算损失相对于 DNN 参数的梯度。我们发现这种方法比无模型方法更有效。

为了建立基线,我们针对多个肺设置运行详尽的 PID 控制器网格,并选择性能最佳的 PID 控制器,通过所需压力波形和实际压力波形之间的平均绝对偏差来测量。我们将这些与我们的控制器进行比较,并提供证据证明我们的 DNN 控制器的性能更好且更健壮。

呼吸波形跟踪性能

我们将给定肺部设置的最佳 PID 控制器与我们在学习模拟器上训练的相同设置的控制器进行比较。我们学习的控制器显示目标和实际压力波形之间的平均绝对误差 (MAE) 降低了 22%。

针对给定肺部设置(显示为两种设置,R=5 和 R=20)的最佳 PID 控制器(橙色)与我们训练的控制器(蓝色)的目标和实际压力波形(越低越好)之间的 MAE 比较相同设置的学习模拟器。学习控制器的性能提高了 22%。

稳健性

此外,我们将单个最佳 PID 控制器在整个肺部设置中的性能与我们的控制器在一组学习模拟器上在相同设置上训练的性能进行比较。我们的控制器在目标和实际压力波形之间的 MAE 性能提高了 32%,这表明它可能需要更少的患者之间的手动干预,甚至随着患者病情的变化。

如上所述,但是将整个肺部设置中的单个最佳 PID 控制器与我们在相同设置上训练的控制器进行比较。学习型控制器的性能提高了 32%,这表明它可能需要更少的人工干预。

最后,与在模拟器上训练的直接策略梯度相比 ,我们研究了使用无模型和其他流行的 RL 算法(PPO、DQN )的可行性。我们发现模拟器训练的直接策略梯度取得了稍好的分数,并且使用更稳定的训练过程,使用更少数量级的训练样本和显着更小的超参数搜索空间。

在模拟器中,我们发现无模型算法和其他流行算法(PPO、DQN)的性能与我们的方法大致相同。

然而,这些其他方法需要多一个数量级的情节才能训练到相似的水平。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部