想研究新冠CT找不到数据集？UCSD、Petuum开源COVID-CT 数据集_

机器之心发布

机器之心编辑部

CT 图像在对新冠肺炎提供准确、快速、廉价的筛查和检测方面很有前景，但很多研究者都苦于找不到合适的数据集。在本文中，来自加州大学圣地亚哥分校、Petuum 的研究者构建了一个开源的 COVID-CT 数据集，其中包含 275 个 COVID-19 检测呈阳性的 CT 图像，有助于使用深度学习方法分析病人的 CT 图像并预测其是否患有新冠的相关研究和开发。

他们在该数据集上训练了一个深度卷积神经网络，获得了 0.85 的 F1。相关数据和代码可见于：https://github.com/UCSD-AI4H/COVID-CT

论文链接：https://arxiv.org/abs/2003.13865

引言

新冠肺炎是一种感染性疾病，对该疾病检测的低效和缺乏成为了控制其传播的主要障碍。目前的检测主要基于逆转录聚合酶链反应（RT-PCR），需要 4 到 6 个小时才能获得结果。与新冠肺炎可怕的传播速度相比，这远不够快。除了效率低下之外，RT-PCR 检测试剂盒也非常短缺。这促使研究者去研究替代的检测方式。这些方式可能更快，比 RT-PCR 便宜，更容易获得，但与 RT-PCR 一样准确。

在众多可能性中，加州大学圣地亚哥分校的研究者对 CT 图像尤其感兴趣。有几篇论文研究了 CT 图像在筛选和检测新冠肺炎时的效果，结果鼓舞人心。然而，出于对隐私的保护，这些研究中所使用的 CT 图像并不会公之于众，这极大地阻碍了基于 CT 图像做精准检测的人工智能方法的研发。

为了解决这个问题，他们构建了一个 COVID-CT 数据集，其中包含 275 个新冠肺炎检测呈阳性的 CT 图像，并向公众开放，以帮助基于 CT 图像的新冠肺炎检测的研发。

研究者从 760 个关于新冠肺炎的 medRxiv 和 bioRxiv 的论文初稿中提取了 CT 图像，并通过阅读这些图像的标题，人工筛选出具有新冠肺炎临床病症的图像。

基于 183 个新冠肺炎 CT 图像和 146 个非新冠肺炎 CT 图像，他们训练了一个深度学习模型，以预测一个 CT 图像是否呈新冠肺炎阳性。

他们在 35 个新冠肺炎 CT 图像和 34 个非新冠肺炎 CT 图像上进行了测试，模型 F1 值为 0.85。结果表明，CT 扫描有望用于筛选和检测新冠肺炎，然而还需要更先进的方法来进一步提高准确性。

创建数据集

本节描述如何构建 COVID-CT 数据集。研究者首先收集了 760 个于 1 月 19 日至 3 月 25 日期间在 medRxiv1 和 bioRxiv2 上发布的的关于新冠肺炎的论文初稿。这些论文中有许多报告了新冠患者病例并且其中一些展示了患者的 CT 图像。这些 CT 图像附有描述其临床病症的标题。

研究者使用了 PyMuPDF3 提取论文 PDF 文件的底层结构信息并定位到所有嵌入的图表。这些图表的质量（包括分辨率，大小等）大都保存完好。根据结构信息，他们还识别出所有图表的标题。

基于提取的图表和标题，他们首先手动选出所有 CT 扫描图像。然后对于每个 CT 图像，阅读其对应的标题从而判断它对新冠肺炎是否呈阳性。如果无法通过标题判断，则在论文中找到分析此图的文字以做出决定。对于包含多个 CT 子图像的图像，他们将其手动拆分为单个 CT 图像。

最终他们获得了 275 个 CT 扫描图像，标记为新冠肺炎阳性。这些图像大小不同：最小、平均和最大高度分别为 153、491 和 1853；最小、平均和最大宽度分别为 124、383 和 1485。这些扫描来自 169 例患者。图 1 显示了新冠肺炎 CT 扫描图像的一些示例。

图 1：新冠肺炎呈阳性的 CT 扫描图像示例。

方法

研究者基于这个数据集开发了一个基线方法。尽管他们所使用的关于新冠肺炎的 CT 图像数据集是目前最大的公开可使用的新冠 CT 数据集，然而它依旧较难达到训练模型所需的数据量。在如此小的数据集上训练深度学习模型十分容易导致过度拟合：模型在训练数据上表现良好，但是在测试数据上泛化不理想。

为了解决训练数据不足的问题，研究者采用了迁移学习的方法：使用 NIH 发布的 ChestX-ray14 数据集来预训练 DenseNet，然后在 COVID-CT 数据集上对预训练后的 DenseNet 进行微调。另外，他们还进行了数据扩充，包括随机仿射变换、随机裁剪和翻转。随机仿射变换包括平移和旋转（角度依次为 5，15，25）。

实验

实验设计

表 1：数据分割统计

研究者收集了 195 个检测新冠肺炎呈阴性的 CT 扫描数据，来训练一个二分类模型，用于预测一个 CT 图像是新冠阳性还是阴性。其中，他们根据病人将其分为训练集、验证集和测试集。

表 1 总结了每个数据集中新冠阳性和新冠阴性图像的数量。每个 CT 图像的大小都调整为 224*224。在验证集上对超参数进行调优。优化算法为 Adam, 学习率为 0.0001,batch size 为 4。他们使用五个指标来评估模型：(1) 准确性; (2)Precision; (3) 召回率; (4)F1; (5)AUC。对于这些指标，越高越好。

实验结果