临床科研数据库系统的现状与未来

临床科研数据库系统的现状与未来
2021年02月18日 10:51 中国网

病例数据的收集和管理是各类临床研究中极为重要的基础性活动。信息技术的发展,使早期依靠

纸质病例报告表(CRF)人工收集

和管理病例数据转变为依托电子化

数据采集(EDC)和数据库系统管

理病例数据[1]。贯穿病例数据采集

和管理过程的是各具特点的临床科

研数据管理系统,包括临床数据

采集系统、临床科研专病数据库系

统、临床科研数据库平台等(以下

简称“临床科研数据库系统”)的

开发与应用。在一些大型医院中,

相当多的临床科室建立了各种类型

的科研数据库,其中既有专门开发

的专病数据库系统,也有大量基于

Excel电子表格的病例数据收集系

统。

近几年,随着临床信息化建设

的进步,基于大规模医疗数据的临

床真实世界研究呈现出快速发展的

态势,以电子病历为数据源建立临

床研究数据库的需求越来越多[2],

临床科研数据库系统的功能需求及

支撑技术也在不断发展演变。在传

统的病例数据收集和利用模式发生

变化的背景下,总结分析临床科研

数据库系统的发展对于完善临床科

研数据库建设、提升临床科研支撑

水平具有重要意义。

1. 临床科研数据库的分类及特点 

不同目的、不同类型和不同病

例收集范围的临床研究,对临床科研

数据库的数据内容和系统功能需求不

同。归纳起来,临床科研数据库大体

上可以分为三种常见类型,其分类及

特点如表1所示。

1.1 临床试验数据库 主要用于支持

药物、器械或治疗方法的前瞻性临

床试验研究,可为单中心或多中心

数据库。研究设计者围绕临床试验

目的,提出病例分组和入组条件,

设计病例数据采集表单,按严格的

临床试验和数据质量控制要求采集

病例数据。

此类数据库的特点是:病例按

干预措施区分为试验组和对照组管

理,病例有严格的入组条件;按照

临床试验要求,对数据的质量和录

入管理有严格的规范,对数据的修

改追踪、源数据核查、临床试验完

成后数据库的锁定等功能有较高要

求[3];除手工数据录入外,可以通

过与医院信息系统接口,进行数据

导入。

 1.2 病例注册数据库 主要用于支持

疾病或治疗措施的观察性研究,通

常为多中心数据库。研究设计者围

绕研究主题和特定的研究问题,设计统一的病例数据采集表单,组织

真实世界病例数据录入汇集,形成

大规模的观察性病例数据库[4-6]。

现实中,一些队列研究数据库具有

与病例注册数据库相似的特点,亦

可归入此类。

病例注册数据库具有以下特

点:通常为多中心数据库,对数据

标准化定义要求较高[7];各个医疗

机构的信息系统并不相同,病例注

册系统与各医疗机构信息系统建立

接口的可能性较低,数据采集主

要依靠人工录入,因而病例登记

表所涉及的变量数通常不宜设计

过多;多中心采集场景下,对病

例注册系统的数据录入和共享权

限有特定要求。 

1.3 科室专科或专病数据库 主要用

于支持临床科室按专科或病种收集

病例数据和开展观察性研究。在实

际工作中,科室建立专科或专病数

据库可分为两种情况:一种是有研

究目的但研究问题尚不明确,建库

是为未来的科研问题积累数据,其

所收集的病例数据项较广,病例表

单构成较复杂;另一种是围绕特定

科研问题的病例数据收集,数据项

相对较少,病例表单相对简单。随

着医疗信息化的发展所提供的便利

性增加,近年来此类数据库的建设

需求越来越多[8-11]。

此类数据库与注册数据库的特

点有类似之处,但由于属于单中心

数据库以及考虑未来研究问题的可

用性,所以多数数据库设计包含数据

项较多,数据标准化定义要求相对宽

松;对从医院电子病历数据资源库

(CDR)获取数据的要求较高。

2. 临床科研数据库系统的发展演变 

上述几类临床科研数据库虽然

各有特点和侧重,但对系统功能有

共性的需求,包括:数据的录入采

集、质量控制、电子病历数据抽取

等。随着医疗信息化的发展和电子

病历应用的普及,真实世界数据研

究兴起,临床科研数据库系统从早

期的单机、定制化系统发展到平台

化系统,系统结构也在发生演变。 

2.1 临床科研数据库系统的平台化

由于临床研究的类型、目的以及科

研问题的不同,每个研究项目或病

种数据库所需的数据内容、录入表

单、校验规则、存储结构等均不相

同,临床科研数据库和数据管理系

统完全定制化开发的方式面临着工

作量大、变更维护不便等问题。平

台化是临床科研数据库系统近年来

的发展趋势,即针对临床科研数据

库建设的共性需求提供通用化、平

台化的服务,在平台基础上再由研

究者根据科研项目需要自行定义数

据内容及相关功能,由此实现通用

化和定制化的结合。此类平台的主

要功能包括:①数据项定义。由研

究者定义所采集的数据项格式及标

准规范。②病例表单定义。由研究

者和工程技术人员定义病例表单所

包含的数据项、表现形式和数据校

验规则。视回顾性研究或前瞻性研

究需要,定义数据录入表单或表单

序列。当数据来源于电子病历数据

时,可以定义数据的自动抽取映射

规则。③病例录入。基于病例表单

定义为录入者提供数据采集录入界

面,并提供数据校验和质量审核。

④病例检索。可为科研人员提供数

据库中病例数据的灵活检索手段。

⑤病例数据统计。可为科研人员提

供基本的病例分布统计以及变量间

的相关性分析。

国际上近年流行的REDCap临

床数据采集系统[12],以及国内一些

医院新建立的临床科研数据库平台

都属于此类平台化系统[11,13]。

2.2 体系结构的演变 临床科研数据

库系统发展的前期,基本都为相对

孤立的系统[14],与医疗机构的信息

系统没有集成,此时的系统结构如

图1a所示,目前仍有大量的科室级

科研数据库系统属于此类系统。随着电子病历系统应用的普及,临床真实世界研究越来越多,从电子病历中抽取并生成科研数据的需求愈加强烈,临床科研数据库系统需要建立与电子病历数据的集成接口,

此时的系统结构如图1b所示,目前有少量的科研数据库实现了电子病历数据的抽取。然而,由于每个临床科研数据库的数据内容不同,医疗机构电子病历数据结构也不相同,由病例表单直接与异构的电子病历数据对接所导致的接口开发工作量大、不同专科专病数据库的接口可重用性低,因此,临床科研数

据库系统从体系结构上进一步增加

了病例原始数据库构件。

病例原始数据库通过与异构的电子病历数据进行映射对接,抽取形成完整的原始医疗记录。临床科研数据库系统基于这一自身固定结构的病例原始数据库,在开发病例表单时,可以更为直接地从底层原始数据库中抽取和加工数据,此时的系统结构如图1c所示。在此结构下,系统内含

病例原始数据模型与外部电子病历

数据模型之间需要进行一次性映射,

而后,专科专病科研数据库与病例原

始数据的关联成为系统内部的定义工

作,在多个专科专病数据库的情况下

开发和接口定制工作量可以大大减

少,因而适合于作为全院级统一的临

床科研数据库平台[11,13]。 

3. 临床科研数据库系统的主要技术问题 

根据临床科研数据库的发展需

求,构建一个完整、高效、灵活的

临床科研数据库平台需要解决以下

关键技术问题。

3.1 病例数据模型的表达 临床科研

数据是围绕科研问题从原始的医疗

(电子病历)数据或其他来源数据

中采集加工的病例特征数据。如:

从医疗记录中提取“术前血红蛋

白”和“术后血红蛋白”,从病历

文本中提取“是否吸烟”和“是否

有糖尿病”等。针对原始观察性医

疗数据,可采用类似于电子病历的

数据模型表示,这方面有标准化的

数据模型可供借鉴,如观测性医

疗结果合作组织(OMOP)的通用

数据模型(CDM)[15]。而对于特

征化的数据,则每个研究都有所不

同,需要结合病例表单进行定义。

作为平台化的临床科研数据库

系统,要能够根据临床科研的数据

需求和科研设计者的需要,动态建

立和表达每一研究项目对应的数据

模型。解决数据模型动态定义的问

题,当前有三种技术路线:①基于

传统的关系数据库表达和动态建立

所定义的模型;②基于XML或对

象数据库表达和建立所定义的模

型;③基于底层的Key-Value通用

模型,在其上进一步建模构建所定

义的模型。三种方式各有特点,但

后两种方式更便于数据平台的统一

管理和处理实现。RedCap系统采

用了关系数据库MySQL基础上的

Key-Value表示方法。临床数据交

换标准协会(CDISC)制定的临床

研究数据交换标准,采用了基于

XML文档和类似于“Key-Value”

的数据元素,有很好的适应性。 

3.2 病例表单的灵活定义 病例采集

表单由临床科研数据库平台所提供

的界面元素类型、属性、组合、布

局等进行定义,其灵活性决定了数

据录入采集界面的美观和易用性。

对数据校验的定义能力很大程度上

影响到数据的录入质量,除了常规

的类型一致性、非空值、值域校验

外,数据项之间的校验可采用表达

式、函数以提高校验表达能力。以

REDCap为例,其提供了函数和脚

本编程的处理和校验能力。当然,

在表单定义的灵活性和复杂性之间

需要取得一个平衡。 

3.3 医疗数据的自动关联与提取 根

据临床科研数据库所定义的数据

项,最大程度地从原始医疗数据中

自动关联和提取病例数据,是减轻

临床科研人员数据整理工作量的关

键,也是当前临床科研数据库系统

的关键技术。要较好地实现这一目

的,除了提供数据项映射外,要实

现对时间点、医疗事件的自动识

别,以及数据项的计算处理和自动

判断。更进一步,针对原始医疗记

录中大量的自由文本,需要采用

规则定义、机器学习等方法,实现

从自由文本中自动提取结构化数据

项。由于自然语言处理技术的进展

和局限性,把这一技术集成到临床

科研数据库平台还处于发展之中[9]。 

4. 未来发展 

随着需求、技术和应用的发

展,未来的临床科研数据库系统还

将进一步发展。其中,有以下几点

值得关注。 

4.1 与院后随访系统的整合 院后随

访数据作为患者临床结局的反映,

是多数临床研究中必须收集的数

据。传统的院后随访除了患者到门

诊随访外,主要依靠临床研究人员

电话随访,存在工作量大、失访率高、数据质量受限等普遍性问题。

随着互联网、移动通信技术的发

展,通过网页、微信、App等多种

形式的患者院后随访服务以及患者

自报告结局(PRO)成为可能,随

访问卷、查体原始报告等都可以由

患者直接录入或上传。未来的临床

科研数据库应能与新型的院后随访

系统相集成[13],实现临床数据与随

访数据的一体化整合,从而有效提

升科研数据完整度。 

4.2 与医疗业务信息系统的协同 从

医疗记录中回顾性提取科研数据是

科研数据采集的难点,实践中始终

存在着原始记录不全、结构化技术

要求高的困扰。建立“临床科研一

体化”的电子病历系统,由医护人

员在诊疗现场电子病历系统中直接

以结构化方式录入各类医疗记录

(即“前结构化”)也有诸多探

索,但实现全结构化的电子病历无

论是从技术上还是应用上目前都不

理想。然而,结合临床研究需要,

把结构化的科研数据表单以“插

件”形式集成到临床电子病历系统

中,兼顾临床记录的描述性和科研

数据的结构化,却是可行的。另

外,近几年,在临床专业学会的推

动下,一些专科化的检查开始推行

结构化报告,也为科研数据采集提

供了便利。未来,临床科研数据采

集需求会更多地体现在医疗业务信

息系统中,两类系统之间的协同互

补将是发展的趋势。 

4.3 回顾性研究数据收集利用模式

的改变 在目前的科室专科专病数

据库中,有相当一部分是为未来的

回顾性研究而建设。一方面,在研

究问题不确定的情况下,建设和维

持科研数据库需要投入专门力量,

长期持续难度大;另一方面,随着

电子病历数据的完善和数据处理分

析技术能力的提升,当提出研究问

题时,能够针对研究问题直接从原

始数据中提取所需特征变量开展研

究。在专业化的数据服务能力支持

下,即席直接提取科研数据有更高

的效率,能最大程度地减轻临床科

室工作量,这一趋势在医院的大数

据中心工作实践中已经开始显现。

在这种模式下,临床研究所需要的

数据特征更为精准、数目缩小,对

病例录入表单的定义需求降低,对

从原始数据到科研特征数据的加工

能力要求提高。未来,临床科研数

据库系统的数据加工功能会进一步

加强,预先建库的模式将更多地转

为有研究问题时的即时建库和数据

加工,整个过程将进一步简化。

参考文献

[1] 谢高强,李英山,姚晨.电子数据采集

对我国临床研究的机遇和挑战[J].中国

新药杂志,2013,22(6):620-623.

[2] 董冲亚,姚晨,高嵩,等.加强医院

临床研究源数据管理,提高我国临床

研究数据质量[J].中国循证医学杂

志,2019,19(11):1255-1261.

[3] 蒋志伟,夏结来,李婵娟,等.基于结构

化病例报告表的 EDC构建策略[J].中国

新药杂志,2009,18(23):2199-2204.

[4] 杨星月,刘佳,何丽云,等.病例注册登

记研究的应用进展[J].中国循证医学杂

志,2016,16(12):1481-1484.

[5] 顾大川,赵艳,张颖,等.中国成人心血

管外科注册登记数据库的构建[J].中国

循证医学杂志,2017,32(1):1010-1014.

[6] 李丹玲,张志强,潘辉,等.多中心临床

数据库在科研中的应用[J].中国数字医

学,2018,13(12):37-39.

[7] 谭婧,彭晓霞,舒啸尘,等.患者登记数

据库构建技术规范[J].中国循证医学杂

志,2019,19(7):771-778.

[8] 高宇,王奕.基于单病种数据库的临

床科研系统的设计与研发[J].中国肿

瘤,2017,26(9):677-682.

[9] 王淑,陈敏,凌琦鸣,等.基于临床数据

中心的专病研究系统建设与实践[J].中

国医院,2017,21(8):16-18.

[10] 李慧杰,张晴晴,刘瑞红,等.大

数据背景下临床专病数据库建设

实践与思考 [J]. 中国卫生事业管

理,2020,37(8):574-591.

[11] 罗辉,薛万国,乔屾,等.大数据环境

下医院科研专病数据库建设[J].解放军

医学院学报,2019,40(8):713-718.

[12] 高凡,田国祥,贺海蓉,等.REDCap实

现多中心研究数据管理的方法[J].中国

循证医学杂志,2018,10(4):392-395.

[13] 席韩旭,李维,计虹,等.基于临床数

据中心的科研平台建设与实践[J].中国

数字医学,2017,12(10):8-10.

[14] 李月云.乳腺恶性肿瘤Epidata数据

库构建与应用[D].青岛:青岛大学,2013.

[15] 何家双,肖晓旦.OMOP CDM在临

床科研中的应用思考[J].中国数字医

学,2016,11(3):72-74.

注:本文作者薛万国、乔屾、车贺宾、孙晓春,来源中国数字医学 。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部