2. 湖南省儿童医院肝病中心,长沙 410007;
3. 中南大学计算机科学与工程学院,长沙 410012
2. Center of Liver Disease, Hunan Children's Hospital, Changsha 410007, China;
3. School of Computer Science and Engineering, Central South University, Changsha 410012, China
重症患儿受医院医疗设备和技术等条件限制,常需院际转运,使患儿得到更有效救治,但如何确保转运过程中患儿的安全,是目前重症医学的热点和难点[1]。院际转诊的预后受到诸多因素影响,包括原发疾病的严重程度、转诊急救团队专业技能水平、转运过程中所需时间、不良事件的发生等[2]。本团队在前期的前瞻性研究中发现儿童死亡风险(pediatric risk of mortality, PRISM)评分系统对院间转诊重症患儿的死亡风险评估具有较好的分辨力和拟合度[3]。近年来随着机器学习等智能理论与信息技术的发展,通过大数据系统化、标准化、智能化进行远程会诊、双向转诊等远程服务的智慧医疗已成为医疗技术进一步发展的一种必然趋势[4]。
鉴于此,本研究通过基于机器学习对重症患儿院际转运过程中的影响因素结合PRISM评分进行数据分析,构建有效转运风险预测模型,识别影响重症患儿院际转运预后的关键医学特征,提高院际转运成功率,现报告如下。
1 资料与方法 1.1 研究对象前瞻性选取2020年1月至2021年1月期间湖南省儿童医院转运中心通过院际转运收住重症监护病房(ICU)的资料完整的重症患儿为研究对象。纳入标准:通过院际转运收住ICU的重症患儿;临床资料收集完整。排除标准:院前转诊反复复苏无效患儿;家属放弃抢救患儿;转诊后未入住重症监护病房的患儿或入住后未超过3 h。
转诊前家长已签署转运同意书,并通过湖南省儿童医院伦理委员会审查批准(HCHLL-2022-108)。
1.2 数据收集数据由经过统一方法培训的2名儿童重症医学专业研究生通过本院院际转运信息系统收集记录完成。收集的数据包括:(1)转诊重症患儿一般情况、转诊前医院的信息、转运的距离和花费时间、转诊前后临床表现和实验室检查、转诊过程中处置措施、不良事件的发生情况,出入院诊断、入住ICU的时间和总住院时间及其临床结局(存活/死亡)等。(2)入住ICU后第1个24 h内PRISM Ⅲ评分的最差值,收缩压、心率、体温、瞳孔反射、精神状态、酸中毒、CO2总含量、pH值、动脉氧分压(PaO2)、二氧化碳分压(PCO2)、血糖、血钾、肌酐、血尿素氮、白细胞计数、凝血酶原时间、血小板计数,共17项。共收集了151项重症医学特征数据,重症患儿的医学特征资料见附表。
1.3 数据处理由于数据集中存在一些缺失值,因此,需要对数据进行预处理,主要包括数据清理、数据转换、数据填充和数据划分。预处理的具体步骤如下。
(1)数据清理:删除对转诊结果没有影响的特征,例如患儿的编号,它对每个患儿都是唯一的。
(2)数据转换:根据数据含义对数据集中的数据进行转换,对冗长的离散数据进行编码,对基于时间的数据进行数字映射。例如,原始数据包括离开原医院和到达湖南省儿童医院的时刻,但具体的日期和时间对模型意义不大。因此,特定的时刻被转换为时间间隔(以min为单位),并作为一个新特性(总耗时)添加到数据集。
(3)数据填充:对于离散值的医学特征的缺失值,计算所有重症患儿对应特征的众数来填充缺失值。类似地,对于连续数据,本文用平均数填充。例如,对于发绀,有两个值,1表示重症患儿有发绀,2表示重症患儿没有发绀,用众数2来填补发绀这一特征的缺失值。
(4)数据划分:将原始数据集按照年龄以d为单位(是否小于28 d)分为新生儿和非新生儿两个数据集,方便后续分析。此外,在原始数据集中增加了一个新特征“新生儿(是/否)”,以方便后期特征选择结果的可视化分析。
1.4 预测模型的选择通过机器学习的方法找出医学特征与转诊结果之间的潜在相关性,并从大量的特征中,选择出对判断重症患儿是否适合转诊具有较高参考价值的特征。将D=[(xi, yi)]ni=1设为数据集,其中为重症患儿Xi∈Rm的所有医学特征值,可以称为自变量,m表示医学特征类型的数量(数据集中m=151)。yi表示重症患儿i的转诊结果,即因变量,n表示重症患儿的数量(数据集中n=549)。特征选择本质是选择一个小的特征子集,即缩小的维数m,同时保留对结果有显著影响的特征。
本文选取了基于
模型验证方面,本文分别将包含所有医学特征和决策树筛选出的医学特征的数据输入到转诊结局预测模型,分析不同训练数据模型的准确率。其中,用反向传播(back propagation, BP)神经网络构建转诊结局预测模型,拟合重症患儿医学特征和转诊结局之间的关系,预测转诊结局。BP神经网络的目标是近似拟合一个函数f,此函数能够将输入X映射到输出y上,其中输入x表示患儿医学特征,输出y表示患儿转诊结局。模型表达式为:
![]() |
(1) |
其中,f(1)被称为网络的第一层,为输入层,f(2)被称为第二层,为隐藏层,f(3)被称为第三层,为输出层。在f(1)与f(2)间,使用了批次归一化层(BN:Batch Normalization)层f(bn)对输入数据进行归一化处理,如图 1所示。
![]() |
图 1 BP神经网络模型图 Fig 1 BP neural network model |
|
将数据集D={(xi, yi)}ni=1按照4∶1比例划分为训练集和测试集两个部分。将训练集输入BP神经网络中训练,得出测试集的精确率,同时将数据集D中决策树筛选出的医学特征数据提取出来,记为D'={(x'i, yi)}ni=1,按照同样的方法将数据输入模型,得出测试集的精确率。
2 结果 2.1 患儿的一般情况本次研究期间共转诊602例患儿,其中35例由于各种原因资料严重缺失,13例患儿入院未超过2 h,5例患儿入院时即给予心肺复苏且未获得自主循环,最终纳入549例院间转诊患儿。其中男335例(61.02%),女214例(38.98%),月龄范围0~138个月,新生儿222例(40.44%),非新生儿327例(59.56%)。549例患儿中,171例(31.15%)患呼吸系统疾病,166例(30.24%)患混合性疾病,70例(12.75%)患血液系统疾病,46例(8.38%)患神经系统疾病,43例(7.83%)患心血管系统疾病,42例(7.65%)意外伤害患儿、11例(2.00%)为手术术后患儿。本研究纳入的549例转诊患儿中,有50例患儿在住院期间发生死亡,病死率为9.11%。
2.2 不同训练数据模型准确率的比较利用BP神经网络构建转诊结局预测模型对风险预测模型所选医学特征进行验证显示,将所有特征数据用于训练的预测准确率为0.90(见图 2),将决策树所选特征数据用于训练的预测准确率为0.94(见图 3),结果表明,只用决策树选择出来的重要特征进行训练的效果是好于用所有数据的。一方面证明所选特征确实可以描述重症患儿身体情况,达到辅助转诊决策的作用。另一方面表明了所选特征去除了全部特征中的冗余和无关数据,使得预测结果提升。
![]() |
图 2 将所有特征数据用于训练的预测准确率 Fig 2 Prediction Accuracy with all feature data used for training |
|
![]() |
图 3 将决策树所选特征数据用于训练的预测准确率 Fig 3 Prediction accuracy rate for training with feature data selected by decision tree |
|
从收集的重症患儿151项医学特征数据进行数据处理,通过机器学习的三种特征选择模型各选取的影响转诊结局的前15项最重要的特征,共有34项特征入选,见表 2。对比三种模型分析,Relief算法入选的前15项特征,仅有3项重要特征与PRISM Ⅲ的指标重叠,重叠度为27.3%,且所选取的机械通气、气管插管的状态、吸入氧的浓度,主要集中在呼吸情况这一生理特征上,特征之间的相关性非常高,无法全面描述重症患儿其他情况。
医学特征 | 基于![]() |
决策树 | Relief算法 |
毛细血管再充盈时间 | √ | √ | × |
器官衰竭 | √ | √ | × |
心率 | √ | √ | × |
碱剩余 | √ | √ | × |
血糖 | √ | √ | × |
意识状态 | √ | × | √ |
乳酸 | √ | √ | √ |
发绀 | √ | √ | √ |
钾离子 | √ | × | × |
性别 | √ | × | × |
体重 | √ | × | × |
葡萄糖 | √ | × | × |
转诊前医院的级别 | √ | × | × |
血氧饱和度 | √ | × | × |
平均动脉压 | √ | × | × |
钙离子 | × | √ | × |
总胆红素 | × | √ | × |
二氧化碳分压 | × | √ | × |
收缩压 | × | √ | × |
血液a | × | √ | × |
体温 | × | √ | × |
转运总耗时 | × | √ | × |
动脉氧分压 | × | √ | √ |
ICU首小时机械通气方式 | × | × | √ |
使用气管插管或心肺复苏 | × | × | √ |
气道开放 | × | × | √ |
肢体冰凉程度 | × | × | √ |
年龄 | × | × | √ |
是否来自ICU | × | × | √ |
是否计划性收入ICU | × | × | √ |
呼吸支持 | × | × | √ |
吸入氧体积分数 | × | × | √ |
通气设备 | × | × | √ |
转诊前医院所在位置 | × | × | √ |
注:a为血液包括白细胞、血小板、凝血酶原时间/凝血活酶时间 |
基于
决策树模型入选的前15项特征,有8项重要特征与PRISM Ⅲ的指标重叠,其特征覆盖PRISM Ⅲ中72.7%的指标,所选择的特征包含了患儿身体状况的各方面特征,更符合医学事实。分别是收缩压、心率、体温、瞳孔反射、神志状态、酸中毒、动脉氧分压、二氧化碳分压、血液、血糖,见表 3。通过量化特征的小提琴图对转诊结局影响的大小排序,见图 4和表 4。
PRISM Ⅲ中的医学特征 | 基于![]() |
决策树所选择的医学特征 | Relief算法所选择的医学特征 |
收缩压 | × | √ | × |
心率 | √ | √ | × |
体温 | × | √ | × |
瞳孔反射 | × | × | × |
神志状态 | √ | × | √ |
酸中毒 | √ | √ | √ |
动脉氧分压 | × | √ | √ |
二氧化碳分压 | × | √ | × |
血液a | × | √ | × |
血糖 | √ | √ | × |
血钙 | × | × | × |
注:a为血液包括白细胞、血小板、凝血酶原时间/凝血活酶时间 |
![]() |
图 4 决策树选择的特征的小提琴图 Fig 4 Violin diagram of features selected by the decision tree |
|
医学特征名称 | 影响值 |
碱剩余 | 80.88 |
总胆红素 | 69.88 |
钙离子 | 64.67 |
总耗时 | 64.33 |
动脉氧分压 | 63.67 |
血液a | 53.88 |
二氧化碳分压 | 49.69 |
血糖 | 44.84 |
收缩压 | 43.69 |
心率 | 39.40 |
器官衰竭 | 37.74 |
乳酸 | 34.96 |
毛细血管再充盈时间 | 30.88 |
体温 | 30.49 |
发绀 | 24.13 |
注:a为血液包括白细胞、血小板、凝血酶原时间/凝血活酶时间 |
通过决策树分别对新生儿和非新生儿两个数据集选择有高度影响的前15项医学特征,共有19项特征入选,其中新生儿与非新生儿的重要特征之间有8项差异项和11项重叠项,在转运新生儿与非新生儿时对医学特征关注的重点上应有不同。8项差异项为:转诊总耗时、碱剩余、意识状态、呼吸支持、血糖、体温、毛细血管再充盈时间、乳酸,其中新生儿的4项差异项特征为碱剩余、呼吸支持、意识状态和转诊总耗时,见表 5。11项重叠项按差异值的排序为:总胆红素、舒张压、呼吸、心率、二氧化碳分压、碳酸氢盐、动脉氧分压、血氧饱和度、钙离子、发绀、器官衰竭,见表 6,其具体的新生儿和非新生儿之间重要特征值的分布差异直方图,见图 5。
医学特征名称 | 新生儿 | 非新生儿 |
总胆红素 | √ | √ |
舒张压 | √ | √ |
呼吸 | √ | √ |
心率 | √ | √ |
二氧化碳分压 | √ | √ |
碳酸氢盐 | √ | √ |
动脉氧分压 | √ | √ |
血氧饱和度 | √ | √ |
钙离子 | √ | √ |
发绀 | √ | √ |
器官衰竭 | √ | √ |
转诊总耗时 | √ | × |
碱剩余 | √ | × |
意识状态 | √ | × |
呼吸支持 | √ | × |
血糖 | × | √ |
体温 | × | √ |
毛细血管再充盈时间 | × | √ |
乳酸 | × | √ |
医学特征名称 | 差异值θ |
总胆红素 | 1.600 |
舒张压 | 1.439 |
呼吸 | 0.984 |
心率 | 0.928 |
二氧化碳分压 | 0.888 |
碳酸氢盐 | 0.830 |
动脉氧分压 | 0.744 |
血氧饱和度 | 0.736 |
钙离子 | 0.623 |
发绀 | 0.263 |
器官衰竭 | 0.142 |
![]() |
图 5 新生儿和非新生儿之间重要特征值的分布差异直方图 Fig 5 Histograms of differences in the distribution of important eigenvalues between newborns and non-newborns |
|
小儿疾病具有起病急、发展快、调节差等特点,由于医疗资源不平衡,一些县级医院甚至落后地区的市级医院儿科严重缺乏重症监护和治疗所需的专业设备[6]。重症患儿常需转移到上一级医院进行救治。院际转诊是否及时、迅速、有效,将直接影响到危重患儿病情的进展和治疗效果[7]。在转诊过程中,不良事件的发生也可能导致危重患儿病情恶化,有研究显示院际转诊过程中不良事件发生率可高达61%[8]。为规范和提高重症患者转运的成功率,院际转运相关专家建议和共识以相继出版[9-10],相关转运体系模式也不断在探索[11],但重症转运患儿的预后受患儿本身疾病严重程度、转诊团体的专业程度、不良事件发生情况及住院后的合理治疗等多因素影响,使得临床医师在准确评估病情做出是否适合转运的决策上依然面临很大困难。目前常用的PRISM Ⅲ、儿童转诊早期预警评分(transport pediatic early warning score, TPEWS)等一系列危重患者评分方法等作为危重患儿病情以及转诊合理性的判断依据,但由于危重患儿的年龄跨度大,不同地区疾病类型、所需设备和医疗水平不同,不一定适用于所有医院[12]。本团队前期将PRISM、小儿危重病例评分、TPEWS等用于评估危重患儿院际转诊合理性和预后,发现该类评分对于转诊重症患儿识别转诊重症患儿的死亡风险有一定的价值[3, 13],但这些研究都是基于单一的临床症状体征和检查结果等评分工具进行分析,缺乏系统的大数据智能分析,而深度学习技术在医疗数据挖掘、医学图像、智能诊断等方面的应用逐渐受到业界欢迎与认可,人工智能和机器学习在医疗领域得到了广泛的应用,且不同的学习模型在不同的疾病类型和不同的医学场景的应用也有所不同[14-17]。
本研究基于Python实现的三个模型,计算了每个医学特征的重要性,并列出了一些最重要的特性的名称。基于医学事实和医学特征需要能全面地表示患儿身体状况这一原则的基础上,对三种模型的结果进行分析。在Relief算法中所选择的特征很多与重症患儿的呼吸情况有关,如机械通气和气管插管的状态、吸入氧的浓度等。该方法选取的特征集中在一定范围的生理特征上,特征之间的相关性非常高。因此所选取的特征只集中在呼吸方面,不能全面描述重症患儿其他情况。另一方面,正则化逻辑回归所选取的特征中包含了重症患儿的性别、体重及转诊前医院的级别,在反映病情严重程度方面不应排得太靠前。决策树模型选择出来的特征包含了患儿身体状况的各方面特征,更符合医学事实。将决策树模型选择的特征与PRISM Ⅲ进行比较。PRISM Ⅲ的医学特征包括收缩压、心率、体温、瞳孔反射、精神状态、酸中毒、CO2总含量、pH值、PaO2、PCO2、血糖、血钾、肌酐、血尿素氮、白细胞计数、凝血酶原时间、血小板计数、共17项。而本转运数据中CO2总含量、pH值、肌酐和血尿素氮在数据集中记录并不完整,其中白细胞计数、凝血酶原时间和血小板计数在数据集中收集统一标志为血液,使得比较结果会有一定的偏差。去除未记录特征和合并特征后,PRISM Ⅲ评分中有11项医学特征。决策树选择的特征其中有8个重要特征被纳入PRISM Ⅲ。除PRISM Ⅲ评分此外,决策树模型选取了钙离子、总胆红素、总耗时、毛细血管再充血时间、乳酸、器官衰竭、发绀等与转诊结果密切相关的重要特征,在决策是否立刻将患儿转诊时,还应该考虑到这些因素。同时本研究利用BP神经网络构建转诊结局预测模型对风险预测模型所选医学特征进行验证显示,将决策树所选特征数据用于训练的预测准确率为0.94,高于将所有特征数据用于训练的预测准确率的0.90,提示决策树模型在识别影响院际转运风险的关键医学特征上具有较佳的性能。
虽然已经根据决策树算法计算了每个特征的重要性,但这种方法是基于模型的,不利于可视化。本研究使用小提琴图将影响转诊结果程度的特征可视化,直观地分析各特征对区分转诊结果的重要性。如果同一特征上的死亡和生存分布差异较大,则该特征能更有效地区分结果,因此进一步量化小提琴图中生存和死亡的非重叠区域。区域越大,该特征对转诊结果的区分效果越好。根据碱剩余的小提琴图,当碱剩余很大或很小时,存活率显著降低。
本研究还分析了影响新生儿和非新生儿在医学特征上取值范围的差异,以发现在考虑转诊时,新生儿和非新生儿应分别考虑哪些特征。基于数据处理部分划分的新生儿和非新生儿两个数据集,通过决策树为这两个数据集选择对重症患儿转诊结果有高度影响的医学特征。分别比较这两个数据集选出的前15项最重要的特征,其中,新生儿与非新生儿的重要特征之间有8项差异项和11项重叠项。新生儿中不同于非新生儿的重要特征包括碱剩余、呼吸支持、意识状态和转诊总耗时。由此可见,这四个特征对新生儿转诊结果的影响大于非新生儿转诊结果,因此在选择是否立即转诊时应更加重视这四个特征。
本研究还存在一些局限性,一是为单中心研究,且重症患儿病情比较复杂,不同系统的疾病和不同年龄段儿童的相关指标也不完全一致,模型的普适性尚不明确,有待于多中心研究并在不同疾病和不同年龄段中进一步去验证,二是部分指标间存在相关性,其相互潜在的影响需进一步去考虑和优化。另外目前重症患儿的相关医疗数据还有赖于下级医院医师、转诊医院医务人员对相关数据的准确填报。机器学习作为一种数据分析工具,需经过适当的设计才真正有效。以临床问题为导向,对医疗数据进行注释及处理,使用机器学习算法对数据关系进行探索建模,并对初步建立的模型进行修正与测试,从而形成可靠模型,解决实际临床问题[18]。
综上所述,机器学习模型可作为预测重症患儿院际转运风险的可靠工具。决策树模型具有较佳的性能,有助于识别影响院际转运风险的关键医学特征,提高重症患儿院际转运的成功率。
利益冲突 所有作者声明无利益冲突。
作者贡献声明 袁远宏:实验操作、论文撰写,研究设计;张慧,欧叶玉,康霞艳,刘娟,胥志跃,朱丽凤:数据收集及整理、统计学分析;肖政辉:论文修改
[1] | van Lieshout EJ, de Vos R, Binnekade JM, et al. Decision making in interhospital transport of critically ill patients: national questionnaire survey among critical care physicians[J]. Intensive Care Med, 2008, 34(7): 1269-1273. DOI:10.1007/s00134-008-1023-x |
[2] | 任路, 朱翠平, 吴小惠, 等. 院际转运危重患儿死亡病例分析[J]. 中国小儿急救医学, 2015, 22(3): 169-172. DOI:10.3760/cma.j.issn.1673-4912.2015.03.006 |
[3] | 卢秀兰, 仇君, 祝益民, 等. 儿童死亡危险评分在院间转诊患儿中的应用[J]. 中国小儿急救医学, 2014, 21(11) 681-683, 688. DOI:10.3760/cma.j.issn.1673-4912.2014.11.001 |
[4] | Beam AL, Kohane IS. Big data and machine learning in health care[J]. JAMA, 2018, 319(13): 1317-1318. DOI:10.1001/jama.2017.18391 |
[5] | Deo RC. Machine learning in medicine[J]. Circulation, 2015, 132(20): 1920-1930. DOI:10.1161/circulationaha.115.001593 |
[6] | 孔祥永, 封志纯. 重视改进新生儿转运[J]. 中国实用儿科杂志, 2016, 31(9): 667-669. DOI:10.7504/ek2016090608 |
[7] | Qiu J, Wu XL, Xiao ZH, et al. Investigation of the status of interhospital transport of critically ill pediatric patients[J]. World J Pediatr, 2015, 11(1): 67-73. DOI:10.1007/s12519-015-0004-8 |
[8] | Foronda C, VanGraafeiland B, Quon R, et al. Handover and transport of critically ill children: an integrative review[J]. Int J Nurs Stud, 2016, 62: 207-225. DOI:10.1016/j.ijnurstu.2016.07.020 |
[9] | 危重症患者院际转运专家共识组, 国家急诊专业质控中心. 危重症患者院际转运专家共识[J]. 中华急诊医学杂志, 2022, 31(1): 17-23. DOI:10.3760/cma.j.issn.1671-0282.2022.01.005 |
[10] | 中华医学会急诊医学分会儿科学组, 中华医学会儿科学分会急救学组, 中国医师协会儿童重症医师分会. 重症儿童院际三级转诊专家建议[J]. 中华儿科杂志, 2015, 53(8): 573-575. DOI:10.3760/cma.j.issn.0578-1310.2015.08.006 |
[11] | 张建波, 张娟娟, 石蕾, 等. "齐鲁" 转运中心远程转运患者的临床特征[J]. 中华急诊医学杂志, 2019, 28(2): 208-213. DOI:10.3760/cma.j.issn.1671-0282.2019.02.016 |
[12] | 莫武桂, 韦蓉, 唐育鹏, 等. 优化危重症患儿院前急救转运系统的安全性研究[J]. 中国小儿急救医学, 2016, 23(12): 842-845. DOI:10.3760/cma.j.issn.1673-4912.2016.12.010 |
[13] | 胡霞, 李小松, 仇君, 等. 危重患儿72h转诊死亡风险模型的建立与验证[J]. 中华急诊医学杂志, 2017, 26(12): 1453-1457. DOI:10.3760/cma.j.issn.1671-0282.2017.12.024 |
[14] | 杨雪柯, 刘章锁, 李广普, 等. 基于机器学习模型的2型糖尿病患者视网膜微血管形态学特征与糖尿病肾病的相关性[J]. 中华医学杂志, 2023, 103(18): 1393-1400. DOI:10.3760/cma.j.cn112137-20221023-02214 |
[15] | 朱曼晨, 胡春英, 贺银燕, 等. 基于机器学习的重症监护病房脓毒症患者住院病死率预测模型的构建[J]. 中华危重病急救医学, 2023, 35(7): 696-701. DOI:10.3760/cma.j.cn121430-20221219-01104 |
[16] | 张颖莹, 刘怡果, 赵丹, 等. 基于机器学习建立脓毒症心肾综合征患者早期死亡风险预测模型[J]. 中华肾脏病杂志, 2022, 38(9): 785-793. DOI:10.3760/cma.j.cn441217-20211126-00113 |
[17] | 丁莺, 周道扬, 何洋, 等. 基于机器学习的急性重症胰腺炎早期预测系统[J]. 中华急诊医学杂志, 2020, 29(10): 1343-1347. DOI:10.3760/cma.j.issn.1671-0282.2020.10.013 |
[18] | Rajkomar A, Dean J, Kohane I. Machine learning in medicine[J]. N Engl J Med, 2019, 380(14): 1347-1358. DOI:10.1056/NEJMra1814259 |