中华急诊医学杂志  2025, Vol. 34 Issue (12): 1774-1781   DOI: 10.3760/cma.j.cn114656-20250303-00151

基于机器学习建立急性胰腺炎合并器官功能衰竭的临床预测模型
史晨媛1 , 张以罡2 , 童波3 , 赵超1     
1. 江苏省人民医院急诊医学中心, 南京 210029;
2. 江苏省人民医院普外科, 南京 210029;
3. 南京医科大学, 南京 211166
摘要: 目的 探讨急性胰腺炎(AP)合并器官功能衰竭(OF)的危险因素,基于机器学习构建其临床预测模型,并分析其影响因素。方法 此研究为横断面研究。基于AP的临床数据,建立并验证预测模型。本研究共纳入320例AP患者,根据是否合并器官功能衰竭将患者分为OF组和NOF组。通过进行单因素分析和逐步Logistic回归分析,筛选AP合并OF的影响因素,并确定纳入预测模型的变量。按照6:4的比例将患者数据分为训练集和测试集。基于5种算法(逻辑回归(LR)、随机森林(RF)、极端梯度提升树(XGBoost)、k邻近算法(KNN)和朴素贝叶斯(NB))分别建立预测器官功能衰竭风险的模型,并通过曲线下面积(AUC)比较5种算法的性能,筛选最优模型。随后,采用沙普利可加性特征解释(SHAP)分析法,对最优模型的结果进行直观解释。结果 共纳入320例AP患者。其中有14.4%(46/320)的患者并发器官功能衰竭。通过综合对比,随机森林(RF)模型为预测AP合并OF的最佳临床模型(训练集AUC=0.857,测试集AUC=0.821)。进一步采用SHAP分析法显示,RF模型中排名前六位的重要区分特征为:总蛋白(TP)、球蛋白(GLB)、钙(Ca)、白蛋白(ALB)、乳酸脱氢酶(LDH)和α-羟丁酸脱氢酶(HBDH)。结论 随机森林(RF)模型在评估AP合并OF风险方面具有较高的可靠性。总蛋白(TP)、球蛋白(GLB)、钙(Ca)、白蛋白(ALB)、乳酸脱氢酶(LDH)和α-羟丁酸脱氢酶(HBDH)是AP合并OF的关键影响因素。
关键词: 急性胰腺炎    器官功能衰竭    机器学习    预测模型    
Development of a clinical prediction model for acute pancreatitis complicated with organ failure based on machine learning
Shi Chenyuan1 , Zhang Yigang2 , Tong Bo3 , Zhao Chao1     
1. Emergency Medicine Center, Jiangsu Provincial People's Hospital, Nanjing 210029, China;
2. Department of General Surgery Provincial People's Hospital, Nanjing 210029, China;
3. Nanjing Medical University, Nanjing 211166, China
Abstract: Objective To identify the risk factors for acute pancreatitis (AP) complicated by organ failure (OF), develop a clinical prediction model based on machine learning, and analyze the associated influencing factors. Methods In this cross-sectional study, clinical data from patients with AP were used to develop and validate a prediction model. A total of 320 AP patients were enrolled and categorized into OF and non-OF groups based on the presence or absence of organ failure. Univariate analysis and stepwise logistic regression were employed to screen for factors associated with AP complicated by OF, and the variables to be included in the prediction model were identified. The patient data were split into training and test sets in a 6:4 ratio. Prediction models for the risk of organ failure were constructed using five algorithms: logistic regression (LR), random forest (RF), extreme gradient boosting (XGBoost), k-nearest neighbors (KNN), and naive Bayes (NB). The optimal model was selected by comparing the area under the curve (AUC) values of the five algorithms. Finally, the results of the optimal model were visually interpreted using SHAP (Shapley Additive exPlanations) analysis. Results Of the 320 AP patients included, 14.4% (46/320) developed organ failure. After comprehensive comparison, the random forest (RF) model demonstrated the best performance in predicting AP complicated by OF, with an AUC of 0.857 in the training set and 0.821 in the test set. SHAP analysis revealed that the six most important predictive features in the RF model were total protein (TP), globulin (GLB), calcium (Ca), albumin (ALB), lactate dehydrogenase (LDH), and alpha-hydroxybutyrate dehydrogenase (HBDH). Conclusions The random forest model shows high reliability in assessing the risk of organ failure in AP patients. Total protein, globulin, calcium, albumin, lactate dehydrogenase, and alpha-hydroxybutyrate dehydrogenase were identified as key influencing factors for AP complicated by organ failure.
Key words: Acute pancreatitis    Organ failure    Machine learning    Prediction modeling    

急性胰腺炎(acute pancreatitis,AP)是一种以胰腺炎症为主要特征的疾病,其全球发病率在不同地区存在差异,但总体呈上升趋势,尤其在西方国家和部分发展中国家更加明显[1]。胆石是最常见的病因,特别是在西方国家。此外,酒精滥用、高脂血症、药物、病毒感染以及自身免疫性疾病也是已知的诱发因素。急性胰腺炎的严重程度从轻度自限性疾病到危及生命的重症急性胰腺炎(severe acute pancreatitis,SAP)不等。急性胰腺炎的并发症包括局部并发症(如胰腺坏死、假性囊肿和胰腺瘘管)和全身并发症(如多器官功能衰竭)[2]。轻度急性胰腺炎通常预后良好,而重症急性胰腺炎的病死率较高,特别是在出现并发症的情况下。由于治疗成本高昂,这类疾病对公共卫生系统带来了巨大的挑战。因此,早期识别AP合并器官功能衰竭(OF)的高危因素并及时干预,对改善患者预后具有重要意义[3]

风险预测模型是一种基于简单的临床资料和实验室指标构建的工具,是临床工作中筛查高危人群的首选。此类模型有助于预测疾病的发生与发展以及患者的预后[4]。随着大数据和人工智能技术的发展,风险预测模型正变得更加精准和复杂。机器学习算法已广泛应用于医疗领域,用于提高预测的准确性和效率[5]

机器学习是人工智能的一个分支,在医疗领域中的应用包括提高诊断准确性、预测疾病风险以及个性化治疗方案[6-8]。通过分析大量患者数据,机器学习模型能够识别疾病模式,为医生决策提供辅助支持,从而优化治疗流程。

本文基于机器学习算法,构建了AP合并OF的临床预测模型,并分析了相关影响因素,旨在实现疾病的早期预测,辅助临床早期干预,进一步优化诊疗方案。

1 资料与方法 1.1 研究对象

本研究为横断面研究(伦理号:2024-SR-867)。收集2023年1月1日至2024年3月31日就诊于江苏省人民医院急诊科的急性胰腺炎患者的临床数据(即入院后24 h内采集血标本,中位采集时间为入院后6.5 h,四分位距为4.2~8.7 h)和基本特征信息。入组患者均获得患者知情同意。纳入标准:(1)年龄在18~65岁;(2)根据临床症状、实验室检查(如血清淀粉酶和脂肪酶水平升高)和影像学检查(如CT扫描或MRI)确诊为AP;(3)AP发作后一定时间(72 h)内;(4)临床及实验室医疗记录完整;(5)患者或其法定代表同意参与研究并签署知情同意书。排除标准:(1)存在严重的心、肺、肝、肾等器官功能障碍或并发症;(2)既往有胰腺炎复发史、慢性胰腺炎、胰腺癌或其他恶性肿瘤病史;(3)近期内接受过胰腺手术或有其他腹部手术史;(4)妊娠或哺乳期妇女。

1.2 研究方法 1.2.1 数据收集

测量研究对象的性别、年龄、Ranson评分[9]、APACHEⅡ评分[10]、脂肪酶(lipase,LPS)、降钙素原(procalcitonin)、淀粉酶(amylase,AMY)、C-反应蛋白(C-reactive protein,CRP)、白细胞(white blood cell,WBC)、淋巴细胞计数(lymphocyte count,LY)、单核细胞计数(monocyte count,MO)、中性粒细胞计数(neutrophil count,NE)、红细胞(red blood cell,RBC)、血红蛋白(haemoglobin,HB)、红细胞压积(red blood cell pressurisation,HCT)、平均红细胞体积(mean corpuscular volume,MCV)、平均血红蛋白含量(mean haemoglobin content,MCH)、平均血红蛋白浓度(mean corpuscular concentration,MCHC)、红细胞分布宽度(red blood cell distribution width,RDW)、血小板(platelets,PLT)、血小板压积(platelet pressure product,PCT)、平均血小板体积(mean platelet volume,MPV)、血小板分布宽度(platelet distribution width,PDW)、部分活化凝血活酶时间(activated partial thromboplastin time,APTT)、凝血酶时间(thrombin time,TT)、纤维蛋白原(fibrinogen,FIB)、D-二聚体(D-dimer)、凝血酶原时间(prothrombin time,PT)、凝血酶原时间比值(international normalized ratio,INR)、丙氨酸氨基转移酶(alanine aminotransferase,ALT)、天门冬氨酸氨基转移酶(aspartate aminotransferase,AST)、碱性磷酸酶(alkaline phosphatase,ALP)、L-γ-谷氨酰转肽酶(L-γ-glutamyl transpeptidase,L-γ-GGT)、乳酸脱氢酶(lactate dehydrogenase,LDH)、α-羟丁酸脱氢酶(alpha-hydroxybutyrate dehydrogenase,HBDH)、总胆红素(total bilirubin,TBIL)、直接胆红素(direct bilirubin,DBIL)、间接胆红素(indirect bilirubin,IBIL)、总胆固醇(total cholesterol,TC)、甘油三酯(triglycerides,TG)、高密度脂蛋白胆固醇(high-density lipoprotein cholesterol,HDL-C)、低密度脂蛋白胆固醇(low-density lipoprotein cholesterol,LDL-C)、脂蛋白(a)(lipoprotein (a),Lpa)、总蛋白(total protein,TP)、白蛋白(albumin,ALB)、球蛋白(globulin,GLB)、葡萄糖(glucose,GLU)、尿素氮(urea nitrogen,BUN)、肌酐(creatinine,Cr)、尿酸(uric acid,UA)、钙(calcium,Ca)、视黄醇结合蛋白(retinol-binding protein,RBP)、腺苷脱氨酶(Adenosine deaminase,ADA)。

1.2.2 预测模型的选择

选用5种方法进行模型的训练,具体为逻辑回归(logistic regression,LR)、随机森林(random forest,RF)、极端梯度提升树(extreme gradient boosting,XGBoost)、于k最邻近算法(k Nearest Neighbours,KNN)和朴素贝叶斯(Native Bayes,NB)[11]。LR是一种用于二分类问题的统计模型,通过估计概率来预测离散结果[12];RF是一种集成学习方法,通过构建多个决策树并进行投票或平均来提高预测准确性[13];XGBoost是一种高效的梯度提升框架,通过优化正则化的目标函数来提高模型性能[14];KNN是一种基于实例的学习算法,通过查找测试样本最近的k个训练样本来预测结果[15];NB是一种基于贝叶斯定理的简单概率分类器,假设特征之间相互独立。

1.2.3 AP合并OF的诊断

AP其诊断和分型通常基于临床症状、实验室检测和影像学检查。根据血氧饱和度和动脉血气分析评估呼吸功能;血压监测和心脏超声评估心脏功能;尿量和血清肌酐水平评估肾脏功能[16]。当AP没有器官衰竭或局部并发症(如胰腺坏死、假性囊肿),该类型病程较短,通常不需要侵入性治疗,预后良好。而当合伴有器官衰竭和(或)局部并发症,则病程长,病死率较高,需要密切监测和积极治疗[17]

1.2.4 数据集划分及分组

将纳入的AP患者按照6∶4的比例生成训练集和测试集。按照AP患者是否合并器官功能衰竭分为OF组和NOF组。

1.3 统计学方法

采用SPSS 25.0统计软件进行统计学分析,符合正态分布的计量资料均数±标准差(x±s),两组间比较采用两独立样本 t检验;非正态分布的计量资料以中位数(四分位数)[MP25P75)],两组间比较采用Mann‐Whitney U检验;分类变量用例数(百分率)表示,组间比较采用χ2检验。P<0.05为差异有统计学意义。使用Python 3.9.15软件和工具包Sklearn1.0.2、XGBoost1.7.4及shap0.41.0进行模型的训练与验证。以受试者工作特征曲线(receiver operating characteristic curve,ROC)的曲线下面积(area under the curve,AUC)为衡量标准,比较LR、RF、XGBoost、KNN、NB五种模型的预测效能,使最终的模型更具说服力。此外,采用沙普利可加性特征解释(Shapley additive explanation,SHAP)对机器学习模型进行可视化解释,采用部分依赖图(part dependent picture,PDP)分析重要特征与结局变量之间的关系,凸显了不同指标在预测AP合并OF方面的重要性,即重要影响因素产生了怎样的影响。最后进行可视化处理,以有效地阐明和解释模型预测结果。

2 结果 2.1 NOF与SAP患者基线资料的比较

本研究最终纳入320例AP患者,其中46例(14.4%)发生了器官功能衰竭,患者部分基线变量比较如表 1所示。本研究中纳入52个临床变量构建预测模型,包括人口学特征、相关实验室检查、Ranson、APACHE-Ⅱ评分等变量。结果显示:与NOF组相比,OF组Ranson评分、APACHEⅡ评分、RBC、MCH、RDW、PCT、PT、D-二聚体、AST、LDH、HBDH、BUN、Cr、UA均更高(P < 0.05);年龄、HB、MCHC、IBIL、HDLC、TP、ALB、Ca均更低(P < 0.05)(表 12)。

表 1 患者基线资料(血常规、凝血)的比较结果 Table 1 Comparison of baseline patient data (complete blood count, coagulation)
观察指标 Overall NOF OF P
例数 320 274 46
性别(n) 0.7
  男 190(59%) 161(59%) 29(63%)
  女 130(41%) 113(41%) 17(37%)
Ranson
APACHEⅡ 4.32 (2.98) 3.87 (2.80) 6.98 (2.63) < 0.001
Age(yr) 49.35 (17.16) 50.21 (16.98) 44.20 (17.49) 0.028
LPS(U/L) 278.63 (344.91) 273.97 (341.30) 306.39 (368.44) 0.556
PCT(ng/mL) 9.36 (9.38) 9.57 (9.53) 8.16 (8.44) 0.346
CRP (mg/L) 60.44 (44.70) 59.43 (44.94) 66.46 (43.24) 0.324
AMY (U/L) 342.97 (445.73) 331.36 (421.60) 412.10 (569.54) 0.256
WBC (109/L) 11.34 (4.80) 11.19 (4.56) 12.17 (6.02) 0.202
LY (109/L) 1.24 (0.60) 1.26 (0.57) 1.11 (0.75) 0.128
NO (109/L) 0.63 (0.38) 0.62 (0.32) 0.71 (0.62) 0.144
NE (109/L) 9.38 (4.58) 9.21 (4.36) 10.35 (5.67) 0.119
RBC (1012/L)) 4.89 (8.01) 4.49 (0.73) 7.28 (21.08) 0.029
HB (g/L) 134.52 (24.53) 135.96 (22.49) 125.96 (33.31) 0.01
HCT (%) 39.96 (6.87) 40.14 (5.80) 38.88 (11.37) 0.252
MCV (%) 89.76 (6.86) 89.81 (6.08) 89.50 (10.44) 0.78
MCH (pg) 31.32 (17.07) 30.34 (2.28) 37.18 (44.64) 0.012
MCHC (g/L) 336.83 (23.78) 337.96 (15.35) 330.09 (50.26) 0.038
RDW (%) 14.24 (12.57) 13.43 (1.36) 19.08 (32.88) 0.005
PLT (109/L) 195.30 (76.48) 197.49 (76.88) 182.27 (73.54) 0.212
PCT (%) 0.24 (0.57) 0.21 (0.08) 0.43 (1.50) 0.016
MPV (fL) 10.92 (1.41) 10.91 (1.44) 10.94 (1.18) 0.891
PDW (%) 14.79 (3.11) 14.86 (3.18) 14.34 (2.68) 0.297
PT (s) 13.11 (1.99) 12.96 (1.97) 13.97 (1.87) 0.001
INR 1.67 (0.63) 1.69 (0.63) 1.60 (0.64) 0.369
APTT (s) 31.86 (9.83) 31.58 (9.13) 33.57 (13.23) 0.204
FIB (g/L) 4.98 (1.51) 4.97 (1.48) 5.03 (1.69) 0.816
TT (s) 17.31 (2.21) 17.34 (2.23) 17.08 (2.14) 0.458
D-dimer (mg/L) 3.59 (2.48) 3.41 (2.31) 4.64 (3.15) 0.002

表 2 患者基线资料(血生化)的比较结果 Table 2 Comparison of baseline patient data (blood biochemistry)
观察指标 Overall NOF OF P
例数(n 320 274 46
ALT (U/L)) 56.69 (75.66) 57.91 (77.53) 49.47 (63.69) 0.485
AST (U/L)) 44.28 (61.22) 40.45 (43.19) 67.13 (120.97) 0.006
ALP (U/L)) 116.59 (80.16) 117.75 (82.92) 109.69 (61.57) 0.529
GGT (U/L)) 137.91 (174.89) 139.59 (182.22) 127.88 (123.50) 0.675
LDH (U/L) 350.70 (306.39) 318.92 (253.80) 540.02 (481.56) < 0.001
HBDH (U/L) 206.66 (170.33) 188.16 (138.48) 316.83 (273.58) < 0.001
TBIL (μmol/L) 22.45 (28.94) 23.39 (30.71) 16.86 (13.31) 0.157
DBIL (μmol/L) 9.98 (17.20) 10.13 (18.05) 9.06 (10.96) 0.697
IBIL (μmol/L) 11.21 (11.11) 11.77 (11.71) 7.92 (5.47) 0.03
TC (mmol/L) 4.73 (2.15) 4.70 (2.01) 4.88 (2.85) 0.609
TG (mmol/L) 2.69 (3.80) 2.62 (3.92) 3.06 (3.05) 0.476
HDLC (mmol/L) 0.92 (0.32) 0.95 (0.30) 0.76 (0.39) < 0.001
LDLC (mmol/L) 3.00 (1.95) 2.96 (1.19) 3.27 (4.25) 0.314
Lpa (mg/L) 175.47 (180.39) 181.39 (187.75) 140.17 (123.88) 0.152
TP (g/L) 61.16 (8.58) 62.40 (6.63) 53.78 (13.78) < 0.001
ALB (g/L) 35.00 (5.51) 35.69 (4.76) 30.93 (7.62) < 0.001
GLU (mmol/L) 26.49 (5.73) 26.71 (4.25) 25.17 (11.01) 0.092
BUN (mmol/L) 8.43 (14.15) 7.45 (3.15) 14.27 (36.30) 0.002
Cr (μmol/L) 6.56 (3.92) 6.24 (3.46) 8.43 (5.69) < 0.001
UA (μmol/L) 70.66 (66.85) 65.94 (59.42) 98.82 (96.50) 0.002
Ca (mmol/L) 2.09 (0.24) 2.12 (0.21) 1.92 (0.35) < 0.001
RBP (mg/L) 23.28 (12.43) 23.43 (12.11) 22.38 (14.30) 0.6
ADA (U/L) 10.54 (3.75) 10.48 (3.61) 10.87 (4.52) 0.509
2.2 常见临床指标评估器官功能衰竭的预测价值

受试者工作特征曲线提示常见临床指标对OF的诊断价值,结果显示:APACHE-Ⅱ(AUROC=0.79)、TP(AUROC=0.741)、HDLC(AUROC=0.708)、ALB(AUROC=0.702)对OF有较为良好的预测价值(图 1)。

图 1 常见临床指标的预测价值 Fig 1 Predictive performance metrics for five models
2.3 模型的训练与验证

基于5种算法(逻辑回归(LR)、随机森林(RF)、极端梯度提升树(XGBoost)、于k最邻近算法(KNN)和本地贝叶斯(NB)分别建立器官功能衰竭风险相关的预测模型,采用曲线下面积(AUC)对5种机器算法进行比较。5个模型中,训练集和测试集中均为RF为最好的表现模型为(训练集AUC=0.857,测试集AUC=0.821)(图 2)(表 3),确立了本研究使用的机器学习模型为RF。

注:A.训练集;B.测试集 图 2 基于5种机器学习模型训练集和测试集的受试者工作特征(ROC)曲线 Fig 2 Receiver operating characteristic (roc) curves for five machine learning models based on training and test datasets

表 3 5种模型的预测效能指标结果 Table 3 Predictive performance metrics for five models
模型 训练集 测试集
AUC 准确率 敏感度 AUC 准确率 敏感度
Logistic 0.706 0.813 0.870 0.663 0.719 0.785
Random Forest 0.857 0.880 0.994 0.821 0.829 0.982
XGBoost 0.620 0.802 0.883 0.657 0.765 0.854
KNN 0.734 0.865 0.966 0.648 0.852 0.991
Native Bayes 0.788 0.797 0.857 0.665 0.836 0.944
2.4 SHAP模型分析 2.4.1 特征重要性排序

本研究纳入50个观察指标进行RF机器学习,通过“mlr3”包的自动调参功能(auto-tune)执行网格搜索,结果表明RF的最佳超参数是树数为12,最大深度为4。使用SHAP方法来解释最终模型的特征变量,并计算每个变量对预测结果的贡献。SHAP方法中前六个重要变量特征排序分别为:TP、GLB、Ca、ALB、LDH、HBDH(图 3A);SHAP汇总点图。器官功能衰竭发生的概率随着特征的SHAP值的增加而增加。在模型中,每个患者的SHAP值为一个点,圆点的颜色表示每个患者的特征的实际值,紫色表示较高的特征值,黄色表示较低的特征值。这些点垂直堆叠以显示密度(图 3B)。

注:A:特征权重排序图;B:特征变量散点图 图 3 SHAP分析方法的特征权重排序及变量散点图 Fig 3 Feature weight ranking and variable scatter plot from SHAP analysis
2.4.2 重要特征对结局的影响

SHAP依赖性图展示重要特征与结局变量的影响,每个点代表单个患者。这些6个特征的真实值与SHAP值的对比如图 4显示。SHAP值由y轴表示,实际值由x轴表示。LDH、HBDH水平的升高与较高的SHAP值相关,表明发生器官功能衰竭的概率更高,而随着TP、GLB、ALB、Ca水平升高,器官功能衰竭发病风险不断降低(图 4)。

图 4 SHAP依赖关系图 Fig 4 SHAP dependency plot
2.5 Nomogran的构建和验证

在列线图模型中(图 5A),选择了前5个最具有特征性的预测因子PT、GLB、Ca、ALB、LDH进行全面分析,展示每个预测因子在预测结果中的相对重要性。图 5B中,根据ROC曲线,评估了该预测模型的性能,其曲线下面积(AUC)值为0.855。为了进一步评估列线图的预测性能,我们进行了性能测试,结果如图 5C5D所示。

注:B列线图模型的ROC曲线;C列线图模型的校准曲线;D列线图的DCA曲线 图 5 SAP风险预测列线图 Fig 5 SAP risk prediction column chart
2.6 在线预测模型

根据上述模型构建AP合并OF预测模型的临床演示器,可通过以下链接访问:http://101.200.159.124:3000/

3 讨论

AP合并OF的治疗成本高昂18,因此构建OF的预测模型对于早期识别高风险患者至关重要。这种模型利用机器学习算法分析临床数据,预测疾病严重程度,从而实现及时干预,减少并发症,改善患者预后。本研究探索了AP合并OF的影响因素,并基于5种不同的机器学习算法(LR、RF、XGBoost、KNN等)构建了风险预测模型。研究结果表明,随机森林(RF)模型表现最佳(训练集AUC=0.857,测试集AUC=0.821)。作为一种集成学习算法,RF由多个决策树组成,通过投票机制或平均预测结果提高整体准确性。RF能够高效处理大量数据,在分类和回归问题中表现优异,并广泛应用于医疗诊断等领域。为使预测模型的结果易于临床医生理解,本研究采用SHAP方法解释模型输出,量化每个变量对预测结果的贡献。

研究结果显示,TP、GLB、Ca、ALB、LDH、HBDH是AP合并OF的重要危险因素。

TP和ALB是反映营养状况的关键指标。AP合并OF患者常出现低白蛋白血症,这可能由全身炎症、血管通透性增加及炎症反应引起[19-20]。低蛋白水平可能加重疾病严重程度,并增加急性呼吸窘迫综合征和肾衰竭等并发症的风险。GLB水平的下降,特别是免疫球蛋白(如IgG、IgA、IgM)减少[21],可能削弱机体对病原体的防御能力,增加感染风险。

LDH水平与AP严重程度(如改良CT严重指数,MCTSI)呈正相关。LDH的升高表明组织细胞损伤和坏死的程度[21]。LDH作为一种广泛存在于人体各个组织中的酶,在组织细胞受损时,血清LDH水平显著升高,因此可以作为炎症和坏死的敏感指标。当LDH水平越高,病情的严重程度越高。HBDH主要来源于心肌、肾脏和红细胞,在心肌中含量最高。当AP患者心脏受累时,可能导致心肌细胞损伤与死亡,从而使得血液中HBDH水平升高。AP中出现的持续炎症可导致HBDH水平发生变化[22]

在重症急性胰腺炎(SAP)中,由于胰腺酶的激活和释放,脂肪组织发生坏死,产生大量的游离脂肪酸。这些游离脂肪酸与钙离子结合形成钙皂,导致血清钙浓度降低。研究表明,腺泡细胞内钙超载作为早期事件在急性胰腺炎中可能发挥“扳机点”的作用[23]。血清钙浓度水平的降低通常与胰腺坏死范围、感染及多器官功能障碍综合征的风险增加相关。因而Ca水平的降低的患者出现并发症的风险更高,预后更差[24]。血钙水平变化不仅可以预测胰腺炎重症倾向的发生,还可作为是否发生急性肾损伤、呼吸功能不全等并发症的判断依据[25-26]。较低的血Ca水平与胰腺坏死和器官衰竭等并发症的风险增加密切相关[27-28]

目前用于临床上AP合并OF预测模型及其局限性[29-30]:(1)Ranson评分:这是最早的预测模型之一,但该评分需48 h的数据收集,可能延迟严重程度的评估;(2)APACHEⅡ评分:这是一种广泛使用的疾病严重程度评分系统,局限性在于它包含许多与胰腺炎无关的参数,可能影响其特异度;(3)BISAP评分:这个评分系统包括血液尿素氮、血钙、年龄和糖耐量等参数,局限性是它可能无法准确预测轻度胰腺炎患者的病情恶化;(4)CT严重指数(CTSI)[31]:基于腹部CT扫描结果来评估胰腺炎的严重程度。局限性包括对CT扫描的依赖,可能受到操作者技术和设备质量的影响;(5)Marshall评分:这个评分系统基于CT扫描结果,用于评估胰腺炎的坏死程度。局限性包括对CT扫描的依赖和对早期胰腺炎的评估不足;(6)生物标志物基础模型[32]:如使用血清淀粉酶、脂肪酶、CRP等生物标志物。局限性可能包括生物标志物的敏感度和特异度不足,以及可能受到多种因素的影响。而本研究的模型能够处理和分析大规模数据集,包括患者历史数据、实验室检测结果和影像学数据,从中发现新的生物标志物。其AUC值为0.855,显著高于传统的APACHEⅡ评分(AUC=0.79)。这表明该新型指标在预测急性胰腺炎严重程度方面具有更高的准确性和敏感度。APACHEⅡ评分虽然广泛应用于临床,但其预测能力相对有限。而机器学习通过训练和验证,使得模型能够提供高精度预测,辅助早期诊断和治疗,从而改善患者预后。

为方便临床一线医师即时使用,本研究已将最终优选的随机森林(RF)模型封装为可视化的在线预测工具 http://101.200.159.124:3000/。该页面仅需输入6项常规实验室指标——TP、GLB、Ca、ALB、LDH及HBDH——即可在1 s内返回急性胰腺炎(AP)合并发器官功能衰竭(OF)的概率及风险分层,真正实现了“所见即所得”的床旁决策支持。与传统评分系统相比,该演示器无需等待48 h的动态指标,也避免了复杂的多系统参数录入,显著降低了使用门槛。下一步,我们将通过多中心前瞻性队列对该在线工具进行外部验证,并计划嵌入医院HIS系统,实现自动抓取化验结果、实时预警高风险患者,从而真正把机器学习成果转化为改善AP预后的临床行动力。

然而本研究尚存在一定的局限性:(1)本研究为回顾性研究,纳入样本数量较少,这可能影响机器学习分类器的性能;(2)本研究为单中心研究,训练集和测试集的数据均来自一家医院,因此还需要多中心研究来验证模型的泛化能力;(3)本研究未进行外部验证,可能会影响验证性能。

综上所述,本研究表明,RF模型在OF的风险预测中具有良好的临床应用前景。TP、GLB、Ca、ALB、LDH和HBDH是AP合并OF的重要影响因素。基于本研究的风险预测模型,可实现高精度预测,帮助临床医生早期识别高风险患者并采取积极干预措施,从而改善患者预后。

利益冲突  所有作者声明无利益冲突

作者贡献声明  史晨媛:研究设计,数据整理,论文撰写;张以罡:统计学分析;童波:数据收集;赵超:论文修改

参考文献
[1] Mederos MA, Reber HA, Girgis MD. Acute pancreatitis[J]. Jama, 2021, 325(4): 382. DOI:10.1001/jama.2020.20317
[2] Trikudanathan G, Yazici C, Evans Phillips A, et al. Diagnosis and management of acute pancreatitis[J]. Gastroenterology, 2024, 167(4): 673-688. DOI:10.1053/j.gastro.2024.02.052
[3] 中华医学会急诊医学分会, 上海市医学会急诊专科分会. 急性胰腺炎急诊诊治专家共识[J]. 中华急诊医学杂志, 2024, 33(04): 470-479. DOI:10.3760/cma.j.issn.1671-0282.2024.04.004
[4] Thapa R, Iqbal Z, Garikipati A, et al. Early prediction of severe acute pancreatitis using machine learning[J]. Pancreatology, 2022, 22(1): 43-50. DOI:10.1016/j.pan.2021.10.003
[5] Arfat Y, Mittone G, Esposito R, et al. Machine learning for cardiology[J]. Minerva Cardiol Angiol, 2022, 70(1): 75-91. DOI:10.23736/S2724-5683.21.05709-4
[6] Pruneski JA, Williams RJ 3rd, Nwachukwu BU, et al. The development and deployment of machine learning models[J]. Knee Surg Sports Traumatol Arthrosc, 2022, 30(12): 3917-3923. DOI:10.1007/s00167-022-07155-4
[7] Hoyos W, Aguilar J, Toro M. Dengue models based on machine learning techniques: a systematic literature review[J]. Artif Intell Med, 2021, 119: 102157. DOI:10.1016/j.artmed.2021.102157
[8] Kadulkar S, Sherman ZM, Ganesan V, et al. Machine learning-assisted design of material properties[J]. Annu Rev Chem Biomol Eng, 2022, 13: 235-254. DOI:10.1146/annurev-chembioeng-092220-024340
[9] Chauhan R, Saxena N, Kapur N, et al. Comparison of modified Glasgow-Imrie, Ranson, and Apache Ⅱ scoring systems in predicting the severity of acute pancreatitis[J]. Pol Przegl Chir, 2022, 95(1): 6-12. DOI:10.5604/01.3001.0015.8384
[10] Wan JH, Shu WQ, He WH, et al. Serum creatinine level and APACHE-Ⅱ score within 24 h of admission are effective for predicting persistent organ failure in acute pancreatitis[J]. Gastroenterol Res Pract, 2019, 2019: 8201096. DOI:10.1155/2019/8201096
[11] Tanaka T. [fundamentals] 5. python+scikit-learn for machine learning in medical imaging[J]. Nihon Hoshasen Gijutsu Gakkai Zasshi, 2023, 79(10): 1189-1193. DOI:10.6009/jjrt.2023-2266
[12] Stoltzfus JC. Logistic regression: a brief primer[J]. Acad Emerg Med, 2011, 18(10): 1099-1104. DOI:10.1111/j.1553-2712.2011.01185.x
[13] Ganaie MA, Tanveer M, Suganthan PN, et al. Oblique and rotation double random forest[J]. Neural Netw, 2022, 153: 496-517. DOI:10.1016/j.neunet.2022.06.012
[14] Koh J. Gradient boosting with extreme-value theory for wildfire prediction[J]. Extremes (Boston), 2023, 26(2): 273-299. DOI:10.1007/s10687-022-00454-6
[15] Gao SP, Cai TJ, Fang K. Gravity-matching algorithm based on K-nearest neighbor[J]. Sensors (Basel), 2022, 22(12): 4454. DOI:10.3390/s22124454
[16] 曹成龙, 张玲, 马向丽, 等. FGF21通过调节细胞自噬改善大鼠重症急性胰腺炎相关急性肺损伤[J]. 中华急诊医学杂志, 2025, 34(05): 669-675. DOI:10.3760/cma.j.issn.1671-0282.2025.05.010
[17] Raraty MGT, Connor S, Criddle DN, et al. Acute pancreatitis and organ failure: pathophysiology, natural history, and management strategies[J]. Curr Gastroenterol Rep, 2004, 6(2): 99-103. DOI:10.1007/s11894-004-0035-0
[18] Garg PK, Singh VP. Organ failure due to systemic injury in acute pancreatitis[J]. Gastroenterology, 2019, 156(7): 2008-2023. DOI:10.1053/j.gastro.2018.12.041
[19] Hong WD, Lin SH, Zippi M, et al. Serum albumin is independently associated with persistent organ failure in acute pancreatitis[J]. Can J Gastroenterol Hepatol, 2017, 2017: 5297143. DOI:10.1155/2017/5297143
[20] Shi L, Zhang D, Zhang J. Albumin-bilirubin score is associated with in-hospital mortality in critically ill patients with acute pancreatitis[J]. Eur J Gastroenterol Hepatol, 2020, 32(8): 963-970. DOI:10.1097/MEG.0000000000001753
[21] Yang AL, McNabb-Baltar J. Hypertriglyceridemia and acute pancreatitis[J]. Pancreatology, 2020, 20(5): 795-800. DOI:10.1016/j.pan.2020.06.005
[22] Zhou XY, Jin SC, Pan JY, et al. Relationship between cholesterol-related lipids and severe acute pancreatitis: from bench to bedside[J]. J Clin Med, 2023, 12(5): 1729. DOI:10.3390/jcm12051729
[23] Singh VK, Yadav D, Garg PK. Diagnosis and management of chronic pancreatitis: a review[J]. JAMA, 2019, 322(24): 2422-2434. DOI:10.1001/jama.2019.19411
[24] Leppäniemi A, Tolonen M, Tarasconi A, et al. 2019 WSES guidelines for the management of severe acute pancreatitis[J]. World J Emerg Surg, 2019, 14: 27. DOI:10.1186/s13017-019-0247-0
[25] Lankisch PG, Weber-Dany B, Maisonneuve P, et al. High serum creatinine in acute pancreatitis: a marker for pancreatic necrosis?[J]. Am J Gastroenterol, 2010, 105(5): 1196-1200. DOI:10.1038/ajg.2009.688
[26] Sahin A. Neutrophil-creatinine index: a new prognostic factor for severity of acute pancreatitis[J]. Medicina (Kaunas), 2024, 60(4): 607. DOI:10.3390/medicina60040607
[27] Wan JH, Yang XY, He WH, et al. Serum D-dimer levels at admission for prediction of outcomes in acute pancreatitis[J]. BMC Gastroenterol, 2019, 19(1): 67. DOI:10.1186/s12876-019-0989-x
[28] Ke L, Ni HB, Tong ZH, et al. D-dimer as a marker of severity in patients with severe acute pancreatitis[J]. J Hepatobiliary Pancreat Sci, 2012, 19(3): 259-265. DOI:10.1007/s00534-011-0414-5
[29] Harshit Kumar A, Singh Griwan M. A comparison of APACHE Ⅱ, BISAP, Ranson's score and modified CTSI in predicting the severity of acute pancreatitis based on the 2012 revised Atlanta Classification[J]. Gastroenterol Rep (Oxf), 2018, 6(2): 127-131. DOI:10.1093/gastro/gox029
[30] Cho JH, Kim TN, Chung HH, et al. Comparison of scoring systems in predicting the severity of acute pancreatitis[J]. World J Gastroenterol, 2015, 21(8): 2387-2394. DOI:10.3748/wjg.v21.i8.2387
[31] Bollen TL, Singh VK, Maurer R, et al. Comparative evaluation of the modified CT severity index and CT severity index in assessing severity of acute pancreatitis[J]. AJR Am J Roentgenol, 2011, 197(2): 386-392. DOI:10.2214/AJR.09.4025
[32] van den Berg FF, de Bruijn AC, van Santvoort HC, Issa Y, Boermeester MA. Early laboratory biomarkers for severity in acute pancreatitis; A systematic review and meta-analysis[J]. Pancreatology, 2020, 20(7): 1302-1311. DOI:10.1016/j.pan.2020.09.007