基于机器学习的江苏省输入性疟疾病例就医延迟风险预测模型构建

目的 基于机器学习算法构建江苏省输入性疟疾病例就医延迟风险预测模型,为江苏省输入性疟疾病例早期发现提供依据。方法 基于中国疾病预防控制中心传染病报告信息管理系统和寄生虫病防治信息管理系统,收集2019年江苏省报告的输入性疟疾病例个案调查、首发症状及初诊时间等信息。以职业、感染疟原虫虫种、主要临床表现、有无并发症、疾病严重程度、年龄、国外居留时间、在国外感染疟疾次数、潜伏期、初诊单位级别、来源国、同行人员和出Trichostatin A价格国途径等13个因素为自变量,以就医延迟时间(≤24 h和> 24 h)为因变量,分别运用BP神经网络、logistic回归、随机森林和贝叶斯算法构建输入性疟疾病例就医延迟风险预测模型。使用列线图对logistic回归进行可视化分析,绘制校准曲线对列线图进行评价,并比较4种模型的受试者工作特征曲线(receiver operator characteStroke geneticsristic curve,ROC)曲线下面积(area under curve,AUC),以评价模型预测效能。进一步分析各特征数值大小对预测结果的正负影响,应用SHAP算法对各特征重要性进行量化和归因。结果 共纳入输入性疟疾病例244例,其中自出现首发症状后到初诊时间超过24 h的病例累计100例(40.98%)。建立logistic回归模型发现,有疟疾感染史[比值比(odds ratio,OR)=3.075,95%可信区间(confidential interval,CI):(1.597, 5.923)]、潜伏期长[OR=1.010,95%CI:(1.001,1.018)]或在省市级医疗机构就医[OR=12.550,95%CI:(1.158, 135.963)]是输入性疟疾病例就医延迟的危险因素。BP神经网络模型结果分析发现,对输入性疟疾就医延迟影响较大的因素是国外居留时间、潜伏期和年龄。随机森林模型结果分析发现,影响输入性疟疾就医延迟的前5位因素依次为主要临床表现、出Compound C NMR国途径、潜伏期、国外居留时间和年龄。贝叶斯模型结果分析发现,影响输入性疟疾就医延迟的前5位因素依次为初诊单位级别、年龄、来源国、疟疾感染史和同行人员。通过比较各模型AUC发现,BP神经网络模型与logistic回归模型总体性能较优(Z=2.700~4.641,P均<0.01),且AUC差异无统计学意义(Z=1.209,P> 0.05)。Logistic回归模型预测灵敏度(71.00%)和约登指数(43…