基于机器学习的病证结合脑卒中风险预测模型的开发与验证

目的:一级预防是降低脑卒中疾病负担的首要方法,研究证明中西医联合干预方案能有效提升脑卒中一级预防的效果。研发具有中医特色的首发脑卒中风险预测工具,可进一步完善脑卒中一级预防体系。证素是在中医理论指导下划分的症状群,富有中医特色,反映机体中医属性。因此,本研究拟将证素与现代医学脑卒中危险因素共同作为预测变量,探索并开发病证结合的首发脑卒中风险预测模型。方法:基于研究团队脑卒中高危人群数据库,采用回顾性队列研究方法,纳入既往未发生脑卒中的高危个体,以随访10年内出现首发脑卒中为因变量,以年龄、性别、收缩压、降压治疗、糖尿病、总胆固醇(total cholesterol,TC)、总甘油三酯(total glyceride,TG)、低密度脂蛋白胆固醇(low density lipoprotein cholesterol,LDL-C)、高密度脂蛋白胆固醇(high density lipoprotein cholesterol,HDL-C)、颈动脉粥样硬化、现在吸烟、气虚、阳虚、阴虚、火、痰湿、血瘀等候选预测因子为自变量。采用随机拆分的方法,按照7:3将数据集划分为训练集与验证集。采用过采样、欠采样、人工数据合成(Random Over-Sampling Examples,ROSE)平衡训练集的正负样本。通过单因素分析、双向逐步回归等方法筛选预测变量,分别使用Logistic回归与XGBoost机器学习算法开发模型,采用AUC、Brier得分评价模型效能,以列线图的形式呈现模型。结果:研究共纳入1783例脑卒中高危个体(训练集1248例、验证集535例),其中发生脑卒中110例。变量筛选方面,结合单因素分析、双向逐步回归的结果,Logistic回归模型最终纳入8项预测因素,包括性别、年龄、收缩压、糖尿病、HDL-C、颈动脉粥样硬化、现在吸烟、火;过采样与ROSE算法的XGBoost模型均纳入7项预测因素,包括收缩压、颈动脉粥样硬化、火、HDL-C、年龄、降压治疗、现在吸烟,欠采样XGBoost模型在上述7项之外还纳入了糖尿病与性别。模型性能检验方面,ROSE算法Logistic回归模型的训练集AUC为0.746(95%CI 0.719-0.774),验证集 AUC 为 0.65Lipid biomarkers8(95%CI selleck BMN 6730.572-0.745);过采样XGBoost 模型的训练集 AUC 为 0.836(95%CI 0.821-0.852),验证集 AUC 为 0.644(95%CI0.553-0.735)。二者相较,训练集中XGBoost模型表现较好(P<0.001),验证集中二者AUC无统计学差异(P=0.646),但Logistic回归模型的临床可解释性更强。Logistic回归病证结合首发脑卒中风险预测模型提示,火证素是显著的脑卒中风险因素(OR=1.93,95%CI1.50-2.49,P<0.001),其它风险因素还包括高龄、高收缩压、颈动脉粥样硬化、现在吸烟、糖尿病、女性,高HDL-C水平是保护因素(OR=0.58,95%CI 0.41-0.82,P=0.002)。模型公式为Logit(p)=-2.36+0.190*女性+0.0214*年龄+0.0192*收缩压+0.286*糖尿病-0.549*HDL-C+1.13*颈动脉粥样硬化+0.604*现在吸烟+0.657*火。模型列线图得分的最佳截断值为180分,当脑卒中高危个体得分超过此值时,出现脑卒中的概率较大。结论:(1)中医证素火、高龄、高收缩压、颈动脉粥样硬化、现在吸烟、糖尿病、女性可能是预测首发脑卒中的风险因素,高HDL-C水平可能是保护因素。本研究模型为首发脑卒中的风险预测与中西医结合一级预防提供了新见解。(2)脑卒中高危人群的中医病机演变规律如下:随着年龄的增长与机能的PI3K/Akt/mTOR抑制剂减退,健康个体会逐渐步入脑卒中高危状态,多以气虚为始动证素;元气亏虚,气化失常,气、血、津液等生理产物转变为气滞、血瘀、痰湿等病理产物;气、血、痰、湿均可郁而化火,痰瘀又从火而化,化毒损络,中风发作。