类风湿关节炎(rheumatoid arthritis,RA)是一种慢性炎症性自身免疫疾病,主要表现为关节损伤,高致残性和终身治疗带来显著的疾病负担。既往流行病学研究强调了吸烟、体重指数、饮食和身体活动水平等单个可改变的生活方式因素在RA风险管理的重要性。由于生活方式因素之间存在相关性,仍需确定综合生活方式模式与RA风险之间的关联。此外,生活方式因素的数据收集通常依赖于自我报告的问卷,从而导致生活方式和疾病的关联受到测量偏倚和回忆偏倚的影响。代谢组学可以通过测定小分子量代谢物来更准确地反映不同生活方式对应的生物系统整体扰动。新近研究利用特定的代谢物集合来构建健康生活方式的代谢组学特征,充分解释了健康生活方式对各种慢性病的保护性效应。然而,代谢组学特征能否解释健康生活方式对预防RA的有益作用仍有待探讨。GSK J4随着全基因组关联研究(Genome-wide association study,GWAS)的发展,孟德尔随机化(Mendelian randomization,MR)分析已被广泛应用于评估感兴趣的暴露因素与疾病之间的因果关联,它可以联合遗传和代谢组学的优势,进一步探索健康生活方式代谢组学特征和RA之间的潜在因果关联。此外,先前研究大多基于传统流行病因素和遗传易感性建立RA的风险预测模型,进一步结合代谢组学分析是否对RA风险预测具有增量价值也有待进一步研究。基于此,本研究拟在英国生物银行(UK Biobank,UKB)人群中,进行以下三部分研究分析:首先探讨反映健康生活方式的代谢组学特征,分析其与RA的前瞻性关联;其次利用GWAS阐明与该代谢特征关联的遗传变异位点,进行MR分析进一步确定该代谢特征与RA的因果关联;最后结合该代谢特征和遗传易感性改善RA的风险预测,为实现RA精准预防提供科学依据。第一部分健康生活方式的代谢特征与类风湿关节炎发病风险的关联:前瞻性队列研究目的:确定反映健康生活方式的代谢特征,探讨该代谢特征与RA发病风险前瞻性关联,并评估其是否在健康生活方式与RA关联中发挥了中介作用。方法:本研究排除UKB中生活方式问卷数据缺失者、核磁共振谱(Nuclear magnetic resonance,NMR)测量的代谢组学数据缺失者、研究分析期间失访者以及基线自我报告或确诊RA者,共计纳入87 258人。健康生活方式基于五分制量表制定,满足以下一项则得一分:健康饮食、规律运动、不吸烟、适度饮酒和正常体重指数(body mass index,BMI)。UKB对基线时非禁食血浆样本进行的NMR代谢组学测量包含249种代谢生物标志物,涵盖了多种代谢物类别,包括14个脂蛋白亚类、脂肪酸以及各种低分子量代谢物,如氨基酸、酮体和糖酵解代谢物等。采用弹性网回归评估249种代谢物与RA的关联系数,并通过非零系数的加权浓度和来构建反映健康生活方式的代谢特征。采用Cox回归模型评估健康生活方式、代谢特征与RA关联的风险比(hazard ratio,HR)和95%置信区间(95%confidence interval,95%CI)。并应用因果中介分析方法,检查健康生活方式与RA关联中代谢特征的中介作用大小。分别在年龄(<50岁、50-60岁、>60岁)、性别(女性、男性)亚组中验证了健康生活方式、代谢特征和RA风险的关联结果的稳健性和潜在差异。此外,根据代谢特征的第20和80百分位数将其划分为不利(0-20th)、适中(20-80th)、有利(80-100th)三组,以不利代谢特征为参考水平,评估适中/有利代谢特征是否对RA具有保护性作用。结果:在中位8.1年的随访时间中,共记录了557例RA新发病例。健康生活方式的代谢特征主要表现为高密度脂蛋白(high density lipoprotein,HDL)平均直径较大,总胆碱、柠檬酸盐、亚油酸和ω-3脂肪酸浓度增加,磷脂酰胆碱和乙酰糖蛋白浓度减少。代谢特征与健康生活方式评分显著相关(Spearman r=0.45,P=4.2×10~(-15))。前瞻性关联研究结果表明,该代谢特征与RA风险呈负向关联(HR 0.76 per SD,95%CI:0.70-0.83)。代谢特征很大程度上中介了健康生活方式对RA的有益效应(中介比例:64%,95%CI:50-83%)。与不利代谢特征的参与者相比,处于有利代谢特征的参与者发生RA的风险降低了49%(95%CI:33-62%)。年龄>60岁、女性和不利代谢特征的人群亚组,RA的预测绝对风险相对最高。结论:健康生活方式的代谢特征与充足能量供应、良好的脂蛋白谱、有益脂肪酸增加和炎症水平下降相关。该代谢特征在健康生活方式降低RA发病风险中发挥了重要的中介作用。改善生活方式以实现有利代谢特征有助于预防RA,尤其对老年女性人群潜在益处更大。第二部分健康生活方式的代谢特征与类风湿关节炎发病风险的关联:孟德尔随机化研究目的:阐明健康生活方式的代谢特征相关联的单核苷酸多态性(Single nucleotide polymorphism,SNP),并通过孟德尔随机化分析探讨该代谢特征与RA因果关联。方法:基于前瞻性研究人群,进一步排除了遗传和自我报告性别不匹配、杂合率异常值、基因型缺失、亲缘系数过高以及非白人参与者,最终86 675人纳入遗传相关分析。使用QCTOOL软件对插补基因型数据进行质量控制,次要等位基因频率(minor allele frequencies,MAF)<0.5%、插补基因型信息得分(imputation information scores,INFO)<0.3或未通过Hardy-Weinberg检验(P<1×10~(-6))的SNPs被排除在外。基于基因型加性遗传模型假设,采用BOLT-LMM软件的线性混合模型算法进行代谢特征的全基因组关联(Genome-wide association study,GWAS)分析,并调整年龄、性别、评估中心、健康生活方式评分、前10个遗传主成分和基因分型芯片类型。接着,利用PRSice-2软件从上述GWAS结果中通过加权等位基因效应值构建代谢特征的多基因风险评分(polygenic risk scores,PRS),将该PRS作为工具变量来表示遗传预测的代谢特征,在Cox模型中检查该PRS和RA的关联。此外,还分别进行了单样本和两样本MR分析。对于单样本MR分析,进行了两阶段最小二乘回归(two-stage least-squares,2SLS),在第一阶段,使用线性回归估计了对遗传工具变量(代谢特征的PRS)回归的代谢特征的预测值,在第二阶段,使用Cox模型将RA作为响应变量,对代谢特征的预测值进行回归,调整了年龄、性别、禁食时间、家庭收入、教育水平、心血管疾病、糖尿病和癌症患病情况。对于双样本MR分析,通过连锁失衡(linkage disequilibrium,LD)(r~2=0.1,±500kb)和提示性显著阈值(P<1×10~(-5))选择了与代谢特征独立相关的SNPs作为遗传工具变量。遗传工具变量中包含的SNPs和RA关联效应值从两项已发布的RA GWAS汇总统计数据集中提取:Finn Gen生物库第5轮分析(6236例RA病例,147 221例对照)和Ha E等人的RA GWAS meta分析(1436animal component-free medium1例RA病例,43 923例对照),分别有183个SNPs和190个SNPs纳入到最终的两样本MR分析。双样本MR分析主要采用逆方差加权法(inverse-variance weighted method,IVW)汇总多个SNPs的效应估计量。基于上述两个不同的RA GWAS数据集得到的两样本MR分析结果,再通过逆方差加权固定效应meta分析汇总成一个综合结果。结果:GWAS结果表明,代谢特征基于SNP的遗传力为0.1528(SD=0.0132)。基因组控制膨胀因子λ为1.15,λ偏大反映了研究的大样本量和代谢特征的多基因性。2708个SNPs达到全基因组关联显著性(P<5×PCI-32765使用方法10~(-8)),这些SNPs代表42个独立的位点和七个基因聚集簇,包括GCKR、CTB-40H15.4、MLXIPL、RP11-136O12.2、ALDH1A2、SLC13A5和PLTP。代谢特征的PRS与RA呈负相关(HR 0.76 per SD,95%CI:0.70-0.83)。单样本和两样本MR分析也同样显示了遗传预测的代谢特征与RA的负向因果关联(ORs,95%CI:0.84,0.75-0.94和0.84,0.73-0.97)。结论:GWAS结果提示健康生活方式的代谢特征多基因性,涉及脂质和葡萄糖代谢等生物学途径。MR结果表明,该代谢特征与RA风险降低之间存在因果关联。第三部分结合代谢特征和遗传易感性改善类风湿关节炎风险预测目的:探讨结合代谢特征和遗传易感性是否能改善RA风险的预测。方法:研究人群与前一部分研究人群一致。首先建立了三个独立的RA风险预测模型:基础预测模型、代谢特征预测模型和遗传易感性预测模型。基础预测模型包含传统的RA风险预测因素(年龄、性别、家庭收入、受教育程度、BMI、吸烟、饮酒、饮食和体育活动)。代谢特征预测模型与前瞻性队列研究分析包含代谢特征的Cox模型一致。RA的遗传易感性通过计算PRS来衡量,涵盖了主要组织相容性复合体(major histocompatibility complexm,MHC)区域的SNPs和非MHC区域的SNPs。遗传易感性预测模型不仅包括了PRS,还包括人类白细胞抗原共享表位基因(human leucocyte antigen-shared epitope,HLA-SE,效应等位基因数量0/1/2)和吸烟包年数(从不吸烟,≤10包年,10-20包年,≥20包年)确证的基因-环境交互作用项。此外,还通过嵌套这三个预测模型构建了一个更全面的结合模型。采用受试者操作特征曲线下面积(area under the receiver operating characteristic curve,AUC)来衡量模型预测准确性。将实际绝对风险与预测绝对风险的十分位数进行对比来评估模型校准度。通过连续净重新分类改进(continuous net reclassification improvement,c NRI)和综合判别指数(Integrated discrimination index,IDI)来分别比较结合模型相对于其他三个模型的预测性能改善程度,c NRI和IDI正值表明模型预测性能提高,c NRI和IDI负值则表明模型预测性能下降。结果:基础预测模型、代谢特征预测模型和遗传易感性预测模型对RA风险预测准确性适中,对应的AUCs(95%CI)分别为0.674(0.652-0.696),0.658(0.634-0.682)和0.673(0.651-0.695),结合模型预测准确性相对最高(AUC 0.702,95%CI0.680-0.724)。所有模型校准斜率在0.97-1.04之间,校准斜率接近1反映出预测风险与实际风险相对一致,说明各模型校准良好。结合模型分别与基础预测模型、代谢特征预测模型和遗传易感性预测模型比较的结果显示,结合模型预测能力得到了一定程度改善:c NRIs>0.3(均有P<0.001)和IDIs≥0.07(均有P<0.001)。结论:结合代谢特征和遗传易感性可以适度改善RA风险预测,仍需在外部验证人群中进一步验证。