论文部分内容阅读
背景:在众多医学研究过程中,研究者感兴趣的结局变量往往有多个,大多分析多选择对各应变量分别建模,特别是在结局变量类型不同的情况下,可能会引致与实际问题不符的结果。事实上,在多个应变量间往往也可能有相关性存在,若仅对单变量独立建模,忽视效应变量间的相关性统计效率较低,甚至可能产生相互矛盾的结论,影响最终的临床决策。可见考虑效应变量之间的相关性,进行模型参数估计应该是明智的选择。目的:多中心临床试验与其采用随机化设计的类型及方式不同,资料中可能存在不同程度的群聚效应,这就要求研究者在考虑层次数据聚集性问题的同时,也应基于医学实践数据的复杂性,探讨多效应变量间的相关性,构建统计模型分析框架,为医学大数据应用提供分析策略。内容:课题以某研究所某项多中心观察研究为例,针对多应变量间相关与个体多次重复测量间相关的异同点,研究医院水平间数据的聚集性和多结局变量之间的相关性对模型构建的影响。阐明不同混合类型双效应变量联合建模的原理与方法。结合糖化血红蛋白(HBA1c)和FPG(空腹血糖)双效应变量模型分析,实现了考虑多中心间群聚效应条件下的双定量效应变量联合建模;结合多中心临床试验疗效评价的达标要求,阐明了糖化血红蛋白和空腹血糖达标率(双效应分类变量)的多元层次模型;结合药物临床试验研究,即考虑效应指标(糖化血红蛋白含量下降),也要保证安全性(低血糖发生次数)评价研究的特点,进行了混合类型复杂分布的联合建模策略研究。应用了copula函数对双应变量进行链接,以更有针对性地解决不同类型效应变量之间的相关性对混合分布联合建模问题。结果:1.多中心临床试验资料双效应变量联合建模,首先应采用组内相关系数验证各中心数据间是否具有中心内同质性。本文通过SAS编程,实现了随机效应方差/协方差参数估计及其假设检验。对效应变量内同质性及医院水平间的聚集性做出了合理推断,为双效应变量联合建模策略的选择提供了基本条件。2.同分布双效应变量建模,首先应考虑双效应变量之间的相关性。当两效应变量经验分布同为正态分布时,选择相关系数较为恰当。当同为二项分布时,可以列联系数来描述双应变量间的相关性。本文结合糖尿病多中心临床试验双效应变量相关性判定实例,进一步分析了多医院的中心效应,通过MLWin软件实现了分析资料变量间多种相关效应的估计,检验了研究因素对不同效应变量作用间的差别。进一步提示有效分析双效应变量间相关性进行多效应联合建模,不仅可比各效应变量单独建模提供更多的资料信息,而且可比多次单独回归分析大幅提高统计效率,进一步验证了多元多水平模型在处理多变量相关数据回归问题上的优势与可行性。3.由于不同分布型双效应变量复合后的分布更为复杂,难以直接从理论分布入手进行模型参数估计,这个问题一直是制约回归分析进展的一大技术难点。本研究通过引入copula链接函数,对两个不同分布类型的经验分布链接,精确刻画出该复杂分布的分布函数,进而为回归模型的参数估计过程提供了可能。并通过SAS NLMIXED过程编程,实现了复杂分布的回归模型参数估计与分析,进而表明某药物效应变量疗效与安全性评价的综合影响,双效应变量联合建模效果远优于常规回归分析,并提出了模拟数据散点图与拟合优度指标相结合的链接函数选择标准。尝试分别运用5种常见copula函数进行链接,初步构建了双效应变量回归分析copula函数的似然函数方程,经对比分析认为,椭圆copula与正态copula函数是解决实际应用常见问题的最优函数。进而提出copula函数链接后进行复杂分布联合建模具有可行性,可作为迭代算法对比和估计过程优化及两个以上多变量链接等问题解决的一个方向。结论:多中心临床研究结局指标间存在相关极为常见,忽略多效应变量间相关性,分别采用单变量建模,有可能得到与客观实际相佐的结论。如何充分利用多效应变量之间的相关性信息,构建多个影响因素对多效应变量的混合模型,更好地解释某因素对多效应结局指标的综合影响,是临床多中心研究较为关注一个问题,本文提出的联合建模策略正是解决这一问题的有效途径,文中阐述的三种不同混合类型双效应变量联合建模方法与实施过程,都是解决非常规分布建模的最适模型;copula链接函数具有独特的优越性,拓宽了复杂分布联合建模的应用前景,验证并提出了复杂分布联合建模的软件实现,为大数据复杂分布回归分析研究提供了分析新思路。