基于截尾的稳健惩罚Logistic回归和稳健惩罚Cox回归及在组学数据分析中的应用

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:hanyancuiceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:以前的研究表明,样本标记错误在组学数据中并不少见。样本标记错误是由于漏诊或误诊,样本的异质性,实验中的技术问题等造成。这些潜在的异常点会导致病人接受不适合的治疗,且会影响可靠地筛选疾病相关的生物标记物。对这些错分样本进行识别,以及从错分高维组学数据中进行正确地特征选择是一个亟待解决的问题。本文第一部分提出了基于截尾的稳健惩罚Logistic回归,探讨了理论性质,提出算法来求解估计,并与其它解决错分高维组学数据的方法进行比较,便于实际中选用合适的方法。类似的异常点会也会降低惩罚Cox回归变量选择的准确性。如果这些异常点不是因为实验或记录误差造成,这可能意味着这些患者的生存时间相对于其协变量有不同的关联模式。通过对这些异常值的识别和分析,有可能找到新的预后因素并对其进行个体化治疗。本文第二部分提出了基于截尾的稳健惩罚Cox回归,并提出算法来求解估计,以便可靠地进行变量筛选和异常点识别。方法:本文第一部分提出了基于截尾的LASSO类型的惩罚Logistic回归(LASSO-type maximum trimmed likelihood estimator,MTL-LASSO),并扩展到弹性网惩罚(EN-type maximum trimmed likelihood estimator,MTL-EN)。其中探讨了MTL-LASSO的理论性质,提出结合接受-拒绝算法和C-step(Concentration steps)算法的AR-Cstep(C-step based on acceptance-rejection)算法来求解MTL-LASSO估计和MTL-EN估计,并将MTL-EN与其他三种解决错分高维变量选择问题的方法,即采用C-step算法的基于截尾的弹性网类型惩罚Logistic回归(enetLTS),稀疏标签噪声稳健Logistic回归(Rlogreg),和将弹性网、稀疏偏最小二乘估计进行综合的Ensemble方法,在特征选择、异常值识别以及预测的准确性方面进行模拟评价。将四种方法应用于包含有不一致标签样本的三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)RNA-seq数据集中,对其识别的错分样本和筛选的基因进行比较。本文第二部分提出了基于截尾的弹性网类型惩罚Cox回归(ElasticNet-type maximum trimmed partial likelihood estimato,MPTL-EN),并提出结合接受-拒绝算法和C-step算法的AR-Cstep算法求解MPTL-EN,通过重加权步后得到估计Rwt MTPL-EN(Reweighted MTPL-EN)。通过模拟实验来比较MPTL-EN与非稳健的弹性网的在变量选择、异常点识别以及预测方面的性能。对胶质瘤患者的基因表达数据进行实例分析,以说明其应用。结果:第一部分:(1)对MTL-LASSO的理论性质的探讨得出,LASSO类型的惩罚Logistic回归估计是存在且有界的,当一个可以取任意值的异常点替换原来数据时,LASSO估计值会趋向于0,导致模型无效。本文给出了不同于一般模型的、适合于惩罚Logistic回归崩溃点(Breakdown point,BDP)的定义,给出并证明了MTL-LASSO的BDP,指出MTL-LASSO能抵抗的异常点比例,即是其截尾比例。通过LASSO与MTL-LASSO的模拟实验得出,在没有错分样本时,MTL-LASSO的结果与LASSO相近,而当存在异常点时,LASSO受异常点的影响非常大,而MTL-LASSO的却保持稳定。重加权后的Rwt MTL-LASSO进一步提高了性能。(2)MTL-EN,enetLTS,Rlogreg和Ensemble四种方法比较的模拟实验得出,当只有y异常时,Ensemble在变量选择方面综合指标最高,但是其PSR要低于MTL-EN。当异常点比例增大Ensemble变量选择的准确性下降幅度较大,特别当x也存在异常时,Ensemble变量选择的准确性在四种方法中处于最低,而MTL-EN变量选择准确性最高。异常点识别方面,MTL-EN在四种方法中表现最好,敏感性Sn较高,且假阳性FPR控制在2%以内。就预测准确性而言,MTL-EN错分率较低。且MTL-EN运算时间也远远小于enetLTS和Ensemble,说明采用AR-Cstep算法能够让迭代收敛较快,且收敛到不含异常点的子集上,从而能够更准确地筛选变量或识别异常点。(3)通过实例分析发现,MTL-EN和enetLTS分别在47个和43个检测到的异常值中都识别出了7个不一致标签的可疑个体,这一结果优于其他两种方法。enetLTS识别的错分样本全是非TNBC患者,而MTL-EN分别识别的错分样本中还有13个TNBC患者,其中包含1个是不一致标签的可疑样本。就筛选的基因方面,MTL-EN和enetLTS筛选的基因较多,其效应量较小,根据模拟实验的结果,其敏感度高,也就是尽量包含与TNBC有关的基因,所以可以作为初步筛选的基因。Rlogreg和Ensemble筛选的基因较少,虽然Ensemble发现的基因都与TNBC有关,但数量太少,敏感度太低,没有发掘更多与TNBC有关的基因。第二部分模拟研究表明,有异常值的高维数据集中,稳健的MPTL-EN在变量选择、异常值检测和预测方面表现优于非稳健的弹性网惩罚的Cox回归,而且重加权的Rwt MTPL-EN估计要好于没有进行重加权的Raw MTPL-EN。(1)当没有异常点时,Rwt MTPL-EN(Reweighted MTPL-EN)的结果与弹性网接近。当存在异常点时,稳健的Rwt MPTL-EN在变量选择、异常值检测和预测方面表现优于非稳健的弹性网。相对于其预后指数“失效太早”的异常点,“活得太久”的异常点会使得弹性网表现更差,而Rwt MTPL-EN更易于将“活得太久”的异常点识别出来,且无论在对称还是非对称异常点下,准确性保持稳定。(2)当删失比例增大,弹性网和Rwt MTPL-EN的性能都有下降,但Rwt MTPL-EN的性能一直高于弹性网。相对于截尾比例低于异常点比例时,当截尾比例等于或高于异常点比例时Rwt MTPL-EN的结果要更好。(3)当y方向异常偏离增大时,使得弹性网选择的变量变少,当x方向也出现异常时,即异常观测的自变量也偏离主体时,弹性网选择的变量远远大于真实的非零变量个数,这两种情况都使得弹性网选择的变量准确性下降。而Rwt MTPL-EN在各种情况下均保持稳定,说明Rwt MTPL-EN能够同时抵抗x方向和y方向的异常点。(4)通过胶质瘤基因表达数据的分析可以看到,Rwt MTPL-EN筛选的变量与弹性网有差异,识别了更高比例的报道与胶质瘤有关的基因。在去除异常点后,其预测准确性高于弹性网,且识别了更多相对于预后指数“活得太久”的异常点。结论:本文探讨了基于截尾的LASSO类型(MTL-LASSO)和弹性网类型的稳健惩罚Logistic回归(MTL-EN)。对惩罚Logistic回归和MTL-LASSO的理论性质进行探讨和证明,给出MTL-LASSO稳健性与截尾比例的关系。本文还提出了求解MTL-LASSO和MTL-EN估计的AR-Cstep算法,通过与采用C-step算法的enetLTS比较的模拟实验可以看到,采用AR-Cstep算法的收敛更快,变量选择和异常点识别的准确性更高。MTL-EN在识别错分异常点方面是最为推荐的方法,识别的敏感性最高,且能控制假阳性率在较低的范围内。在变量选择方面,如果不存在x方向异常,且要求变量选择的FDR较低,推荐的方法是Ensemble。如果x方向存在异常,特别是要求变量选择的敏感度较高时,则应该选择MTL-EN。本文建立的基于截尾的稳健惩罚Cox模型Rwt MPTL-EN,能够在异常点存在时,相比非稳健的弹性网模型,能够更加准确地进行变量选择。它能够同时抵抗比例很大的x方向和y方向的异常点。Rwt MPTL-EN能够更准确地识别异常点,特别是在识别“活得太久”异常点方面,而“活得太久”的异常点对弹性网变量选择准确性影响更大。本文建立的基于残差的AR-Cstep算法,使得算法不再依赖于从模型的似然函数中分离出个体的贡献,而且解决惩罚回归中惩罚参数改变导致C-step不收敛的问题,这种改进可以使得AR-Cstep算法推广到更多的模型。
其他文献
新形势下,高校思想政治教育工作面临着许多新问题、新情况,大学生思想状况呈现许多新特点。为了提高高校思想政治教育的实效性和吸引力,充分调动学生的学习兴趣和积极性,使教育效
这些年来,人民群众最关心、最直接、最现实的利益问题——民生问题倍受关注,并且民生问题中最致命的威胁因素是中国的贫困问题。因此怎样解决中国的贫困问题成为了我们构建社会
考试制度自古以来就是我国最主要的人才筛选和能力测评机制,其重要性不言而喻。但这些年来,由于社会竞争的日益激烈和科学技术的迅速发展,考试作弊事件日益猖獗。鉴于此,第十