统计学习模型分析蛋白质表达对乳癌细胞增殖的作用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liouwanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们在日常生活中与有害物质的接触越来越频繁,癌症的发病率也逐渐增高。在这个大数据时代,如何在错综复杂的数据中选取有效的部分,变得十分重要。由于统计学习方法能够更好的挖掘出有用的信息,这使得它成为十分重要的研究内容。本文的研究对象为MD Anderson的一组乳癌细胞MDA-MB-231所扫描的反时相蛋白质阵列(RPPA)和细胞增殖数据。通过这些数据对线性回归、支持向量机(SVM)和随机森林模型(RF)分别进行训练,从而找到控制乳癌细胞增殖的关键蛋白质。最终把这些关键蛋白质作为癌症药物的潜在靶标。本文使用的数据波动性较大,为减少这些数据对统计效能产生的影响,首先对RPPA进行数据预处理。然后将预处理过的RPPA作为输入数据,细胞增殖作为输出数据,分别对线性回归、SVM和RF进行训练,其中在线性回归模型的应用中,提出并使用了主成分分析(PCA)与线性回归模型相结合的方法。最后通过比较三种模型的结果,得到了既具有较高精确度、又能够筛选出具有关键影响力的蛋白质组合的模型。本文结果表明,线性回归模型精确度高,SVM模型能筛选出对乳癌细胞增殖起关键作用的蛋白质组合,而RF在这两方面表现都非常好。最后,利用RF对RPPA进行分析,得到28种对乳癌细胞影响较大的蛋白质,查找文献可知,确认其中21种对乳癌细胞增殖有很大影响。
其他文献
目的观察俞募配穴针刺法治疗原发性痛经的临床疗效。方法将150例原发性痛经患者随机分为治疗组、对照1组和对照2组,每组50例。治疗组采用俞募配穴针刺法治疗,对照1组采用常规
背景膀胱癌是泌尿系统常见的恶性肿瘤之一。在膀胱癌患者中,有70%左右的患者在出诊时被诊断为浅表性膀胱癌。但其中有50%到70%的浅表性膀胱癌患者会复发,并且约有10%到15%的
目的有针对性地开展体力活动干预并评价其效果。方法采用单纯随机抽样方法,抽取的浙江省杭州市拱墅区480名社区成年居民体力活动开展基线调查,通过为期两年的增加体力活动社
建立UPLC-MS/MS测定药桑不同部位中1-脱氧野尻霉素(DNJ)含量的方法。以乙腈-0.1%的氨水为流动相,ACQUITY UPLC BEH amide(2.1×100 mm,1.7μm)为色谱柱进行分离,梯度洗脱,流速300
目的 比较人类表皮生长因子受体2(Human epidermal growth factor receptor-2, HER2)阳性复发转移性乳腺癌患者曲妥珠单抗联合长春瑞滨或联合卡培他滨的疗效,优化临床治疗方
目的:建立肺血管、支气管和肺实质的VR重建融合模型,评价其显示肺段CT解剖的能力。资料与方法:选择一例行64排螺旋CT肺动脉期增强患者作为研究对象,其肺动脉干和肺静脉的强化
2008年金融危机爆发后,金融机构的透明度与资产价值计量模式的适当性受到广泛关注,会计信息披露与公允价值计量也备受争议。本文在梳理总结相关文献的基础上,从公允价值计量
目的:探讨子宫内膜间质肉瘤的临床特点、超声表现、诊刮结果、确诊率、治疗方法、复发情况及影响预后的因素。方法:本文收集了从2000年1月至2013年12月于山东大学齐鲁医院就诊
白藜芦醇对肺癌A549细胞放射增敏作用及其机制研究研究目的通过体外实验观察白藜芦醇(Resveratr ol)对肺癌A549细胞的放射增敏作用,并研究其作用机制。研究方法(1)本实验研究
目的探讨转入B7-H3基因鳞癌细胞株的建立及其检测。方法采用脂质体介导法将已建好的真核表达质粒pEGFP-C1-B7-H3导入人鳞癌细胞Tca8113中(Tca8113/B7-H3),RT-PCR检测B7-H3在