乳腺癌特征基因的筛选及预测

来源 :安徽财经大学 | 被引量 : 0次 | 上传用户:runzhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌是目前全球育龄女性最常见的一种恶性癌症,近年来我国女性乳腺癌患者的死亡和发病率以3%的增长速度逐年递增,严重威胁着女性的生命健康。我国乳腺癌的早期患者治愈率比较高,达到80%到90%以上,但早期患者病症不明显,很容易被忽视,很多乳腺癌患者确诊时已经是处于中晚期,治疗的难度比较大,存活率比较低。因此,科学有效的预测方法对于乳腺癌的诊断有很大的作用,尽可能早地发现病情,及时配合医生进行相应的治疗能够有效提高生存几率,减轻病人的痛苦。癌症产生的主要原因是癌症驱动基因发生突变,乳腺癌症驱动基因的筛选对研究乳腺癌发病病理、找出有效治疗方案、研制新型抗癌药物有着重要的意义。本文依托高通量测序技术得到乳腺癌的基因表达数据,对特征基因进行筛选并对乳腺癌进行有效预测。本文选择从TCGA数据库下载的乳腺癌癌症基因和癌旁基因数据进行研究,对113个样本,19754个基因数据进行预处理后,运用R软件中的edgeR软件包进行倍数变化筛选,以2倍作为调控阈值,p<0.05,得到上调基因1997个,下调基因12487个,接着对上下调基因进行卡方检验,设定阈值后筛选出61个基因,最后运用递归特征消除法选出差异基因30个:FIGF、CD300LG、HEPACAM、PLIN4、GPD1、CA4、HSD17B13、TSLP、LPL、CD36、BTNL9、SCARA5、LYVE1、CHRDL1、CLEC3B、ANGPTL7、RDH5、NPR1、HLF、RBP4、ITGA7、ITIH5、BMX、ADAMTS5、SAMD5、TGFBR3、SLC19A3、C1QTNF9、ASPA、SVEP1。将筛选出的30个基因通过构建Adaboost模型,对是否患乳腺癌进行预测,由此得到99.7743%的查准率、99.7743%的查全率,MCC值为0.974487,AUC值高达0.997743,曲线下的面积近似于1,说明筛选的特征基因对乳腺癌癌旁和癌症的分类具有很好的区分度,筛选方法可靠。为验证Adaboost模型的预测效果,使用决策树、神经网络和逻辑回归方法进行预测,比较各个模型的ROC曲线和查准率、查全率、AUC值、马修斯相关系数等相关指标。从预测效果看,集成学习器中的Adaboost对乳腺癌发病的预测效果最好。最后,总结本文的研究思想,同时对本文研究的不足和下一步研究的方向进行了阐述。得出结论:倍数变化法、卡方检验和递归特征消除法的组合特征筛选方法有效降低了变量维度,且筛选出的30个特征差异基因中,FIGF、TSLP基因已经有相关文献证明与乳腺癌的形成有关联,筛选效果较好。同时,Adaboost模型相较于个体学习器,预测效果更加显著,医生可以根据预测结果,结合钼靶x线、彩超等医疗手段,能够更加精准筛选出早期乳腺癌患者。
其他文献
针对当前供水行业运营存在的水表抄读工作效率低、工作强度大和计量结果不准确等实际问题,该文首先提出以NB-IoT技术为基础的智能水表系统架构,包括NB-IoTUE、NB-IoTBTS、NB-
根据淮北市城市水环境现状,分析了城市发展中水环境保护应注意的问题,提出了防治城市水污染、保护水资源环境的有效措施和建议,使淮北市水资源短缺、生态破坏得到控制,区域水资源
随着我国钢铁工业的高速发展,物流交通量不断增加,交通联网规模不断扩大。传统收费管理模式所暴露出来的各种弊端,越来越制约现代钢铁企业中物流的发展。新技术的不断发展以