机器学习算法在肺腺癌患者吸烟史分类中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:hbl7623308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,海量数据的处理问题已成为一个热点话题,而机器学习算法的不断发展与完善,为迎接大数据时代的来临奠定了基础。目前,机器学习算法在多个领域都得到了广泛的应用,涉及到的领域包括化工过程控制、气象数据分析、垃圾邮件的识别与过滤以及生物医学领域的分析研究等等。面对如此多的海量数据,尤其是高通量技术下产生的海量生物医学数据,如何排除噪声信息的干扰,找出关键信息,提高机器学习算法在癌症相关研究领域应用的精度和效率是大数据时代面临的一个主要问题之一。吸烟虽然是已知的最主要的肺癌致病因素,但统计数据表明,肺腺癌患者中不吸烟患者的比例呈现逐年上升的趋势。针对吸烟与不吸烟肺腺癌患者发病机理等差异性的研究逐渐成为世界范围广泛关注的热点问题。本文基于吸烟相关肺腺癌患者全基因组基因表达数据、甲基化数据,以TCGA数据为训练集,EDRN数据为独立测试集,创新性地结合了多种降维和变量筛选的方法,分别从基因表达差异性、生物相关性以及差异分类重要性等多方面综合筛选候选基因集,并通过偏最小二乘(PLS)的多重迭代优化分类当前吸烟/从不吸烟样本,识别出真正的关键特征基因,从而为揭示吸烟与肺腺癌发生之间的关系以及不吸烟肺腺癌的患病机理奠定基础,为从基因组水平和分子生物学水平揭示吸烟与不吸烟肺腺癌患者的差异提供依据。最终应用本文所提出的方法,共确定43个基因表达特征基因以及48个甲基化特征基因,达到了较高的分类精度,训练集精度分别为79.2%以及87.5%,独立测试集精度分别为86.3%以及76.4%。同时,特征基因代谢通路分析表明,这些特征基因大多数与癌症的发生发展以及生物功能、细胞发育等都有着密切的联系,更为重要的是,部分特征基因对肺癌/肺腺癌的重要影响已被实验所验证。与已有的研究成果相比,本文所提出的方法在模式识别的精度上更具有优势,显示了独特的优越性。本文还对拷贝数变异数据的上述应用进行了研究,取得了初步成绩。
其他文献
C8芳烃是由对二甲苯(PX)、邻二甲苯(MX)、间二甲苯(OX)与乙苯(EB)组成的混合物,主要由催化重整、裂解汽油加氢及甲苯歧化与烷基化等工艺过程产生。其中,对二甲苯是C8芳烃中的最为重要的同分异构体,用于合成精对二苯甲酸与对二苯甲酸甲酯,制备聚对二苯甲酸二乙酯,生产聚酯纤维与工程塑料。混合二甲苯分离提纯对二甲苯是芳烃联合装置的核心单元,基于分子筛吸附分离的模拟移动床技术是目前PX提纯的主流工艺
本文以乳糖为唯一原料,研究了利用透性化K.lactis细胞和游离β-半乳糖苷酶分别催化乳糖制备低聚半乳糖(GOS),并利用K.lactis酵母发酵法进行纯化以制备高纯度GOS的生产工艺。为了简化提纯β-半乳糖苷酶的步骤,减少酶活损失,同时提高β-半乳糖苷酶的稳定性,以透性化K.lactis细胞催化乳糖合成GOS;为了解决GOS产品纯度不高的问题,开发了利用K.lactis细胞进行选择性发酵纯化GO