论文部分内容阅读
随着大数据时代的来临,海量数据的处理问题已成为一个热点话题,而机器学习算法的不断发展与完善,为迎接大数据时代的来临奠定了基础。目前,机器学习算法在多个领域都得到了广泛的应用,涉及到的领域包括化工过程控制、气象数据分析、垃圾邮件的识别与过滤以及生物医学领域的分析研究等等。面对如此多的海量数据,尤其是高通量技术下产生的海量生物医学数据,如何排除噪声信息的干扰,找出关键信息,提高机器学习算法在癌症相关研究领域应用的精度和效率是大数据时代面临的一个主要问题之一。吸烟虽然是已知的最主要的肺癌致病因素,但统计数据表明,肺腺癌患者中不吸烟患者的比例呈现逐年上升的趋势。针对吸烟与不吸烟肺腺癌患者发病机理等差异性的研究逐渐成为世界范围广泛关注的热点问题。本文基于吸烟相关肺腺癌患者全基因组基因表达数据、甲基化数据,以TCGA数据为训练集,EDRN数据为独立测试集,创新性地结合了多种降维和变量筛选的方法,分别从基因表达差异性、生物相关性以及差异分类重要性等多方面综合筛选候选基因集,并通过偏最小二乘(PLS)的多重迭代优化分类当前吸烟/从不吸烟样本,识别出真正的关键特征基因,从而为揭示吸烟与肺腺癌发生之间的关系以及不吸烟肺腺癌的患病机理奠定基础,为从基因组水平和分子生物学水平揭示吸烟与不吸烟肺腺癌患者的差异提供依据。最终应用本文所提出的方法,共确定43个基因表达特征基因以及48个甲基化特征基因,达到了较高的分类精度,训练集精度分别为79.2%以及87.5%,独立测试集精度分别为86.3%以及76.4%。同时,特征基因代谢通路分析表明,这些特征基因大多数与癌症的发生发展以及生物功能、细胞发育等都有着密切的联系,更为重要的是,部分特征基因对肺癌/肺腺癌的重要影响已被实验所验证。与已有的研究成果相比,本文所提出的方法在模式识别的精度上更具有优势,显示了独特的优越性。本文还对拷贝数变异数据的上述应用进行了研究,取得了初步成绩。