论文部分内容阅读
第三代高通量测序技术可以更精准、更全面地获得人类基因信息,为研究乳腺癌与基因表达之间的关系提供了新途径,同时也带来了新的挑战-如何从三万多个已知人类基因中高效准确地筛选乳腺癌致病基因。传统单因素方法只考虑单个基因的异常表达对乳腺癌的影响,没有能力处理基因间的交互作用;测序过程产生的噪声数据的统计显著性往往高于单个正常基因的统计显著性,以致噪声特征被误认为致病基因而被筛选出来,这些噪声特征往往缺乏生物意义上的合理解释。鉴于传统方法的不足,本文提出了一种基于AP聚类分析的蒸馏算法筛选乳腺癌致病基因,取得的创新性成果如下:1.针对基因特征选择,提出了一种基于AP聚类分析的蒸馏算法。蒸馏算法首先应用AP聚类将全基因特征聚成多个基因簇;然后在各个基因簇中蒸馏筛选关键基因;最后将筛选出的关键基因聚合在一起。整个过程迭代进行,通过调节参数控制筛选强度和聚类生成的基因簇的个数,直到筛选出的关键基因个数等于预先设定的值,算法才停止。蒸馏算法模拟物理蒸馏过程,通过AP聚类过程、蒸馏筛选过程、冷凝过程三个子过程完成。其中AP聚类过程旨在将功能类似或者存在交互作用的基因聚到同一个基因簇中;蒸馏筛选过程通过调节参数,可以筛选出乳腺癌关键基因,这些基因可能个体表达水平并不显著,但与簇内其他基因存在功能上的关联性或者其他交互性;冷凝过程是将各个基因簇中筛选出的基因重新聚合在一起,为下一次迭代做准备。2.应用蒸馏算法从20141个人类基因中筛选出473个与乳腺癌紧密相关的基因,聚类分析将这些基因聚成9个基因簇。鉴于目前已知的乳腺癌致病基因集中分布在第8个基因簇,本研究对该基因簇的77个基因之间的交互作用、以及与乳腺癌之间的关联性给予生物意义上的解释,并建议其中66个新发现的乳腺癌关联基因作为后续研究的重点。进一步,还分析了77个基因的甲基化程度,筛选出与对应基因表达水平之间的相关性比较大的4个碱基位点。3.采用基因簇富集分析方法对蒸馏算法生成的9个基因集合进行了统计分析,验证了算法筛选出的基因集合的有效性。本研究还探究了参数变化对算法性能的影响,并给出了算法参数的调优标准。蒸馏算法的优势在于通过AP聚类分析,能够更好地发现基因之间的交互作用,使筛选出的乳腺癌致病基因具有良好的生物解释性;蒸馏筛选过程在各个基因簇中独立进行,互相不影响,可以并发执行,提高了算法的处理速度;通过参数调优,可以筛选出最优的致病基因子集,同时也使算法能够灵活适应不同的应用场景。