基于AP聚类的蒸馏算法筛选乳腺癌致病基因

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:donny0325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第三代高通量测序技术可以更精准、更全面地获得人类基因信息,为研究乳腺癌与基因表达之间的关系提供了新途径,同时也带来了新的挑战-如何从三万多个已知人类基因中高效准确地筛选乳腺癌致病基因。传统单因素方法只考虑单个基因的异常表达对乳腺癌的影响,没有能力处理基因间的交互作用;测序过程产生的噪声数据的统计显著性往往高于单个正常基因的统计显著性,以致噪声特征被误认为致病基因而被筛选出来,这些噪声特征往往缺乏生物意义上的合理解释。鉴于传统方法的不足,本文提出了一种基于AP聚类分析的蒸馏算法筛选乳腺癌致病基因,取得的创新性成果如下:1.针对基因特征选择,提出了一种基于AP聚类分析的蒸馏算法。蒸馏算法首先应用AP聚类将全基因特征聚成多个基因簇;然后在各个基因簇中蒸馏筛选关键基因;最后将筛选出的关键基因聚合在一起。整个过程迭代进行,通过调节参数控制筛选强度和聚类生成的基因簇的个数,直到筛选出的关键基因个数等于预先设定的值,算法才停止。蒸馏算法模拟物理蒸馏过程,通过AP聚类过程、蒸馏筛选过程、冷凝过程三个子过程完成。其中AP聚类过程旨在将功能类似或者存在交互作用的基因聚到同一个基因簇中;蒸馏筛选过程通过调节参数,可以筛选出乳腺癌关键基因,这些基因可能个体表达水平并不显著,但与簇内其他基因存在功能上的关联性或者其他交互性;冷凝过程是将各个基因簇中筛选出的基因重新聚合在一起,为下一次迭代做准备。2.应用蒸馏算法从20141个人类基因中筛选出473个与乳腺癌紧密相关的基因,聚类分析将这些基因聚成9个基因簇。鉴于目前已知的乳腺癌致病基因集中分布在第8个基因簇,本研究对该基因簇的77个基因之间的交互作用、以及与乳腺癌之间的关联性给予生物意义上的解释,并建议其中66个新发现的乳腺癌关联基因作为后续研究的重点。进一步,还分析了77个基因的甲基化程度,筛选出与对应基因表达水平之间的相关性比较大的4个碱基位点。3.采用基因簇富集分析方法对蒸馏算法生成的9个基因集合进行了统计分析,验证了算法筛选出的基因集合的有效性。本研究还探究了参数变化对算法性能的影响,并给出了算法参数的调优标准。蒸馏算法的优势在于通过AP聚类分析,能够更好地发现基因之间的交互作用,使筛选出的乳腺癌致病基因具有良好的生物解释性;蒸馏筛选过程在各个基因簇中独立进行,互相不影响,可以并发执行,提高了算法的处理速度;通过参数调优,可以筛选出最优的致病基因子集,同时也使算法能够灵活适应不同的应用场景。
其他文献
对民间文学艺术版权的传统保护以集体作者观作为核心论点。当代民间文学艺术保护热潮背后有文化民族主义的情感支撑。在其影响下,文艺学者刻意区分民间文学与作家文学,建构民
用磷酸二氢钠和尿素在稀醋酸介质中对壳聚糖(CTS)进行磷酸化改性,得到壳聚糖磷酸酯(P-CTS),然后在85%的甲醇中与三苯基氯化锡发生亲核取代反应,合成出三苯基锡壳聚糖磷酸酯(P
垃圾处理是一个困扰社会环境的大问题,而我国的垃圾分类现状不容乐观,需要积极探索解决之道。本文从重视垃圾处理产业发展的意义入手,对我国垃圾处理产业的发展现状和存在问
本文从法哲学的角度出发 ,考察了意思自治原则的历史源流 ,认为就其本质而言 ,意思自治原则可理解为每一个社会成员依自己的理性判断 ,管理自己的事务 ,在遵循强行法的前提下
晚近国际私法规范的发展呈现出两大相互对立的趋势 :柔性化与刚性化。前者在美国国际私法领域广为盛行 ,后者则在欧洲大陆国际私法领域暗流涌动。国际私法规范的柔性化主要表
目的了解湖南省老年人牙齿缺失及义齿修复情况。方法采用分层随机整群抽样的方法,对湖南省老年人牙齿缺失及义齿修复情况进行抽样调查。结果老年人牙齿缺失率为64.8%,无牙颌
在激烈的全球化竞争环境里,良好的国家形象有利于提高国家地位、争夺国际话语权。在这样的趋势下,中国国家形象的塑造成为研究热点。本文通过分析纪录片《辉煌中国》,梳理中
槲皮素是一种具有多种生物活性的黄酮类化合物.本文从抑制肿瘤细胞增殖,逆转肿瘤细胞多药耐药和与其他药物联用增强抗肿瘤作用等几方面,对槲皮素的抗瘤作用一综述.
脑胶质瘤是颅内最常见的原发性肿瘤,约占颅内所有肿瘤的40-60%。其具有发病率高、预后差和复发率高等特点。目前,临床上主要的治疗手段为手术切除病灶联合术后放化疗,然而患