一种数据集成的癌症亚型分类方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mbc3204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是一种异质的且对人类健康危害极大的疾病,癌症亚型的精准定义对癌症诊断和治疗意义深远。传统的癌症亚型分类主要基于组织学特异性,但是无法从分子角度探索癌症发生的本质。随着高通量测序技术的发展,第二代测序技术可以在短时间内以相对低的成本得到癌症患者的基因组、转录组、表观基因组和蛋白质组等多组学数据,这些丰富的数据为科学研究人员在全基因组水平上研究癌症的机理打下了坚实的基础,集成研究这些数据已经成为必然趋势。然而,多组学数据具有维度高、样本数低、噪声大的普遍特征,使用传统的数据挖掘方法具有巨大的挑战。探究每一类癌症亚型相关的癌症通路、分子标记物,这些都是癌症研究的重要问题,每一次的重大发现对癌症病人都将具有重大意义。
  传统的数据集成的癌症亚型分类方法,大多忽略了数据属性之间的关系,缺乏对属性重要性评价的良好方法。本文提出一种基于网络约束的数据集成癌症亚型分类方法。通过结合基因相互作用网络的拓扑结构和基因组、转录组和表观基因组样本属性信息,为网络结构性强和属性差异性大的网络节点给予大的权重,得到网络节点重要性。根据网络节点重要性约束后续聚类过程,进而提高癌症亚型分类准确性。
  本文提出的方法将应用于TCGA数据库中浸润性乳腺癌、结肠腺癌、头颈鳞状细胞癌、肾透明细胞癌、肺腺癌和肺鳞状上皮细胞癌六种癌症,通过集成基因组学拷贝数变异、转录组学基因表达和表观基因组学DNA甲基化数据,结合STRING数据库中的人类蛋白质相互作用网络,对六种癌症进行亚型分类与分析。通过KM生存曲线、CoxLog-ranktest的P-value等指标评价癌症亚型分类结果,并对不同亚型的基因做差异性分析,显示出较好的临床显著性。通过标准互信息、兰德系数、调整兰德系数等聚类准确性指标评价在带有金标的数据集上癌症亚型分类结果。与传统聚类方法k-means、谱聚类以及基于数据集成的癌症亚型分类SNF方法、PFA方法在临床显著性和准确率方面进行比较,在多个癌症数据上具有最佳的临床显著性且具有较高的准确性。本文从临床显著性和分类准确性两个角度证明这是一个良好的数据集成癌症亚型分类方法。
其他文献
学位
学位
学位
学位
二十四节气作为我国农耕文化的重要组成部分之一,是我国古代劳动人民在认识自然、改造自然中发现总结的科学规律与基本法则,它通过系统总结一年中时令、气象、物候等方面的变化规律,以期准确反映四季变化,指导农业生产。二十四节气可以是独特的教育资源,幼儿可以在教学活动中更好地感受二十四节气作为中华民族优秀传统文化的精髓与魅力,增强民族自豪感和提升文化认同感,同时也可以促进幼儿多方面能力的协调发展。因此,在幼儿
期刊
20世纪90年代,译者主体性才开始受到我国学者关注和研究,但翻译主体的能动程度直接影响翻译的质量和可读性,而译者主体的能动性又必然受社会大背景制约。本文试图在前人研究成果的基础上,对译者主体性这一课题进行相关梳理,以严复的《天演论》为例,从翻译的社会性角度进一步阐述译者主体性在译者发挥主体能动性过程中受到的社会因素的影响,以及译者在其特定的社会环境下发挥译者的主观能动性后对社会产生的影响,以期为译
LTE-A(LTE Advanced)作为4G+无线通信技术,理论下行峰值速率1Gbps,信道容量和频谱利用率相比于LTE也有了较大提高,作为LTE迈向5G的过渡,也将为5G提供技术支撑。物理层作为整个协议栈的最底层,是无线通信系统的基础,决定了系统的传输方式与效率,因此本文的主要内容是对LTE-A物理层下行链路的研究与模块化实现。  文章基于国家重大科技专项“TD-LTE-Advanced多模多
学位