基于字典学习的肿瘤基因表达谱分类算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zyb1026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是一种严重威胁人体生命健康的疾病。长期以来,研究人员一直都在探寻治愈肿瘤的最佳手段。然而肿瘤类型众多,即使是同一种肿瘤也可以分为许多不同的亚型,而不同亚型肿瘤的治疗手段是不同的。因此,准确而快速地对肿瘤分类能最大程度地发挥治疗效果,延长甚至挽救病人的生命。利用肿瘤基因表达谱对肿瘤进行分类是当前一种比较新的肿瘤分类手段,该方法速度快,分类过程自动化,能节省大量的人力物力资源,已经成为当前肿瘤分类领域的研究热点。但当前大部分传统机器学习方法对肿瘤基因表达谱的分类准确率普遍较低,需要设计更适合的分类算法。为了提升分类准确率,本文主要做了如下三方面工作:1.基于判别投影的字典学习分类算法。字典学习分类算法是一种比较适合处理基因表达谱数据的算法,但一般的字典学习模型只注重提升所训练的字典对样本的重构能力,而忽视了其对样本的鉴别能力。针对该问题,本文设计了基于判别投影的字典学习分类模型。在训练过程中,该模型为每一类训练样本都训练出一组子字典,每类子字典都只能对同类样本进行低误差同构。在训练字典的同时,还训练出一个投影矩阵,利用该投影矩阵对测试样本进行投影能拉大不同类别样本之间的距离。最后利用字典对测试样本的重构误差判断样本的类别。在多个公共数据集上的实验结果表明,该方法的分类准确率要高于当前主流方法。2.结合集成学习思想的字典学习分类算法。针对单个字典学习分类器分类能力较弱的问题,本文把集成学习的思想同字典学习结合起来。从训练样本的所有基因中随机抽取部分基因作为训练数据,训练专门设计的字典学习分类算法作为集成学习的弱分类器,同时训练多个这样的弱分类器,最后通过多个弱分类器的投票结果决定测试样本的类别。实验结果表明,该方法的分类准确率较其他方法有较大提升。3.针对基因表达谱数据的特征选择方法。针对基因表达谱数据大量冗余和噪声的特点,设计了一种特征选择方法以把数据中的关键基因筛选出来。首先把数据中的异常值替换为合理的值,然后对数据进行归一化处理。利用随机序列和样本距离这两种判断准则各筛选出一定数目的关键基因,取这些关键基因的交集作为最终的关键基因。和其他常规的特征基因过滤方法相比,本文的方法能在选出更少关键基因的情况下实现更高的分类准确率。
其他文献
聚苯并噁嗪是一类新型的热固性树脂,具有优异的机械性能、热性能和耐化学溶剂,较低的吸水率、表面能及介电常数,较高的残炭率和良好阻燃性能等,近年来引起了广大研究者的重视
大型激光装置进行实验时,需要更换大量的光机模块,也被称作在线可替换单元(Line Replaceable Unit,LRU模块)。LRU模块主要负责激光的一系列实验,其响应机构需要很高的精密性
作为统计信号处理的有力工具,自适应滤波器被广泛应用于信息处理、自动控制、目标跟踪和生物医学等领域。对于这些实际应用,模拟环境的统计特性不是单纯的高斯的,而是非高斯
多机器人系统具有可靠性强、结构可扩展、执行任务多样等特点,目前正日益广泛地被应用于军事、工业生产、仓库物流、科教娱乐等方面。基于多机器人系统的多目标围捕控制是一
随着光纤传输网络上流量的迅猛增长,对光纤传输骨干网信号的检测和处理是网络空间安全和态势感知的基础。近年来,100G DP-QPSK相干光系统在光纤骨干网中大规模部署,因此针对1
智能已然成为是我们这个时代的代表词汇之一。在控制研究领域中,学者们也在紧跟时代的步伐,向智能化控制不断发起挑战,学习控制是其中一个不可或缺的部分。而最具有代表性的
新型塑料乒乓球的使用成为了乒乓球发展历史上又一次重要变革,新球在竞技要素方面对运动员技术发挥的影响也成为左右比赛的重要因素。本文通过对新型塑料乒乓球的物理指标进
湿度与我们的生活息息相关,是指水蒸气在空气中的含量。湿度已被广泛地应用在农业、气候监测、精密仪器的使用和保护、生物医疗、工业生产和日常生活中皮肤湿度监测等领域中
随着现代信息技术的发展,传统的电子元器件已经不能满足当代对器件高集成度和高速率的需求。与电子器件相比,光子器件在传输带宽方面具有天然的优势,因此,使用光纤制作的光子
催化材料在整个人类社会发展过程中发挥了重要的作用,全球约35%的GDP以及90%的化学产品依赖于催化过程。在催化材料中,贵金属催化剂在石油炼制、化工原料、低毒农药、人工化