基于基因表达数据的肿瘤分类算法研究

被引量 : 0次 | 上传用户:zhaimeng2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的快速发展,越来越多的肿瘤基因表达数据得以测定。依据基因表达数据,在分子生物学水平上进行肿瘤早期诊断具有重要意义。及时、准确的诊断将有利于后续治疗的成效,而误诊则可能使癌症患者错过最佳治疗机会。然而,基因表达数据具有高维、分布不平衡、样本数量少等特点。怎样有效地分析、处理和利用此类数据引起学者们的广泛关注。针对肿瘤基因表达数据的分类问题,由于存在大量冗余基因及噪声,基因表达数据的分类性能尚未达到实用水平,当前的研究重点在于:①如何从高维数据中提取出少数关键的致病基因;②寻找最适合的分类算法并提高其分类性能。本文主要借助神经网络和极限学习机(Extreme Learning Machine,ELM)来构建分类模型,预测肿瘤基因表达数据,提出的方法在多种肿瘤数据集和非肿瘤数据集上进行实验验证。主要研究工作如下:1)针对高维基因表达数据降维问题,提出了一种基于信息增益和遗传算法的基因选择方法,将特征基因选择转化为全局优化问题。在遗传算法搜索阶段,把类间距离与类内距离之比作为适应度函数,设计与模型无关的基因选择算法,降低数据维数。实验表明,经选择得到的各个特征与分类目标密切相关,提高分类器的泛化能力。2)针对基因表达数据的不平衡、小样本等问题,通过扩充小类样本规模和减少大类样本规模的思路以达到类别平衡。先经过特征选择过程保留对分类起关键作用的特征,再参照SMOTE过抽样理论,提出了FS-Sampling算法。实验表明,提出的方法能很好地平衡数据分布,能有效降低数据的不平衡性,明显提高少数类的分类精度。3)为解决数据分布对神经网络模型逼近精度的影响以及单个ELM性能不稳定问题,从数据层面着手构建集成分类器,研究了基于数据集差异的集成策略,提出一种基于样本集分割的集成算法。首先,将样本集分割为k等份;然后,从其中k-1份中随机抽样组成训练样本集,重复迭代n次训练n个基分类器;最后,利用多数投票法进行分类器集成。实验证明,该算法能提高基分类器之间的差异度,有效提高集成分类精度。4)针对单个ELM性能不稳定问题,从分类器输出结果差异的角度出发集成分类器,提出了一种基于输出不一致测度的ELM相异性集成算法(D-D-ELM)。首先,以输出不一致测度为标准对多个ELM模型进行相异性判断;然后,根据ELM的平均分类精度剔除相应的模型;最后,对筛选后的分类模型通过多数投票法进行集成。对该算法进行了理论证明和实验验证,实验结果显示该算法能够以更少的模型数量达到较稳定的分类精度。5)针对降低决策风险、减少平均代价等问题,以最小分类代价为目标,探讨了嵌入拒识代价和非对称误分类代价的分类问题,提出了嵌入误分类代价和拒识代价的ELM算法。通过在算法中嵌入代价敏感因素,使得嵌入代价因素的ELM能够直接处理具有不同代价的数据。实验证明该算法能有效降低平均误分类代价,提高分类的可靠性。综上所述,针对肿瘤基因表达数据分类任务中的挑战性问题,在解决高维小样本、数据降维和分布不平衡问题方面,综合提出了有效的基因选择和过抽样合成等方法。这些方法不仅可以提高分类器的性能,而且排除了大量无关基因干扰,有利于定位对疾病有鉴别力的特征基因,有助于相关疾病诊断。在数据分类中,提出了基于神经网络及ELM的集成分类模型,实现了基于数据集差异和分类器输出结果差异的集成算法,并在算法中嵌入代价敏感因素以体现肿瘤识别过程中不同数据的重要性。上述工作构建了一种适用于基因表达数据分类问题的算法框架,提高了肿瘤基因表达数据的分类精度,一定程度解决了该研究领域的难点问题,对于推进高维、不平衡数据的研究具有重要理论意义和实用价值。
其他文献
目的探讨淋巴结磁共振成像(MRI)形态学特征对鼻咽癌颈部转移性淋巴结的诊断价值。方法采用GE公司3.0TMRI对2014年11月至2015年11月该院收治的50例经病理检查确诊的鼻咽癌患者
甲状腺疾病是内分泌系统主要疾病之一,其诊治涉及多个学科,为提高甲状腺疾病的教学质量,在教学过程中,可将内分泌科、核医学科、心内科、普通外科等相关科室联合进行协作教学
唐代佛学为唐代知识精英构筑其思想空间提供了积极的准备。以心为前提的中道观念体系主要影响了人对于世界本质的看法、人趋向彼岸世界的可能性以及人对于彼岸存在的体验等三
小组教学的课堂模式已经提出很多年了,在实施小组教学的过程中,有许多老师认为这种教学形式能极大地调动学生的学习积极性,提高教学效率,使整个课堂“活”起来;同时,也有许多教师认
随着油气工业自动化、信息化的发展,在石油工业输油气管线的管道在线检测和无损安全监控领域,分布式光纤传感技术以其抗电磁干扰、耐腐蚀、长期稳定并且抗高辐射特性的优势引起
历史街区作为城市中最具表现力的特色街区,日益成为城市规划与城市发展中的关键环节。由此产生的历史街区更新策略层出不穷,其产生的效果亦随之千差万别。而针对如何运用历史街
竹笛作为具有悠久历史的传统民间乐器,在民乐史中占有重要的地位。近年来,随着社会的发展和群众音乐水平的提高,如何让这种古老的乐器在保持传统的基础上焕发新的活力,是本文
土壤微生物是农田生态系统的重要组成,在土壤养分转化、有机质分解、腐殖质形成、土壤肥力保持、营养元素的转化和循环中发挥了重要作用,而发挥作用的微生物属性是丰度和种群结
对大量的二胡运弓理论进行分析研究后发现,在已有的运弓理论中,有部分提法存在着很大的争议,这使笔者对二胡演奏理论与实践有了再继续深入研究的想法,期间还采取了调查问卷的
需求工程是随着计算机应用的发展而发展的。在计算机应用的初期,软件规模不大,软件开发所关注的是代码的编写,需求分析很少受到重视。随着软件系统规模的不断扩大,人们逐渐认识到