论文部分内容阅读
近年来,随着肿瘤患者的逐渐增多,预防和治疗肿瘤是全世界关注的焦点问题。据统计,全世界由于恶性肿瘤导致的疾病死亡人数已位居第一,大大超过了心脏病和脑血管病的死亡人数。目前的肿瘤诊断方法大多以形态学为基础,同一类型的肿瘤可能会出现临床上的差异,对治疗的敏感性存在很大的局限性。基因芯片技术的快速发展使得越来越多的肿瘤基因表达数据得以测定。从分子生物学角度出发,利用基因芯片技术有效地分析、处理和利用基因表达数据,进而对癌症病人进行早期诊断和个性化治疗对提高病人的生存率具有重要的意义。然而,基因表达数据具有高维、分布不平衡、样本数量少等特征,如何从高维数据中提取出少数关键的致病基因,即基因表达数据的分类,引起国内外学者的广泛关注。本文聚焦肿瘤基因表达数据的分类问题研究,借助于神经网络和极限学习机(Extreme Learning Machine, ELM)等理论方法和工具构建分类模型,设计和实现基因表达数据分类算法。首先,针对单个ELM性能不稳定问题,采用了一种基于输出不一致测度的ELM相异性集成算法进行分类器集成。以输出不一致测度为标准判断不同ELM模型之间的相异性,根据ELM的平均分类精度对ELM模型进行筛选,并采用多数投票法对筛选后的分类模型进行集成。然后,分析了拒识代价和误分类代价对基因分类性能的影响,进而以减少决策风险、降低平均代价为目标,设计了代价敏感的ELM算法。通过在算法中引入代价敏感因素,极大地改进了ELM处理不同代价基因表达数据的有效性。以多种肿瘤数据集为参考,本文对采用的算法进行了理论分析和实验验证,结果表明:ELM相异性集成算法能以更少的模型数量达到较稳定的分类精度;代价敏感的ELM算法能有效降低平均误分类代价,提高分类可靠性。因此,本文的研究工作有助于提高肿瘤基因表达数据的分类精度,在一定程度上解决了该研究领域的难点问题,对于推进高维、不平衡基因表达数据的研究具有重要的理论意义和实用价值。