论文部分内容阅读
癌症作为现今社会的生命杀手,种类繁多,治疗方法各异,尽早确诊对症下药是挽救生命的关键。基因芯片的出现为人类在分子角度认识疾病机理提供了新的路径,通过对基因表达谱数据进行挖掘发现致病基因对癌症的诊断和治疗具有重要意义。虽然不少基因选择方法能够选出具有较高分类性能的基因子集,但这些方法存在算法时间开销大,选出的基因解释性差冗余度高的缺点,为了克服这些方法的不足,本文在提出一种有效打分机制的基础上,利用微粒群算法和极限学习机进行基因选择,选择出了分类性能高、可解释性好的基因集合。本文的主要工作如下:(1)针对传统基因选择方法时间开销大、选出的基因子集可解释性差的缺陷,提出了一种基于打分准则和改进PSO算法的基因选择方法。首先利用分类信息指数对原始基因池进行预处理,基于数学抽样调查的科学性随机生成限定基因数目的基因集合矩阵,利用极限学习机对基因集合进行评价,并挑选出满足条件的基因集合,然后利用打分准则对基因进行评价、排序,并筛选相关基因;最后利用模拟退火算法改进PSO算法,并对打分准则评价后的基因进行进一步选择。该方法步骤简单,时间开销小。在多个公开的基因表达谱数据集上的实验——结果表明相比其他方法,由于大量准确的冗余删除,可以快速高效的选择出与肿瘤类别高度相关的基因子集。(2)针对打分准则机制未能充分利用基因与分类相关的直接信息以及PSO算法依然易于陷入局部最优的缺陷提出了基因信息加权和粒子半初始化的改进方法。首先根据方差的大小调整求取平均适应度值的次数,然后利用基因本身包含的分类权重信息作为打分准则的新增评价标准来完善打分机制,最后针对PSO算法易于陷入局部最优的缺点,设定更新阈值,迫使一半粒子在范围内更新从而改进算法。改进的方法充分利用了基因自身包含的信息,使得打分机制更加合理;相比其他方法能更快跳出局部最优。在四个数据集上的实验结果表明,在基于信息加权和微粒群算法的基础上,进一步提高了所选基因子集的分类准确率。