论文部分内容阅读
高通量基因微阵列技术的出现,产生了大量的基因表达数据。这些数据在追踪生物过程,基因规则发现以及病理分析中有着至关重要的作用。通常,研究人员通过聚类来挖掘相关的基因集合,然后进行生物学上的整理和分析。然而,由于基因表达数据独特的数据结构和背后的生物意义,倾向于找到全局模式的传统聚类方法并不能很好的找出符合要求的具有局部模式的聚类。于是,更符合基因表达数据特点的双聚类分析被引入进来。当前,对于将群智能算法运用到双聚类分析的研究仍存在或多或少的问题。一方面是群智能算法本身的缺陷所致,如有可能陷入局部最优等;另一方面是没有能将群智能的特点与双聚类分析有机的结合起来,如选取合适的评价指标进行单目标或多目标的寻优。本文基于布谷鸟搜索算法、萤火虫算法和细菌觅食算法等群智能优化算法,从算法结合以及多目标优化等方面进行基因表达数据双聚类的分析研究。本文旨在解决当前双聚类算法的聚类质量差和生物意义不明显等问题。论文的主要工作包括:(1)提出基于布谷鸟搜索算法和萤火虫算法的混合双聚类算法(Cuckoo Search and Firefly Algorithm hybrid Biclustering,CSFAB)。考虑到布谷鸟算法和萤火虫算法可以看作互补的关系,前者具有较强的全局寻优能力,而后者具有较快的收敛速度,于是本文尝试将两者结合。首先,通过实验确定了有效的结合策略,然后将布谷鸟搜索算法的全局搜索能力与萤火虫算法的快速收敛能力有效地结合起来。CSFAB算法可以显著地提高搜索速度和范围,同时能够跳出局部最优解和找到包含不同基因的双聚类,从而提高双聚类的多样性。与CSB、FAB和PSOB等算法比较,实验表明CSFAB算法的双聚类质量和生物意义更优。(2)提出基于多目标细菌觅食算法的双聚类算法(Multi-Object Bacterial Foraging Algorithm Biclustering,MOBFOB)。因为双聚类分析可以看作多目标优化问题,本文将传统的单目标细菌觅食算法依据基因表达数据双聚类分析的特点进行了改进,主要包括:1)对于互不支配时,较优解的确定;2)根据种群中各自的被支配次数排序;3)引入外部占优解集,增加多样性。该算法使用多目标细菌觅食算法,同时优化均方残差和体积等双聚类质量评价指标,找到占优的双聚类解集。通过对双聚类的质量评价指标和生物富集分析,证明了MOBFOB算法能够有效且快速地找到具有显著生物意义的双聚类。