论文部分内容阅读
微阵列技术能够同时测量数千个基因的表达水平值,产生大量的微阵列数据集,导致需要研究更加有效的分析算法来挖掘其中的生物模式。双聚类是微阵列数据分析中一个非常有用的数据挖掘技术,并且在许多应用中展现出其优势。在基因表达矩阵的双聚类挖掘中,必须同时考虑优化几个相互冲突的目标,因而应用多目标优化求解双聚类是一个非常出色的方法。进化计算(Evolutionary Computation, EC)主要研究维持解形式的算法,偏重于将来解的创建,进化算法包括一些通常的算法实例,如遗传算法、遗传规划、进化策略、差分进化、模拟退火、粒子群优化、人工免疫系统优化和蚁群优化等。进化计算作为一个总体算法方法论,其多样性对于求解多目标优化问题非常重要。最近三十年,仿真自然现象例如进化、遗传和免疫成为数据挖掘领域普遍的方法,采用进化算法EA(Evolutionary Algorithms)能发现微阵列基因表达数据中的全局最优解,为同时优化几个相互冲突的目标(例如聚类的大小和同源性)提出了多目标进化优化算法来发现微阵列数据中的全局最优双聚类。本文主要研究利用多目标优化进化计算求解微阵列数据集的聚类问题,重点研究多目标进化优化聚类算法、多目标粒子群优化双聚类、多目标人工免疫优化双聚类及多目标蚁群优化双聚类等相关算法。论文首先描述了双聚类算法研究现状及应用,分析微阵列数据集双聚类面临的挑战,对多目标优化的研究现状及在生物信息学中的应用进行描述后,给出了多目标进化双聚类算法的基础。论文对当前进化算法和多目标进化双聚类算法进行分析,总结了多目标进化优化聚类算法的基本框架。引进一个局部搜索策略,提出多目标进化优化三维聚类算法(MOE-TC),挖掘GST数据中的3D聚类,在此基础上,应用σ选择策略和∈-支配策略加快算法的收敛,提出基于σ选择的三维聚类算法,并进行实验结果分析。粒子群优化仿真鸟群觅食的运动,具有快速收敛和相对简单等性质,同时又作为基于群体的技术,使其成为求解多目标优化问题的自然选择。本文应用多目标粒子群优化算法来求解双聚类问题的全局最优解,结合∈-支配和局部搜索方法,提出多目标粒子群优化双聚类(Multi-objective Particle Swarm Optimization Biclustering, MOPSOB)算法来挖掘微阵列数据集的具有较低的均方残差的具有生物意义的最大双聚类。为进一步改善最优解的多样性,本文应用拥挤距离更新策略,提出拥挤距离多目标粒子群优化双聚类方法(Crowding Distance basedMulti-objective Particle Swarm Optimization Biclustering, CMOPSOB),其多样性、收敛性和算法时间复杂度优于多目标进化双聚类算法。最近的研究工作表明,利用人工免疫系统求解多目标优化问题,可改进搜索能力和适用性,大大地提高了收敛速度,改进最优解的多样性。论文对当前人工免疫算法及多目标免疫优化算法进行分析后,基于人工免疫系统的免疫响应原理,扩展解的支配关系和拥挤更新机制,提出了多目标免疫优化双聚类(Multi-Objective Immune Optimization Biclustering, MOIOB)算法,实验表明算法能有效地找到更多有意义的双聚类。蚁群优化算法仿真觅食蚂蚁的生物学行为,在包括多目标优化在内的许多领域成为一个非常有效的问题求解策略。多目标蚁群优化主要求解多目标的组合优化问题,双聚类问题是典型的组合优化问题,因此本文整合局部搜索策略,提出了一个新的多目标蚁群优化双聚类算法(Multi-Objective Ant Colony Optimization Biclustering, MOACOB)求解微阵列数据集的具有重大生物意义的最大双聚类。为进一步保持最优解的多样性,本文组合拥挤群体更新策略到基于群体的多目标蚁群优化双聚类算法中,提出基于拥挤计算的多目标蚁群优化双聚类(Crowding computation based MOACO Biclustering, CMOACOB)算法来发现一个或者多个具有重大生物意义的最大的双聚类,并在两个基因表达数据集进行实验分析。总体而言,本文对于多目标进化双聚类进行了深入研究,针对微阵列数据提出了几个双聚类算法,对于推进高维数据中的多维聚类研究具有一定的理论意义和实用价值。