论文部分内容阅读
复杂疾病是由疾病相关基因引起的生物系统功能障碍所引发,其发生发展过程受多个基因的相互作用影响。目前,基于生物分子网络的疾病模块挖掘与分析已成为揭示复杂疾病作用机理的最有效的方法之一。然而,现有的疾病模块识别通常是基于多样本构建网络进行挖掘,从而导致识别到的疾病模块难以在单个样本中体现,难以应用于疾病诊断。本文首先基于个体特异性网络设计进化多目标优化算法用于寻找与疾病相关性强且连接紧密的疾病模块,进而以挖掘具有较好分类效果的疾病模块为目标,提出了可有效用于诊断的疾病模块挖掘方法。本文的主要研究工作如下:(1)本文提出了基于个体特异性网络的进化多目标优化疾病模块识别算法(EMODMI)。首先,EMODMI算法基于单个疾病样本构建个体特异性网络。其次,基于个体特异性网络设计了多目标进化算法,该算法同时优化模块与疾病关联强度和模块内部紧密度,并为疾病模块识别问题设计了适用的初始化和种群更新指导策略。最后,提出模块分数用于评价疾病模块优劣,并依据模块分数从由多目标进化算法所得的一组非支配解集中选出最终的疾病模块。在实验阶段,在两个哮喘数据集上与四个传统的疾病模块识别算法对比分析了EMODMI算法的性能优势,并验证了识别到的疾病模块的生物学意义。(2)本文提出了基于进化多目标优化的可分类疾病模块识别算法(EMOCDMI),以挖掘除具备与疾病相关性强和连接紧密等特征之外,还便于区分疾病与正常样本的疾病模块。首先,EMOCDMI算法继承了(1)的网络构造策略,基于单个疾病样本构建个体特异性网络。其次,设计多目标进化算法挖掘疾病模块,与EMODMI不同之处在于本算法将分类错误率增设为优化目标,并基于个体特异性网络设计了基于相互作用的分类特征构造策略用于目标函数评估,还提出了随机性交叉算子和修复性变异算子以避免算法陷入局部最优。最后,依据分类错误率从非支配解集中选出最优疾病模块。通过与一个可分类疾病模块识别算法和四个疾病诊断算法在八个数据集上的实验结果对比表明,EMOCDMI算法可以有效的识别能够区分疾病和正常样本的疾病模块,且基于模块信息区分疾病和正常样本的效果要优于传统的基于分子的疾病诊断。