论文部分内容阅读
局部叠加基因表达模式是指一组基因的表达水平在条件选择性和表达多样性等生物学机制作用下表现出来的表达特征,该模式的研究与发现有助于揭示基因在不同细胞调控条件下承担的功能以及不同基因簇在整个细胞调控过程中潜在的生物学关系。然而,局部叠加基因表达模式分析问题的特殊性给聚类分析方法研究提出了挑战,不仅要求聚类分析方法能够有效挖掘不同表达子空间下的局部基因表达模式,同时还要求所挖掘的结果具有生物学一致性并符合基因表达选择性和多样性的生物学机制。为此,本文针对局部叠加基因表达模式挖掘与分析涉及的四个密切相关的问题,即基因叠加局部表达模式的挖掘问题、基因和表达子空间双向叠加局部表达模式的挖掘问题、局部基因表达模式子空间边界模糊问题、以及局部基因表达模式的提取与优化问题,以模糊聚类和变量加权子空间聚类方法为基础,并结合了基于基因本体和基因共表达网络的基因聚类有效性验证方法,提出了模糊硬子空间聚类分析方法、模糊软子空间聚类分析方法、可变窗口分析方法和后处理分析方法,为开展局部叠加基因表达模式的挖掘与分析提供了新型有效的分析方法和工具。本文的总体研究思路是针对局部叠加基因表达模式分析的问题特性,在综合分析了现有的聚类方法特点的基础上,以模糊聚类和变量加权子空间聚类方法为基础,提出了模糊W-K-Means方法和模糊EWKM方法。所提出的方法不仅能够发现与局部基因表达模式相关的一组表达子空间以及该子空间下的局部表达基因聚类,而且能够同时实现基因与聚类之间的一对多映射,实验结果证明利用上述方法挖掘的局部叠加基因表达模式具有生物学一致性并符合基因表达的生物学机制,有效地解决了局部叠加基因表达模式的挖掘问题。此外,本文进一步针对所挖掘的局部表达基因聚类具有表达子空间边界模糊和表达模式受噪声干扰的问题,提出了可变窗口分析方法和后处理分析方法,通过交互式可视化方式查看基因聚类在不同表达子空间下局部表达模式的动态变化过程来确定基因聚类的局部表达子空间边界,并通过噪声清除、属性权重更新、表达模式建模和聚类有效性验证等一系列操作,实现局部叠加基因表达模式的增强,进一步提高了所挖掘的基因表达模式的质量。本文提出的分析方法瞄准了局部叠加基因表达模式分析问题的不同方面,并各有侧重。其中,本文提出的模糊W-K-Means方法和模糊EWKM方法集中解决了局部叠加基因表达模式挖掘问题,可变窗口方法和后处理方法集中对得到的聚类结果进行深入地分析和处理。同时,本文提出的四种分析方法都以变量加权子空间聚类方法为基础,可配合使用,作为解决局部叠加基因表达模式分析中所包括的模式挖掘、模式提取、模式优化、模式重用等问题的综合解决办法,为局部叠加基因表达模式分析的实际应用提供了新的途径。