论文部分内容阅读
人类基因组计划和许多物种基因组测试的完成标志着一个新的生物学研究时代─后基因组时代来临了,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段,生命科学的研究重点开始从基因组学转移到了蛋白质组学。高通量的生物技术产生了大量的蛋白质网络数据,现有实验结果表明蛋白质网络是由相互作用的、可划分的功能模块所组成。检测这些功能模块对于了解蛋白质网络的拓扑结构是非常重要的。目前已有的三级分子联合体识别算法(MCODE),派系过滤算法(CPM)和基于结构的网络聚类算法(SCAN)等方法只是检测网络中“稠密”的簇而忽略了蛋白质网络自身的属性——簇有着不同的尺寸、密度和形状。本文根据蛋白质网络中模块拓扑结构的多样性,提出了一种应用于蛋白质网络的基于熵的聚类算法。首先,利用两点之间共有邻居数得到两点之间的相似度。其次,通过对两点之间相似度的熵化来得到两点之间的相似熵。最后,再利用得到的相似熵根据最小带权相似熵准则进行聚类,从而将网络进行模块划分。通过对酵母菌网络的仿真实验研究,从匹配率和功能同源性两个方面与已知的经典算法进行比较,结果表明该方法在应用于蛋白质功能的注释上要优于其它算法。为了进一步验证算法的有效性,对人工合成网络和社会网络也进行了测试,实验结果表明本文算法是可靠的且具有良好的扩展性。