基于熵的聚类算法在蛋白质网络模块检测中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sunku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划和许多物种基因组测试的完成标志着一个新的生物学研究时代─后基因组时代来临了,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段,生命科学的研究重点开始从基因组学转移到了蛋白质组学。高通量的生物技术产生了大量的蛋白质网络数据,现有实验结果表明蛋白质网络是由相互作用的、可划分的功能模块所组成。检测这些功能模块对于了解蛋白质网络的拓扑结构是非常重要的。目前已有的三级分子联合体识别算法(MCODE),派系过滤算法(CPM)和基于结构的网络聚类算法(SCAN)等方法只是检测网络中“稠密”的簇而忽略了蛋白质网络自身的属性——簇有着不同的尺寸、密度和形状。本文根据蛋白质网络中模块拓扑结构的多样性,提出了一种应用于蛋白质网络的基于熵的聚类算法。首先,利用两点之间共有邻居数得到两点之间的相似度。其次,通过对两点之间相似度的熵化来得到两点之间的相似熵。最后,再利用得到的相似熵根据最小带权相似熵准则进行聚类,从而将网络进行模块划分。通过对酵母菌网络的仿真实验研究,从匹配率和功能同源性两个方面与已知的经典算法进行比较,结果表明该方法在应用于蛋白质功能的注释上要优于其它算法。为了进一步验证算法的有效性,对人工合成网络和社会网络也进行了测试,实验结果表明本文算法是可靠的且具有良好的扩展性。
其他文献
传统的工作流模型往往只注重活动以及活动之间的关系,而忽略了活动的主体角色和角色之间的交互关系。而对于流程重组主要集中在理论和优化算法研究方面,缺乏理论与实践相结合的
由于网格环境的开放性,使得它不论是进行并行计算,还是进行信息的共享与互操作,都会面临各种各样的安全问题。同时,网格的跨管理域、异构和网格资源的广域分布性、动态性、异
对称密码算法专用描述语言(Special Description Language for the Symmetric Cryptographic Algorithm, SDLSCA)主要应用于密码学这一特定领域,是为了方便密码学专家描述密
科学和工程应用领域中的很多问题都可以通过数学建模转化为函数优化问题(Function Optimization Problems, FOPs),因而对函数优化问题的研究具有十分重要的理论和实际意义。免
随着Internet的快速发展与普及,如何在开放、动态、难控的网络环境下实现各类资源的共享和集成已经成为计算机软件技术面临的重大挑战之一,流程建模技术也受到更为广泛的关注。
随着互联网的发展和智能终端的普及,短信、微博、微信等现代信息传播手段被广泛应用,它们都具有使用便捷、传播快速等优点。相对而言,短信对受众的年龄与知识水平、移动终端
进入21世纪以来,各类网站社会性网络化的倾向明显,越来越多的网站集购物、交友、聊天、论坛和博客于一体,为用户提供全方位的服务。作为个性化服务的一种方式,个性化推荐系统能够
随着网络通信技术的飞速发展,多播路由的通信方式受到普遍重视。但当前多播路由算法的研究大多针对无约束多播路由问题和时延受限多播路由问题,在应用中缺乏典型性和实效性。本
关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、
卫星舱装填问题可简单描述为:将给定的仪器和设备等有效载荷合理地、紧凑地放置在卫星舱的承载板上,满足给定的性能约束前提下,使舱室尽可能小。求解该问题时,一般都是将仪器