论文部分内容阅读
在人类的基因测序计划宣告完成的背景下,生命科学领域正逐渐把研究重点转向蛋白质范畴。近年来,随着机器学习算法研究的热潮,其在各个领域的应用备受关注,蛋白质组学领域也深受影响。由于PPI网络的不停壮大,内容逐渐完善,一个海量数据以及高复杂性的PPI网络对相关工作提出了挑战。目前,对于PPIN复合体的识别研究主要以聚类算法的应用为主。通过研究发现这些算法策略在不同程度上都存在着局限性。因此,本课题基于对当前蛋白质网络聚类问题中存在的问题,提出了基于改进PSO算法——KPSO算法的蛋白质网络复合体检测算法研究。本课题针对PPIN聚类中的算法速度及检测精确度等问题,进行了相关的调查、研究、实验和分析,基于改进粒子群算法,融合拓扑结构、功能注释以及生物进化等信息到蛋白质模块的检测中,具有重要的学术意义。具体描述如下:(1)分析和比较几种解决策略在PPIN聚类上的性能优缺点目前,应用在PPIN聚类上的算法五花八门,种类繁多。但是,随着蛋白质网络的发掘,其复杂性,规模的不断变化,导致一些算法并不适合或是对该问题的解决效果不好。本文将对几种常见的解决策略进行介绍、分析和比较,总结各个策略的优缺点。希望从中可以得到借鉴,为本文的策略提供有价值的参考。(2)探讨PPIN功能模块聚类研究中需要关注的问题当前,聚类算法在PPIN的功能模块检测上已取得了一些显著成果。但是,聚类算法是一种主观性很强的研究方法,并且由于计算机领域的研究者对生物领域知识的掌握不足,往往容易忽视蛋白质数据的生物特性,导致聚类结果的不合理性。因此,本文对于在蛋白质相互作用网络聚类过程中需要注意的问题进行探讨,如算法的选择、数据的获取和处理、相似度的定义、网络的建模以及算法参数的设置等。(3)提出一种高效、稳定、准确的PPIN聚类策略通过对已有算法的研究和比较分析,以及对算法选择、数据获取和处理、相似度定义等问题的探讨,提出一种高效,鲁棒性高的PPIN检测策略,克服当前算法存在的不足。并对给出的检测策略进行基本原理概述、过程介绍和实验验证。