基于图核的蛋白质分类

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:danan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质科学是生物科学的重要组成部分,蛋白质分类是蛋白质科学的热点研究领域。如今,模式识别与机器学习的广泛研究,快速的推动了蛋白质分类的发展。在模式识别领域,大部分数据是不能线性区分的。蛋白质的分类是一种复杂且非线性的分类问题,人们迫不及待的要寻求一种高效的算法,来对非线性模式进行分类。核方法的出现,解决了非线性模式线性不可分的问题,为此,核方法也越来越受到更多的关注和研究。在现实世界中,很多对象都是结构化的。一种有效的表示方法就是图。将核机器应用到图结构上,便得到图核。基于图结构的广泛适用性,图核已经被应用到很多领域并广受关注。易于表示和计算是评判图核的重要标准。很多种图核已经被提出并可大致分为三类:基于通路或路径的图核、基于子树模式的图核以及基于子图的图核。随着Weisfeiler-Lehman图匹配算法的提出,实验发现,将其与图核结合起来,把新得到的图核应用到支撑向量机中对蛋白质进行分类,可以取得良好的分类效果,并且这种图核能够适用于绝大部分的图结构。本文的工作内容主要在以下几个方面:(1)深入了解分类器的基本原理,深入分析核方法的工作原理,并讲解了核函数的性质、判别方法以及复杂核函数的构造方法,介绍了基于核函数的支撑向量机,并引出图核概念,介绍已有的几种图核;(2)了解Weisfeiler-Lehman图匹配算法过程,并将其结合到图核算法中,提出WL图核方法。由于WL图核能充分挖掘图的拓扑信息及图顶点之间的联系,用WL图核来度量两个图之间的匹配程度,能够取得较好的效果。蛋白质的功能与其空间结构密切相关,可以将蛋白质分子用图表示出来,模拟出蛋白质的空间结构。本文实验中,首先根据蛋白质一级结构及三级结构构造图,并用WL图核来分类,时间复杂度相差不大,分类准确率比其他方法要好。
其他文献
随着互联网的飞速发展,以互联网、信息技术为基础的在线学习变得越来越普遍。在线学习可以克服地域差异,并且可以让用户根据自身情况,自主灵活的安排学习时间,极大方便了用户