蛋白质序列模式发现算法

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wgsgdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代生物信息学是采用计算机技术和信息论方法研究生命科学中各种生物信息的表述、采集、储存、传递、检索、分析和解读的科学。是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透和高度交叉形成的学科。随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题。而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学研究的热点。本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向。在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能。通过已知的蛋白质序列模式可以方便我们对新的蛋白质序列的功能结构进行研究和确认。本文尝试在Pratt算法的基础上引入模糊序列查找方法。能够更好的从互不相关的蛋白质序列集合中找出最具代表性的蛋白质模式。本文的主要工作如下:本文细致地研究了当今国际上各种序列比对算法,系统地阐述了最具代表性的比对算法Smith-Waterman、BLAST、FASTA、并具体地分析了它们的优缺点。对基于模式驱动的蛋白质模式发现算法——Pratt做了详细的分析,并从PROSITE数据库中选取了不同的几种蛋白质序列进行实验证明。在Pratt算法的基础上引入模糊的序列查询方法,对Pratt算法进行优化,并进行实验论证,并得到结果。最后通过对实验结果比较,分析对算法的优缺点做进一步的总结。
其他文献
安全协议提供安全服务,是构建网络安全的基石。随着网络的迅速发展,越来越多的密码技术被应用到安全协议中,保证了网络不同程度的安全性。然而各种针对协议的攻击技术也不断
在信息检索、传感器数据和图像识别等领域中,存在着大量不确定性的数据。当把这些数据存储到数据库时,要求数据库有对其进行处理的能力,而传统的数据库都是确定性的,不能对不
Web应用是应用最广泛、最重要的计算机应用之一。基于Java EE的Web应用是实践较多,发展较迅速的一支。随着基于Java EE的Web应用的发展,很多框架被开发出来并应用。基于Java EE
排课是高等院校教学管理中必不可少的常规工作,同时也是整个教学管理中最复杂、最繁重的工作之一。排课问题普遍存在于各类高等院校当中,无论其规模大小、学科多少,都要涉及
与国际象棋相比较,中国象棋具有更大的棋子运动空间,并且中国象棋的着法更加特殊、棋局变化也更加复杂。在中国象棋计算机博弈中,对于设计一款优秀的博弈软件而言,最费时的就
能量利用效率是衡量无线网络性能的重要指标之一。近年来,随着无线网络技术的成熟及针对传输质量要求的不断提高,如何利用现有的网络资源来减少传输开销、提高能量利用效率已
随着中国越来越多的人拥有私人汽车,车载导航系统逐渐进入人们日常生活。虽然目前国内使用车载导航系统还不是太多,但其巨大的市场潜力引起了广泛重视。车辆导航系统具有巨大
自美国军方实施的“DSN计划”开始,无线传感器网络(Wireless SensorNetwork,WSN)[1]已经走过了近40年的发展历程。在这个过程中,WSN的应用在民用和军事领域得以不断推广,并获得
近年来,随着信息技术的发展,数据存储量持续增长。专家们认为,目前信息技术已经进入以存储为核心的发展阶段。随着存储软硬件规模的扩大,存储设备的兼容性问题成为目前用户最
本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难