从蛋白质序列预测蛋白质的柔性区域

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:xtipdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的性状由其三级结构确定,蛋白质的多样性功能的实现需要柔性,从氨基酸序列出发来预测蛋白质的柔性区域是一个极具挑战性的课题,这相当于基于氨基酸序列信息来预测蛋白质的结构。之所以提出这样的课题,主要是基于1960年代Anfinsen所提出的“序列决定结构”的思想。测序速度与结构测定速度的悬殊使蛋白质结构预测成为生物学研究领域的一个重要目标。目前确定蛋白质三级结构的实验方法主要有X射线晶体衍射和核磁共振,但这两种方法在测定过程中都费时费力,难度极高。学术界大多采用生物信息学的计算方法,利用相关的蛋白质数据库,编辑合理的算法,根据已知蛋白质的序列来预测其天然构象,从中得到柔性区域的数据。在机器学习方法中,从蛋白质序列来预测结构必然会出现高维特征。在确保预测精度损失最小的前提下,选择尽量少的预测特征,是解决此类问题首要出发点。特征选择技术的核心是最大相关最小冗余,能够从特征集中选出同时具有这两个特性的特征子集,是特征选择技术的目标。因此,特征选择技术是近几年在机器学习领域发展最为活跃的研究内容之一。对蛋白质柔性区域的定义存在多种不同的方式,其中一种典型的定义是基于X晶体衍射数据中的B-因子值的大小来定义的。残基的B-因子值越大,表示其结构的不确定性越大,即表现为柔性,反之则为刚性。另一种是基于多个蛋白质共有序列结构偏差的比较来定义柔性区域的,当共有序列在多个蛋白质中的结构偏差较大时,即该区域定义为柔性区域,反之则为刚性。首先,在基于蛋白质共有序列结构偏差的柔性区域定义方法所提取的数据集上,本文提出了一种从蛋白质序列预测蛋白质柔性区域的新的模型,即FSID_FRP模型。此模型首先通过一种简单的基于多样性增量的特征选择方法,我们称之为FSID方法,选取有效特征。该特征选择方法与基于熵的特征选择方法相比更适用于小样本分类问题,它在蛋白质序列的柔性/刚性区域预测中显得非常有效。最后,应用逻辑回归的方法将选出的特征整合到判别柔性或刚性的方案中。其次,为了进一步验证该预测模型的预测性能,将该模型应用到包含1000个PDB序列结构的数据集上,柔性区域的定义采用标准化的B-因子值给出。1000个蛋白质数据随机分为两组,每组包含500个蛋白质数据,其中一组作为训练集,另一组作为检验集。在训练集上,采用FSID方法提取特征子集,在检验集上应用FSID_FRP模型进行预测性能评估。
其他文献
市场经济条件下企业财务分析的要求和特点在社会主义市场经济条件下,企业财务分析怎样适应外部经济环境和内部经营管理的需要?一、财务分析主体向多元化延伸过去,企业投资一般为
目的:编制大学生学习倦怠问卷并检验其信效度,验证学习倦怠是否存在对学习的意志和价值认知。方法:本研究根据国内外学习倦怠文献资料,构建访谈提纲,并基于对6名在校大学生的
在当今社会,每天都会有大量信息的交换与传输。在这些信息的交换传输中,信息安全问题不容忽视,因此常使用AES,DES等加密方式去加密一些重要的信息。而在AES,DES或其它加密方式的使用中需要使用到大量随机数源,过去使用的随机数常为算法产生的伪随机数,安全性较低。为解决信息安全上的不足,出现了物理不可复制函数PUF这一概念,随后对物理不可复制函数PUF的研究一直在不断进行着。本文对SRAM PUF的
<正>中医药作为中华中华民族的瑰宝,对于中药剂型的研究及应用有着悠久的历史,早在商朝时期就有了汤剂,此后出现丸、散、膏、丹、饮、胶、酒、露、茶、糕、锭、线、条、棒、
<正> 在现代高技术战争中,防空体系不仅要对付从高、中、低、超低空来袭的各类飞机,还要对付这些飞机发射的导弹;不仅要面临火力打击兵器的杀伤,还要在复杂的电磁环境中求生
目的观察复方鳖甲软肝片治疗慢性乙型肝炎肝纤维化的疗效。方法将59例慢性乙型肝炎患者随机分为2组。对照组20例给予安络化纤丸口服,每次6 g,每天3次,疗程6个月。治疗组39例
椰枣树下无和平。自从2003年5月1日美国总统布什宣布伊拉克大规模作战行动结束以来,驻伊美军仍然频频遭到袭击,死伤不断。特别是2003年10月份后,针对美军的袭击事件呈上升趋
<正>中风后遗症的严重程度一方面与脑功能损害的严重程度有关,一方面与中风早期正确及时的康复治疗有关。中风痉挛性偏瘫一般在发病后3周出现,持续约3个月,是脑中风后恢复过
<正> 野战炊事装备作为重要的后勤装备,由于部队的需要和科技工业的进步得到了迅猛发展。炊事汽车和炊事挂车的出现,大大提高了部队野战炊食保障的机动性;燃油炉具的应用,解