论文部分内容阅读
蛋白质的性状由其三级结构确定,蛋白质的多样性功能的实现需要柔性,从氨基酸序列出发来预测蛋白质的柔性区域是一个极具挑战性的课题,这相当于基于氨基酸序列信息来预测蛋白质的结构。之所以提出这样的课题,主要是基于1960年代Anfinsen所提出的“序列决定结构”的思想。测序速度与结构测定速度的悬殊使蛋白质结构预测成为生物学研究领域的一个重要目标。目前确定蛋白质三级结构的实验方法主要有X射线晶体衍射和核磁共振,但这两种方法在测定过程中都费时费力,难度极高。学术界大多采用生物信息学的计算方法,利用相关的蛋白质数据库,编辑合理的算法,根据已知蛋白质的序列来预测其天然构象,从中得到柔性区域的数据。在机器学习方法中,从蛋白质序列来预测结构必然会出现高维特征。在确保预测精度损失最小的前提下,选择尽量少的预测特征,是解决此类问题首要出发点。特征选择技术的核心是最大相关最小冗余,能够从特征集中选出同时具有这两个特性的特征子集,是特征选择技术的目标。因此,特征选择技术是近几年在机器学习领域发展最为活跃的研究内容之一。对蛋白质柔性区域的定义存在多种不同的方式,其中一种典型的定义是基于X晶体衍射数据中的B-因子值的大小来定义的。残基的B-因子值越大,表示其结构的不确定性越大,即表现为柔性,反之则为刚性。另一种是基于多个蛋白质共有序列结构偏差的比较来定义柔性区域的,当共有序列在多个蛋白质中的结构偏差较大时,即该区域定义为柔性区域,反之则为刚性。首先,在基于蛋白质共有序列结构偏差的柔性区域定义方法所提取的数据集上,本文提出了一种从蛋白质序列预测蛋白质柔性区域的新的模型,即FSID_FRP模型。此模型首先通过一种简单的基于多样性增量的特征选择方法,我们称之为FSID方法,选取有效特征。该特征选择方法与基于熵的特征选择方法相比更适用于小样本分类问题,它在蛋白质序列的柔性/刚性区域预测中显得非常有效。最后,应用逻辑回归的方法将选出的特征整合到判别柔性或刚性的方案中。其次,为了进一步验证该预测模型的预测性能,将该模型应用到包含1000个PDB序列结构的数据集上,柔性区域的定义采用标准化的B-因子值给出。1000个蛋白质数据随机分为两组,每组包含500个蛋白质数据,其中一组作为训练集,另一组作为检验集。在训练集上,采用FSID方法提取特征子集,在检验集上应用FSID_FRP模型进行预测性能评估。