论文部分内容阅读
生物信息学是随着人类基因组计划的启动而兴起的一门新的交叉学科,是以计算机为工具对生物信息进行储存、检索和分析的科学。随着人类基因组计划宣告完成,生命科学进入后基因组时代,其研究重点也主要转移到基因组学和蛋白组学两方面。其中蛋白组学是以细胞内全部蛋白质的存在及其活动方式为研究对象,而传统的对单个蛋白质进行研究的方式已无法满足后基因组时代的要求。生物信息学在蛋白质高级结构的解析中的重要性将越来越突出。分析蛋白质首先就是确定蛋白质结构域的构成,这是研究蛋白质的最重要步骤。检测蛋白质的结构域是一个富有挑战性的问题,特别是仅从序列信息直接进行结构域分析逐渐成为结构域预测的主要研究目标。本文针对从蛋白质序列信息检测结构域边界信号问题进行了较深入的研究。1.根据多序列比对结果,定义了几种方法对比对结果进行特征提取,根据蛋白质的构象特征计算种子序列的构象熵值,并利用信息熵理论使得结构域信息最大化,最后使用支持向量机学习系统对提取的特征值进行分类,首先根据序列分析结果提出了相关特征并进行支持向量机学习。2.经过探究支持向量机参数对结构域边界信号不敏感的原因,首次提出将蛋白质结构域边界检测问题归结为非平衡数据学习问题,即蛋白质结构域问题中的结构域内部为多数的负类;结构域边界为少数的正类,提出了在支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样的新的欠采样方法。3.在支持向量机学习前,对训练集利用本文提出的基于遗传算法进行采样,为了更有效的评价采样后训练样本的分类器效果,本文采用AUC (Area Under ROC Curve) ,ROC曲线下的面积,作为分类器性能评价指标,并将其作为遗传算法的适应度函数。实验结果表明本文提出的采样技术明显好于随意采样技术,而且在蛋白质结构域的预测应用中明显优于单独使用支持向量机分类器。4.借助支持向量机与模糊分类系统的等价性理论证明,提出了基于支持向量机的模糊分类系统模型。首先利用SVM的学习算法获得分类系统的稀疏表示,然后将获得的分类系统映射成等价的正定模糊分类系统,再利用模糊集合的贴近度概念和粒子群优化方法对模糊分类系统的模糊规则库进行约简和优化。模糊分类系统具有更好的范化能力,其学习过程等价于SVM系统参数的优化,但具有较快的训练速度。