基于支持向量机的蛋白质结构域预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lygwzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是随着人类基因组计划的启动而兴起的一门新的交叉学科,是以计算机为工具对生物信息进行储存、检索和分析的科学。随着人类基因组计划宣告完成,生命科学进入后基因组时代,其研究重点也主要转移到基因组学和蛋白组学两方面。其中蛋白组学是以细胞内全部蛋白质的存在及其活动方式为研究对象,而传统的对单个蛋白质进行研究的方式已无法满足后基因组时代的要求。生物信息学在蛋白质高级结构的解析中的重要性将越来越突出。分析蛋白质首先就是确定蛋白质结构域的构成,这是研究蛋白质的最重要步骤。检测蛋白质的结构域是一个富有挑战性的问题,特别是仅从序列信息直接进行结构域分析逐渐成为结构域预测的主要研究目标。本文针对从蛋白质序列信息检测结构域边界信号问题进行了较深入的研究。1.根据多序列比对结果,定义了几种方法对比对结果进行特征提取,根据蛋白质的构象特征计算种子序列的构象熵值,并利用信息熵理论使得结构域信息最大化,最后使用支持向量机学习系统对提取的特征值进行分类,首先根据序列分析结果提出了相关特征并进行支持向量机学习。2.经过探究支持向量机参数对结构域边界信号不敏感的原因,首次提出将蛋白质结构域边界检测问题归结为非平衡数据学习问题,即蛋白质结构域问题中的结构域内部为多数的负类;结构域边界为少数的正类,提出了在支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样的新的欠采样方法。3.在支持向量机学习前,对训练集利用本文提出的基于遗传算法进行采样,为了更有效的评价采样后训练样本的分类器效果,本文采用AUC (Area Under ROC Curve) ,ROC曲线下的面积,作为分类器性能评价指标,并将其作为遗传算法的适应度函数。实验结果表明本文提出的采样技术明显好于随意采样技术,而且在蛋白质结构域的预测应用中明显优于单独使用支持向量机分类器。4.借助支持向量机与模糊分类系统的等价性理论证明,提出了基于支持向量机的模糊分类系统模型。首先利用SVM的学习算法获得分类系统的稀疏表示,然后将获得的分类系统映射成等价的正定模糊分类系统,再利用模糊集合的贴近度概念和粒子群优化方法对模糊分类系统的模糊规则库进行约简和优化。模糊分类系统具有更好的范化能力,其学习过程等价于SVM系统参数的优化,但具有较快的训练速度。
其他文献
本文报道了六种对位取代苯基四氟硼酸重氮盐R——N2+BF4=(R=F,Cl,Br,I,OCH3,NO2)与叔丁基氯化镁反应中的 CIDNP 现象,并讨论苯环上的取代基对核极化的影响
;从大量的事故案例吸取的教训可以看出,安全隐患排查不到位是造成事故的直接原因。本文阐述了安全隐患的概念,分析安全隐患产生的原因,并对如何排查、控制安全隐患提出了措施
<正>演讲又叫讲演或演说,是指在公众场所,以有声语言为主要手段,以体态语言为辅助手段,针对某个具体问题,鲜明、完整地发表自己的见解和主张,阐明事理或抒发情感,进行宣传鼓
<正>在日趋激烈的报业市场竞争之中,同类报纸要想在新闻资源有限、读者定位相近、办报方针类似、办报理念接近的形势下更好地突出自身的风格和特色,赢得市场先机,就需要在报
目的:探讨补气活血利水法治疗慢性心力衰竭(气虚血瘀型)的疗效。方法:选取慢性心力衰竭(气虚血瘀型)患者74例,随机分为观察组、对照组各37例,对照组患者给予常规西药治疗,观
光纤表面等离子体共振传感器把光纤传输技术和表面等离子体共振技术有机结合,对于实时传输和精确测量有着重要意义。通过Comsol Multiphysic软件对光纤表面等离子体共振传感
目的为了使得人力资源管理最大限度地体现其自身价值,提高员工工作积极性和工作效率。方法针对新的人才观、人力资源观在单位目标决策、资源整合、绩效考核、薪资激励等方面
目的探索产科集束化护理方案是否可以预防产后抑郁。方法 100例产妇随机分为实验组与对照组,每组50例。对照组采取常规护理,实验组采取集束化护理方案护理。对两组产前产后使
随着乡村旅游的发展,古村落旅游地凭借其特有的民俗风情和深厚的农耕文明而受到越来越多人的喜爱。由于其在发展过程中存在诸多利益主体,不同利益主体复杂的诉求和古村落景区
目的:观察老年股骨颈骨折患者应用心理护理的临床效果。方法:选取58例老年股骨颈骨折患者,随机分为治疗组和对照组,每组各29例。对照组患者给予常规护理干预,治疗组患者在常