生物序列相似性向量及其识别DNA结合蛋白的效果研究

来源 :南开大学 | 被引量 : 2次 | 上传用户:lls2508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物分子数据量的急剧增长,如何利用这些数据,通过数据分析,揭示出对人类有价值的信息,从而产生了一门由生物学家、数学家和计算机科学家共同研究的新型交叉学科:生物信息学。它的研究重点主要是如何通过生物序列分析进而研究它们的结构和功能。在本文中,我们主要致力于通过不同的计算方法来研究蛋白质序列与结构和功能的关系,主要有以下成果:第二章中,DNA结合蛋白在生物细胞中属于功能蛋白,在各种重要的生物活动中起着至关重要的作用。因此,我们建立了一种基于DNA结合蛋白的全面特征分析的分类预测模型。此模型是根据蛋白质序列的序列长度信息和氨基酸的组成成分信息、进化信息、二级结构信息、物理化学性质和功能信息,把每条蛋白质序列转化为相应的特征向量。进一步,根据不同的特征选择方法去除了特征向量中可能与预测DNA结合蛋白不相关并且特征向量之间的冗余,然后把这些特征向量作为支持向量机的输入,我们的模型在5倍折叠交叉检验下预测准确率达到了85.3%,在相同的测试集DNAiset下,比DNA-Binder、 DNA-Prot和DNABIND方法的预测准确率高。进一步,在真实的测试集DNArset下,我们的模型比其它方法产生的模型有明显的提高。本文的研究证明了我们的模型可以有效的对DNA结合蛋白进行预测。第三章中,序列比对方法是生物信息学研究的重要方法之一,但是该方法计算复杂度较高,对于长序列、多序列比对以及巨大的数据库搜索,实现该算法是很困难的,所以很多研究者致力于非比对方法的研究。我们应用了伪氨基酸组成方法的思想,将20个氨基酸的出现频率和基于三个理化性质指标建立的图形表示方法得到的3维特征向量组合在一起,从而蛋白质序列得到了23维特征向量。通过9个物种之间的相似性说明了我们的方法的有效性和合理性。并且通过与Clustal W的相关性分析,我们的方法比其它图形表示方法能挖掘出更多的生物信息。同时,我们用两种新的方法对产生的蛋白质序列的图形表示进行了数值刻画,用伪氨基酸组成方法得到的特征向量作为KNN和支持向量机的输入,从而对DNA结合蛋白进行了预测,此方法计算复杂度低并且得到了86%的预测准确率。本文的研究证明了我们的方法对蛋白质序列的相似性比较以及DNA结合蛋白预测的有效性。第四章中,我们通过计算方法分析了在流感病毒H7N9NA蛋白中,位于蛋白表面并且高保守的C-terminal28个氨基酸残基段。根据滑动窗口的变化量来判断氨基酸残基段的保守性,并且给出了在相同滑动窗口下溶剂可达性的值,得到残基段的保守性与溶剂可达性的平均值有比较好的相关性,从而找到C-terminal中28个氨基酸残基段即保守又位于溶剂表面。另外,通过RNA序列3’-terminal保守性以及蛋白质3D晶体结构图证实了C-terminal区域中28个氨基酸残基即保守又位于溶剂表面。因此,在设计流感病毒H7N9的抑制剂时,这个保守区域可以作为可能的绑定位点。
其他文献
王小波逝世十年,人们并没有忘记他,更是形成了奇特的“王小波现象”。对王的“文本”和“人本”,人们投注了太多的社会和文化想象;王小波也已超出其作家的身份,被附加了各种
当前,中国古代的各体文学理论(如诗、文、词、小说、戏曲等)或某一体中不同载体的文学理论(如系统文论著作、诗话等“话”、选评本、序跋、书信等)的研究用力是不均衡的。与
酒店建设中的给排水工程在整个酒店建设项目中占有重要位置。给排水工程施工相对较复杂,其工程质量的好坏,对酒店开业后的社会效益、经济效益有着十分重大的的影响。本文就当前
为了评价某国产动物狂犬病疫苗公司生产的狂犬病灭活疫苗的免疫效果,在东莞市某犬养殖场选取了10只3个月龄幼犬进行免疫效果试验,采用皮下注射,1个月后采集血清,用ELISA方法
<正>互联网上有许多产品在设计之初是围绕某一核心功能推出的,随着产品的发展,一些以核心功能为基础的延伸功能以及某些附加功能也被开发出来,使得网络产品的功能越来
目的探讨功能性消化不良(FD)患者血清胃蛋白酶原(PG)Ⅰ、PGⅡ、胃泌素-17(G-17)水平及其意义。方法本研究采用病例对照研究,根据罗马Ⅲ标准诊断为功能性消化不良的共229例受
纸成为语言的载体,带来了文学历史上最大的革命。网络技术、多媒体技术等电子信息技术则使文学创作进入了“无纸写作”和“无纸传播”时代,文学的视觉形式变得越来越重要,超
我国现阶段幼儿园的安全教育是至关重要的,不仅因为它关系到的是一个家庭的幸福,它还关系着整个社会的安定和谐,安全上稍有问题所造成的伤害是毁灭性的,因此,在这一点上容不
杜牧(803—852年),字牧之,号樊川,京兆万年(陕西西安)人,晚唐时期著名诗人、文学家、思想家,诗名与李商隐齐,又类于杜甫,故时称“小杜”。杜牧豪放有为,刚直敢言,但仕途却坎
目的了解2008—2018年钦州市钦北区狂犬病的流行情况,分析其发病特点和流行趋势,为狂犬病预防控制工作提供科学依据。方法用描述性流行病学方法对2008—2018年钦州市钦北区的