基于蛋白质聚类的同源建模结构预测研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:lhl1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质三维结构预测是当前生物信息学的研究热点之一。以已知蛋白质结构为模板的同源建模(Homology Modeling)算法被认为是当前最成功的蛋白质结构预测算法。但是能够作为模板的蛋白质结构数量较少以及同结构模板序列比对的精度严重制约了同源建模算法的实际应用。针对这一问题,我们提出了基于结构域聚类的同源建模预测研究方案,首先对蛋白质序列进行同源聚类,然后构建基于结构域聚类的蛋白质模板数据库,并提出了基于结构固定的目标-模板序列比对算法,显著提高了目标-模板序列比对的精度。在此基础上,针对含有多结构域的蛋白质序列无法找到合适模板的问题,我们提出了一种结构域模板融合的方法,显著提高了蛋白质结构预测的精度,有效弥补了“结构模板数量不足”的缺陷。本文的主要工作包括如下几个方面:1、提出了一种基于结构域相似性的蛋白质同源聚类算法。我们首先对蛋白质序列进行相似性比较分析,根据序列之间的相似性程度构建相似性矩阵,在此基础上,利用蛋白质结构域以及结构域的构成顺序,对相似性矩阵进行过滤,剔除其中相似性较低的比对,然后利用图来描述剩余相似性关系。最后采用马尔科夫图流算法对上述相似性图进行聚类处理,实验表明,该方法可以快速、准确的聚类orthologs和paralogs。2、构建了一种基于结构域聚类的蛋白质模板数据库。基于各种结构域家族数据库,及InterPro数据库和PDB数据库的相互对应关系,从PDB数据库中提取各个结构域的三维结构数据。然后对结构域进行聚类分析,并构建以结构域聚类为基础的模板数据库。在此基础上,提出了一种结构固定的序列比对算法(structure-anchored alignment),以生成最优的目标-模板序列比对。初步的实验结果显示,采用我们的方法,可以更精确得预测出更多的蛋白质结构。3、提出了一种结构域融合策略。针对无法在现有数据库中找到模板的蛋白质(如多结构域蛋白)序列,我们首先对蛋白质序列进行结构域映射分解,然后基于各结构域的核心结构预测出结构域片段序列的三维结构,最后通过这些中间预测结构进行融合与优化,得到最终的蛋白质三维预测结构。实验表明,当无法找到高重合率的结构模板时,该方法得到更高精度的预测结构。
其他文献
人民代表大会制度是中华人民共和国的政权组织形式,是我国的根本政治制度,是符合中国国情、体现中国社会主义国家性质、能够保证中国人民当家作主的政治制度。坚持和完善人民
从"跨文化的外语教学"的理论基础出发,分析中国目前大学德语教学的现状;结合学习者的主要特点,从教材编写、教师跨文化意识的提高以及教学媒体方面举例,探讨如何在大学德语教
<正> 以昭君的悲剧为题材写成的诗、词、剧、曲非常之多。作家们或同情她在汉宫的不被赏识,或怜悯她远嫁匈奴的悲哀,有的写昭君是为了写自己的怀才不遇,有的甚至表现了大汉族
目的了解骨科护士对脊髓损伤病人神经系统评估技能应用现状及神经系统评估专科知识水平,以采取针对性措施提高护士对脊髓损伤病人神经系统评估质量。方法采用自行设计的脊髓
战国农户土地的最初来源有"分田"和"授田"两条途径。"分田"就是取消井田内部"公田"和"私田"的界限,将土地分配给各个家庭,这是战国农户土地最初来源的主要途径。"授田"是国家
~~
电子送达在信息化时代有着极其广阔发展空间。通过普及电子送达的正确认识、完善电子送达程序规制、加强电子送达技术及相关设备保障,进而推行电子送达在全国法院系统有效落
农村基层组织担负着凝聚人心、服务群众、推动发展、促进和谐的重要责任。如何做好新形势下农村基层组织建设工作,是当前需要认真探讨和迫切解决的重要课题。广州市白云区从
21世纪,中国经济的高速增长与自然资源科学开采、集约使用的矛盾将愈加突出和尖锐,这一矛盾深刻地影响到了经济社会的可持续发展和生态文明建设。我国自然资源产权制度长期以
新生儿黄疸是新生儿时期的常见病,也是新生儿疾病的重要组成部分,发病率高,多于出生后1周出现,约占50%~75%。主要表现为巩膜、黏膜、皮肤等处黄染。新生儿黄疸病因复杂,病种多样,疾病