基于智能计算的蛋白质残基溶剂可及性和功能的分析预测

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:shuiyuwqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构决定其相应的功能,蛋白质结构研究是蛋白质组学研究的基础。蛋白质残基溶剂可及性是一种基础的蛋白质结构信息,它对于分析蛋白质空间三维构象、构建蛋白质三维结构、预测蛋白质与其它分子相互作用以及蛋白质自身的新陈代谢和进化提供重要的基础性意义。蛋白质通过与其它分子(核酸、蛋白质、小分子配体)之间的相互作用表达自身的功能。蛋白质功能残基的分析和识别对于研究蛋白质的功能表达具有重要的现实意义。传统的基于生物物理和生物化学获取蛋白质结构和功能信息的方法需要精密昂贵的实验仪器,繁琐的实验过程和密集的人力资源。这些传统的方法受益于生物信息学的发展,后者通过使用智能计算的方式提供准确的工具预测蛋白质结构信息和功能残基。事实上,仅有约2‰的蛋白质具有较为准确的结构数据。面对海量增长的未知结构和功能的蛋白质,基于智能计算的方法充分发挥了计算机高效便捷和准确的特性,给进一步实验探究提供了丰富的宝贵的线索。本文针对蛋白质残基的溶剂可及性和功能进行了分析和预测,主要成果如下:(1)提出了一种基于权重滑动窗口策略和粒子群优化的回归预测蛋白质残基暴露水平(溶剂可及性)的方法。首先,提取了基于序列的五种类型的特征来编码蛋白质每一个残基及其邻近残基。为了精确量化邻近残基溶剂可及性对于中心残基的影响,采用了基于权重的滑动窗口策略赋予滑动窗口中每个位置不同的权重。最后,使用粒子群优化算法对于支持向量回归算法中的参数进行寻优。该方法在两个基准数据集上的预测性能较于前人的研究方法有较大的提升。该研究探究了不同的回归算法对于模型的影响,对比了不同的参数寻优方法对于预测性能的影响,分析了回归预测误差的来源以及20种氨基酸的平均误差水平。为了验证该方法的泛化性能,同时与之前的预测工具进行对比,该方法连同领域内知名的若干预测工具在独立测试集上进行对比试验。独立测试集上结果证明了本文方法具有较好的泛化性能。(2)提出了一种基于代价敏感性集成学习和空间聚类算法预测抗原蛋白质与抗体相互作用的抗原决定残基及潜在表位的方法。首先,使用五种基于序列的特征对抗原蛋白质残基进行编码,这些特征包括保守性特征、二级结构特征、无序区域特征、二肽构成特征和理化属性特征。为了提高计算速度并且去除冗余特征,使用Fisher-Markov Selector对特征与样本标签进行相关性排序,然后使用增量特征选择方法获得最优特征子集。抗原表位预测是一个典型的不平衡数据分类问题,为了克服传统机器学习在此类问题上的缺陷,本研究引入基于代价敏感性的集成学习算法。考虑到绝大多数抗原决定残基或序列连续或空间邻近的情况,本研究在预测抗原决定残基的基础上,引入空间聚类算法预测这些抗原决定残基可能形成的潜在表位。该方法分别在基准测试集和独立测试集上与前人的方法进行对比,实验结果证明了该方法的有效性和良好的泛化性能。(3)提出了一种基于快速自适应集成学习和配体特异性策略预测亚铁血红素绑定残基的方法。首先根据亚铁血红素绑定残基的特性,综合使用了氨基酸分布特征、motif序列模板特征、表面倾向性特征和二级结构特征。特征分析发现,亚铁血红素绑定残基在半胱氨酸和组氨酸上呈现出富集分布,倾向于蛋白质表面的凹陷区域,较多的集中在二级结构的衔接处。亚铁血红素绑定残基预测是一个典型的不平衡数据分类问题。本研究针对性地提出一种新的快速自适应集成学习算法,该算法旨在通过动态监控和调节子数据集中正负样本比例实现对于子分类器的优化。该算法速度较快同时具有较佳的自适应性;研究中特别针对两种主要的亚铁血红素绑定配体类型引入了配体特异性策略,该策略能够显著提高传统的通用模型的预测准确率。基准测试集和独立测试集上的实验分别证明了该方法相对于其它算法的优越性和良好的泛化性能。文中同时分析论述了测试集正负样本比例对算法造成的潜在影响。最后,本研究发布了在线预测工具,为生物学家高效计算亚铁血红素蛋白质提供了有益的帮助。
其他文献
<正>中国古典诗歌源远流长,在其发展历史上,曾出现过唐诗、宋词、元曲这样光芒四射的艺术高峰。这些艺术高峰的出现,除了时代的感召,时序的迁流对诗人的影响之外,更为重要的
会议
<正>马鞍山煤系在湖北省分布面广,储量丰富,但一般含有较高之灰份,特别是含有较高之硫分.为了适应炼优质焦炭的需要,我们于五八年九月,按照领导指示前往宜昌专区松木坪煤矿进
期刊
静电放电ESD(Electro-Static Discharge)现象无处不在,据统计ESD对集成电路(IC)造成的损失高达58%以上,它已成为影响IC可靠性的最大因素。本文基于深亚微米工艺进行ESD防护器
长久以来,科学教育的主要目标是培养具有科学素养的公民,作为科学素养的重要构成,科学本质得到了国内外学界的普遍关注。已有的研究显示我国中学生的科学本质观尚处于较低的
目的:分析脑膜占位性病变的CT及MR影像。方法:选择我院于2016年2月—2018年2月间收治的84例脑膜瘤患者作为观察研究对象,分别接受CT与MR诊断,统计比较两种诊断方法的影像表现
我国属于农业大国,国之根本为农业。目前,我国有很多农业院校,均是以培养优秀农业人才为目的,并不断创新与变革教学模式与教学方法。随着社会的不断发展,科学技术的发展创新,
草地早熟禾是我国城市草坪以及运动场草坪的主要建植草种,而干旱是限制草坪草生长的主要因子。研究草坪草耐旱、抗旱的生理机理和分子生物学机制,无疑对于提高草坪草的耐旱性
住宅建筑可持续发展原则,强调建筑与人文、环境及科技的和谐统一;住宅由传统高消耗型发展模式转向高效生态型发展模式是必由之路,是当今世界建筑可持续发展的必然趋势;住宅的生态
随着我国现代化水平的不断进步,高速公路的建设和管理水平已经成为衡量我国经济发展水平的重要标志之一,而在高速公路现代化管理实现上,高速公路信息化建设占据最重要手段地
在各种电影类型中,家庭伦理和犯罪题材一直是诸多电影工作者所关注和创作的热点,而剧情片《假戏真做》是将家庭伦理和犯罪题材紧密结合的一部短片,片中人物个性鲜明,剧情聚焦