基于序列顺序信息的DNA结合蛋白识别与远程同源性检测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:massmass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物测序技术的研究不断深入,蛋白质序列数据呈爆炸性的增长,然而与之相比,蛋白质功能和结构数据增长缓慢。因此有必要利用蛋白质的一级结构预测蛋白质的功能和结构。本文对蛋白质功能和结构预测领域中的两个重要问题进行了深入的研究,包括DNA结合蛋白识别和蛋白质远程同源性检测。本文研究的切入点为探索提取和利用蛋白质序列信息,并将这些信息用于构建预测模型。本文通过结合机器学习方法、自然语言处理技术和蛋白质序列特征提取策略对上述两个问题进行了深入的研究,具体研究内容如下:第一,DNA结合蛋白识别是蛋白质功能预测领域中的一个重要问题。针对这个问题,本文提出两种预测方法Pse DNA-Pro和i DNA-Prot|dis。本文首次把伪氨基酸组成(Pseudo Amino Acid Composition,Pse AAC)应用到这个领域,并针对伪氨基酸组成的不足,提出改进的方案,进而提出了一种新的预测方法Pse DNA-Pro。此外,该方法使用了另外两种蛋白质序列特征:全局氨基酸组成和氨基酸物理化学距离转换。通过采用这三种特征提取方法,将蛋白质转化为特征向量,之后采用支持向量机(Support Vector Machine,SVM)构建分类器识别DNA结合蛋白。在两个数据集上的结果显示,Pse DNA-Pro预测准确率分别为80.05%和83.33%,优于其他对比实验方法。虽然Pse DNA-Pro方法取得了一定的成功,然而由于伪氨基酸组成忽略了不同氨基酸对的特性,导致该方法对蛋白质序列信息表达不足。针对这个问题,本文提出一种基于氨基酸距离对的预测方法i DNA-Prot|dis。为了进一步提高其预测精度与运行效率,本文采用缩减字母表策略将具有相似性质的氨基酸合并为一类,进而显著降低了特征空间的维数。实验结果显示,i DNA-Prot|dis在预测精度与计算代价方面都优于其他对比实验方法。此外,通过分析SVM训练模型中不同特征的权重,表明本文提出的方法可以有效提取蛋白质序列特征。第二,蛋白质远程同源性检测是蛋白质结构和功能研究的基础。本文提出了两种可以有效包含蛋白质序列顺序信息的蛋白质远程同源性检测方法:SVM-DR(DT)和dis Pse AAC。i DNA-Prot|dis方法表明氨基酸距离对可以有效包含序列的位置信息,本文尝试将该策略用于蛋白质远程同源性检测中,并提出了SVM-DR(DT)方法。该方法通过距离对将蛋白质转化为固定长度的向量。然后结合SVM用于预测蛋白质,采用包含进化信息的蛋白质组份Top-n-gram替换氨基酸使该方法的预测效果得到进一步的提高,实验结果表明该方法的ROC指标为0.948和0.919,优于其他对比实验方法。通过分析SVM训练模型,本文发现距离对的权重与其长度呈反比,因此说明距离较近的氨基酸对对于蛋白质远程同源性检测更加重要,这与蛋白质家族的二级结构特征相吻合。伪氨基酸组成利用了氨基酸理化属性,距离对则包含了远距离氨基酸对的位置信息。为了结合两者的优点,本文提出一种改进的伪氨基酸组成:距离对伪氨基酸组成(distance-pair Pseudo Amino Acid Composition,dis Pse AAC),并将该特征用于蛋白质远程同源性检测。距离对伪氨基酸组成既包含氨基酸的位置信息,还利用了氨基酸的物理化学属性。dis Pse AAC通过采用主成分分析(Principal Component Analysis,PCA)降低了噪音,进一步提高了预测的效果。实验结果表明,该方法的预测效果优于单独使用距离对和伪氨基酸组成,对比基于序列谱的预测方法,该方法的时间复杂度具有更大的优势。
其他文献
作为J2ME 的核心组件,KVM 被广泛地应用于各种手持设备中,如智能手机、PDA 等。这些设备有着共同的特点:使用电池作为主要能源。如何设计这些手持设备的硬件和软件,使其能够在有
近年来,由互联网所产生的数据极具膨胀,在如此巨大规模的数据中,准确地获得想要的信息,成为人们日益追求的目标。如何能准确、智能地返回给用户,成为近年来研究比较广泛的一
随着信息技术的发展和企业管理水平的提高,越来越多的企业更加希望了解自己的情况。OLAP技术在这样的环境和需求的推动下应运而生。OLAP发展到至今已经过了十多年的技术发展。
近年来,移动网络得到了飞速的发展,移动计算机正在得到日益广泛的使用,移动网络给人们的生产生活带来了极大的方便。移动用户对在移动互联网中使用多媒体和其它实时业务的需求也
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。目前主流的强化学习算法是Q
随着网络技术的不断发展和普及,网络安全问题也日益凸现。基于策略的网络安全防护是当前网络安全技术的主要发展方向,但其中的安全策略求精问题一直没有得到很好的解决。迄今
互联网的迅速发展,越来越多的用户连入网络,使得原有的IP地址日渐不足,为了解决这个问题,人们提出了多种解决方案,其中短期解决方案网络地址转换技术(NAT)的出现,很好的缓解了地址
由于Internet的迅速普及以及对多媒体业务日益增长的需求,流媒体技术已经引起了越来越多的关注,成为当前研究的热点之一。流媒体技术将成为未来Internet应用的主流,并将推动整个
近年来,随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。据统计资料显示,中国每年五千多万住院人次中与药物不良反应有关的可达二百五十多
随着社会的发展,人们对通信尤其是无线通信的需求不再仅限于语音方面,无线数据传输方面的需求越来越多,要求也越来越高。包括数据传输速率,网络延时,安全性方面等。无线数据