基于比较序列分析的RNA二级结构预测中的若干关键问题研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:mllx03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是在20世纪80年代开始,由生命科学与数学、计算机科学等学科交叉形成的一门新兴学科。对RNA的研究始终是生物信息学中一个十分重要的研究方向,且其热门程度呈不断上升的趋势。越来越多的研究表明RNA不仅能作为遗传信息的载体,也具有各种重要功能。已经证实,RNA的功能与其结构有着紧密的关联。为了更好地探索RNA的功能,就要对其结构进行研究。由于RNA分子具有降解速度快、难以结晶的特点,采用常规的实验方法,如核磁共振或X射线晶体衍射测定RNA的结构费用高、耗时长,远远满足不了对海量数据进行分析的需求。RNA二级结构预测作为RNA三级结构预测的一个重要的中间步骤,使用计算机和数学方法对RNA二级结构进行预测是研究RNA结构的主要方法。主要的RNA二级结构预测方法包括动态规划方法、比较序列分析方法、组合优化方法、启发式方法、机器学习方法等。
  本文的主要工作是对基于比较序列分析的RNA二级结构预测中的若干关键问题进行研究,同时提出一个快速RNA二级结构预测模型,并在若干方面进行优化。研究内容包括以下几个方面:
  一是针对计算资源消耗高的问题,提出一种基于极限学习机的快速RNA二级结构预测模型。
  比较序列分析方法是RNA二级结构预测中精度最高的一类方法。极限学习机是一种新型的机器学习方法,具有模型简单、人工干预少、训练速度极快的优点。本文将比较序列分析法和极限学习机相结合,提出一种基于极限学习机的快速RNA二级结构预测模型。模型把RNA二级结构预测看做一个二值分类问题,分为样本集构建、模型训练、结构预测3个部分。实验结果表明,该模型在保持较高预测精度的同时,具有极快的训练速度和较快的预测速度。
  二是针对不平衡数据的问题,提出一种基于聚类欠采样和集成学习的不平衡数据分层处理方案。
  不平衡数据问题,是指由不同类的样本数量存在差异而导致的分类性能下降的问题。该方案综合运用聚类方法、采样方法和集成学习方法,分为两个层次。第一层是基于K-means聚类的训练样本欠采样选择方法,是对模型中样本选择部分的优化。第二层是基于非对称权重分配Adaboost的模型训练方法,是对模型中算法设计部分的优化。第一层的特点是计算速度快,可伸缩性好,能够排除噪声干扰;第二层的特点是预测精度高。两层方法可结合使用,也可以根据实际情况单独使用,是一种灵活的、快速和有效的RNA二级结构预测中不平衡数据的处理方案,并具有一定的通用性。实验结果表明,该方案可以有效地解决不平衡数据问题,提高预测精度。
  三是针对特征提取优化程度不高的问题,提出一种融合相邻列配对信息和主成分分析的特征提取方法。
  经过对茎区连续性的分析,论文提出了从相邻列的配对信息中提取特征的方法。并且,为解决在特征数量增加的过程中遇到的因样本稀疏而导致的过拟合问题,比较了特征选择和特征降维方法,并使用主成分分析。使用分量贡献率选择相邻列配对信息的距离。实验结果表明,使用该特征提取方法可以进一步提高预测精度。
  四是针对限制序列长度的问题,提出一种基于启发式茎区搜索的RNA序列比对划分方法。
  该方法规定了序列划分的原则,设计了基于共变积分和互补碱基对比例的评估函数,使用启发式策略搜索“显著”茎区,再根据显著茎区的位置对序列进行划分,以保证其不会被划分到不同子序列当中去。提出一种基于“茎区表”的显著茎区更新策略以处理茎区异常的情况。实验结果表明,该方法可以加快预测速度,在一定程度上提高预测精度,并且不限制序列比对的长度。
其他文献
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据
计算机视觉是一门让计算机拥有理解周围复杂环境能力的学科,具有重要的理论研究意义和应用价值。但是目前计算机视觉系统大多采用二维信息处理方式,如智能交通系统,视频监控系统中仅仅采用单摄像头进行智能处理,缺乏对环境深度的感知,这在一定程度上给系统的可靠性和鲁棒性带来了隐患。随着越来越多计算机视觉应用技术逐渐走进人们的生活,提升着人们的生活质量,改善着人们的生活方式,对计算机视觉系统可靠性与鲁棒性的要求也
感知是以实践的方式理解世界的第一步,为分析物理现象、探索事件成因提供事实基础。在各产业、各城市推进信息化建设的过程中,高效的信息获取始终是相关服务及应用中的一个至关重要的环节,有效的数据感知是沟通现实与蕴含诸多规律的大数据之间的桥梁、纽带。与此同时,物联网的出现和发展不断加深对透彻以及大规模感知的需求,而传统无线传感器网络的高安装维护成本、能源消耗问题和感知覆盖能力的不足却与之相掣肘。另一方面,随
学位
混合存储技术可以满足大数据存储系统对高存取性能和大存储容量的需求,同时大幅降低存储系统的总体拥有成本。新型瓦记录磁盘采用区域化内部数据管理方式缓解叠瓦式磁记录技术固有的写放大问题,但在非顺序写请求干扰下仍会出现严重的写性能抖动。新型闪存技术的发展导致闪存芯片可擦除次数大幅下降和并行资源难以充分利用,闪存固态盘出现可靠性下降和单盘性能增长受限等问题。叠瓦式磁记录技术和闪存技术的发展为大数据存储提供了
高效的数据存储和实时分析处理是大数据时代的迫切需求,基于硬盘的传统存储系统由于巨大的访问延迟无法提供及时的响应,内存计算技术将工作数据存储在大容量内存中进行数据处理,减少甚至避免I/O请求,极大提高了大数据处理能力。但是由于“存储墙”和“功耗墙”问题,基于DRAM的内存系统依然难以满足大数据应用日益增长的大容量高性能低能耗存储需求。此外DRAM是易失的,数据的持久存储还需要依赖外存,无法完全避免高
学位
密文访问控制即由用户自行加密数据,通过对解密密钥分发范围的控制,来控制哪些用户有权访问数据。在密文访问控制系统中,用户可以不再依赖云服务提供商(Cloud Service Provider,CSP)来保护数据内容的安全,也能防止CSP非法的获取数据内容。目前的研究中,密文策略属性基加密(Ciphertext-Policy At-tribute Based Encryption,CP-ABE)被普遍
学位
近年来,数据量的激增迫切需要对可扩展机器学习关键技术的研究,而当前丰富的计算资源又为可扩展机器学习提供了机遇。为实现可扩展机器学习,本文从高效算法设计和并行与分布方法两条技术途径入手,对机器学习如何有效应对大数据挑战展开深入研究。基于算法与系统的协同设计,在保证精度的前提下,有效提高了机器学习的速度,增强了机器学习在计算和内存方面的扩展性,取得了以下几个方面的研究成果:  1.提出了两种数据和模型
学位
大规模分布式系统已成为云计算和现代应用的主要支柱,数十亿的终端用户实时依赖于这些系统的可信性。不幸的是,分布式系统中的性能缺陷常常引发严重的性能损失,继而导致糟糕的用户体验并带来严重的经济损失。然而,由于分布式系统中性能缺陷的复杂性和多样性,检测分布式系统的性能缺陷面临着大量挑战,特别是缺乏对分布式性能缺陷的全面且深入的认识、难以检测高复杂性的分布式性能缺陷,以及对涉及到复杂多线程的分布式性能缺陷
学位
大数据时代,数据量正以前所未有的速度增长,全球数据总量突破10ZB,单个数据中心数据量也达到了EB级。数据量快速增长对存储系统提出了更高的挑战,其中,如何有效地对大数据进行保护成为研究热点。作为数据保护最常用的手段,备份系统会成倍地增加数据量,带来严重的存储空间消耗。研究表明,数字世界中包含大量冗余数据,尤其是在备份系统中,冗余数据比例普遍高于80%。重复数据删除作为一种数据缩减技术,能有效地检测
学位
图像是人类获取信息的重要来源。随着带有高清摄像头的智能手机的普及和成像器件在城市安防、卫星遥感遥测等诸多领域的广泛使用,这些成像器件产生着数量巨大的图像数据。人们对收集到的上述图像数据进行分析与处理,获得关于真实世界重要信息。然而,数字图像在成像、传输、存储等各个环节都不可避免的受到各种降质影响而降低质量,如噪声、低分辨率、模糊等。图像的质量对于基于图像的分析与理解的准确性有着极大的影响。因此,图
学位