论文部分内容阅读
生物信息学是在20世纪80年代开始,由生命科学与数学、计算机科学等学科交叉形成的一门新兴学科。对RNA的研究始终是生物信息学中一个十分重要的研究方向,且其热门程度呈不断上升的趋势。越来越多的研究表明RNA不仅能作为遗传信息的载体,也具有各种重要功能。已经证实,RNA的功能与其结构有着紧密的关联。为了更好地探索RNA的功能,就要对其结构进行研究。由于RNA分子具有降解速度快、难以结晶的特点,采用常规的实验方法,如核磁共振或X射线晶体衍射测定RNA的结构费用高、耗时长,远远满足不了对海量数据进行分析的需求。RNA二级结构预测作为RNA三级结构预测的一个重要的中间步骤,使用计算机和数学方法对RNA二级结构进行预测是研究RNA结构的主要方法。主要的RNA二级结构预测方法包括动态规划方法、比较序列分析方法、组合优化方法、启发式方法、机器学习方法等。
本文的主要工作是对基于比较序列分析的RNA二级结构预测中的若干关键问题进行研究,同时提出一个快速RNA二级结构预测模型,并在若干方面进行优化。研究内容包括以下几个方面:
一是针对计算资源消耗高的问题,提出一种基于极限学习机的快速RNA二级结构预测模型。
比较序列分析方法是RNA二级结构预测中精度最高的一类方法。极限学习机是一种新型的机器学习方法,具有模型简单、人工干预少、训练速度极快的优点。本文将比较序列分析法和极限学习机相结合,提出一种基于极限学习机的快速RNA二级结构预测模型。模型把RNA二级结构预测看做一个二值分类问题,分为样本集构建、模型训练、结构预测3个部分。实验结果表明,该模型在保持较高预测精度的同时,具有极快的训练速度和较快的预测速度。
二是针对不平衡数据的问题,提出一种基于聚类欠采样和集成学习的不平衡数据分层处理方案。
不平衡数据问题,是指由不同类的样本数量存在差异而导致的分类性能下降的问题。该方案综合运用聚类方法、采样方法和集成学习方法,分为两个层次。第一层是基于K-means聚类的训练样本欠采样选择方法,是对模型中样本选择部分的优化。第二层是基于非对称权重分配Adaboost的模型训练方法,是对模型中算法设计部分的优化。第一层的特点是计算速度快,可伸缩性好,能够排除噪声干扰;第二层的特点是预测精度高。两层方法可结合使用,也可以根据实际情况单独使用,是一种灵活的、快速和有效的RNA二级结构预测中不平衡数据的处理方案,并具有一定的通用性。实验结果表明,该方案可以有效地解决不平衡数据问题,提高预测精度。
三是针对特征提取优化程度不高的问题,提出一种融合相邻列配对信息和主成分分析的特征提取方法。
经过对茎区连续性的分析,论文提出了从相邻列的配对信息中提取特征的方法。并且,为解决在特征数量增加的过程中遇到的因样本稀疏而导致的过拟合问题,比较了特征选择和特征降维方法,并使用主成分分析。使用分量贡献率选择相邻列配对信息的距离。实验结果表明,使用该特征提取方法可以进一步提高预测精度。
四是针对限制序列长度的问题,提出一种基于启发式茎区搜索的RNA序列比对划分方法。
该方法规定了序列划分的原则,设计了基于共变积分和互补碱基对比例的评估函数,使用启发式策略搜索“显著”茎区,再根据显著茎区的位置对序列进行划分,以保证其不会被划分到不同子序列当中去。提出一种基于“茎区表”的显著茎区更新策略以处理茎区异常的情况。实验结果表明,该方法可以加快预测速度,在一定程度上提高预测精度,并且不限制序列比对的长度。
本文的主要工作是对基于比较序列分析的RNA二级结构预测中的若干关键问题进行研究,同时提出一个快速RNA二级结构预测模型,并在若干方面进行优化。研究内容包括以下几个方面:
一是针对计算资源消耗高的问题,提出一种基于极限学习机的快速RNA二级结构预测模型。
比较序列分析方法是RNA二级结构预测中精度最高的一类方法。极限学习机是一种新型的机器学习方法,具有模型简单、人工干预少、训练速度极快的优点。本文将比较序列分析法和极限学习机相结合,提出一种基于极限学习机的快速RNA二级结构预测模型。模型把RNA二级结构预测看做一个二值分类问题,分为样本集构建、模型训练、结构预测3个部分。实验结果表明,该模型在保持较高预测精度的同时,具有极快的训练速度和较快的预测速度。
二是针对不平衡数据的问题,提出一种基于聚类欠采样和集成学习的不平衡数据分层处理方案。
不平衡数据问题,是指由不同类的样本数量存在差异而导致的分类性能下降的问题。该方案综合运用聚类方法、采样方法和集成学习方法,分为两个层次。第一层是基于K-means聚类的训练样本欠采样选择方法,是对模型中样本选择部分的优化。第二层是基于非对称权重分配Adaboost的模型训练方法,是对模型中算法设计部分的优化。第一层的特点是计算速度快,可伸缩性好,能够排除噪声干扰;第二层的特点是预测精度高。两层方法可结合使用,也可以根据实际情况单独使用,是一种灵活的、快速和有效的RNA二级结构预测中不平衡数据的处理方案,并具有一定的通用性。实验结果表明,该方案可以有效地解决不平衡数据问题,提高预测精度。
三是针对特征提取优化程度不高的问题,提出一种融合相邻列配对信息和主成分分析的特征提取方法。
经过对茎区连续性的分析,论文提出了从相邻列的配对信息中提取特征的方法。并且,为解决在特征数量增加的过程中遇到的因样本稀疏而导致的过拟合问题,比较了特征选择和特征降维方法,并使用主成分分析。使用分量贡献率选择相邻列配对信息的距离。实验结果表明,使用该特征提取方法可以进一步提高预测精度。
四是针对限制序列长度的问题,提出一种基于启发式茎区搜索的RNA序列比对划分方法。
该方法规定了序列划分的原则,设计了基于共变积分和互补碱基对比例的评估函数,使用启发式策略搜索“显著”茎区,再根据显著茎区的位置对序列进行划分,以保证其不会被划分到不同子序列当中去。提出一种基于“茎区表”的显著茎区更新策略以处理茎区异常的情况。实验结果表明,该方法可以加快预测速度,在一定程度上提高预测精度,并且不限制序列比对的长度。