论文部分内容阅读
RNA是生物科学领域的一个重要的生物大分子,参与生物的基本代谢过程。RNA的这些功能都与RNA的结构息息相关,因此对RNA二级结构的研究来已成为必然趋势。本文首先对RNA的重要性进行了介绍,从而引出预测RNA二级结构的必要性。为此本文对RNA的概念、类别、功能、表示方式和结构特点等相关知识作了论述,并对目前存在的模型和算法进行了介绍。通过比较分析模型和算法的思想,可以将其分为基于序列比较思想和最小自由能思想的算法,这些算法思想存在着一些不足。对于序列比较思想其在适用上受限于已有序列的先验知识且具有较高的时间和空间复杂度,而最小自由能思想则容易陷入局部最优解,影响预测精度。为此,本文通过综合分析上述算法的问题,提出了一种基于离散Hopfield神经网络的改进算法IA_DHNN,使其适合预测RNA二级结构,并首次将其应用于该领域。该算法以离散Hopfield神经网络为基础,考虑到了Hopfield神经网络的初值敏感性和易陷入局部最优解的缺点,提出了利用免疫算法的记忆性和敏感性优化Hopfield神经网络,扩大Hopfield神经网络解的搜索空间,使其跳出局部最优达到全局最优。同时,在使用免疫优化Hopfield神经网络前,提出使用距离函数初始化免疫算法的抗体的生成,使可能的最优解得到保留,此外还用了k均值聚类算法对生成的抗体进行聚类降低冗余,提高算法的效率,在此过程中为了使该聚类适应于RNA二级结构预测使用了海明距离进行分类和按位与操作求取聚类中心。最后,通过仿真实验,使用IA_DHNN算法对碱基水平和茎区水平上的RNA序列进行测试,并与IA算法、DHNN算法以及RNA Structure软件进行比较,得出结论:(1)对Genomic tRNA Database库中随机选取的序列,IA_DHNN算法从总体预测精度上高于其他算法;(2)IA_DHNN算法正确预测的茎区个数与实际茎区个数基本相同,达到83.3%。从上述结论证明了本文算法的积极作用。