论文部分内容阅读
随着计算机科学和生物科学的不断发展,生物信息学这门学科已成为当下生命科学和自然科学的重大前沿领域之一,同时也是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学和蛋白组学两个方面。糖基化是蛋白质翻译后重要修饰过程之一,更是蛋白组学研究的重要内容。鉴于已知的糖蛋白结构十分有限,而新的糖蛋白结构层出不穷,借助计算智能技术对糖基化位点进行预测和分析在蛋白质组学中具有十分重要的意义。主成分分析(PCA)是一种数据特征提取技术,它能将数据从高维降到低维,降维后保存了数据的主要信息,从而使数据更容易处理,且提高了分析效率传统的神经网络方法已被应用预测蛋白质糖基化位点,其预测的准确性主要依赖于特征向量的维数(蛋白质序列的长度),并随着蛋白质序列长度的增加而提高,但神经网络的结构变得越来越复杂,增加了计算运行成本。为了解决这一问题,本研究提出了一个主成分分析和BP神经网络相结合的新方法对O-连接糖基化位点进行预测和分析。首先用PCA提取主成分以降低输入特征向量的维数,然后用神经网络预测一个特定的蛋白质序列是否被糖基化。本研究主要围绕以下几个方面进行开展:(1)首先从阐述蛋白质糖基化的知识入手,着重介绍了稀疏编码,并将其作为本研究中蛋白质序列的编码方式。(2)采用主成分分析技术完成数据的预处理,在充分利用原始信息的基础上,将样本数据从高维降到低维,从而使神经网络在下一步的预测中更具效率。(3)提出一种基于PCA和BP神经网络的蛋白质O-糖基化位点预测的算法,对此算法进行了详细的分析和设计。为了更好的验证这种算法的有效性,本研究方法与传统BP算法的实验结果进行了对比。实验表明,采用了本研究提出的新方法具有以下优点(1)网络的收敛速度明显加快,大大的降低了运算时间;(2)糖基化位点的预测的准确性明显提高,说明结合了主成分分析技术的BP神经网络在蛋白质糖基化位点的预测方面具有很大的优势。