论文部分内容阅读
林木蛋白质结构预测研究是林学领域的重要课题。它对于进一步认识森林动态机理,提高森林资源信息管理水平,改进森林保护药物的设计和对森林生物学的研究都具有重要的学术意义。本研究对林木蛋白质二级结构预测问题进行了研究。首先对国内外的林木蛋白质结构预测研究进展进行了综述;接着用BP网络比较四种氨基酸残基数学编码方式在不同H(隐含层神经元数)下的预测准确率;最后用较好的数学编码方式对林木蛋白质进行预测,并得出预测模型。其主要研究内容和成果如下:(1)国内外林木蛋白质结构预测研究进展到目前为止,没有发现利用神经网络做林木蛋白质结构预测研究的。而对于林木蛋白质结构的获取主要采用实验方法(X射线晶体衍射法和核磁共振波谱法)。研究主要集中在杨属和橡胶属的树种上,对于松科、紫檀属、蔷薇科树种及银杏、杜仲也略有研究。最早林木蛋白质结构数据的获得是1983-11-02关于黑杨(populus nigra)传输蛋白(electron transrort protein)的获得,林木蛋白质结构获得速度很慢,仅每年平均获得3个林木蛋白质结构。总体来看,林木蛋白质结构研究较少,林木蛋白质结构研究发展空间巨大。(2) 4种氨基酸残基数学编码方式的比较研究用四种常用的数学编码方式[-1,1]编码、五位编码、正交编码、二十一位编码对林木蛋白质的氨基酸残基进行编码,然后利用BP神经网络比较四种编码方式预测精度的高底。结果表明,[-1,1]编码简单、易懂且较其它3种编码方式得到的预测精度要高,二十一位编码、正交编码、五位编码次之。(3)基于BP神经网络的蛋白质二级结构预测模型本研究从24个林木蛋白质中共提取约2600个氨基酸进行了预测研究。利用[-1,1]编码方式对提取的氨基酸进行编码,然后进行BP训练,经过仿真效果分析、拟合和预测精度分析,得出林木蛋白质二级结构预测的模型。该模型整体预测精度为65.17%,对于H的预测精度可高达到81.40%,与以往的相同数学编码方式的蛋白质二级结构预测精度要高。