论文部分内容阅读
作为数理统计学的一个专业分支,时间序列分析遵循数理统计学的基本原理,都是利用观察信息估计总体的性质。1990年Jeffrey提出了一种DNA序列可视化的方法-CGR (Chaos Game Representation)方法研究DNA序列。而这种方法已经被许多学者应用到蛋白质序列的研究上了,如基于详细HP模型,2004年喻祖国等人提出了蛋白质序列的CGR方法,揭示蛋白质序列的内在特性。为了建立流感大爆发多重预警的统计模型,对蛋白质序列本身的研究有着重要的意义。本文继续主要研究了流感病毒蛋白质序列。绪论中简述了研究背景,然后选取1914-2012年的流感病毒HA和NA蛋白质序列,运用统计学方法得出流感病毒蛋白质学列特征,这对预防流感病毒有着重要的意义,具体的内容如下:第一章,介绍了生物信息学的相关知识,以及研究蛋白质序列的意义。第二章,首先将流感病毒蛋白质序列转化成CGR游走时间序列,再引入长记忆ARFIMA(p,d,q)模型来拟合此类序列。发现随机找来的九条H5N1的蛋白质序列都具有长相关性且拟合得很好,且还发现这类序列都可以用ARFIMA(1,d,1)模型来识别.第三章,基于CGR混沌游走和分数阶差分模型,用ARFIMA(p,d,q)模型预测未来年甲型流感病毒HA蛋白质序列。以1943年-2013年这71条蛋白质序列的第三个位置为例,得到用ARFIMA(p,d,q)模型对其前10个位置去拟合并且预测,模型建立的比较合理,预报效果很好。第四章,对选取自1914-2012年的流感病毒HA和NA蛋白质序列,求出序列方差、延迟2自相关系数和氨基酸对可预测百分比,发现大流行年的混沌游走序列的方差、自相关系数和氨基酸对可预测百分比几乎都明显高于其前相邻年,而在非大流行年它们通常较小,从而得出流感大爆发时流感病毒变异特征。第五章,本文的总结与展望。