论文部分内容阅读
禽流感病毒是禽适应的A型流感病毒,在过去的十几年间,禽流感病毒的跨种传播给人类社会造成了重大的生命财产损失,引起了社会的高度关注。H3N2亚型流感病毒是另一种对人类社会具有重要影响的A型流感病毒,它的抗原变异让疫苗失去作用,为全球流感病毒监控工作带来较大的困难。研究这两类A型流感病毒的跨种传播和抗原关系具有重要的理论和现实意义。基于机器学习、信息论、特征选择等方法研制并改进了禽流感病毒禽到人的跨种传播和H3N2亚型流感病毒的抗原关系预测模型,同时识别了禽流感病毒禽到人传播的90个特征氨基酸位置以及18个H3N2流感病毒抗原变异关键氨基酸位置,从而可以为公共健康提供早期预警,为相关的分子决定因素和底层机制研究提供思路。首先,根据现在尚未有实验验证的不能实现禽到人传播的禽流感病毒的情况,结合一分类SVM适用于负样本较难确定的问题的特点,探索了使用一分类SVM来预测禽流感病毒禽到人传播的可行性,通过氨基酸组成、二肽组成及自相关系数编码禽流感病毒蛋白质序列,构建了一分类SVM预测模型,其预测精度超过了当前已有的反向神经网络预测模型。其次,在前期工作建测试用的负样本时,发现构建的负样本比已有的预测模型中用到的负样本具有更高的可靠性,因此扩大了两类样本的数据规模并采取传统的两分类方法提升预测禽流感病毒禽到人的跨种传播同时挖掘有生物学意义的特征。通过信息熵的方法首先选择了90个特征氨基酸位置,基于理化性质编码这些特征位置后使用了多种特征选择方法包括Relief,mRMR,信息增益及遗传算法选取了最优特征子集,利用这个最优特征子集构建的预测模型性能有了大幅提高,同时最终选择的理化特性在两类样本中差异明显,表明了这些特征的有效性,此外其中的两个理化性质得到多个生物学研究结果的支持。再次,人工收集了来自于相关文献中记录的H3N2流感病毒抗原变异数据,将最近三个H3N2抗原变异研究中用到的数据规模扩大了近一倍。然后比较了多种打分策略,包括优势比,互信息,Phi相关系数并联合多元线性回归最终识别了18个H3N2流感病毒抗原变异关键位置,这18个关键位置均位于HA蛋白的5个抗原表位中,有8个位置与已识别的正选择位置相吻合,说明了本研究识别的18个抗原变异关键位置对H3N2流感病毒抗原变异具有重要作用。最后,在上一部分工作的基础上,期望改进H3N2流感病毒抗原关系的预测模型,降低假阳性。基于氨基酸的某些突变可能并不造成抗原变异,而当理化性质改变时才造成抗原变异的提示,集成了多种理化性质变化来改进预测H3N2流感病毒的抗原关系。通过互信息与层次聚类筛选了候选理化性质,最终的实验结果表明构建的预测模型比上一部分工作构建的模型性能有了较大提高,同时优于当前其他三个H3N2抗原关系预测模型,包括汉明距离预测模型,分组打分多元线性回归模型以及决策树。此外进一步构建了H3N2流感病毒抗原关系预测的Web工具,为相关研究人员提供在线服务。