论文部分内容阅读
蛋白质是生物体最重要的组成成分,对蛋白质的鉴定和分类一直广受生命科学及医疗机构的高度关注。质谱是一项用来获得蛋白质、肽、有机化合物等分子质量的技术。利用质谱技术可以获得某种蛋白质的质量(Mass)与分子表达量(Intensity),以此获得该蛋白质的质谱数据。在生物化学领域,为了完成质谱数据的分类,需要借助其他仪器或仪器配备软件,这就需要投入大量的资金和人力成本。为了实现基于蛋白质的质谱数据对蛋白质进行分类,本文将使用统计分析与机器学习相结合的方法。尽管现有的机器学习方法在针对蛋白质质谱数据分类中已表现出了较好的性能,但现有的工作考虑仍不够全面,比如:没有考虑到仪器量程较小的情况,并且还有一部分研究工作利用了峰值(即生物标志点)进行分类,甚至目前大部分工作的数据样本量仅为几十或一百多个,这会导致初步结果的限制,没有考虑到在样本量过多的情况下分类器的稳定性问题,而且在实际应用中,医疗行业的质谱数据样本量往往不止几十上百个。综上所述,本文研究工作如下:(1)数据降维及标准化针对质谱数据的数据维数过高、数据不整齐、长度不一致等特征,本文基于分箱及滑窗的数据预处理方法,实现了对质谱分析中高维数据的降维和标准化,并通过对比实验验证了该预处理方法的有效性和可靠性。(2)非集成分类策略由于不同的分类方法在不同数据类型下的表现是不同的,本文根据分类技术的两种类别(即传统和软计算技术)将常用质谱数据分类算法进行归纳,并通过准确率、灵敏度以及特异度对实验结果进行评估,得到针对蛋白质质谱数据的最适宜分类策略。实验结果表明针对蛋白质质谱数据BP神经网络的分类性能优于支持向量机(SVM)和K近邻算法(KNN)。(3)基于不同结合策略的集成方法研究在上述研究的前提下,本文通过使用加权以及多数投票策略集成BP神经网络、支持向量机以及K近邻算法,并引入随机森林算法,提出了针对质谱数据的集成分类方法。最后通过实验表明改进的随机森林算法可以实现对质谱数据的高精度分类,并且相较于非集成算法有较大的提高。本文的研究成果以低成本、高精度的优势实现了蛋白质的分类,这对菌株识别和人体疾病诊断等医学研究工作有重要的实用意义和研究价值。期望通过本文研究能够为我国目前大力发展的生物医疗大数据与信息化战略贡献出一份力量,为今后蛋白质质谱数据研究的工作提供参考价值。