基于集成算法的蛋白质复杂质谱数据分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:linfenrir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物体最重要的组成成分,对蛋白质的鉴定和分类一直广受生命科学及医疗机构的高度关注。质谱是一项用来获得蛋白质、肽、有机化合物等分子质量的技术。利用质谱技术可以获得某种蛋白质的质量(Mass)与分子表达量(Intensity),以此获得该蛋白质的质谱数据。在生物化学领域,为了完成质谱数据的分类,需要借助其他仪器或仪器配备软件,这就需要投入大量的资金和人力成本。为了实现基于蛋白质的质谱数据对蛋白质进行分类,本文将使用统计分析与机器学习相结合的方法。尽管现有的机器学习方法在针对蛋白质质谱数据分类中已表现出了较好的性能,但现有的工作考虑仍不够全面,比如:没有考虑到仪器量程较小的情况,并且还有一部分研究工作利用了峰值(即生物标志点)进行分类,甚至目前大部分工作的数据样本量仅为几十或一百多个,这会导致初步结果的限制,没有考虑到在样本量过多的情况下分类器的稳定性问题,而且在实际应用中,医疗行业的质谱数据样本量往往不止几十上百个。综上所述,本文研究工作如下:(1)数据降维及标准化针对质谱数据的数据维数过高、数据不整齐、长度不一致等特征,本文基于分箱及滑窗的数据预处理方法,实现了对质谱分析中高维数据的降维和标准化,并通过对比实验验证了该预处理方法的有效性和可靠性。(2)非集成分类策略由于不同的分类方法在不同数据类型下的表现是不同的,本文根据分类技术的两种类别(即传统和软计算技术)将常用质谱数据分类算法进行归纳,并通过准确率、灵敏度以及特异度对实验结果进行评估,得到针对蛋白质质谱数据的最适宜分类策略。实验结果表明针对蛋白质质谱数据BP神经网络的分类性能优于支持向量机(SVM)和K近邻算法(KNN)。(3)基于不同结合策略的集成方法研究在上述研究的前提下,本文通过使用加权以及多数投票策略集成BP神经网络、支持向量机以及K近邻算法,并引入随机森林算法,提出了针对质谱数据的集成分类方法。最后通过实验表明改进的随机森林算法可以实现对质谱数据的高精度分类,并且相较于非集成算法有较大的提高。本文的研究成果以低成本、高精度的优势实现了蛋白质的分类,这对菌株识别和人体疾病诊断等医学研究工作有重要的实用意义和研究价值。期望通过本文研究能够为我国目前大力发展的生物医疗大数据与信息化战略贡献出一份力量,为今后蛋白质质谱数据研究的工作提供参考价值。
其他文献
我国刑法学界独创了“转化型抢劫”这个概念,转化型抢劫是一种法律拟制。司法实践中,行为人在实施盗窃、抢夺、诈骗的行为时,由于带有某种目的从而使用暴力或暴力相威胁,行为
目的:探讨对原发性高血压患者进行血清炎症因子TNF-α、IL-6、hs-CRP水平检测的临床价值。方法:对2012年3月~2013年3月期间我院收治的120例原发性高血压患者的临床资料进行回
京剧现代戏创作是戏曲界最具争议性的话题之一。2008年以来,我们又一次看到政府那只“看得见的手”对京剧现代戏创作的强力推动。如同此前京剧现代戏创作的三次高潮(20世纪50
目的:探讨奥氮平联合草酸艾司西酞普兰对抑郁症患者神经功能相关因子及细胞因子的影响。方法:选取2015年5月至2016年4月收治的抑郁症患者82例进行研究,随机分为观察组和对照组,
针对气井泡沫排水采气作业员工劳动强度大,车辆运行管理费用较高,药液配兑加注不及时不精确等问题。邻水作业区结合气田生产信息化建设,借助3G无线通讯方式,以成18井为试点井
利用根癌农杆菌、发根农杆菌介导药用植物的遗传转化。对转化过程中转化方法及转化后的鉴定、影响植物遗传转化的因素与次生代谢产物以反转基因药用植物的获得等方面进行综述
目的分析探讨采用巴曲酶治疗房颤致脑栓塞的临床效果。方法从本院所收治的房颤致脑栓塞患者当中选取108例为研究对象,按照数字表法将其随机分为对照组和治疗组两组,每组各54
基于Matlab/Simulink环境,主要采用视频与图像处理模块库(Video and image processing blockset)中的模块建模,利用直方图均衡化、中值滤波、锐化等仿真模型进行遥感图像增强
根据兰新第二双线(甘青段)祁连山隧道群工程的特点,分析长大山岭隧道防灾救援设施的用电负荷特性,提出其隧道防灾救援系统的电力设计方案,以确保铁路安全、可靠运行,也使其建设
小地老虎(Agrotis ypsilon Rottemberg)又名切根虫、夜盗虫,属鳞翅目夜蛾科,是一种严重为害茄科、豆科、十字花科、葫芦科等多种农作物的多食性害虫,据记载可为害36科100多种