【摘 要】
:
膜蛋白作为蛋白质功能的体现者和承担者,在蛋白质组学研究中占有重要地位。研究表明,某些疾病的产生与膜蛋白功能及结构的改变有很大关系,因此,针对膜蛋白类型进行精确的分类
论文部分内容阅读
膜蛋白作为蛋白质功能的体现者和承担者,在蛋白质组学研究中占有重要地位。研究表明,某些疾病的产生与膜蛋白功能及结构的改变有很大关系,因此,针对膜蛋白类型进行精确的分类预测成为一项重要的研究课题。面对海量膜蛋白序列数据,采用机器学习分类的方法,不仅节约时间、精力,而且能够提高序列数据的利用率。在复杂的蛋白质序列信息中,使用膜蛋白的物理化学性质,序列相关性以及序列进化信息,提取有效的特征,是本文处理序列特征的主要方法。本文提出了一种膜蛋白序列特征融合的表达方法并针对高维特征进行维度约减处理,最后使用多种分类器,引入集成分类思想开展实验对比,我们取得了前沿的成果,实验结果也充分表明融合表达方法的有效性。本文工作具体如下:(1)通过对膜蛋白的序列信息的分析,提出了融合四种特征抽取方法:伪氨基酸组成(40维)、二肽组成(400维)、氨基酸的属性组(13维)和位置特异性分数矩阵(400维)的方法,将原始的膜蛋白序列转化为一个853维度的特征向量。该特征中包含了丰富的序列特征信息,为后续建立可靠的预测模型奠定了良好的基础。(2)膜蛋白特征融合方法也同时带来了信息冗余和维度灾难的问题。因此,本文使用两种降维算法:主成分分析(PCA)与线性判别分析(LDA)。实验表明,经过降维处理后的融合表达方法不仅能够提高运算效率,分类性能也得到了改善。(3)为了进一步提高膜蛋白分类预测性能,本文引入集成学习中的Stacking集成学习框架。框架中的基分类器包括K近邻(KNN)、支持向量机(SVM)、神经网络(NN)和随机森林(RF),元分类器采用多元逻辑斯蒂回归算法(MLR)。实验表明,该方案能够获得更好的预测准确率。
其他文献
四川省遂宁市和重庆市潼南区山水相连,犹如一对"姐妹花",手牵手伫立在成渝地区双城经济圈之中。重庆人黄刚频繁往来于遂宁和潼南两地,遂宁这端有事业,潼南那端是乡情。"双城
本文在恰当的索伯列夫空间上构造了具阻尼项的p-拉普拉斯微分方程、具脉冲项的p-拉普拉斯微分方程以及具阻尼项的脉冲p-拉普拉斯微分方程所对应的变分结构,将研究其反周期解
随着我国大力实施“乡村振兴战略”,种养一体化能源化、资源化利用模式已经成为农业供给侧结构性改革的重要环节。由于种养一体化模式不同案例之间差别较大,普遍缺乏参照性和可比性,因此有必要通过合理的评估模型探讨该模式的抗风险能力和可持续发展能力,从而进一步构建适合我国本土化的区域种养一体化能源化、资源化利用模式评价与优化的方法学体系。论文对EMA(能值分析)和LCA(生命周期评估)基于不同视角的潜在联系进
随着社会的快速发展,传统能源日益被消耗,而风力发电以其清洁、环保、可再生等优点正在被世界各国大力发展。国内风电场最常采用的是重力式扩展基础,它通过基础环和螺栓将上
改革开放以来,我国高校发展迅速,学校数量和在校生人数不断增加,每年都为社会提供了大量的高素质毕业生,为我国的经济发展和社会进步做出了突出的贡献。习近平总书记在“世界
对于经营风险业务的商业银行来说,风险是一把双刃剑,它能给银行带来收益,同时也会伴随一定的风险。银行在其日常经营的过程中面临着不同类型的风险,其中以信贷风险最为常见,所以如何根据大数法则把控信贷风险,是银行能否稳健运营的关键。小微企业作为来我国经济的主力军,已逐渐成长为银行业的重要客户群体。随着2018年国家定向降准政策的实施,商业银行对于小微企业的政策倾斜力度将不断加大,投放规模也将有大幅提升。银
科学技术的发展使多模态在信息的获取和表达的过程中扮演重要角色。人们对多模态理论、多模态话语的研究与认识是一个逐渐认知与不断深化的过程。20世纪70年代后期,一些西方国家的研究者开始了对多模态话语的研究,为多模态话语分析奠定了主要理论基础。20世纪90年代起,Kress及Van Leeuwen以系统功能语言学理论为基础,尝试对非语言模态符号进行研究,建立了图像分析的多模态话语分析框架。而后,将多模态
为探索从栽培技术环节提高‘福橘’果实品质及果皮色泽的方法,以福建特有柑橘品种‘福橘’为试验材料。通过响应面法对成熟果实果皮类胡萝卜素的提取工艺进行优化;通过调查冠
城市内涝积水对人们的生命财产安全构成了严重威胁,是困扰城市居民多年的问题,也是建设智慧城市急需解决的难题之一。随着传感器技术与物联网技术的迅速发展,人们逐渐将解决
目的检测 PHLPP2、PTEN、PI3KCA、PI3KCB 与 p-Akt1 及其下游分子 VEGF、Bcl-2及Cyclin D1在结直肠癌中的表达,探讨其表达的相关性及其临床意义。材料与方法收集自滨州医学院