【摘 要】
:
蛋白质的结构与功能的研究是现代生物信息学领域中的热点问题,对蛋白质二级结构的预测是其中的重要任务之一。近年来,深度学习的方法在蛋白质二级结构预测领域得到了广泛的应用,但是存在训练时间长,并行程度低的问题。将集成学习和深度学习技术联合应用于蛋白质二级结构预测,在一定程度上可以降低模型训练的成本,同时还能联合不同模型,从多个角度分析氨基酸信息,从而提高模型的预测准确率。因此,本文基于深度学习方法,联合
论文部分内容阅读
蛋白质的结构与功能的研究是现代生物信息学领域中的热点问题,对蛋白质二级结构的预测是其中的重要任务之一。近年来,深度学习的方法在蛋白质二级结构预测领域得到了广泛的应用,但是存在训练时间长,并行程度低的问题。将集成学习和深度学习技术联合应用于蛋白质二级结构预测,在一定程度上可以降低模型训练的成本,同时还能联合不同模型,从多个角度分析氨基酸信息,从而提高模型的预测准确率。因此,本文基于深度学习方法,联合集成学习技术构建了蛋白质二级结构预测模型。本文的主要工作如下:1.构建了CNN和Bagging技术的混合模型。该模型用CNN代替简单的SVM弱分类器,有效提高了蛋白质二级结构的预测准确率。同时对Bagging模型的结合策略进行了优化,最终将蛋白质二级结构预测准确率从68.1%提高到了71.9%。2.构建了神经网络与Stacking技术的混合模型。在CNN与Bagging混合模型的基础上,结合Stacking技术,进一步提高了模型的预测准确率,达到73.4%。同时还提出可以依据蛋白质长度对数据集进行划分以及将三分类和八分类结果结合在一起来提高模型预测准确率,最终模型预测准确率达到了75.6%。3.构建了蛋白质二级结构的翻译模型。将蛋白质二级结构预测转为翻译问题,利用n-gram算法进行分词,并构建端到端的翻译模型来预测蛋白质二级结构,最终得到了最高70.6%的预测准确率。
其他文献
祁连山的植被群落为西北地区提供了天然的绿色生态屏障,也为祁连山的天然水源涵养提供了生态支持和保障。处于森林植物层与土壤层之间的枯落物层,不仅在水土保持、调节河川径流等方面具有重要的作用,而且能通过调节土壤表层温度和湿度,进而影响土壤呼吸,因此枯落物层在调节祁连山的水文过程和碳循环方面具有重要的作用。本研究课题选择祁连山优势植被群落青海云杉(Picea crassifolia)林、金露梅(Poten
中纬度干旱沙漠地区对区域乃至全球气候变化响应十分敏感,开展沙漠地区古环境演变工作,有助于我们进一步理解全球环境变化及其区域环境响应差异。由于沙漠腹地古环境重建材料较难获得,现有的古环境重建结果尚无法在时间和空间上充分评估干旱沙漠对全球变化的响应。因此,发掘新的古环境重建材料,提高重建结果的可信度,有望推动地质记录相对匮乏的干旱沙漠地区气候环境变化的深入研究。腾格里沙漠位于我国西北季风边缘,是中国北
北半球多年冻土面积约占陆地面积的24%,并储存有大量的有机碳。在全球变暖的背景下,多年冻土正经历着广泛的退化过程,其封存的“老碳”也处于不稳定的状态。热喀斯特景观是由于富冰多年冻土退化或厚层地下冰融化而形成的特殊地貌。不同于多年冻土自上而下的缓慢退化,热喀斯特过程会导致深层有机质的快速暴露,对区域内碳循环有着重大影响。热融湖塘作为主要的热喀斯特地貌类型,广泛发育在青藏高原多年冻土区。然而关于青藏高
在气候变暖背景下,近几十年来青藏高原多年冻土急剧退化,其中最明显的特征之一就是热融湖塘的形成。热融湖塘提供了大量淡水栖息地,对调节碳、水和能源有重要作用。然而,青藏高原热融湖塘总体及区域分布和变化情况在很大程度上仍是未知的,限制了目前对多年冻土碳反馈及生态环境效应的认识。本论文以谷歌地球引擎(Google Earth Engine,GEE)平台为基础,结合野外考察与监测,利用Sentinel-2A
气候的干湿状况作为区域水热平衡条件的重要指示,受到太阳辐射、大气环流、下垫面以及人类活动等因素的影响,在水循环中起着重要作用,而影响气候干湿变化的这些因素在不同地区之间会存在较大差异。因此,研究区域气候的干湿变化及影响因素有助于理解区域和全球气候系统的相互作用及影响机制。其中,中国北方季风边缘区对区域气候变化和全球环境变化响应敏感,是区域及全球环境变化研究的重点区域。但在以往的研究中,中国北方季风
近年来,全球水文循环加快,改变了降水的时空分布,许多河川径流呈明显减少趋势。大夏河作为黄河的一级支流,滋养着甘肃中部的自然生态环境,但随着梯级电站建设等人为活动的不断扰动,流域水资源状况发生了改变。因此,摸清流域径流变化特征,探究和评估其影响因素和程度,可为今后大夏河流域梯级电站开发利用和流域用水供水安全提供数据参考和理论支撑。本文采用了不均匀系数、极值比、距平累积曲线、趋势系数和R/S分析法等方
原子核裂变作为一种剧烈的衰变方式,在中低能核物理的研究中发挥着极其重要的作用。同时它也包含着丰富的物理学信息,如壳结构、自旋以及质量和电荷的不对称性等。此外,它还会导致天体演化中r-过程的终止。然而时至今日,由于复杂的量子效应以及实验技术的限制,理论和实验上仍存在一系列悬而未决的问题。目前理论研究普遍认为核裂变存在多种裂变模式,分别对应于裂变母核势能面上存在的多个由鞍点到断裂点的低谷,这使得在裂变
苯并唑(苯并噁唑、苯并咪唑、苯并噻唑)及其衍生物和喹唑啉酮是重要的含氮杂环化合物。苯并唑和喹唑啉酮骨架存在于多种天然产物以及生物活性化合物中,它们具有显着的药理和生物活性,其中2-芳基喹唑啉酮衍生物,具有镇静催眠、抗惊厥、抗抑郁、抗焦虑等作用。近年来,由于光催化反应和电化学合成具有反应条件温和、绿色环保和操作简单等优点逐渐替代传统有机合成方法已成为有机合成未来的发展趋势。苯并唑衍生物的合成一般需要
随着工业社会的发展,现代工业生产必然需要消耗大量的能源,能源短缺问题越来越突出,需要广泛寻找清洁可替代能源。BiVO4被认为是一种很有前途的光催化材料,通过对BiVO4改性处理,可有效抑制其光生载流子极易复合的问题,从而显著增强其光催化活性。本论文以提高BiVO4材料的电荷分离效率、光响应范围和解决产业化应用粉末光催化剂回收困难的问题为研究目标,通过与氧化石墨烯复合、负载金属以及复合柔性易回收光催
在当代社会,生活工作的节奏因信息发达而变得快节奏化。因而习语的语用功能研究更加具有实际意义。其研究习语的交际功能并从交际的目的出发,研究习语在交际中用来做什么,怎样达到最好的使用效果。在现代语言交际中,越来越多的人更注重在相应场合下的语言的表达效果。人们期望在交际活动中,所使用的语言更加适合、得体,使之成为有效沟通。习语不仅能表示一件事物或说明一项事理,而且能表达说话人对该事物或事理的态度,主观意