【摘 要】
:
随着大数据时代的到来,许许多多的方面都会使用大数据信息,以便于更好的对研究项目进行了解,在目前的生物医学上也是要用到大数据为研究提供更多的素材。蛋白质折叠识别便是通过从生物的蛋白质序列出发对生物的蛋白质组学进行研究来提供有效便利的研究数据。这些方面的研究都对于医学的研究有重要的意义。本文主要对三个蛋白质数据DD数据集、RDD数据集和TG数据集进行研究。本课题基于机器学习对蛋白质折叠识别的研究,主要
论文部分内容阅读
随着大数据时代的到来,许许多多的方面都会使用大数据信息,以便于更好的对研究项目进行了解,在目前的生物医学上也是要用到大数据为研究提供更多的素材。蛋白质折叠识别便是通过从生物的蛋白质序列出发对生物的蛋白质组学进行研究来提供有效便利的研究数据。这些方面的研究都对于医学的研究有重要的意义。本文主要对三个蛋白质数据DD数据集、RDD数据集和TG数据集进行研究。本课题基于机器学习对蛋白质折叠识别的研究,主要研究内容如下:1.本章提出基于随机森林的方法,称为RF-fold。首先通过去趋势互相关分析法(Detrended Cross-Correlation Analysis,DCCA)、伪氨基酸组成(Pseudo-Amino Acid Compositiosition,Pse AAC)、氨基酸对频率(Pairwise Frequncy,PF1)和二元位置特异性得分矩阵(Bi-gram Representations,Bi-gram)4种方法,将通过上述方法得到的4种不同特征的特征向量进行融合,便可以得到一个混合特征信息的特征空间。其次,采用局部Fisher判别分析(Linear Fisher Discriminant Analysis,LFDA)对所提取蛋白质序列的特征信息进一步的选择,达到减少重复或不需要的特征信息,选取多特征数据中最有效的特征子集。最后,将数据降维后得到的特征信息输入到RF分类器中进行蛋白质折叠识别预测。此方法在训练集DD数据集和测试集TG数据集中均取得到了较高的预测结果。2.本章提出基于Bagging集成分类器方法,称为BAG-fold。首先通过融合对数据进行特征提取的伪位置特异性得分矩阵(Pseudo Position Specific Score Matrix,Pse PSSM)、二级结构(Secondary Structure,SS)、分组重量编码(Encoding Based on Grouped Weight,EBGW)和去趋势互相关分析法(Detrended Cross-Correlation Analysis,DCCA)4种方法。将上述4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(Linear Fisher Discriminant Analysis,LFDA)减少冗余信息以选取最优特征子集。最后,将数据降维后得到的特征信息输入到Bagging集成分类器中进行蛋白质折叠识别预测。此方法在训练集DD数据集和测试集RDD数据集中取得到了较高的预测结果。
其他文献
“天问一号”火星探测器已成功发射,我国的小天体探测任务预计于2024年前后实施。与大行星和月球等天体相比,小天体具有体积小、形状不规则、先验信息少的特点,其探测器的自主导航能力要求更高。本文以小天体着陆段为背景,对小天体探测器导航方案进行设计,并提出相应的滤波算法以提高探测器的状态估计精度。本文的主要研究内容如下:首先,构建小天体探测器着陆过程所参照的坐标系,并对各坐标系之间的转换关系进行推导。采
钢铁工业是国民经济的支柱性产业,在国民经济、社会发展、基础设施建设、国防等方面都发挥着不可替代的作用。现代大型钢铁制造企业的生产流程通常由前端的炼铁,中部的炼钢-连铸以及后端的轧制三大工序组成。从横向的生产过程看,炼钢-连铸是钢铁生产全流程的中间工序,对整个生产过程起着桥梁和纽带的作用。从纵向的集成管理看,生产调度是生产管理的核心,对产品的质量和效率起着至关重要的作用。所以,炼钢-连铸生产调度是确
本论文针对智能驾驶系统实际控制过程中遇到的外部扰动、未建模系统动态和测量误差等问题,提出了一系列基于数据驱动的迭代学习控制方案,研究和分析了所提方法的有效性,给出了严格的数学证明和仿真验证。论文的主要创新点总结如下:一、利用智能驾驶系统的重复运行模式,提出了一种数据驱动的高阶学习控制算法。首先,对轮式移动机器人的模型进行分析推广,得到离散时间状态空间模型,利用基于状态转移的迭代动态线性化方法,将轮
短程蒸馏技术虽在工业生产中广泛应用,但其分离机理尚未得到确切的解释,操作条件及冷热面间距等条件的选择仍需依赖经验。为了探讨短程蒸馏传热传质机理,以复杂长碳链的DHA-EPA作为研究对象,通过流体力学和分子动力学理论指导宏微观模拟仿真分析,最后通过实验进行验证。在CFD数值模拟中,采用了三维系统模型与蒸发冷凝单元体的二维模型相结合的方法进行计算,对冷热面的液膜状态、液膜温度和浓度的变化规律以及传热传
机载雷达在实现目标跟踪、空中警戒以及空中侦查等方面具有十分重要的作用,因此其在航空、导航、军事等领域占有重要地位。雷达伺服系统控制性能的优劣直接影响了其目标探测实时性、精确性和抗扰性等性能,因此对于雷达伺服控制系统的研究具有重要意义。雷达伺服控制系统设计主要存在两方面难点:一方面机载雷达工作环境恶劣,极易受风向、气流、温度等环境影响,同时机体震动、载机姿态等也会影响其稳定性与精确性。另一方面机载雷
四旋翼无人机现已广泛应用于各种民用与军事领域。其本身结构简单、体积较小、运动灵活、易于控制、飞行稳定且成本较低,上述特点使其相较于固定翼无人机来说,在某些特定场合使用效果更好。如高空摄像、无人机表演、地形勘探、电力巡航、军事侦察等。广泛的应用领域,广阔的市场需求,使得众多国家都将对四旋翼无人机的研究放到重点发展领域,众多无人机厂家及专家学者投身该领域,不断推动着四旋翼无人机的设计与理论研究。随着最
超疏水材料以其防水、防污、自清洁、可减少流体粘滞性等优良特性,在油/水分离应用上展现出了巨大优势。但仍存在一些需要克服的缺点,例如复杂的制造过程以及因使用后丢弃而造成的二次环境污染。因此选用一种生物可降解分子来构筑超疏水材料是非常必要的。聚乳酸(PLA)是目前应用最广泛的可生物降解材料之一。但PLA直接用作油/水分离膜的分离效率非常低,有必要对其进行疏水改性以提高分离效率。将纳米粒子与聚合物相结合
在工业过程中,大多数系统是非线性系统,非线性系统的参数估计已受到广泛关注。输出误差双线性参数系统是一类特殊的非线性系统,已应用于工程实践中。本文在最小二乘算法和梯度算法的基础上,利用递阶辨识原理、多新息辨识理论和数据滤波技术研究了两输入输出误差双线性参数系统的递推参数估计问题,主要工作如下:(1)针对两输入输出误差双线性参数系统,使用分解技术,将原始系统分解为三个子系统:第一个子系统包含与第一个输
飞机在降落过程中对跑道表面造成巨大的冲击,跑道表面的复合涂层对受冲击易破坏材料与易磨损材料具有非常可靠的保护作用,当前对复合涂层的接触冲击疲劳研究较少,为研究复合涂层在多次冲击下所能承受的冲击载荷及受冲击后的寿命问题,进一步探究复合涂层材料对机场跑道的保护作用。本文的研究内容如下。首先,分析飞机进场着陆时飞机轮胎对复合涂层的冲击过程,建立对称着陆与非对称着陆工况下的冲击模型并对复合涂层进行受力分析
随着人们生活品质和饮茶需求的不断提高,茶叶嫩芽的需求量越来越大。茶叶嫩芽智能化采摘的研究工作迫在眉睫,为此本文基于目标识别技术和机器人技术展开茶叶嫩芽视觉识别与采摘技术研究,并开发了茶叶嫩芽采摘机器人样机模型。在研究过程中,为了使设备能准确地选择性采摘符合要求的茶叶嫩芽,着重对嫩芽的视觉识别研究以及坐标输出,机械手的设计,机械手的路径控制和采摘顺序进行研究。重点考虑了嫩芽采摘点识别、机械手运动的坐