基于词向量和深度学习的Ⅲ型分泌效应蛋白预测研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:bqrxbqrx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Ⅲ型分泌效应蛋白(T3SE)是革兰氏阴性细菌在其生长和繁殖中必不可少的蛋白质之一。革兰氏阴性细菌的致病机理依赖于T3SE,通过将T3SE注入宿主细胞,来破坏宿主细胞的免疫能力。T3SE序列具有高度的多样性,并且缺乏明确的分泌标记,使得序列难以被识别和预测。同时,T3SE引发的致病机理研究也是生物信息学中的热门话题。为了满足通过计算方法识别T3SE的需求,一些计算工具已经开发了出来。尽管这些计算工具可以在一定程度上帮助研究人员进行生物学实验,但是,因现有方法多采用手工设计的特征和传统的机器学习方法,即使对于当前的最佳模型而言,仍有很大的提升空间。在这项研究中,我们提出了两种T3SE预测模型。第一种是基于词向量和深度学习方法的预测器模型,称为WEDeep T3。模型主要包括三个关键步骤。首先,我们在大规模蛋白质序列语料库中训练蛋白质词向量。其次,我们将词向量与传统蛋白质特征(PSSM)结合起来,以构建更全面的特征表示。最后,我们构建了用于预测T3SE的深度神经网络模型。第二种是基于自注意力机制的预测模型。模型主要包含两个关键步骤。首先,我们构建大规模蛋白质序列语料库,在该语料库上预训练语言模型。其次,我们在T3SE数据集上对保存的模型进行参数微调。两种预测方法均是蛋白质序列研究中可以通用的方法,并且从实验结果表明,两种模型的性能都超过了现有的T3SE预测模型。
其他文献
随着工业机器人技术的发展,机器人已被广泛的应用于工业生产制造环节中,对于需要灵活部署、机器人操作不方便的生产场景,人机协作的生产模式是一种有效的提高生产效率的方式。因此,研究机器人在保障操作人员安全的前提下,如何在复杂多变的协作环境中进行避障规划,完成规定的生产任务具有重要意义。本文针对人机协作装配应用场景,围绕空间动态障碍物检测和机器人主动避障规划方法展开研究,具体研究内容包括以下四个方面:(1
鉴于建筑内消防设备需处于待工作状态,能实时了解动力情况的要求,论文实现了一种基于物联网的建筑消防动力设备监控系统。论文首先针对动力设备电源状态的在线测量要求,对供电状态测量方法进行分析研究,对交流信号有效值算法进行对比分析,提出一个多周期等间隔算法来实现设计中的电量交流有效值的采样测量,设计了相应的软件算法,并在计算机中进行了仿真验证。其次,为了实现对电量状态的实时监测,设计了一款以ARM微处理器
在强化学习的背景下,训练效率随状态空间的大小呈指数级衰减,尤其是在具有连续动作空间的机器人控制领域中,高维连续的状态空间和动作空间使得在真实环境下应用强化学习算法训练机器人学习实时控制策略变得困难。为了解决在高维连续搜索空间中数据利用率极低的问题,研究人员们尝试了很多方法,例如通过生成更多的好数据指导智能体学习等。但是如何设计易于优化、能够有效表达领域知识的状态空间表示一直是一个开放性的问题。得益
高光机是数控机床专用领域的分支,用于高精密、高光泽度要求的零部件加工,并以此得名。智能手机及手持终端的爆发式增长中,高光机是必须的生产设备,并由此得到快速、规模化的发展。目前高光机的国产化程度很高。然而在要求较高的细节加工上,仍存在着刀纹不均、表面质量不高的问题,这种问题在生产节奏提升时会放大,限制了生产效率。数控机床的加工过程是机械、电气控制相结合的复杂机电系统控制过程,涉及到材料学、力学、机械
无线传感器网络(Wireless Sensor Networks,WSNs)由于其低能耗,低成本和无线传输而被广泛用于环境监测,智能家居,医疗保健,智能工厂等领域。但由于信号衰减,多径效应和同频干扰等原因,无线信号容易受损,导致丢包。现有研究中,(部分)重传技术需要消耗额外的能量,而前向纠错技术(Forward Error Correction,FEC)在数据包中添加了冗余字节,从而牺牲了网络吞吐
在当前数据时代,机器学习算法成为了联结数据和决策的桥梁。实际应用中,不同的机器学习任务都有较为稳定的算法进行求解。但传统的机器学习只使用单任务的方式进行各自的训练和预测,忽视了其他相似任务可能带来的共享收益。多任务学习的提出就是为了高效的挖掘多任务之间的共享信息,以提升多任务学习系统的整体预测性能。通过为每一个单独的机器学习任务提供额外的有效训练信息,最终提高单机器学习任务的实际预测表现。论文主要
自然语言处理的目标是实现人机间自然语言通信,让计算机更好地理解人类语言文本,是人工智能和计算机领域中的重要一环。作为自然语言和计算机语言之间的技术桥梁,语义分析技术,将自然语言文本转为计算机可读的逻辑形式,是自然语言处理走向自然语言理解的关键性挑战。而语义角色标注是一种简单有效而且易于实现的浅层语义分析技术,旨在分析句子中谓词与相应语义角色之间的关系,获取句子的浅层语义表示,从而带动其他深层语义处
图像彩色化是把灰度黑白图像转化成彩色图像。近红外图像彩色化是图像彩色化的一个分支。相比于普通灰度图彩色化,近红外图像彩色化因原始近红外图像的原因面临着彩色结果不清晰的难题。近红外图像在交通辅助驾驶、军事领域、安防监控、智能警务和无人驾驶等都被广泛应用,但是由于其缺乏颜色信息不利于人眼观察,故而彩色化近红外图像很有实际应用意义。随着深度学习的发展,一些方法展现了它们优秀的图像彩色化能力。然而现有的红
发轫于上世纪的神经网络方法,在长期的发展过程中,经过了大量的调整、改进和优化,终于在近几年取得了引人注目的成果,并逐渐为不同领域的学者所青睐,大范围流行了起来。针对不同领域的数据各自的特点,形态结构各异的神经网络模型被大量提出,并在各自的领域中取得了显著的效果提升。同时,神经网络的拟合能力也随着神经网络的加深而不断增加,许多通用的深度神经网络架构被提出,并作为骨架广泛应用于各种不同的任务中。在复杂
在日常生活中,文本检测和识别有着非常广泛的应用,涉及了图像检索、图片管控、票据识别等诸多场景,因而在学术界引起了广泛关注,有很多专家学者对此进行了深入研究。在自然场景中,文本通常具有不同的种类、尺度和分布,且缺少结构化的版式。此外,场景背景的复杂性也是一个难点,如低分辨率、噪声干扰、异物遮挡、透视变换等都可能对检测和识别结果造成不利影响。以上问题的存在使得场景下的文本检测和识别成为一项富有挑战性的