【摘 要】
:
蛋白质与RNA的相互作用在很多生命活动中都不可缺少。这种相互作用与生命体中的很多生命活动都息息相关,如基因的翻译与表达和疾病调控等。随着测序技术的高速发展,已经发现的RNA与蛋白质间的相互作用源源不断的增加,这使得利用机器学习方法对RNA蛋白相互作用进行大规模预测成为可能。在过去的十年中,深度学习模型被广泛应用于基于生物序列的预测任务中,包括RBP与RNA相互作用的预测。预测模型的性能一般受限于两
论文部分内容阅读
蛋白质与RNA的相互作用在很多生命活动中都不可缺少。这种相互作用与生命体中的很多生命活动都息息相关,如基因的翻译与表达和疾病调控等。随着测序技术的高速发展,已经发现的RNA与蛋白质间的相互作用源源不断的增加,这使得利用机器学习方法对RNA蛋白相互作用进行大规模预测成为可能。在过去的十年中,深度学习模型被广泛应用于基于生物序列的预测任务中,包括RBP与RNA相互作用的预测。预测模型的性能一般受限于两个要素,即输入数据的的特征表示和分类模型。基于机器学习的方法一般需要实验者根据领域知识手动设计数据特征,而基于深度学习的方法由于其在特征表示和学习能力方面的独特优势,不仅可以提高预测精度,而且有助于识别序列中对结合亲和力至关重要的基序。在分类模型的选择上,生物信息学的序列信息处理与自然语言处理的文本数据处理有一些相似之处,所以我们可以借鉴自然语言处理领域的先进研究成果。因此,本研究中从数据源和网络模型的角度着手。首先我们对现存的CLIP-seq数据库中RNA序列数据进行收集并整理筛选,利用RNAfold和bp RNA获得对应的二级结构注释信息,将序列和二级结构注释信息作为数据源。网络模型方面,利用卷积神经网络分别提取RNA的序列和结构特征相加作为组合特征,然后利用Position Embedding网络学习序列的长依赖性。最终我们提出了一种混合神经网络模型RBPformer,使用RNA的序列信息和二级结构信息预测RNA上的结合位点。此外,在本研究中还就二级结构信息是否有助于模型预测性能提升进行了实验。最后通过在19种蛋白质的31个实验组成的CLIP-seq数据集上进行模型的预测评估并与同类预测算法进行比对,其实验结果表明,RNA二级结构信息确实有助于模型预测性能的提升,并且混合神经网络相比其他同类模型具有明显优势,在测试集上该模型的平均AUC可达到84%,表明该混合神经网络有良好的性能。该混合神经网络模型的提出以及二级结构特征的加入为深入研究RNA与蛋白质相互作用研究提供了新的思路。
其他文献
云计算环下实验室资源管理平台设计与实现云计算技术的出现与发展为资源管理分配和服务应用部署提供了新的方式,用户可以在网络上依据需求向云平台申请计算、存储等资源,甚至可以申请具体的应用服务。此外,云计算技术也允许用户自定义个性化服务并将其部署在云端,以此节省巨大的硬件、服务实现以及维护成本。本文对容器技术和虚拟机技术进行比较之后,使用容器和编排工具等云计算相关技术,在实验室内部从调度策略、平台设计以及
随着国家经济实力的快速提升以及城市化进程的加快,城市交通参与者大幅增多,城市交通出行需求剧烈增长,导致交通拥塞现象在各大城市交通环境中时有发生。如何缓解城市交通拥塞现象,从而合理调度城市交通资源,提高城市交通效率,是一个迫切需要解决的问题。城市交通拥塞时空模式的挖掘研究,可以捕捉城市交通拥塞分别在时空维度上的传播模式,挖掘影响城市交通拥塞传播的时空因素,从而精准地预测未来的城市交通拥塞情况,为未来
和图像分类一样,图像分割已成为诸多医学影像研究中极为重要的领域之一。图像分割旨在提取具有特定含义的图像区域或特征,并将它们分割出来,为医学诊断治疗以及影像学和病理学的研究提供基础。因此,从医学影像中精确而稳定地分割人体器官或病灶区域,在疾病的诊断和治疗等诸多临床医学问题上起着举足轻重的作用。但是由于临床医学影像所具有的特殊性和复杂性,如何解决其在影像分割过程中存在的个体间差异和不规则性等问题十分必
随着计算机技术的发展,在汽车行业的研发过程中,信息技术与人工智能等技术发挥了越来越重要的作用。自上世纪90年代开始,研究人员致力于改善汽车的性能、安全性、舒适性等性能,研发出了越来越多的控制系统,并且开发出了新的驾驶辅助系统。在整车控制领域,对汽车运动状态的估计是十分重要的一环,运动状态估计的准确与否决定了控制效果的好坏,并且随着整车控制系统、驾驶辅助系统、自动驾驶系统越来越复杂,对参数估计的准确
随着饮食文化的发展和互联网技术的革新,人们开始热衷于通过网络分享食品照片。如何自动识别这些食品图像对应的食品属性信息,是目前食品图像识别技术面临的主要挑战。食品图像识别技术应用前景广泛,针对食品类别、食材和烹饪方法的识别能够为人们提供相关的菜谱信息,食品营养成分预测还能为营养学分析、科学膳食搭配和医学健康管理等提供信息支撑。然而,现有食品图像识别方法主要针对单一任务,如食品分类等,而关于同时预测食
目的:探讨甘油三酯葡萄糖乘积指数对经皮冠状动脉介入术后急性非ST段抬高型心肌梗死患者远期预后的预测价值,从而为急性非ST段抬高型心肌梗死患者改善远期预后提供临床治疗依据。方法:连续纳入2016年1月1日至2018年6月30日在吉林大学第一医院772例行PCI的NSTEMI患者,通过电子病历系统收集这部分患者的住院信息,经过纳入及排除标准后,最终入选符合条件的715例作为研究对象。对所有患者进行24
研究目的:研究血浆纤维蛋白原浓度和血嗜酸性粒细胞百分比两种生物标志物与AECOPD临床表型之间的相关性,多维评估AECOPD全身状态,探索性的指导疾病分型,预测预后,优化防治策略。研究方法:(1)研究对象:纳入2017年1月-2020年6月于吉林大学第一医院呼吸与危重症医学科确诊收治AECOPD患者242例。(2)研究方法:回顾性收集纳入患者的临床资料,根据血浆纤维蛋白原浓度(阈值,350mg/d
背景和目的:系统性轻链型淀粉样变(systemic light chain amyloidosis,AL)是一种多系统受累的单克隆浆细胞病,该病临床表现缺乏典型性,发病率较低,在临床工作中容易漏诊及误诊,延误治疗。早期的诊断及治疗对AL的预后至关重要。本研究通过总结我院初治AL的临床特征、治疗情况及预后特点,从而加深对该病的认识,为该病的诊治提供更多的经验。方法:回顾性分析吉林大学第一医院血液科2
研究目的:酒精性肝炎(alcoholic hepatitis,AH)是一种以近期黄疸和肝脏炎症为特征的一种临床综合征,其中重症酒精性肝炎(severe alcoholic hepatitis,SAH)是其中尤为危重的一种,可出现肝衰竭倾向,短期病死率高。临床上激素使用受限且治疗效果有限,肝移植往往是唯一有效治疗手段。随着中国经济开放和饮食习惯的改变,中国酒精相关性疾病负担日益加重,SAH患者的治疗
目的:本研究旨在比较冷冻消融与射频消融治疗阵发性房颤的临床效果,并对阵发性房颤消融术后复发的危险因素进行分析。方法:本研究回顾性入选2019年1月至2019年12月在吉林大学第一医院接受射频消融或冷冻消融治疗的阵发性房颤患者169例,对所有患者进行筛选及排除,最终共纳入107例患者入组,其中射频消融组54例,冷冻消融组53例,所有入组患者均经I类和(或)Ⅲ类抗心律失常药物治疗无效并且首次接受房颤消