lncRNA-疾病关联关系预测方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:beimenchuiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长链非编码RNA(Longnon-codingRNA,简称lncRNA)是一种拥有超过200个核苷酸并且不编码蛋白的RNA。当前lncRNA-疾病关联预测模型的局限性普遍在于:(1)数据集稀疏问题:已知lncRNA-疾病关联数据很少引起数据的稀疏问题;(2)预测精确度问题:受到已知的lncRNA-疾病的关联数据较少等问题的约束,许多预测模型的预测精确度不高;(3)孤立lncRNA相关的疾病的预测问题;(4)孤立疾病相关的lncRNA的预测问题;(5)负样本问题。
  鉴于logistic矩阵分解非常适用于二元变量和稀疏性问题,因此本文提出运用基于logistic矩阵分解算法预测lncRNA-疾病关联的计算模型。本文所做的具体工作如下:
  (1)本文提出运用邻域正则logistic矩阵分解(NRLMF)模型来预测lncRNA-疾病关联关系(NRLMF-LDA)。在NRLMF中,针对数据稀疏问题,使用logistic矩阵分解来模拟每个lncRNA-疾病对的相互作用概率。针对预测精确度问题,根据相似的疾病通常和功能相近的lncRNA有关,NRLMF模型通过训练过程中的邻域正则化和预测过程中的邻域平滑充分利用了邻域信息来提升预测精度。此外,NRLMF还可以用来预测孤立lncRNA/疾病相关的疾病/lncRNA。
  (2)由于NRLMF预测性能还不够好,尤其是针对孤立lncRNA/疾病相关的疾病/lncRNA问题预测效果不佳,因此在其基础上提出利用双网络logistic矩阵分解与贝叶斯优化模型来预测lncRNA与疾病关系(DNILMF-BO)。为了提升模型预测精确度,DNILMF-BO模型继承了NRLMF原有的优点并对其进行改进。改进之处有:在模型中增添了lncRNA与疾病相似性网络信息;通过非线性融合提取不同相似性矩阵中最重要的信息;利用贝叶斯优化中的高斯过程互信息(GP-MI)算法进行模型参数优化。
  本文所用模型均为半监督学习模型,无需负样本。在预测精确度方面,基于十倍交叉验证(10-CV)来评估NRLMF-LDA模型与DNILMF-BO模型的性能,实验结果表明,两个模型的预测效果均优于其它四个对比模型,且基于NRLMF-LDA改进的DNILMF-BO模型的AUC值比NRLMF提升了4.36%,AUPR值提升了14.49%。在孤立lncRNA及疾病预测方面,两个模型均能够预测孤立lncRNA/疾病相关的疾病/lncRNA。对于DNILMF-BO,预测孤立lncRNA相关的疾病的AUC值相比NRLMF-LDA增长了15.99%;预测孤立的疾病相关lncRNA的AUC值相较NRLMF-LDA增长了5.02%。关于案例分析,NRLMF-LDA中对非小细胞癌症、宫颈癌与神经胶质瘤进行案例分析发现,与非小细胞癌症、宫颈癌相关的排名前五的lncRNAs全部得以证实,与胶质瘤相关的前四个lncRNAs也得到证实;对乳腺癌、肺癌和结肠癌的案例研究表明,DNILMF-BO是一种有效的预测lncRNA疾病关系的方法。
其他文献
机器阅读理解是使机器阅读并理解给定文章和相关的问题,预测相关问题的答案。机器阅读理解是自然语言处理领域最重要的任务之一,被认为是人工智能发展过程中最具挑战性的方向之一。随着众多大规模高质量数据集的推出和各种深度神经网络的使用,机器阅读理解得到快速发展,进步显著,答案预测准确率远超人类。
  近年来,预训练语言模型被创造性的提出。由于预训练语言模型的优秀表现,现有的绝大部分机器阅读理解模型,在编码阶段使用预训练语言模型编码给定的文章和文章相关的问题,在信息融合阶段使用多种注意力机制将文章信息跟其相关的
在当今大数据时代,大规模数据处理主要是基于分布式的并行处理计算,调度在提高大数据并行处理框架的性能方面起着重要作用。Spark作为大数据处理领域最新技术进展,其是一个基于内存计算的并行计算框架,使用多线程任务调度模型。在Spark任务调度过程中不会考虑内存资源,而是由用户设置参数确定任务执行进程中并发执行的任务线程数量。这对任务线程乃至整个应用程序的执行性能造成了潜在限制。为了克服现有的Spark任务调度中存在的这种限制,本文提出一种动态内存感知的Spark任务调度策略(Dynamic Memory-Aw
社交网络,通信网络、传感器网络等迅猛发展催生了大量快速变化的网络数据。由于图可以捕获网络数据中复杂的依存关系和交互作用,因此网络数据可以很自然地被表示为一个图。图数据通常是动态变化的,许多应用必须利用最新的图数据才能产生可以反映当前状态的结果。然而,传统的计算方式需要在整个数据集上重新运行,存在效率不高和资源浪费的问题。增量计算是提高大规模动态图处理效率的有效手段。它的基本思想是利用上一个图的计算
随着地理定位和地理标记技术的普及,许多基于位置的应用正在涌现,如附近美食的定位和酒店预订等。最近几年,许多学者对组合空间关键字查询(Co SKQ)进行了广泛的研究。然而,组合空间关键字查询问题通常只寻找一组对象作为结果。但在实际应用场景中,用户往往希望得到多组查询结果,并从中选择出其最感兴趣的查询结果。另外,现有处理Co SKQ问题的方法都基于索引结构,这不仅需要额外内存开销,而且不适用于流数据源
癌症是一种复杂的基因病,对人类健康构成严重威胁,是全球范围内的主要死亡原因之一。下一代测序技术的产生和发展,带来了多组学高通量数据,同时也为理解癌症潜在机制和实现精准医疗提供了巨大的可能。体细胞突变中只有一小部分是驱动突变,为肿瘤发展提供了选择性增长优势,大部分突变为中性的乘客突变,准确识别驱动突变对于癌症研究具有重要意义。但是,现在识别方法多数基于整个基因或单个突变位点,忽略了功能元素的中等规模
摘 要:排气系统作为重要的发动机部件,对发动机性能和噪声都有极大的影响.为提高汽车安全性和乘坐舒适性,优化排气系统的设计,根据相关设计要求对排气系统进行了强度和模态分析.首先基于CATIA软件,建立排气系统的三维模型;再用Hypemesh软件进行网格划分、简化模型、施加约束等操作,通过OptiStruct求解器对排气系统进行1 G静力分析、4 G静力分析、约束模态分析.仿真结果显示,排气系统在1
期刊
异常检测旨在从给定数据中发现那些明显偏离常规模式或表现为异常行为的数据。由于在网络入侵、医疗健康、信用欺诈、文本异常、视频监控和社会突发事件监控等领域中有着广泛应用,异常检测已成为数据挖掘的研究热点,并出现了众多异常检测算法。随着现实数据的维数越来越高,异常检测面临两个困难亟待解决:一方面,数据的高维性不仅使得异常数据难以识别,而且加剧了学习模型的复杂度;另一方面,数据维数的增加导致数据之间的欧氏距离相差很小,即高维空间中任意数据之间距离非常接近,使得数据的邻域信息难以获取。因此,如何从高维空间中有效地获
摘 要:热障涂层与冷却技术结合可以极大地提高航空涡轮发动机叶片的服役温度,而羽毛柱状结构的等离子喷涂-物理气相沉积(PS-PVD)熱障涂层因其热导率低、应变容限良好、热循环寿命长等优势备受关注.通过进行物相分析,使用扫描电子显微镜(SEM)观察热障涂层表面及截面的形貌结构;在SEM二维图像的基础上,使用图像法计算孔隙率.结果表明:通过PS-PVD设备制备出的热障涂层结晶度良好,空间点矩阵属于P/n
期刊
摘 要:以皖南山区某工程滑坡为研究对象,结合地质勘察成果,从地形地貌、地层岩性、地质构造、水文地质条件及工程施工等方面分析了滑坡的成因.基于传递系数法分别计算原地面、开挖后边坡在天然状态和饱水状态下的稳定性系数.结果表明:原地面自然边坡基本稳定;工程施工后,边坡天然状态下稳定系数Fs为1.164,基本稳定;遇暴雨或连续阴雨的饱水工况下,抗滑总力下降约6.3%,下滑总力增加约9.2%,稳定性系数Fs
期刊
高光谱图像(HSI)是由几十至几百个连续的波段信息组成,具有光谱分辨率高、纹理信息丰富等优点。其图谱合一的特性,为深度挖掘地物信息提供了有利条件,被广泛应用于资源勘探、城市规划、军事监测等不同领域。然而,在高光谱图像捕获和传输过程中,受仪器故障与大气环境等因素的干扰,导致高光谱图像被各种噪声污染,限制了后续的分析与应用性能。因此,如何有效地恢复高光谱图像是遥感图像处理领域的一个重点研究方向。高光谱