论文部分内容阅读
MicroRNA(miRNA)和long non-coding RNA(lncRNA)是两种拥有不同转录本长度的非编码RNA。研究发现,miRNAs和lncRNAs都在人类许多生物学过程中扮演着重要角色,它们的失调可能导致诸如癌症等多种疾病,探究miRNAs、lncRNAs与疾病的潜在关联有助于了解疾病的发病机制,并及时做出诊断、治疗以及预后等措施。然而,传统的生物学实验成本高、耗时长,因此,开发有效的计算模型具有重要意义。机器学习方法在解决预测问题中有很多的应用。本文主要研究基于矩阵完成的计算模型预测miRNAs与疾病潜在关联以及基于网络算法的模型预测lncRNAs与疾病潜在关联。对于miRNAs与疾病关联的预测,借助lncRNAs与疾病的关联数据作为辅助信息,应用基于矩阵完成的方法进行预测。将从数据库下载的已知的miRNA-疾病关联数据以及lncRNA-疾病关联数据进行整合,然后构建映射网络,根据映射网络的不变性的性质构建负样本,最后以相似度作为边信息,将miRNA-疾病关系的预测转化为低秩矩阵完成问题,采用交替梯度下降法求解模型。5-fold交叉验证(5-fold CV)结果显示ROC曲线下面积(AUC的值)为0.8884,超过了近几年提出的一些方法。对于lncRNAs与疾病关联的预测,开发了一种在多层异构图上进行带重启的随机游走算法。用下载的已知的lncRNA-疾病关联数据计算多种相似性构成多种相似性网络,与lncRNA-疾病关联网络构建成多层异构图,在多层异构图上进行带重启的随机游走,利用稳定概率预测潜在的lncRNA与疾病关联。留一交叉验证(LOOCV)的结果显示,AUC的值为0.8581,与近年来预测lncRNA-疾病关联的经典算法相比有了明显提高。最后,本文对模型进行了总结,并对未来的研究进行了展望。