论文部分内容阅读
长链非编码RNA(Longnon-codingRNA,简称lncRNA)是一种拥有超过200个核苷酸并且不编码蛋白的RNA。当前lncRNA-疾病关联预测模型的局限性普遍在于:(1)数据集稀疏问题:已知lncRNA-疾病关联数据很少引起数据的稀疏问题;(2)预测精确度问题:受到已知的lncRNA-疾病的关联数据较少等问题的约束,许多预测模型的预测精确度不高;(3)孤立lncRNA相关的疾病的预测问题;(4)孤立疾病相关的lncRNA的预测问题;(5)负样本问题。
鉴于logistic矩阵分解非常适用于二元变量和稀疏性问题,因此本文提出运用基于logistic矩阵分解算法预测lncRNA-疾病关联的计算模型。本文所做的具体工作如下:
(1)本文提出运用邻域正则logistic矩阵分解(NRLMF)模型来预测lncRNA-疾病关联关系(NRLMF-LDA)。在NRLMF中,针对数据稀疏问题,使用logistic矩阵分解来模拟每个lncRNA-疾病对的相互作用概率。针对预测精确度问题,根据相似的疾病通常和功能相近的lncRNA有关,NRLMF模型通过训练过程中的邻域正则化和预测过程中的邻域平滑充分利用了邻域信息来提升预测精度。此外,NRLMF还可以用来预测孤立lncRNA/疾病相关的疾病/lncRNA。
(2)由于NRLMF预测性能还不够好,尤其是针对孤立lncRNA/疾病相关的疾病/lncRNA问题预测效果不佳,因此在其基础上提出利用双网络logistic矩阵分解与贝叶斯优化模型来预测lncRNA与疾病关系(DNILMF-BO)。为了提升模型预测精确度,DNILMF-BO模型继承了NRLMF原有的优点并对其进行改进。改进之处有:在模型中增添了lncRNA与疾病相似性网络信息;通过非线性融合提取不同相似性矩阵中最重要的信息;利用贝叶斯优化中的高斯过程互信息(GP-MI)算法进行模型参数优化。
本文所用模型均为半监督学习模型,无需负样本。在预测精确度方面,基于十倍交叉验证(10-CV)来评估NRLMF-LDA模型与DNILMF-BO模型的性能,实验结果表明,两个模型的预测效果均优于其它四个对比模型,且基于NRLMF-LDA改进的DNILMF-BO模型的AUC值比NRLMF提升了4.36%,AUPR值提升了14.49%。在孤立lncRNA及疾病预测方面,两个模型均能够预测孤立lncRNA/疾病相关的疾病/lncRNA。对于DNILMF-BO,预测孤立lncRNA相关的疾病的AUC值相比NRLMF-LDA增长了15.99%;预测孤立的疾病相关lncRNA的AUC值相较NRLMF-LDA增长了5.02%。关于案例分析,NRLMF-LDA中对非小细胞癌症、宫颈癌与神经胶质瘤进行案例分析发现,与非小细胞癌症、宫颈癌相关的排名前五的lncRNAs全部得以证实,与胶质瘤相关的前四个lncRNAs也得到证实;对乳腺癌、肺癌和结肠癌的案例研究表明,DNILMF-BO是一种有效的预测lncRNA疾病关系的方法。
鉴于logistic矩阵分解非常适用于二元变量和稀疏性问题,因此本文提出运用基于logistic矩阵分解算法预测lncRNA-疾病关联的计算模型。本文所做的具体工作如下:
(1)本文提出运用邻域正则logistic矩阵分解(NRLMF)模型来预测lncRNA-疾病关联关系(NRLMF-LDA)。在NRLMF中,针对数据稀疏问题,使用logistic矩阵分解来模拟每个lncRNA-疾病对的相互作用概率。针对预测精确度问题,根据相似的疾病通常和功能相近的lncRNA有关,NRLMF模型通过训练过程中的邻域正则化和预测过程中的邻域平滑充分利用了邻域信息来提升预测精度。此外,NRLMF还可以用来预测孤立lncRNA/疾病相关的疾病/lncRNA。
(2)由于NRLMF预测性能还不够好,尤其是针对孤立lncRNA/疾病相关的疾病/lncRNA问题预测效果不佳,因此在其基础上提出利用双网络logistic矩阵分解与贝叶斯优化模型来预测lncRNA与疾病关系(DNILMF-BO)。为了提升模型预测精确度,DNILMF-BO模型继承了NRLMF原有的优点并对其进行改进。改进之处有:在模型中增添了lncRNA与疾病相似性网络信息;通过非线性融合提取不同相似性矩阵中最重要的信息;利用贝叶斯优化中的高斯过程互信息(GP-MI)算法进行模型参数优化。
本文所用模型均为半监督学习模型,无需负样本。在预测精确度方面,基于十倍交叉验证(10-CV)来评估NRLMF-LDA模型与DNILMF-BO模型的性能,实验结果表明,两个模型的预测效果均优于其它四个对比模型,且基于NRLMF-LDA改进的DNILMF-BO模型的AUC值比NRLMF提升了4.36%,AUPR值提升了14.49%。在孤立lncRNA及疾病预测方面,两个模型均能够预测孤立lncRNA/疾病相关的疾病/lncRNA。对于DNILMF-BO,预测孤立lncRNA相关的疾病的AUC值相比NRLMF-LDA增长了15.99%;预测孤立的疾病相关lncRNA的AUC值相较NRLMF-LDA增长了5.02%。关于案例分析,NRLMF-LDA中对非小细胞癌症、宫颈癌与神经胶质瘤进行案例分析发现,与非小细胞癌症、宫颈癌相关的排名前五的lncRNAs全部得以证实,与胶质瘤相关的前四个lncRNAs也得到证实;对乳腺癌、肺癌和结肠癌的案例研究表明,DNILMF-BO是一种有效的预测lncRNA疾病关系的方法。