论文部分内容阅读
长链非编码RNA(Longnon-coding RNA,简记为lncRNA),几乎参与了生物体的全部生物学过程,且在生物体RNA中占很大比例。lncRNA对基因表达有很强的调控作用,与一些人类疾病密切相关。预测疾病和lncRNA的关联关系有助于弄清疾病的发生机制,同时带来一些疾病预防、治疗的新方法。在现有疾病和lncRNA关联预测的研究中,人们使用了基于机器学习和基于网络的方法。然而这些方法准确率不怎么高;而且是提取疾病与lncRNA的浅层特征,难以学习到深层表示特征。本文提出了两种疾病-lncRNA的关联预测方法,分别是基于机器学习的关联预测方法和基于有卷积神经网络的关联预测方法。第一个方法是基于机器学习的疾病-lncRNA关联预测方法。该方法首先通过疾病MeSH描述、已知的疾病-lncRNA交互作用来构建疾病的特征,基于相关lncRNA具有相似关联的疾病的假设来构建lncRNA的特征,从而构建出了疾病-lncRNA对的特征;然后使用自动编码器来对疾病-lncRNA对的特征进行降维;最后通过旋转森林来对疾病-lncRNA进行关联预测。多个评估标准和案例分析表明该方法有很好的效果。第二个方法是基于有卷积神经网络的疾病-lncRNA关联预测方法。该方法首先构造疾病和lncRNA的特征,疾病的特征分为三部分:与lncRNA的交互作用、与miRNA的交互作用、与疾病的相似性,lncRNA的特征也分为三部分:与lncRNA的相似性、与miRNA的交互作用、与疾病的交互作用;然后采取卷积神经网络和机器学习两个模块,对这两个模块分别训练,通过卷积神经网络模块来提取疾病-lncRNA对的深层表示特征,通过机器学习模块进一步加强模型的表现能力。交叉验证的实验结果表明该方法有最佳的效果。