论文部分内容阅读
随着高通量测序技术的快速发展,MeRIP-seq测序技术开启了RNA表观遗传学研究新局面,使得人们能够在全基因组范围内描述RNA甲基化。从MeRIP-seq高通量数据中发现RNA差异甲基化及共甲基化模式,有助于揭示mRNA甲基化在调控基因表达、剪切等方面所发挥的潜在功能,有效指导癌症的干预治疗。本论文针对RNA甲基化位点预测、RNA差异甲基化和共甲基化模式分析方法进行了深入研究,主要贡献如下:1、针对现有RNA甲基化位点检测算法采用手工特征表示RNA序列,并采用浅层分类器进行分类的问题,提出了一种基于多模态卷积神经网络的RNA甲基化位点检测算法(Methyl-CNN)。Methyl-CNN算法通过构建多模态深度卷积神经网络模型,分别输入RNA序列、RNA二级结构特征及碱基化学特征,预测RNA甲基化位点。5折叠交叉验证下,Methyl-CNN算法的敏感性、特异性、马修斯相关系数及准确率均高于现有算法,说明Methyl-CNN算法可有效检测RNA甲基化位点。2、针对小样本RNA甲基化情况,提出一种小样本条件下RNA差异甲基化分析方法(DRME)。DRME方法首先利用exomePeak算法检测甲基化区域,然后采用2个独立的负二项分布对找到的甲基化区域读段数进行建模,解决转录调控以及生物复制性样本的组内差异影响,基于二维局部回归估计方差,实现RNA差异甲基化检测。模拟数据和真实数据上实验结果表明:相对于Fisher’s精确检验,DRME检测效果佳,发现的差异甲基化位点统计显著性高。3、针对RNA甲基化低表达量情况,提出一种新的小样本测序数据RNA差异甲基化分析方法(QNB)。不同于DRME方法仅依赖输入控制样本估计背景,QNB结合输入样本和免疫沉淀样本估计基因表达,提高低表达基因检测率。然后,采用4个独立的负二项分布模型对甲基化区域读段数建模,基于二维局部回归估计方差,实现RNA差异甲基化检测。模拟数据和真实数据上实验结果表明:相对于其它RNA差异甲基化检测方法,QNB有较佳的检测效果。4、综合分析不同实验条件(细胞类型、组织或刺激)下的多组MeRIP-Seq数据,挖掘共有甲基化区域,分别采用K均值、层次聚类、非负矩阵分解和贝叶斯因子回归模型四种聚类方法进行聚类,提出一种聚类结果之间一致性评估方法发现共甲基化,通过基因本体论富集分析证实了甲基化组中共甲基化模式的存在。