论文部分内容阅读
真核生物中普遍存在选择性剪切现象,转录过程中的一些非正常的波动变化常常与疾病有关。因此,对转录组波动变化的研究是近年来生物医学领域的一个研究热点,而基因与剪切异构体表达水平的分析为揭示转录组表达的变化情况提供了一种可行的研究方式。基于深度测序RNA-Seq技术近年来广泛应用于转录组研究,RNA-Seq实验产生数以千万计的读段(read)数据,可以从产生的这些读段对转录组表达水平进行评估。所计算得到的表达水平传递到后续分析中,可以进行寻找差异表达基因、聚类等研究。论文针对RNA-Seq实验数据中存在的读段多源映射、读段在参考序列上呈非均匀分布等问题设计了一个新的基于LDA(latent dirichlet allocation)算法的概率模型LDASeq进行基因以及剪切异构体的表达水平的计算。在LDASeq模型中,我们通过计数外显子上单位长度的读段数作为单词的个数来消除外显子长度的影响,对不满足单位长度的读段进行归一化处理;并将某一个通道的总读段集合和文本数据中的一篇文档(document)进行对应,从而充分利用读段数据的多通道信息。论文将LDASeq模型应用在三个单末端数据集以及一个双末端数据集中,并与当前主流模型Cufflinks和RSEM进行性能比较。结果表明本论文设计的LDASeq模型获得了比Cufflinks和RSEM更为准确的基因以及剪切异构体表达水平。