针对RNA-Seq数据的基因异构体表达水平计算方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:hxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核生物中普遍存在选择性剪切现象,转录过程中的一些非正常的波动变化常常与疾病有关。因此,对转录组波动变化的研究是近年来生物医学领域的一个研究热点,而基因与剪切异构体表达水平的分析为揭示转录组表达的变化情况提供了一种可行的研究方式。基于深度测序RNA-Seq技术近年来广泛应用于转录组研究,RNA-Seq实验产生数以千万计的读段(read)数据,可以从产生的这些读段对转录组表达水平进行评估。所计算得到的表达水平传递到后续分析中,可以进行寻找差异表达基因、聚类等研究。论文针对RNA-Seq实验数据中存在的读段多源映射、读段在参考序列上呈非均匀分布等问题设计了一个新的基于LDA(latent dirichlet allocation)算法的概率模型LDASeq进行基因以及剪切异构体的表达水平的计算。在LDASeq模型中,我们通过计数外显子上单位长度的读段数作为单词的个数来消除外显子长度的影响,对不满足单位长度的读段进行归一化处理;并将某一个通道的总读段集合和文本数据中的一篇文档(document)进行对应,从而充分利用读段数据的多通道信息。论文将LDASeq模型应用在三个单末端数据集以及一个双末端数据集中,并与当前主流模型Cufflinks和RSEM进行性能比较。结果表明本论文设计的LDASeq模型获得了比Cufflinks和RSEM更为准确的基因以及剪切异构体表达水平。
其他文献
随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富
本项目研究钻具构件包括疲劳寿命、腐蚀寿命和磨损寿命的评估方法,并编制计算机程序对钻具全寿命过程进行计算分析和管理,解决了一直困惑钻具管理者的钻具使用历史数据查询、
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成
随着信息化时代的到来,万维网已成为人们日常生活中不可或缺的一部分。然而其缺陷也是明显的,HTML在使网页变得越来越花哨的同时,对于信息的结构化描述却没有起到一点作用,语义网
随着信息的爆炸式增长,人们日益变得在信息垃圾当中不知所措。如何从这些无用的信息中挖掘出对我们有用的知识是近几十年来数据挖掘的主要研究目的。最初的数据挖掘的对象是结
随着电信运营业市场化的不断深入,竞争程度日趋激烈,运营商之间对客户的争夺和对业务收入的挖掘越来越依赖于精确的市场研判和调查分析。高质量的服务己成为左右市场的重要祛码。对客户的服务和关怀也越来越趋于个性化和细致化,同时,出于盈利前景的考虑,运营商的投资计划也越来越理性化。电信运营企业在市场开拓、客户服务、网络投资等诸多经营行为的更加理性化的方案诉求都离不开相应的计费帐务系统的有力支持。计费帐务系统是
万维网地理信息系统(WebGIS)指基于Internet平台、采用互联网协议运行在万维网上的地理信息系统,是利用互联网技术来扩展和完善地理信息系统的一项新技术。其核心是在地理信息
过去的三十年中,Internet已经从一个小型的实验性研究性的网络发展壮大为一个以路由器,交换机和主机组成的复杂网络.如今维护一个准确的网络拓扑关系对所有网络管理系统都是
随着微电子技术、计算机技术、网络技术以及无线通信技术的进步,无线传感器网络得到了深入的研究和广泛的应用。然而传感器节点由电池供电,能量有限。同时,无线传感器网络产生大
信息技术的发展使得人们对获取客观物理世界的信息的要求逐步提升,感知技术不断被应用,无线传感器网络作为信息互联的中枢,更是被广泛应用于环境监测、国防军事等各个领域。在无