基于多组学数据对长链非编码RNAs的功能注释

来源 :宁波大学 | 被引量 : 0次 | 上传用户:a41808829739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的随着测序技术的发展,在各种哺乳动物中发现越来越多的长链非编码RNA(long-noncoding RNA,lncRNA),但是大部分lncRNA的功能未知。鉴于lncRNA在众多生物过程中的重要调节作用,对lncRNA的功能研究已成为生物学家和生物信息学家研究的热点,其中基于计算机的功能预测是目前研究lncRNA功能的主要方法之一。目前能够应用于lncRNA功能预测的高通量数据相对较少,大部分研究者主要基于表达谱构建共表达网络对lncRNA进行功能预测,但由于lncRNAs表达较低,如果RNA-seq的测序深度不够,大部分lncRNAs的表达将不能够被检测,因此基于共表达网络的方法对lncRNAs的功能预测具有局限性。本研究引入表观遗传修饰和转录因子的ChIP-seq数据,基于多组学数据对lncRNA进行功能注释,探索和比较不同数据源进行lncRNAs功能预测的可行性和准确性。  方法本研究基于共表达网络、表观遗传修饰和转录因子数据,运用了建立在统计学习理论基础上的支持向量机算法,结合重抽样和集成算法,对多数据源构造训练数据集,经过特征提取、特征选择、模型训练、模型评价、lncRNA功能预测、结果集成等流程,完成对lncRNA的功能预测。SVM算法基于LIBSVM软件包,数据预处理等相关实现基于Perl、R语言软件。  结果基于共表达网络、表观遗传修饰和转录因子数据的SVM在测试集中的平均AUC值分别为0.662、0.638、0.609,在几种数据源中,共表达网络数据相较于表观遗传数据、转录因子数据在所构造的预测模型性能上最好,而表观遗传数据、转录因子数据最终得到了相对更多的lncRNA注释条目。三种数据源分别预测得到有功能注释的lncRNA分别为32、1441、6637个。结果集成后最终得到7036个非编码基因的预测结果,平均每个非编码基因预测得到GO功能注释约203个。  结论集成欠抽样的SVM算法从理论上来讲,具有避免类不平衡问题、提升预测模型性能、减少信息损失、降低运算时间成本的优势。多组学数据根据不同生物分子的性质和特点,对不同GO功能的预测中提供的信息、起到的作用也不尽相同。因为生物系统的复杂性,基因功能涉及到的生物机制繁多,单个数据源往往无法完全提供基因功能相关的信息,而多数据源的整合可以有效解决此问题,基于多组学数据进行lncRNA功能预测是一个有效思路,机器学习方法的运用也为研究提供了有效的工具。除了表观遗传数据、转录因子数据,或许还会有更多的数据被整合运用到lncRNA功能预测领域。
其他文献