论文部分内容阅读
MicroRNA(miRNA)是一类长度为22个碱基左右的非编码RNA,主要通过抑制靶mRNA翻译或促使其降解的方式实现对靶基因的转录后调控。mi RNA在许多生物学过程中起着极其关键的调控作用,包括生长发育、细胞增值、组织分化和疾病发生等。对miRNA的系统性分析有利于miRNA调控功能的研究、疾病靶标的发现和机理的研究。二代测序技术的发展与应用为miRNA的分析提供了数据基础,尤其是小RNA测序数据。本研究从NCBI的SRA数据库中收集了741个人类小RNA测序数据集,以及自主测序的5个小RNA测序数据集,经过质量控制筛选得到来自24种不同的组织/疾病/细胞系的410个数据集。通过实验室自主搭建的小RNA测序数据分析流程,系统分析了miRNA的表达情况,并开发了miRNA表达谱数据库HMED,网址为http://bioinfo.life.hust.edu.cn/smallRNA/。数据库按照不同的组织/疾病/细胞系展示了miRNA的表达情况。特异性表达的miRNA一般在相应的组织/疾病/细胞系中起着关键调控作用,也更有可能作为组织和疾病的标志物。我们设计了香农熵和标准分值(Z score)相结合的鉴定特异表达miRNA的筛选方法。用香农熵度量miRNA在组织/疾病/细胞系中表达的集中度,用标准分值度量miRNA表达的离群程度。使用这个方法,我们鉴定了41个在组织/疾病/细胞系中特异表达的miRNA和17个选择性表达在2种组织中的miRNA。我们还发现相对于其他组织,脑组织、睾丸组织和HEK293T细胞系中特异表达的miRNA较多。另外,我们对疾病样本及其正常对照样本进行了差异表达分析,在乳腺癌、肺癌、肝癌和牛皮癣4种疾病中分别鉴定出了51、41、8、2个表达差异显著的miRNAs。这些miRNA有利于相应疾病的研究以及miRNA调控功能的揭示。miRNA靶基因研究是miRNA功能研究的基础。我们整合了Targetscan、miRanda、RNAhybrid和PITA 4个miRNA靶基因预测数据库结果,以及TarBase、miRTarBase、miR2Disease、miRecords 4个靶基因实验验证数据库,构建了全面的miRNA靶基因数据集,并结合GO、KEGG、Biocarta、Reactome 4个功能数据集,基于java开发了mi RNA靶基因功能分析工具EasymiR。该工具可用于miRNA靶基因数据的筛选、靶基因功能富集分析和miRNA靶基因关系图绘制。总之,本文工作对大规模小RNA测序数据进行了系统全面的表达分析,建立了miRNA表达谱数据库,并通过基于香农熵和标准分值相结合的方法鉴定了组织特异性的miRNA以及疾病异常表达的miRNA。我们整合mi RNA靶基因数据开发了一个miRNA靶基因功能分析工具。这些分析方法和结果将有利于miRNA功能的揭示和miRNA疾病标志物的发现。