论文部分内容阅读
复杂疾病是一种遗传、环境及生活方式等多种原因共同导致的疾病。由于其致病机制复杂,复杂疾病难以通过遗传概率来估计个体患病的风险、也难以诊断、治疗及预后。疾病是面对生理及病理压力时的异常反应,那些会影响分子行为的生物成分与疾病间存在着某种天然的联系。miRNA(micro RNA)是一种在正常或疾病情况下都会调控大多数分子行为的重要调控子,它通过与基因3’端非翻译区的碱基互补抑制靶基因的转录后表达,因此miRNA的调控异常是引发疾病或导致疾病恶化的看不见的手。本文主要研究从大量的生物短序列中识别出miRNA并探寻复杂疾病中异常调控的miRNA。具体研究内容如下:1.提出成熟miRNA序列模式抽取方法并给出成熟miRNA序列模式抽取标准的建议。针对成熟miRNA序列长度短、变体形式多样而造成的序列生物特征难以识别的问题,提出基于序列比对的成熟miRNA序列模式抽取方法。该方法通过抽取成熟miRNA序列中共同的碱基作为序列模式。通过比较不同长度、不同概率、不同数量的序列模式对真假成熟miRNA的分类性能,给出成熟miRNA序列模式的标准。通过分析所抽取的序列模式在果蝇、小鼠和人类三个物种的真实miRNA和人工miRNA上的分布情况及分类性能发现该方法所抽取的成熟miRNA序列模式蕴含了真实的miRNA保守性信息。2.提出从深度测序的大量读段中识别miRNA的方法——mir PD,该方法有较高的执行效率且不逊于其它识别方法的敏感性及特异性。深度测序数据所产生的许多读段均具有与miRNA相似的生物特征,仅用生物特征筛选读段会导致较高的假阳性。此外,将数目巨大的读段匹配到基因组是一个相当耗时的操作。针对生物特征筛选假阳性高、读段匹配效率低这两个问题,mir PD采用模式筛选和生物特征筛选的两阶段筛选策略从大量的读段中识别miRNA。所有通过二阶段筛选的读段即为识别出的成熟miRNA。与流行的miRNA识别方法mi RDeep相比,mir PD具有相似的特异性、准确性、敏感性和精确性,但计算负担较小。3.提出识别miRNA序列上致病SNP的方法,该方法可以在没有病例对照样本的情况下识别出致病SNP。miRNA序列上的SNP如果干扰其成熟或影响它对靶基因的调控,则该SNP就有可能致病。根据miRNA二级结构对其成熟的影响和miRNA-mRNA交互对靶基因调控的影响,对miRNA序列分段,并通过自由能评价一个SNP对每一分段结构稳定性的影响,从而推断该SNP是否为致病SNP。本方法从精神分裂症相关的miRNA序列上识别出了6个可能会导致精神分裂症的已知SNP。4.提出识别功能异常的miRNA调控模块的方法,该方法即可以用于识别miRNA调控异常模块,也可以用于识别miRNA调控异常基因。由于一个基因可以被多个miRNA所调控,如果这多个调控关系之间可以相互抵消则该基因的表达会保持基本不变。这种调控差异显著而表达差异不显著的基因往往会在与疾病相关的研究中被忽略,而这种显著的调控变化本身也值得研究。此外,复杂疾病往往反映出功能上的变化,以功能为基础研究miRNA调控变化与疾病的关系是观察复杂疾病病理的新角度。本方法基于疾病和正常的miRNA及mRNA表达谱,利用线性回归估计每对miRNA-mRNA的调控系数,根据功能模块内疾病与正常样本间调控系数差异识别miRNA异常调控模块。本方法从11919个与嫌色性肾细胞癌相关的miRNA调控模块中识别出了70个功能异常的miRNA调控模块。此外,本方法还识别出了148个调控异常的mRNA。