论文部分内容阅读
进入21世纪,随着各类生物测序技术的发展,产生了越来越多的生物学数据,包括基因组数据、转录组数据和蛋白组数据等。借助机器学习方法从这些海量的组学数据中挖掘有价值的信息,将促进人们对疾病的认知、诊断以及治疗。细胞是构成生物体的基本单位,而细胞的功能是通过不同的生物分子实现的,这些生物分子包括蛋白质、RNA以及DNA等。细胞中任何分子的异常,都有可能导致细胞功能紊乱和疾病的发生。蛋白质是一类有机大分子,蛋白质相互作用网络是一种由蛋白质之间的相互关系构成的网络,对蛋白质相互作用网络的研究不仅能促进系统理解各种生物学过程、揭示疾病的机理、而且对疾病的诊断治疗起到积极的作用。miRNA是一类长度约为22个核苷酸的非编码RNA分子,许多miRNA与人类的疾病密切相关,利用已知的miRNA-疾病关系识别新的疾病相关miRNA,可以有效的辅助预测治疗靶点和协助疾病的诊断。基因是具有遗传效应的DNA片段,很多疾病都与基因表达异常密切相关,利用患者的基因表达数据发现异常表达的基因将对疾病的提前诊断和治疗具有重要的指导意义。本文主要结合神经网络模型,对蛋白质、miRNA以及基因相关的组学数据进行研究,提出了结合有监督模型和局部结构信息的蛋白质模块检测算法、基于边扰动的疾病-miRNA关系预测算法以及黑色素细胞瘤预后标记物的识别算法。取得的主要成果如下:(1)结合有监督模型和局部结构信息的蛋白质功能模块检测算法研究。针对无监督蛋白质功能模块检测算法忽略蛋白质交互网络中低密度区域模块的问题以及有监督蛋白质功能模块检测算法对网络噪声非常敏感的问题,我们充分考虑有监督和无监督蛋白质模块检测算法的优缺点,提出了结合神经网络模型和当前模块局部结构信息的打分函数,并且设计了一个双向搜索策略,用于指导蛋白质交互网络中功能模块的搜索过程。通过与有监督和无监督功能模块检测算法的对比,我们提出的算法具有更高的预测性能。(2)基于边扰动的miRNA和疾病关系的预测算法研究。怎样提取有效的特征是miRNA和疾病关系预测研究最重要的一步。与之前的研究方法不同,我们设计了一种基于边扰动的特征提取方法。由于从一个图中删除和添加边能够直接影响图的整体结构,所以我们将删除或添加边对图的整体结构的影响作为新的边特征。我们根据提取到的特征训练了一个神经网络模型来预测疾病和miRNA的关系。与最新的预测方法相比,我们的方法获得更高的AUC值,并且新预测出的miRNA和疾病对也得到了独立数据的验证。通过三种疾病的案例分析,我们发现新预测出前50个miRNA中分别有42,46和41个得到了公开实验结果的验证。另外,在TCGA肾脏癌miRNA表达量数据上的分析表明,新预测的两个miRNA(has-mir-96和has-mir-221)可以直接作为区分癌症和正常样本的生物标记物。(3)基于自编码器的黑色素细胞瘤预后标记物识别研究。黑色素细胞瘤是一种患者预后较差的癌症。传统的黑色素细胞瘤预后标记物往往使用统计的方法或简单的线性回归模型进行设计,预测能力有待提升。因此,我们设计了一种更具预测能力的基于自编码器模型的黑色素细胞瘤预后标记。首先,我们分别根据与淋巴细胞以及肿瘤细胞的相关性,将基因分为两组,然后分别训练多层自编码器进行特征压缩,根据压缩得到的特征设计了两个预后标记物S_H和S_L。并且通过实验分析,我们发现S_H与免疫细胞毒性相关而S_L与MYC通路活性相关。通过独立的黑色素细胞瘤病人数据集进行验证,我们提出的预后标记物S_H和S_L具有显著的预后预测能力。并且S_H对III期病人的预后也具有一定的预测能力。结合S_H和S_L可以显著提高临床信息对病人的预后的预测能力。S_H和S_L这两个标记物为黑色素细胞瘤病人预后提供了一种实用的测定方法,可用于改善黑色素细胞瘤的治疗功效。