论文部分内容阅读
基因调控网络描述了基因、RNA和调控子等生物大分子之间的调控关系,通过分析基因调控网络,可以实现基因组层面的生理过程解析。作为计算生物学与系统生物学领域的重要课题,基因调控网络推断问题一直是国内外学者的研究热点。现有的基因调控网络推断技术主要分为基于特征工程的机器学习方法和基于深度学习的方法两类。基于特征工程的机器学习方法不足主要包括三个方面,分别是无法考虑调控关系的方向性、无法应用于大规模网络和输入特征的设计与特征选择的不稳定问题。基于深度学习的方法则存在有标注数据量不足和特征数据维度过高的问题,导致深度学习模型在基因调控网络推断问题中未成为主流。针对现有方法存在的问题,本文同时从数据构造和模型设计两方面入手,通过合理构造训练数据以及结合深度学习模型和噪声估计方法,研究基于深度学习的基因调控网络推断方法。本文通过分析来自ENCODE项目的老鼠基因表达数据集的基因表达数据和标签构成,设计了适用于基因表达数据的负样例构造方法;结合数据来源特点和生物学背景知识,基于语义匹配的思想,提出了Match-LSTM模型作为基线模型。利用注意力机制建模不同时间点和不同细胞环境表达强度对整体关系判定的影响,提出了Internal-Att-Match模型和Interactive-Att-Match模型。实验结果显示,在相同数据量和基因表达特征数据的条件下,本文提出的模型在老鼠基因表达数据集上分别取得了0.832和0.837的F1值性能,与本文基线Match-LSTM模型对比,该模型F1值提升1.0%,说明通过引入注意力机制来建模部分细胞环境变化和调控因子与基因交互关系是合理的。针对基因调控网络推断中已知调控关系偏少和先验调控网络可信度偏低的问题,本文提出了一种结合类噪声估计模型和半监督学习的框架Denoise-Semi模型,该模型通过类噪声估计器计算先验数据的噪声概率,根据噪声概率筛选高质量候选样本加入训练集,实现将现有调控网络的低可信度调控关系作为先验数据引入训练过程。在RegNetwork和PriorNetwork两个基因表达数据集上的实验表明,本模型性能与基线RF模型相比F1值提高2.0%。通过实验数据可视化发现,本模型可以有效识别来自先验网络的高质量样本,以提高模型的推断性能。