论文部分内容阅读
当前,转录因子结合位点的识别对于基因转录调控机制的研究起到了很大的作用,它是生命科学研究中的重点和难点。染色质免疫沉淀反应(ChIP)和基因芯片或者DNA测序相结合产生的ChIP-chip和ChIP-seq是分析蛋白质与DNA的相互作用的两大主要技术,由于ChIP-chip和ChIP-seq各自的优缺点,对两种技术进行融合能够得到更为完整的信息。本文在分析国内外对转录因子结合位点识别的研究的基础上,采用了条件随机场模型进行建模。主要研究内容如下:分析了染色质免疫沉淀反应的流程,并对ChIP-chip和ChIP-seq技术的流程作了详细说明。两种技术存在着彼此不同的优势和缺陷:基因芯片是对信息进行直接测量,它的敏感度相对较高,但是相比于高通量DNA测序,它的测试精度不高,测试特异性较低;高通量DNA测序是对信息进行间接的测量,它的测试精度较高,测试特异性较好,但是它的敏感度相对较低,此外ChIP-seq的定位分辨率较高。通过对ChIP-chip和ChIP-seq的分析比较,提出将二者结合对转录因子结合位点进行识别的分析思路。分析了条件随机场的理论基础,尤其是隐马尔可夫模型、最大熵模型,并对CRF的学习算法和预测方法进行分析。条件随机场解决了标记偏差的问题,并可以进行全局归一化,也避免了独立性假设,尤其是CRF的长程相关性使它能够自由选择特征。因此,在本课题研究中,选择条件随机场作为对转录因子结合位点识别的方法优于其它模型。提出了结合基因芯片和DNA测序的转录因子结合位点的识别方法。该方法针对传统统计学方法的各种模型存在的问题,采用了条件随机场模型。对于转录因子结合位点的识别问题,条件随机场能够对它们进行较好的描述和建模。该方法详细的分析了ChIP-chip数据和ChIP-seq数据,并对两种数据做了相应的预处理。随后,对分别基于这两种技术获得的转录因子结合位点识别结果进行了决策级融合,与单一技术所得到的结果进行比较,发现融合后所得到的结果更好。