论文部分内容阅读
近几年生物芯片技术的发展,积累了大量的基因表达数据,扩大了基因表达数据库的规模.这为基因组水平上研究基因表达调控关系奠定了基础.基因调控网络的重构是一个崭新的研究领域.基因调控网络的研究不仅面临着重构分子通路的问题,而且对揭示基因的功能和疾病的诊断具有十分重要的意义.从基因表达数据到基因调控网络是一个数据挖掘的过程.分类、聚类、回归预报和贝叶斯方法是基因表达数据挖掘的得力工具,对基因调控网络的建模和分析具有重要应用价值.基因调控网络研究的方向包括对调控区的数据挖掘和在全局层次上或某特定的局部对调控网络的建模和推断.从基因表达数据到基因网络分子通路重构必须完成数据预处理、分类聚类和预报推断的过程.已有的基因调控网络建模分析方法存在若干问题:①采用静态模型,没有引进概率选择;②采用线性模型,难以反映真实复杂的调控关系;③采用贝叶斯网络模型时,引入多种假设为前提以及较大的计算量增加了应用和求解的困难和负担.PBN模型可以克服上述问题,它在标准布尔网络的基础上引进对父代基因集合的概率选择,克服了模型的静态问题.PBN模型遵循聚类和回归的思路,给模型的选择留有宽阔的空间.但应用中的PBN模型存在如下问题:1.在聚类技术上,大多采用硬划分聚类方法.然而,来自基因表达数据库的连续表达数据经离散化处理后却带有模糊性;2.在回归技术上,多采用参数回归的形式.在不清楚基因调控网络关系信息的情况下,事先设定模型形式,存在背离实际的危险;3.建模分析过程未把数据处理环节涵括在内;4.建模过程中对先验信息利用不够.为克服上述问题1、2,我们提出一种采用FCM聚类和非参数回归结合的建模分析方法.在此基础上,考虑了上述问题3、4,并基于数据挖掘的系统化思想,我们在PBN的框架下了设计了一种用于基因调控网络推断的分析系统模型,其结构包括数据过滤器、基因分类器和网络关系预报器.我们用经组合设计的基于互信息的模糊聚类方法,完成分类任务;用组合了的具有探索性数据分析性质的核回归和PP回归方法实现了基因调控网络关系的预报.我们的试验表明,选用最大树、Fisher分类法和模糊FCM聚类结合的方法构造分类器,用核回归和PP回归结合的方法构造预报器形成的用于基因网络推断的集成分析系统具有较好的分析效果.基因调控网络的研究尚处尝试阶段,我们的建模分析也是一种方法的尝试.我们将进一步努力,致力于方法的改进和应用.