论文部分内容阅读
高通量的“组学”数据中蕴含着与疾病相关的生物标志物,为深入研究疾病的发生发展机制带来了前所未有的机遇。但是,如何从高维高通量的组学数据中发现生物标志物是生物数据分析的重点和难点。本研究针对目前生物标志物筛选中通用的过滤式(如方差分析、秩和检验等)和封装式(如LASSO,支持向量机等)等方法的局限和不足,提出了一个在广义线性模型框架下通过集成数据内部结构信息来筛选标记基因的策略。模型筛选效果评价通过模拟实验进行,并采用析因设计方差分析从样本容量、总体阳性率、信噪比、基因间关联强度以及致病基因效应强度五个方面对模型进行影响因素分析。结果显示,五个影响因素中,变异贡献大小依次为:信噪比>样本容量>总体阳性率>基因间关联程度>效应强度。先验信息的设置也会对贝叶斯变量选择模型的筛选效果产生影响。我们利用高斯图模型和最大相关系数法提取数据的内部结构特征作为模型的先验信息,为了探讨不同内部结构信息对模型筛选准确性的影响,我们针对这两种数据挖掘方法各设置了三类共6种内部结构形式,也通过模拟实验考察其筛选效果。结果显示,这几种内部结构形式与模型融合后筛选效果比较理想,其中,高斯图模型提取的偏相关系数矩阵与最大相关系数法提取的最大相关系数等级矩阵与模型融合的筛选效果最好。因此,我们认为高斯图模型与最大相关系数法提取的内部结构信息均能在一定程度上反映数据的内部结构特征,并建议在利用高斯图模型时,可采用未离散化的内部结构形式与本研究筛选模型进行融合;而在利用最大相关系数法时,则最好采用离散化的内部结构形式进行融合。在模拟实验得出的结论基础上,以乳腺癌基因数据为例进行实证研究。利用融合偏相关系数矩阵和最大相关系数等级矩阵的模型进行基因筛选,并列出了后验概率最高的前15个基因。通过文献查验,确证其中一些基因与乳腺癌具有一定的生物学联系。