融合数据内部结构信息的贝叶斯标志基因筛选

来源 :重庆医科大学 | 被引量 : 0次 | 上传用户:zyfblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量的“组学”数据中蕴含着与疾病相关的生物标志物,为深入研究疾病的发生发展机制带来了前所未有的机遇。但是,如何从高维高通量的组学数据中发现生物标志物是生物数据分析的重点和难点。本研究针对目前生物标志物筛选中通用的过滤式(如方差分析、秩和检验等)和封装式(如LASSO,支持向量机等)等方法的局限和不足,提出了一个在广义线性模型框架下通过集成数据内部结构信息来筛选标记基因的策略。模型筛选效果评价通过模拟实验进行,并采用析因设计方差分析从样本容量、总体阳性率、信噪比、基因间关联强度以及致病基因效应强度五个方面对模型进行影响因素分析。结果显示,五个影响因素中,变异贡献大小依次为:信噪比>样本容量>总体阳性率>基因间关联程度>效应强度。先验信息的设置也会对贝叶斯变量选择模型的筛选效果产生影响。我们利用高斯图模型和最大相关系数法提取数据的内部结构特征作为模型的先验信息,为了探讨不同内部结构信息对模型筛选准确性的影响,我们针对这两种数据挖掘方法各设置了三类共6种内部结构形式,也通过模拟实验考察其筛选效果。结果显示,这几种内部结构形式与模型融合后筛选效果比较理想,其中,高斯图模型提取的偏相关系数矩阵与最大相关系数法提取的最大相关系数等级矩阵与模型融合的筛选效果最好。因此,我们认为高斯图模型与最大相关系数法提取的内部结构信息均能在一定程度上反映数据的内部结构特征,并建议在利用高斯图模型时,可采用未离散化的内部结构形式与本研究筛选模型进行融合;而在利用最大相关系数法时,则最好采用离散化的内部结构形式进行融合。在模拟实验得出的结论基础上,以乳腺癌基因数据为例进行实证研究。利用融合偏相关系数矩阵和最大相关系数等级矩阵的模型进行基因筛选,并列出了后验概率最高的前15个基因。通过文献查验,确证其中一些基因与乳腺癌具有一定的生物学联系。
其他文献
火针疗法在民间流传广泛,在疑难病症治疗上有独特疗效。本文根据近年来的文献报道,对白癜风、寻常疣病毒性皮肤病、损容性疾病、瘰疬阴疽、顽固性面瘫、急性踝关节韧带损伤、
对河南省改革开放以来历年经济增长速度与城乡消费水平差距,建立向量自回归(VAR)模型。实证分析发现,经济增长对于缩小城乡差距没有产生应有的影响,而城乡差距虽然不是导致经济
传统流域决策支持系统往往使用一两个模型来解决某些特定目标,限于系统结构而不能综合考虑多领域问题。提出了一种新的支持多学科模型集成的流域决策支持系统原型,在一个系统
<正> 1 生产现状 由于分子结构中含有氟原子等因素,PTFE表现出高度化学稳定性、极强的耐高低温性能、突出的不粘性、异常的润滑性及优异的电绝缘性能、耐老化性和抗辐射性、
调查该院4126例次纤支镜检查,结果死亡1例(0.24%),气胸4例(0.96%),继发感染6例(1.45%),纤支镜检查相关事件(特指心衰和呼衰)2例(0.48%),严重并发症共计22例,总的发生率5.3‰。作者对纤支镜并发症的预防和处理进行了探讨
介绍了对高炉监测的工作经验,总结性地提出了高炉污染的技术要求.
2013年习近平总书记提出了建设在世界传播领域有话语权的新媒体的战略目标。中央网络媒体,在市场化改制的大潮中走在了最前端,肩负着国家建设具备国际竞争力的媒介集团的任务
探讨了采用芯模振动工艺制备管子、检查井、箱涵等混凝土制品时易产生麻面、裂缝、钢筋骨架下沉、混凝土塌落、检查井井底漏水等质量通病的原因,并针对这些问题,提出了相应的
概述了聚四氟乙烯基(PTFE)复合材料的发展现状,针对过滤和耐磨材料两大应用领域,重点介绍了纤维复合、无机粒子填充、织物增强及聚合物共混等复合材料的实现形式。指出了制约