论文部分内容阅读
医学的发展离不开广泛的相关学科的支持。随着信息科学的发展,如何利用信息技术更好地为医学实践和医学科研服务,已经越来越为人们所关注。信息科学在医学研究,如实验设计、数据分析等方面的应用将为疾病的预防、诊断、治疗和保健提供重要的途径和手段。机器学习是当前计算机科学和信息科学的重要前沿学科之一。本文将机器学习的理论、技术和方法与医学数据处理问题相结合,开展了深入的研究,取得了以下成果:1.提出了应用于Meta分析的混合随机效应模型。该模型具有描述真实效应量复杂分布的能力,是对传统模型的重要改进。在MCMC算法框架下,设计了有效的模型参数学习算法。混合随机效应模型应用于两个尼古丁替代疗法戒除烟瘾的Meta分析任务中,发现疗效的真实效应量具有复杂的分布模式,并分析得到影响疗效的重要因素。2.提出了多变量的均值和标准差信息定量集成问题:MS信息学习。在EM框架下,设计了利用MS信息估计概率密度函数的学习算法:MSEM。模型可以用于分析不同条件下变量的分布特性;可以有效地刻画多个变量之间的统计依赖关系;可以对实验未观测指标的均值和标准差进行预测。实验广泛收集了健康个体和类风湿病患者的神经内分泌免疫系统中多种激素和细胞因子水平的MS信息,并利用MSEM算法进行深入分析,发现了一些有意义的模式。3.将非线性降维方法Isomap引入到高维医学矢量数据的处理中。在Isomap算法的基础上,建立了一种新的监督非线性降维算法:SIsomap。算法的两个版本SIsomap1和SIsomap2可分别应用于监督变量为连续属性和两类类别标签的情况。提出了基于SIsomap2和RBF神经网络的分类器设计方法。在肺癌基因数据、糖尿病病理数据等多个高维医学数据上的成功应用,证实了方法有效性。4.从机器学习的角度认识双对照重复测量数据的整体评价问题,发现该问题与模式识别问题之间的对应关系,并由此建立了一种实用的评价算法。对两组药理学重复测量数据的实验结果表明,该算法适用于多实验组、多指标、小样本的重复测量数据整体评价问题。