论文部分内容阅读
目的近年来,艾滋病的传播进入了快速增长的时期,中医药在艾滋病的防治工作中体现出了一定的优势,而中医药防治疾病的前提是准确的证型诊断,但是目前缺乏快速、有效的证型诊断技术。如何选取一种切实可行的统计方法,建立一种快速、方便、准确且科学的对艾滋病患者中医证型的诊断模型,对医学统计工作者提出了挑战。传统上利用模型诊断疾病的方法多为回归分析,但是此类分析方法对数据资料有一定的要求,例如要求资料正态、线性等条件,而艾滋病患者的四诊信息及临床指标多不满足条件,四诊信息为分类资料,且它们之间可能存在非线性关系,因此要考虑用更适合艾滋病患者数据资料特征的建模方法。数据挖掘技术中的神经网络技术和决策树技术正好弥补了回归分析的不足。本研究通过对HIV/AIDS患者四诊信息和临床指标对HIV/AIDS患者的主要实证和主要虚证进行建模,从而为中医诊治HIV/AIDS患者的技术广泛落实到基层卫生机构提供理论基础。方法数据挖掘是近几十年来新兴起的一门新技术,其在国内外医疗卫生方面的应用还是一个新的领域。本研究的资料来源于国家“十五”科技攻关计划。该研究采用多阶段随机抽样方法抽取研究对象,对1277例研究对象就行了问卷调查,最后抽取其中完成实验室检查和问卷调查的253例患者进行研究分析。对253例患者的实证和虚证进行了描述性分析,最终得到173例被诊断为主要实证的研究对象和142例被诊断为主要虚证的研究对象用于建模分析。按照75%为训练集和25%为测试集对数据集进行划分,其中训练集用于神经网络和决策树的拟合,测试集用于对最终神经网络模型和决策树的评价。数据的分析在统计软件SPSS16.0和SPSS Clementine中实现。结果本研究先对数据集进行了描述性统计分析,筛选出HIV/AIDS患者中医实证中的主要实证和中医虚证中的主要虚证进行建模,中医实证中正常、湿热内蕴和邪结皮肤共占68.4%,其余证型比较分散共占32.6%,在此研究中以正常、湿热内蕴和邪结皮肤作为主要实证进行建模。中医虚证中脾气虚弱和肺脾气虚共占56.1%,其余证型比较分散共占43.9%,在此研究中以脾气虚弱、肺脾气虚为主要虚证进行建模。利用Clementine中的特征选择节点对主要实验室信息和四诊信息中的症状和舌象共65项指标进行筛选。皮肤瘙痒程度、舌苔色白、舌苔色黄、恶寒程度、舌苔厚、舌苔薄、舌苔腻、心慌心悸程度、CD4的含量共9项指标进入实证模型,得到的神经网络模型训练集的正确率为84.86%,测试集的正确率为73.81%,决策树模型训练集的正确率为81.203%,测试集的正确率为73.81%。发热、咳嗽咳痰、神疲乏力、呕恶、口味、胸闷胸痛、皮肤瘙痒、舌色淡红、舌色淡白、CD4的含量共10项指标进入虚证模型,得到的神经网络模型训练集的正确率为87.25%,测试集的正确率为80.00%,决策树模型训练集的正确率为82.35%,测试集的正确率为75.00%。经过评价,主要实证和主要虚证的数据挖掘模型都取得较好的预测效果。结论通过Clementine中的特征选择节点对主要实验室信息和四诊信息中的症状和舌象共65项指标进行筛选,最终有9项指标进入主要实证的数据挖掘模型,有10项指标进入了主要虚证的数据挖掘模型。神经网络技术和决策树技术建立的诊断模型都取得了较好的诊断效果,为中医诊治HIV/AIDS患者的技术广泛落实到基层卫生机构提供理论基础。