Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较

被引量 : 34次 | 上传用户:leizi525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数学方法和计算机技术的发展使复杂的模型预测成为可能。目前能够建立预测模型的方法主要有统计学方法和数据挖掘方法,基于这两类方法的预测技术已逐渐被应用在生物医学研究领域中,但对其预测性能(即泛化能力的大小)进行比较的研究却很少,因此将数据挖掘方法与统计学方法的泛化能力进行比较是一个非常值得研究的方向。本研究以2型糖尿病并发末梢神经病变(Diabetic Peripheral Neuropathy, DPN)的病例对照研究数据(数据来源情况详见本文第2章)为例,采用Logistic回归(Logistic Regression, LR)、决策树(Decision Trees, DT)和神经网络(Neural Networks, NN)对DPN发生的概率进行预测,并就建模和预测性能比较研究中的几个难点,提出了较为理想的解决方案。本研究的难点及相应的解决方案如下:(1)科学地实现连续变量离散化。在一些科学研究中,人们通常对一些连续变量的一个单位值的变化不感兴趣,或根据专业知识需将连续变量进行离散化,因此如何科学的实现连续变量离散化是一个值得研究的问题。本文采用χ2分割法对连续变量进行离散化,不仅使离散化后的变量各个等级之间划分得有意义,而且使等级之间的区分度尽可能地大,很好地实现了连续变量离散化的目的。(2)在建模过程中充分利用数据信息、防止过拟合。在数据量有限的情况下,能尽量多地利用数据信息是很重要的。在决策树和神经网络构建过程中,如何在小样本时既能达到充分利用数据信息,又能防止过拟合现象的发生是一个重要的问题。本研究采用100次5~7折分层交叉验证方法,将分类和回归树(CART)与卡方自动交互式检测树(CHAID)相结合,建立起决策树模型,既充分利用了数据信息,又避免了过拟合现象的发生。此外,在选取神经网络模型隐含层数和隐含层节点数目时,以SBC准则作为选择的标准,在建模过程中利用L-M优化技术,采用权重衰减和预训练的方法,也可充分利用数据信息,有效避免过拟合现象和局部最优现象的发生,从而建立起较为准确可靠的模型。(3)快速有效地构建Logistic回归模型。常规的Logistic回归建模筛选变量的方法有向前选择法、向后剔除法、逐步法、最优子集法,前三种筛选变量方法均涉及到变量进入和(或)剔除的P值大小的选择问题,显然P值的选取存在一定的主观性。例如,有些研究认为变量进入方程的显著性水平(SLE)0.05过于严厉,经常将重要的变量排除在外。针对所有原因变量的组合情况,最优子集法均可以给出其对应的χ2值,但却无法指出哪种组合最佳。因此,如何快速有效地进行变量筛选,构建准确可靠的模型是很重要的。本研究中采用最优子集法与AIC信息准则相结合对变量进行快速方便的筛选。此法既考虑了模型的泛化能力又避免了人为选取P界值点带来的“烦恼”,建立的模型也优于用常规筛选变量方法建立的模型。(4)小样本情况下的模型泛化能力比较。大量文献资料显示,迄今为止,在生物医学领域中,关于多种不同模型预测、分类技术的比较研究,或针对于较大的数据量(如从几百例观测至几十万例观测),或对模型泛化能力比较时采用保持法(将数据集随机分成两部分,一部分建模一部分测试),并没有涉及到小样本时如何有效利用数据信息以及基于小样本时如何对模型泛化能力进行比较。而在实际工作中,很多数据集较小(如100例左右),且变量较多,此时采用保持法进行模型泛化能力的比较就会损失数据信息,导致比较结果的可靠性降低甚至不可靠(本研究中也证实了这一点,详见本文第5章)。因此,如何针对小样本的特性,有效地构建模型并对模型的泛化能力进行客观评价,是一个很值得研究的问题,也是本次研究的重点。在本研究中针对小样本的特性,采用Monte Carlo模拟抽样(10~100次的2~10折分层交叉验证法、刀切法、100~1000次自引导法(具体为0.632自引导法))的校正技术,对模型的泛化误差作出可靠的评价,进而对三种预测方法(LR、DT、NN)的泛化能力进行比较,并客观地评价三种模型的泛化能力,有效弥补了应用保持法对模型泛化能力进行比较时存在的上述不足。就本资料而言,结果表明,总体来说NN泛化能力最好,LR次之,DT最差。(5)调整过抽样。当样本的获取方式是来源于过抽样(即分离抽样)时,模型估计的概率值是基于样本而不是基于总体的,此时对总体人群疾病发生的概率进行预测可能会存在较大的偏差。本文针对过抽样的特点,利用先验概率对后验概率进行调整,从而使调整后的结果能够更客观准确地预测疾病发生的可能性。综上所述,本研究采用三种方法(LR、DT、NN)对DPN发生的概率进行预测,在基于小样本条件下,从五个方面(即①科学地实现连续变量离散化、②充分利用数据且又防止过拟合、③快速有效地构建模型、④有效利用数据信息提高模型泛化能力、⑤有效调整过抽样获得更客观准确的预测结果)进行比较研究和改进,均取得了比较理想的结果,其建模思想和技术方法可方便成功地移植到生物医学甚至其它研究领域中去。
其他文献
《全日制义务教育语文课程标准(实验稿)》指出写作是运用语言文字进行表达和交流的重要方式,是认识世界、认识自我、进行创造性表述的过程。然而实际上,作文却异化成了考试的
本研究采用了高效液相色谱-串联质谱联用(HPLC-MS/MS)技术,建立了高灵敏度的同时检测粮谷中9种氨基甲酸酯类农药残留量的方法。样品经乙腈提取,中性氧化铝填充柱净化,然后采
本项课题基于国内外装备、石油化工、城市基础建设用防腐、降温、节能涂层材料的研究及应用状况,吸取国内外先进研究经验,开发利用国内外新型功能性材料,综合利用材料科学、
<正>在"重典治乱"与"社会共治"的背景下,食品安全惩罚性赔偿这一"沉睡着"的制度③又面临着修改。坊间的讨论大多集中于食品安全惩罚性赔偿金的计算基数如何修改、计算倍数是
应激的反应并非是非特异性的。应激分为生理性应激和心理性应激。不同应激条件导致不同的生理指标变化模式。呼吸生物反馈训练可以有效地调节自主神经系统的活动。本研究考察
采用近红外光谱快速测定法对生物柴油的成分(脂肪酸甲酯、单甘酯、二甘酯、三甘酯和甘油)进行了研究。采用气相色谱方法获得其成分的基础数据,通过偏最小二乘方法与近红外光
纷繁复杂、波澜起伏的当代美国法律思想是比较法学者眼中永恒的风景。透过诸般学术现象发现、总结其基本线索和演进规律,并以此作为研究全球化背景下中国法治发展的重要参照
<正>党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》(以下简称《决定》)提出"建立城乡统一的建设用地市场",其最大的亮点在于将集体建设用地"市场
焊接工字梁是工业与民用建筑中常用的梁截面形式。为了充分发挥材料的性能,梁的腹板一般做的高而薄。为了保证梁腹板的局部稳定,通常在梁的腹板设置横向加劲肋,有时还设纵向
产业集群作为介于企业与市场之间的中间形态组织形式对区域经济发展起着重要的作用,发展产业集群,提高其竞争力有着重大的理论与现实意义。如何通过对产业集群理论和实践的研