论文部分内容阅读
癌症作为人类生命的主要杀手之一,仍然在世界范围内威胁着许多人的生命健康。医学界一直在致力于寻找一种能正确检测或替代活检的诊断方法,其中以利用激光诱导自体荧光(LIAF)诊断组织肿瘤的研究最受关注。在利用现代计算机技术诊断医学疑难病症时,数据挖掘已成为最有效的数据分析技术之一。本文采用数据挖掘中的分类方法对激光诱导自体荧光光谱数据进行分类,从而为临床应用奠定坚实的基础。
本文首先对激光诱导自体荧光(LIAF)技术的国内外研究现状进行了综述,然后采用几种信号分析方法对大肠癌自体荧光光谱信号进行了预处理和比较。在此基础上,提出两种分类方法对正常组织和癌变组织进行分类。第一种方法为基于方差的决策树算法,第二种方法为基于计数的k-近邻算法(CWKNN)。
1.基于方差的决策树算法是在对光谱数据进行预处理后,利用C4.5决策树构造算法对数据进行了训练和分类,并对算法进行实现和性能分析。由于方差可以反映曲线的变化规律,所以文中选取两个峰值点的方差作为分类的特征值。
2.基于计数的k-近邻算法是在k-近邻算法的基础上提出的,通过对样本数据被覆盖次数的计数而不是用距离来进行度量。这种方法能同时适用于数值型数据和文本型数据。由于训练样本的取值可能大量重复,致使计算覆盖次数这一过程也会大量重复。因此,本文引入树结构对算法进行改进。实验结果表明,改进后的算法可以得到较低的时间复杂度。
论文对每种方法都进行了实验验证,结果表明两种分类方法可有效地用于指导大肠癌症的早期诊断和治疗。