论文部分内容阅读
随着机器学习与数据挖掘领域的迅速发展,不平衡数据集分类已经成为当前的研究热点之一。在实际应用中经常遇到数据集不平衡问题,比如:医疗诊断、欺诈检测、地震预测等,如何提高正类样本的分类精度是研究的重点。大部分分类算法往往会偏向负类,而对正类识别率却很低。在深入分析了不平衡数据处理方法及医疗问答系统的基础上,本文在二分类不平衡数据集上,提出了基于样本细分的混合采样算法(Hybrid Sampling Algorithm Based On Sample Subdivision),简称SS-HSA算法,并研究了该算法在医疗问答系统中的应用。本文主要内容包括:(1)详细分析了ENN(Edited Nearest Neighbor)欠采样、Borderline-SMOTE过采样、Random-SMOTE+ENN混合采样、ISMOTE过采样算法,为本文提出的SS-HSA算法提供理论基础。(2)基于样本细分的混合采样算法,本文在数据层面提出的SS-HSA算法结合了Borderline-SMOTE、ISMOTE过采样算法以及ENN欠采样算法的优点,同时加入了样本细分的思想。一方面,对生成的样本数量精细控制,提高正类样本生成的合理性;另一方面有效删除数据集中边界样本,使边界更加清晰。通过实验对比发现,这种组合方法对整体数据集以及正类的分类效果均优于单纯的Borderline-SMOTE、ISMOTE以及Random-SMOTE+ENN采样算法。(3)在医疗问答系统中,采用本文提出的SS-HSA算法,对数据集采样处理,使正负类答案数量均衡,并在此基础上进行模型训练和分类排序。实验结果表明,将此混合采样方法应用到该系统中,有效提高了医疗问答系统的精准判断能力。