论文部分内容阅读
估计统计模型的期望预测误差是统计机器学习的核心任务之一。期望预测误差估计的好坏对后续的模型选择问题、不同模型预测误差差异的显著性检验问题以及变量选择问题均有着显著的影响。为了找到一个优良的估计,研究者们提出了大量的估计方法,例如,MDL方法,交叉验证方法,Bootstrap方法以及它的改进.632Bootstrap方法。其中,交叉验证是一种最常用的泛化误差估计方法。本文主要针对统计机器学习分类问题,对已有交叉验证方法的优缺点进行了分析和总结,并在此基础上对交叉验证方法进行了改进。对于组块3×2交叉验证来说,它虽然具有折数低、对数据集切分均匀、实验次数少等特点,但是5×2交叉验证、10×2交叉验证对于分类问题也同样具有不错的效果,而且对于分组2折交叉验证的方法,随着实验次数的增加会一定程度上提高实验结果。但是如何解决实验性能与实验开销间的矛盾,如何确定合理的实验次数一直都是机器学习领域的难题,为此我们尝试对组块3×2交叉验证进行了改进和推广,提出均衡7×2交叉验证和均衡11×2交叉验证,并在此基础上总结出更一般化的均衡m×2交叉验证(BCVM×2)同时给出了其具体构造方法。我们推荐使用均衡m×2交叉验证方法来确定实验次数,以此来提高实验效果,并且通过理论分析和模拟实验佐证了我们的设想。对于分类学习中的模型选择任务,我们同样应用均衡m×2交叉验证方法。综合考虑均衡m×2交叉验证模型选择方法的各种影响因素,可以判断运用m×2交叉验证进行模型选择效果要优于常用的5折、10折交叉验证。我们通过模拟实验支持了以上判断,并且从理论上证明了均衡m×2交叉验证同样具有选择一致性。因此,可以说明均衡m×2交叉验证是一种更适合分类问题的模型选择方法。