论文部分内容阅读
随着科学技术的发展,数据规模不断增大,尤其是在以计算机和互联网为基础的应用中数据更是以指数形式增长。海量数据在带来丰富信息的同时,也带来许多质量问题,如数据不完整、不一致、不精确、陈旧等,这些问题严重地制约着数据的运用价值。目前,数据可用性已经引起了人们广泛的关注并取得了一定的研究成果。但是这些研究主要集中在数据清洗和修复方面,它们最主要的缺点是执行的时间代价较大,无法彻底清除和修复数据,并且由于修复目标与运用之间的不一致,可能使得后续的处理过程发生偏斜和错误,进而得到不可靠的结论,尤其是在数据挖掘中这种现象更为严重。因而,在一定程度上需要容忍可用性较差的数据存在并直接基于这些弱可用的数据进行分析处理。此外,在数据挖掘与机器学习领域虽然人们提出了许多分类算法,但是所提出的方法通常假定数据是高度可用的,很少考虑到数据的质量问题。为了避免数据清洗和修复可能引入的误差,也同时将数据可用性和分类算法作为一个整体考虑,本文研究弱可用性数据上的分类算法。文中主要研究了如何直接在不完整和含有噪声的数据上进行分类。针对不完整数据,给出了基本完整性度量和基于熵的完整性度量,分别从属性、元组、类别、数据集四个层次度量了训练数据的完整性,提出了基于区间集合和基于信息论的分类算法。基于区间集合的方法利用集合作为上下界来刻画缺失属性组合所覆盖的实例,并通过并交差补运算得到分类规则,最终针对每条分类规则给出相应的置信区间。基于信息论的方法将分类视为一个不断减小不确定性的过程,算法首先计算类别的初始不确定性,然后利用属性不断消除不确定性,最终将实例分给不确定性最小的类别。针对含噪声的数据,提出了标签噪声的产生机制及分类,运用标签转移矩阵来刻画噪声模型并基于混合高斯分布的数据给出了相应算法。若已知转移矩阵,则可以通过求解关于实例数目、均值向量和协方差矩阵的方程组得到分类模型的参数,否则,可以通过EM算法迭代求解,进而估计出最符合观测数据的模型。针对每种算法,文中通过实验验证了其有效性和可行性。