弱可用数据上的分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:DKarson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,数据规模不断增大,尤其是在以计算机和互联网为基础的应用中数据更是以指数形式增长。海量数据在带来丰富信息的同时,也带来许多质量问题,如数据不完整、不一致、不精确、陈旧等,这些问题严重地制约着数据的运用价值。目前,数据可用性已经引起了人们广泛的关注并取得了一定的研究成果。但是这些研究主要集中在数据清洗和修复方面,它们最主要的缺点是执行的时间代价较大,无法彻底清除和修复数据,并且由于修复目标与运用之间的不一致,可能使得后续的处理过程发生偏斜和错误,进而得到不可靠的结论,尤其是在数据挖掘中这种现象更为严重。因而,在一定程度上需要容忍可用性较差的数据存在并直接基于这些弱可用的数据进行分析处理。此外,在数据挖掘与机器学习领域虽然人们提出了许多分类算法,但是所提出的方法通常假定数据是高度可用的,很少考虑到数据的质量问题。为了避免数据清洗和修复可能引入的误差,也同时将数据可用性和分类算法作为一个整体考虑,本文研究弱可用性数据上的分类算法。文中主要研究了如何直接在不完整和含有噪声的数据上进行分类。针对不完整数据,给出了基本完整性度量和基于熵的完整性度量,分别从属性、元组、类别、数据集四个层次度量了训练数据的完整性,提出了基于区间集合和基于信息论的分类算法。基于区间集合的方法利用集合作为上下界来刻画缺失属性组合所覆盖的实例,并通过并交差补运算得到分类规则,最终针对每条分类规则给出相应的置信区间。基于信息论的方法将分类视为一个不断减小不确定性的过程,算法首先计算类别的初始不确定性,然后利用属性不断消除不确定性,最终将实例分给不确定性最小的类别。针对含噪声的数据,提出了标签噪声的产生机制及分类,运用标签转移矩阵来刻画噪声模型并基于混合高斯分布的数据给出了相应算法。若已知转移矩阵,则可以通过求解关于实例数目、均值向量和协方差矩阵的方程组得到分类模型的参数,否则,可以通过EM算法迭代求解,进而估计出最符合观测数据的模型。针对每种算法,文中通过实验验证了其有效性和可行性。
其他文献
从1964年图形学诞生以来,虚拟现实研究一直是计算机图形学研究的一个重要分支。虚拟现实技术已经在各个领域得到了广泛的应用,尤其是在数字娱乐产业如影视工业,游戏工业,虚拟训练
近年来,由于在三维电视、自由视点电视、视频监控和视频会议等诸多交互式多媒体领域具有广泛的应用前景,多视点视频技术受到人们越来越多的关注。作为新型媒体,交互性是多视
随着近年来大规模存储、高性能工作站以及宽带网络等技术突飞猛进的发展,流媒体点播服务从技术上和经济上成为可能,大大丰富了互联网中的内容。然而传统的客户端服务器(C/S)架
目前,互联网上的数据呈爆炸式增长态势,海量的数据对数据存储和信息获取带来了前所未有的挑战。语义网被认为是下一代互联网的存储方式。以语义网形式描述的数据不仅可以被人们
遥感数据具有数据量庞大、内容复杂等特性,而且以不同方式采集的遥感数据,其存储介质和访问方式也有很大不同。如何集成分布的、异构的遥感资源,消除“遥感信息孤岛”,是遥感数据
并行计算机系统的性能和可靠性是与架构并行计算机系统网络结构的性质密切相关的。根据图论的知识,直接网络的结构可以用图来表示。至今,已经有数十种直接网络被提出并应用在
开关电源的建模方法分为数字仿真法和解析仿真法,其中数字仿真法又分为直接数字仿真法和间接数字仿真法。计算机辅助设计技术的迅速发展和高性能计算机的普及使得开关电源的直接数字仿真方法得到长足的进步,从采用改进的节点分析法的时域电路仿真发展到采用状态变量方法的分段线性仿真,为了加快模拟速度和提高系统精确性,又出现了分级仿真方法。虚拟样机设计验证测试技术是由分级仿真方法派生而来,它是在开关电源系统的开发中引
对互联网与信息实施足够的控制和管理,是保障国家发展和社会稳定,维护国家信息主权与安全,确保公共信息网络正常秩序的重要组成部分,具有重大的现实意义。探讨了网页信息还原
随着自动监控系统和实时数据库在工业应用中的推广,氧化铝生产行业中积累了大量的历史数据。如何从这些历史数据中发现蕴含的、对生产和管理具有重要指导作用的规律,已成为企业
安全数据的采集是入侵检测系统重要的部分,基于Agent的分布式入侵检测系统是入侵检测系统研究的热点之一,本文研究了传统入侵检测系统、分布式入侵检测系统、分布式Agent框架、