【摘 要】
:
随着互联网技术的高速发展,各个领域均会产生待处理的大规模数据。如何对这些数据进行处理和分析,成为了当代的研究热点。粗糙集理论为数据挖掘提供了一种有效地处理冗余数据的手段。但对数值属性进行处理时必须先将其离散化。模糊粗糙集能够直接对数值属性进行处理,减少了因数据离散而带来的数据信息损失和避免数据结构被破坏的优势,能够有效地对数据进行处理,已成功应用于数据挖掘、医疗诊断等领域。为了降低样本分布和类噪声
论文部分内容阅读
随着互联网技术的高速发展,各个领域均会产生待处理的大规模数据。如何对这些数据进行处理和分析,成为了当代的研究热点。粗糙集理论为数据挖掘提供了一种有效地处理冗余数据的手段。但对数值属性进行处理时必须先将其离散化。模糊粗糙集能够直接对数值属性进行处理,减少了因数据离散而带来的数据信息损失和避免数据结构被破坏的优势,能够有效地对数据进行处理,已成功应用于数据挖掘、医疗诊断等领域。为了降低样本分布和类噪声数据对基于模糊粗糙集的分类模型的影响,本文提出了相关方法对模糊粗糙集进行完善。此外,为了将多核粒化模糊粗糙集模型应用于并行环境下,本文给出了并行的多核粒化粗糙集的属性约简方法。本文主要的研究工作和创新性如下:1.在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,本文提出了基于距离比值尺度的模糊粗糙集。该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免样本分布不确定性对近似集的影响。文中给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法。采用SVM、NaiveBayes和J48作为测试分类器在UCI数据集上评测本文算法的性能。实验结果表明,本文提出的属性约简算法能够有效获取约简并提高分类的精度。(第3章)2.经典的模糊粗糙集模型对类噪声数据极为敏感,使该理论在实际应用中受到限制。为了减轻噪声数据对该模型的影响。提出了基于INS算法的稳健模糊粗糙集属性约简方法。其中,INS算法是一种稳健的异常点检测算法,能够有效地识别出异常样本。本文首先将INS算法进行改进,使其能够应用在多类标数据中,并建立了一个约束条件已提高选出的噪声数据的精度。最后结合现有的模糊粗糙集模型进行属性约简。实验结果证明了该方法的有效性。(第4章)3.多核学习模型较之单核学习模型而言,具有更强的灵活性和适应性,利用多核代替单核能够获得更优的性能。利用MapReduce模型,实现了并行多核粒化模糊粗糙集模型属性约简算法。在UCI数据集上对该并行算进行了相关实验,并对该实验结果进行了相应地分析,实验结果证实了该并行属性约简算法的可行性,且具有较好的并行效果。(第5章)
其他文献
矿产开发,在古往今来的社会经济生活中都是一个重要的方面,它与社会的发展密切相关。鄂东南地区自古以来作为我国重要的矿冶基地,在晚清时期随着列强侵略加剧、国家发展经济
现代人类社会的工业化和现代化发展过程中产生了严重的生态破坏和环境污染,人们的身体健康也受此影响,在经济水平得到巨大提升的现代,人们对食品安全问题越发重视,对有机农业
与时俱进地推动中国化的马克思主义被广大人民群众所认知和接受,实现马克思主义大众化,一直是理论界的一项重要任务。《人民日报》作为中国共产党的机关报,始终坚持党性原则,
海外并购逐渐成为中国企业进行对外投资的重要形式,但是由于国际环境的不确定性和国家之间存在的差异,中国企业的海外并购呈现出了交易达成困难的情况,其中的原因值得探讨。并购经验对于中国企业海外并购交易达成的影响已经得到广泛认同,但学术界的研究主要集中在海外并购经验上,并没有详细地对国内并购经验以及同行业并购经验与海外并购交易达成的关系进行研究。解决它将有益于企业合理地应用不同的并购经验,降低海外并购中的
现有大型知识库中,实体类型信息的缺失尤为严重,而实体类型又是实体最基础最本质的属性,对很多自然语言处理任务都具有决定性的作用,因此实体分类问题是一个十分重要并亟待解决的问题。实体分类问题旨在确定一个在一段特定文本中的实体的语义类型。近几年将神经网络应用到实体分类任务上是一种趋势,然而众多基于神经网络的分类方法通常只是单独地提取实体本身和其所在文本的特征,忽视了它们之间的内在联系和实体丰富的背景信息
电涡流传感器作为检测液压油中磨粒的典型代表,具有结构简单、制作成本较低和提供详细的磨损颗粒信息等优点,受到了广泛关注。然而,电涡流传感器检测灵敏度还比较低,在实际应
随着工业生产自动化系统不断发展,其安全性和可靠性受到越来越多的关注,研究基于数据驱动的调节阀故障诊断与容错控制方法,有助于提高系统的安全性和可靠性。本文针对调节阀
企业并购发展史在国际上来说已有一百多年的历史。时至今日,西方国家已经经历了5次企业并购浪潮。我国企业并购虽起步较晚,但发展迅速。2015年,我国共完成了2692起并购交易,其中,共有80起物联网企业的并购案例。物联网行业是当前最具发展潜力的行业之一,也是我国积极进行战略布局的行业之一,未来将呈现快速增长的态势。当前,物联网行业竞争激烈,企业间规模整合问题突显,如何扩张便成为众多物联网企业进一步成长
交替传译是一种广泛应用于各种场合的口译形式。其最显著的特点就是信息量大,时效性强。讲者讲话时,译员一边记录,一边进行信息处理。讲者结束一段发言后,译员必须在短时间内