论文部分内容阅读
随着信息技术产业不断取得新的成功,人们可以获取的数据量的大小以及获取数据的周期,都正在发生着前所未有的变革。面对这些海量的、无明确规律的、不稳定的、快速更新的数据,如何进行有效的数据分析,并从中发现潜藏在数据中的知识,是这个数据爆炸时代最为关注的研究课题之一,同时也是当前人们在智能信息领域中面临的历史性机遇与挑战。而粗糙集理论自1982年由波兰著名教授Pawlak提出以来,已被广泛证实是一种高效的用于表达和处理不确定性问题的数学工具。它以等价关系建立的分类机制为基础,可以刻画不确定性和不完整性的数据,并且可以进一步对数据进行分析以及推理,从而发现隐含知识并揭示其中潜在的数学规律。为了满足当前数据科学的研究,需要越来越多的具有针对性的数据处理模型,本文正是在此背景下以粗糙集理论为基础,在序信息系统中构建了几种新的双量化粗糙集模型,并研究了多种给定区间值信息系统的论域随时间发生变化时,快速更新近似集的一般方法,同时设计了相应的增量式更新算法,并通过大量的实验验证了本文方法的有效性。主要创新点如下:1.在序信息系统中融合程度粗糙集模型和变精度粗糙集模型,以变精度粗糙集近似算子和程度粗糙集近似算子为基础,基于逻辑运算将两种不同模型的近似算子进行重新组合,建立三种新的双量化粗糙集模型,并对它们的基本数学性质进行了系统性的研究,得到了粗糙集区域的精确刻画方法以及三种模型之间的相互关系。最后利用实际案例充分展示了计算过程,并验证了模型的合理性和有效性。2.研究了当区间值决策序信息系统中论域是动态时,也即是当有新的对象被增加到原来的系统中或者有对象被从系统中删除时,快速更新近似集的一般方法,并根据提出的近似集更新方法设计了对应的增量式算法,然后基于UCI数据集设计了一系列实验,将本文设计的增量式更新近似集算法和传统的近似集计算方法进行比较,进一步验证了当论域发生变化时,本文提出的近似集更新的方法在计算效率方面具有十分明显的优势。3.在一般的区间值决策信息系统中,通过区间数的‘交’和‘并’运算定义了一种新的相似性度量,然后基于此度量构造了一种新的相似二元关系,进而在此基础上建立了粗糙集模型。紧接着以该模型为基础,讨论了当论域发生变化的时候,增量式更新该粗糙集模型近似集的一般方法,然后通过对现实案例的研究论证了所提方法的理论价值和应用价值。