论文部分内容阅读
随着信息化和网络化的发展,大量的数据信息需要处理和分析。在挖掘这些信息过程中对错误信息的识别,分类,避免和消除显得至关重要,而要避免错误信息,排除错误信息,就得研究错误信息出现的原因及规律。出现错误信息后,要清除错误信息,也必须找出出错的原因及消除他们的方法。通常情况下,因为时间、空间的推移,挖掘条件和技术的改变,科学的发展等原因,一般对于一个无错误信息的信息系统、决策系统等都完全有可能变为一个有错误信息的信息系统、决策系统,这就需要人们不断消除不断发生的错误,同时不断优化数据挖掘方法。1983年,我国学者郭开仲教授创立了消避错理论(消错理论),将人类对错误的认识和研究推进了一步。消避错理论主要采用数学(离散数学、模糊数学、高等数据、微分方程等)方法研究错误的定量化,采用系统(系统科学、系统工程、错误逻辑等)的方法研究错误的规律、关系和消避错方法。消避错理论的应用有:“十五、六、三”法理论和错误系统理论。本论文的研究继承了消避错理论的研究成果,基于错误系统理论展开研究,在错误集、错误逻辑和错误矩阵理论的研究基础上,研究如何构建数据挖掘错误系统,并探讨该系统在计算机上实现的方法。以期通过数据挖掘错误系统的优化方法开发新的算法模型,用所建立的模型来探索数据挖掘出现错误的原因和规律。首先,本论文从数据挖掘错误系统构建过程出发,以错误集、错误系统、错误集的变换、错误矩阵方程为基础,建立了基于消错理论的数据挖掘系统;讨论了错误子系统之间的关系和运算;给出了基于消错理论的数据挖掘关联错误函数的定义、分类、类型和基于消错理论的数据挖掘关联规则,研究了关联规则函数及其运算。通过研究错误数据处理方法,提出了在错误条件下数据处理的思路,给出了基于消错T变换的错误数据处理方法,及错误数据集的T变换及其T变换的类型。其次,针对数据库的分类特性构建了消错分类数据挖掘,消错聚类数据挖掘,基于数据挖掘错误系统的决策树挖掘方法。给出了错误数据集分类,建立了消错聚类数据挖掘的关联错误函数,时空距聚类法、错误矩阵聚类法,并给出消错分类、聚类的具体步骤和原理;指出其在处理数据错误性的作用及其在优化数据挖掘系统的作用。第三,基于错误集及模糊错误集,构建了动态信息下的数据挖掘错误系统,研究了论域、事物、量值、特性T变换下的时空数据挖掘错误系统优化;并讨论了它们的性质特性,定义了模糊错误数据集,多元错误数据集,具有临介点的多元错误数据集。最后,通过两个案例描述分析,将数据挖掘错误系统的消错分类和消错聚类方法应用到案例研究中;构建了消错分类、消错聚类模型并使用R编程软件在计算机上实现,最终对案例进行了研究和分析,以辅助企业制定销售战略和研发战略。本论文的创新性贡献包括:(1)在消错理论的基础上,探讨了错误数据集、模糊错误数据集、多元错误数据集、具有临界点的错误数据集,构建了数据挖掘错误系统,研究了动态信息下的错误数据挖掘错误系统,丰富和扩展了消错理论的成果。(2)通过数据挖掘方法与消错理论的结合,提出了消错分类数据挖掘方法模型、消错聚类数据挖掘方法模型,丰富和发展了数据挖掘方法,为后续的研究奠定了基础。