论文部分内容阅读
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,大量的数据背后隐藏着大量的信息,这些信息可以为企业的生产决策提供支持,现有的工具无法有效地提取这些信息。数据挖掘技术就是为满足这种需求而产生的。 数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的一个动态过程,它包括问题定义、数据准备、挖掘操作和结果解释几个主要部分。对一个数据挖掘系统而言,问题定义和数据准备很重要,是系统能否达到预期目的的关键。数据准备既需要人的参与又可以借助于一些工具清理、提炼、集成数据,使得经过预处理后得到的数据能够满足挖掘算法的需要。 挖掘算法的选择和挖掘模型的建立是一个数据挖掘系统的核心部分。算法的选择要考虑到挖掘的任务和目标,同时结合算法的效率、计算复杂性和实现的难易程度。算法的合理选择和组织是建立好的挖掘模型的基础。粗糙集作为一种新型的数学工具,它用信息表作为知识表达工具,把定义在属性集上的等价关系看作知识,把属性约简作为规则获取的途径,是一种有效的数据挖掘工具。决策树具有效率高、易于实现,结果易于理解,实用性强等特点,是迄今为止在各种数据挖掘系统中最常用的分类算法。 抽油机泵况分析数据挖掘系统的目标是协助工程技术人员对抽油机泵和井的工作状况做正确的判定分析,及时调整泵的参数,制定合理的维修计划。它采用分箱、数据直方图、聚类、概念树等技术对数据做预处理,采用粗糙集和决策树建立挖掘模型,挖掘结果用于决策支持。用机器判别代替了人工判别,使识别过程更迅速、更准确、更经济,在实际应用中收到了良好的效果。