论文部分内容阅读
数据挖掘是数据库中知识发现的一个重要步骤,传统数据挖掘是以数据对象作为研究基础的挖掘方法,注重算法的运行效率以及模型的准确率,是一种面向数据或者称为数据驱动的数据挖掘,其挖掘结果包含大量的冗余规则、无需挖掘就可以得到的知识甚至是一些违反常识的错误结论,存在很大的弊端。决策树是数据挖掘分类技术中的主要模型。针对决策树算法没有考虑挖掘结果使用者的偏好、相对应领域的知识约束、挖掘结果的可操作性等问题,应用DDDM(Domain Driven Data Mining)的思想,提出一种在构建决策树过程和结果评价标准中,融入用户兴趣度以及领域知识的人机交互式决策树模型,客观地评价挖掘结果在实践中的具体效益,交付可直接用于实际行动的决策支持。领域驱动的人机交互式决策树模型强调用户在数据挖掘过程中的参与度与主动性,改变传统决策树仅仅利用预先设置的算法,由机器自动搜索训练集中的隐含模式这种被动的挖掘策略,使以模式输出为主的数据挖掘系统发展成为实际问题解决方案输出的决策系统。本文的主要研究内容包括以下几个方面:1.根据传统数据挖掘局限于以数据和算法为中心,忽略了真实环境下各种领域知识对于挖掘过程的约束,分析这种旧挖掘模式的不足之处与自身缺陷。从理论水平、方法框架、模式架构等几个方面,综述近十年来领域驱动数据挖掘的发展历程和国内外专家学者的研究成果。2.设计转化属性值的代价矩阵和类别的效益矩阵来体现数据挖掘用户的兴趣度和所挖掘领域的知识约束。定义决策分枝的概念及其价值,并用该价值作为领域驱动决策树算法的属性选择度量。3.以经典决策树算法为基本框架,提出一种领域驱动的人机交互式决策树构造算法和评估有效分枝转移的决策推荐算法,让数据挖掘结果使用者可以直接得知最佳方案的实际效益,做出正确、合理、可操作的决策。4.基于上述理论研究,用德国电信旗下的T-Systems宽带客户数据集进行实验验证。根据用户的兴趣度和具体的商业利润,设置不同转化属性值的代价矩阵和类别的效益矩阵对同一测试数据集进行挖掘,分析对比挖掘结果的实际商业利益。实验结果表明领域驱动的人机交互式决策树模型在没有降低分类准确率的情况下,所挖掘的决策规则易于理解、实践性强、商业价值高。