论文部分内容阅读
摘要:研究探讨了基于支持向量机的空间数据挖掘工作流程与工作框架,以及基于分类或回归功能的空间数据挖掘实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。阐述了挖掘工作的重点和关键步骤。
关键词:支持向量机SVM 空间数据挖掘 挖掘流程 工作框架 实现方法
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2011)
SVM(Support Vector Machine)是数据挖掘中的一项新技术。SVM采用了结构风险最小化原则来代替了经验风险最小化,能较好地解决小样本学习的问题;还采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度。因为SVM有较完备的理论基础和较好的学习性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,成为当前机器学习领域的研究热点问题之一[1]。目前在空间数据挖掘、空间信息处理领域也得到了成功的应用[2-5]。
基于支持向量机的空间数据挖掘理论框架可大致分为以下七层:(1)概念层;(2)数据库技术层;(3)挖掘规则与挖掘方法层;(4)挖掘工具技术层;(5)挖掘过程实现层;(6)挖掘过程控制及可视化表达层;(7)挖掘结果分析及应用层。
下面主要探讨基于支持向量机的空间数据挖掘工作流程与工作框架以及实现方法。
1 挖掘工作流程
挖掘工作的重点和关键步骤是:空间数据准备与特征提取,并以此构建空间数据库;建立或筛选用于分类或回归的数学模型;数学模型的编码实现;实证分析。应用支持向量机进行空间数据挖掘工作流程,如图1所示。
其中,空间数据准备与特征提取是非常重要关键的工作内容之一,目的是为后续工作奠定好基础。在空间数据准备即预处理阶段,根据研究课题目标需要和空间数据具有的特征属性,要从宏观层面、中观层面、微观层面把握研究对象的空间数据,要进行空间数据搜集整理、筛选、去噪、清洗,以及数据特征分析选择、数据模式构造、数据特征关联分析等工作;当空间数据特征属性比较多且比较复杂,人工进行特征选择与提取不方便时,还可以利用支持向量机在特征选择方面具有自动选择的功能,进行特征选择与提取,甚至有时还利用核函数的方法帮助选择提取[1,6-8],这就是空间数据挖掘数据准备与数据预处理阶段有大量基础性工作的原因。
2 挖掘工作框架
应用支持向量机理论与方法,进行空间数据挖掘,需要确定空间数据源,提取空间数据特征,以此构建空间数据库;需要从挖掘方法的技术层面深入分析探讨技术工具,需要依据挖掘规则建立相应的数学模型,根据模型编码实现算法,挖掘工作整体框架如图2所示。
其中,空间数据挖掘分析部分是一个动态过程,应用建立的数据挖掘规则与算法,从空间数据库中提取特征数据并进行挖掘分析,再将挖掘分析的结果存入空间数据库,以供用户分析使用。
在图2中,对于特定问题对应的具体支持向量机SVM或回归机SVR挖掘算法,进行特定空间数据挖掘分析的实现过程如图3所示。其中X1,X2,……,Xl-1,Xl 表示有l个挖掘数据样本点,经数据特征分析提取,每个样本点有n个特征数据(经特征选择后,剩余的特征向量的分量),即:xij(i=1,2,...,l , j=1,2,...,n)。对挖掘的结果就具体的研究领域特性进行实证分析,发现其中的知识与规律。
3 实现方法
基于支持向量机实现空间数据挖掘的方法,主要表现为:基于分类或回归功能的实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。
(1)基于分类或回归功能的实现方法
应用支持向量机的分类算法,对空间数据进行分类分析;应用支持向量机的回归算法,构建空间数据回归模型。空间数据分类分析或回归预测的实现方法如下:
第一,分析空间数据,探讨空间数据的有关特性,构建空间特征数据库,为支持向量机的输入特征选择奠定基础。
第二,针对具体的特征数量、特征名称以及数据结构,具体化分类算法或回归算法。
第三,将具体化的分类算法或回归算法,进行算法编码实现。
第四,运行算法编码程序,提取空间数据,进行挖掘分析。
第五,得出挖掘结论。
(2)基于核函数工具的实现方法
在支持向量机理论中,核函数反映了数据空间的映射关系,它能够将低维空间线性不可分的问题,映射到高维空间实现线性可分。由于空间数据挖掘中,有些数据特征属性反映的是研究对象的空间结构关系,可以将该空间结构关系特征属性抽象为空间结构的拓扑关系,并利用核函数特殊映射关系的特点,将得到的拓扑关系建立联系,从中发现空间数据表达的有用的信息与知识,以此实现空间数据的空间结构属性的挖掘与知识发现。基于核函数挖掘空间数据结构拓扑关系的实现方法如下:
第一,分析空间数据结构属性特征,抽象其拓扑关系,建立基于空间数据结构拓扑关系的训练样本集。
第二,构建能够与训练样本集的拓扑关系建立联系的核函数。
第三,筛选合适的支持向量分类或回归算法,并将算法编码实现。
第四,运行算法编码程序,提取空间数据结构拓扑关系,进行挖掘分析。
第五,得出挖掘结论。
基于核函数挖掘空间数据结构拓扑关系的理论与应用研究文献报道还比较少,基于核函数的空间数据挖掘实现方法还需要深入系统研究。
4 结论
研究探讨了基于支持向量机的空间数据挖掘工作流程与工作框架,以及基于分类或回归功能的空间数据挖掘实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。阐述了挖掘工作的重点和关键步骤。
参考文献
[1] 邓乃扬,田英杰. 数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.
[2] 李德仁,王树良,李德毅. 空间数据挖掘理论与应用[M].北京:科学出版社,2006.
[3] 杨敏,汪云甲.面向数据挖掘的矿山数据仓库技术研究[A].周光召.全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C].中国辽宁沈阳:中国科学技术出版社,2003.
[4] 闫志刚. SVM及其在矿井突水信息处理中的应用研究[J]. 岩石力学与工程学报,2008,(1).
[5] 谭琨,杜培军,郑辉.支持向量机在空间信息处理领域的应用研究[J].测绘科学,2007,(02).
[6] Yves Grandvalet, Stephane Canu. Adaptive Scaling for Feature Selection in SVMs[J]. In: Advances in Neural Information Proceedings Systems 15, MIT Press, 2003.
[7] Weston J,Mukherjee S,Chapelle O,et al. Feature selection for SVMs .Advances in Neural Information Processing system13. MIT Press, 2000.
[8] Chapelle O,Vapnik V,Bousquet O,et al. Choosing multiple para-meters for support vector machines .Machine Learning, 2002,461, 46(1): 131-159.
基金项目:山东省泰安科技计划项目(20082025),山东科技大学科研项目(qx102146, qx101009),“521”创新工程项目(CXJ1124)。
作者简介:刘太安(1963-),男,山东科技大学信息工程系副教授,硕导,中国计算机学会高级会员,主要从事:数据挖掘、软件工程、计算机技术的教学和研究工作。
关键词:支持向量机SVM 空间数据挖掘 挖掘流程 工作框架 实现方法
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2011)
SVM(Support Vector Machine)是数据挖掘中的一项新技术。SVM采用了结构风险最小化原则来代替了经验风险最小化,能较好地解决小样本学习的问题;还采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度。因为SVM有较完备的理论基础和较好的学习性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,成为当前机器学习领域的研究热点问题之一[1]。目前在空间数据挖掘、空间信息处理领域也得到了成功的应用[2-5]。
基于支持向量机的空间数据挖掘理论框架可大致分为以下七层:(1)概念层;(2)数据库技术层;(3)挖掘规则与挖掘方法层;(4)挖掘工具技术层;(5)挖掘过程实现层;(6)挖掘过程控制及可视化表达层;(7)挖掘结果分析及应用层。
下面主要探讨基于支持向量机的空间数据挖掘工作流程与工作框架以及实现方法。
1 挖掘工作流程
挖掘工作的重点和关键步骤是:空间数据准备与特征提取,并以此构建空间数据库;建立或筛选用于分类或回归的数学模型;数学模型的编码实现;实证分析。应用支持向量机进行空间数据挖掘工作流程,如图1所示。
其中,空间数据准备与特征提取是非常重要关键的工作内容之一,目的是为后续工作奠定好基础。在空间数据准备即预处理阶段,根据研究课题目标需要和空间数据具有的特征属性,要从宏观层面、中观层面、微观层面把握研究对象的空间数据,要进行空间数据搜集整理、筛选、去噪、清洗,以及数据特征分析选择、数据模式构造、数据特征关联分析等工作;当空间数据特征属性比较多且比较复杂,人工进行特征选择与提取不方便时,还可以利用支持向量机在特征选择方面具有自动选择的功能,进行特征选择与提取,甚至有时还利用核函数的方法帮助选择提取[1,6-8],这就是空间数据挖掘数据准备与数据预处理阶段有大量基础性工作的原因。
2 挖掘工作框架
应用支持向量机理论与方法,进行空间数据挖掘,需要确定空间数据源,提取空间数据特征,以此构建空间数据库;需要从挖掘方法的技术层面深入分析探讨技术工具,需要依据挖掘规则建立相应的数学模型,根据模型编码实现算法,挖掘工作整体框架如图2所示。
其中,空间数据挖掘分析部分是一个动态过程,应用建立的数据挖掘规则与算法,从空间数据库中提取特征数据并进行挖掘分析,再将挖掘分析的结果存入空间数据库,以供用户分析使用。
在图2中,对于特定问题对应的具体支持向量机SVM或回归机SVR挖掘算法,进行特定空间数据挖掘分析的实现过程如图3所示。其中X1,X2,……,Xl-1,Xl 表示有l个挖掘数据样本点,经数据特征分析提取,每个样本点有n个特征数据(经特征选择后,剩余的特征向量的分量),即:xij(i=1,2,...,l , j=1,2,...,n)。对挖掘的结果就具体的研究领域特性进行实证分析,发现其中的知识与规律。
3 实现方法
基于支持向量机实现空间数据挖掘的方法,主要表现为:基于分类或回归功能的实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。
(1)基于分类或回归功能的实现方法
应用支持向量机的分类算法,对空间数据进行分类分析;应用支持向量机的回归算法,构建空间数据回归模型。空间数据分类分析或回归预测的实现方法如下:
第一,分析空间数据,探讨空间数据的有关特性,构建空间特征数据库,为支持向量机的输入特征选择奠定基础。
第二,针对具体的特征数量、特征名称以及数据结构,具体化分类算法或回归算法。
第三,将具体化的分类算法或回归算法,进行算法编码实现。
第四,运行算法编码程序,提取空间数据,进行挖掘分析。
第五,得出挖掘结论。
(2)基于核函数工具的实现方法
在支持向量机理论中,核函数反映了数据空间的映射关系,它能够将低维空间线性不可分的问题,映射到高维空间实现线性可分。由于空间数据挖掘中,有些数据特征属性反映的是研究对象的空间结构关系,可以将该空间结构关系特征属性抽象为空间结构的拓扑关系,并利用核函数特殊映射关系的特点,将得到的拓扑关系建立联系,从中发现空间数据表达的有用的信息与知识,以此实现空间数据的空间结构属性的挖掘与知识发现。基于核函数挖掘空间数据结构拓扑关系的实现方法如下:
第一,分析空间数据结构属性特征,抽象其拓扑关系,建立基于空间数据结构拓扑关系的训练样本集。
第二,构建能够与训练样本集的拓扑关系建立联系的核函数。
第三,筛选合适的支持向量分类或回归算法,并将算法编码实现。
第四,运行算法编码程序,提取空间数据结构拓扑关系,进行挖掘分析。
第五,得出挖掘结论。
基于核函数挖掘空间数据结构拓扑关系的理论与应用研究文献报道还比较少,基于核函数的空间数据挖掘实现方法还需要深入系统研究。
4 结论
研究探讨了基于支持向量机的空间数据挖掘工作流程与工作框架,以及基于分类或回归功能的空间数据挖掘实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。阐述了挖掘工作的重点和关键步骤。
参考文献
[1] 邓乃扬,田英杰. 数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.
[2] 李德仁,王树良,李德毅. 空间数据挖掘理论与应用[M].北京:科学出版社,2006.
[3] 杨敏,汪云甲.面向数据挖掘的矿山数据仓库技术研究[A].周光召.全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C].中国辽宁沈阳:中国科学技术出版社,2003.
[4] 闫志刚. SVM及其在矿井突水信息处理中的应用研究[J]. 岩石力学与工程学报,2008,(1).
[5] 谭琨,杜培军,郑辉.支持向量机在空间信息处理领域的应用研究[J].测绘科学,2007,(02).
[6] Yves Grandvalet, Stephane Canu. Adaptive Scaling for Feature Selection in SVMs[J]. In: Advances in Neural Information Proceedings Systems 15, MIT Press, 2003.
[7] Weston J,Mukherjee S,Chapelle O,et al. Feature selection for SVMs .Advances in Neural Information Processing system13. MIT Press, 2000.
[8] Chapelle O,Vapnik V,Bousquet O,et al. Choosing multiple para-meters for support vector machines .Machine Learning, 2002,461, 46(1): 131-159.
基金项目:山东省泰安科技计划项目(20082025),山东科技大学科研项目(qx102146, qx101009),“521”创新工程项目(CXJ1124)。
作者简介:刘太安(1963-),男,山东科技大学信息工程系副教授,硕导,中国计算机学会高级会员,主要从事:数据挖掘、软件工程、计算机技术的教学和研究工作。