论文部分内容阅读
摘要:如何从海量的Web数据中发现有用的知识是一个迫切需要研究的课题,因此,Web挖掘应运而生,成为一个全新的研究领域。Web挖掘就是从Web文档和Web活动中抽取潜在的有用模式和隐藏信息。随着电子商务的发展,Web挖掘进入了一个新的应用领域,介绍了Web挖掘技术在电子商务中的具体应用,运用Web挖掘技术对Web数据进行挖掘,了解客户的行为,从而调整站点结构、市场策略等,使电子商务活动具有针对性。
关键词:Web挖掘;电子商务;数据挖掘
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)14-20829-02
1 引言
随着网络技术的快速发展,Internet已经成为一个全球性的信息服务中心,如何从海量的网络信息中发现有用信息,成为人们的迫切需求,因此Web挖掘应运而生。而随着电子商务逐渐走进人们的视野,如何利用Web挖掘技术为电子商务提供强大的数据支持已经成为数据挖掘研究的热点。
2 Web挖掘概述
Web挖掘[1]是数据挖掘[2]在Web中的应用,它将传统的数据挖掘思想和方法应用于Web,利用相关技术从Web资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及多个研究领域,包括数据挖掘、Web技术、人工智能、数据库技术、信息学、统计学和神经网络等多个领域,是一项综合技术。
根据挖掘对象的不同,Web挖掘一般可以分为三种:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是从从Web文档内容及其描述的内容信息中获取有用知识的过程,一般包括文本文件和多媒体文档的挖掘;由于有用知识除了在Web页面内容中,也包含在页面结构中,所以Web结构挖掘是从万维网的组织结构和网页的相互链接中进行挖掘,发现页面间的关系,改进搜索引擎的性能;而Web使用挖掘则是通过挖掘相应站点的日志文件和相关数据发现站点浏览者的行为模式,识别用户的喜好、满意度,发现潜在用户,增强站点的服务竞争力。
3 Web挖掘技术在电子商务中使用
随着电子商务的兴起,Web挖掘越来越多的应用于电子商务领域,在电子商务中进行Web挖掘一般可分为四个阶段:收集数据、数据预处理、模式发现和模式分析。
3.1 收集数据
Web挖掘的前提条件就是得到大量的原始数据,也就是收集数据。在Web上可以用来挖掘的数据量大,类型多,主要有以下几种类型的数据:
(1)服务器数据:数据最直接方便的来源,客户访问网站时会在服务器上留下相应的访问日志信息,记录每次网页的请求信息,还可以存储其他的一些Web使用信息,比如Cookie,以及查询数据等。
(2)客户登记信息:客户通过Web页输入的、提交给服务器的相关用户信息,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,进一步了解客户。
(3)在线市场数据:主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
(4)Web页面:HTLM和XML页面的内容,包括本文、图片、语音、图像等。
(5)Web页面超级链接关系:页面之间存在的超级链接关系。
3.2 数据预处理
电子商务中能得到多种形式的信息资源,但一般都具有不完全性、冗余性和模糊性,不能直接用来挖掘,必须对原始数据进行预处理,为挖掘提供简洁有效的数据。
3.3 模式发现
当对收集到的数据进行预处理后,就进入模式发现阶段利用挖掘算法挖掘出有效可理解的信息,方法有分类分析、聚类分析、路径分析、关联分析、序列模式和依赖性建模等[3]。
(1)分类分析将数据项按预先定义的类别进行划分,能识别一个特殊群体的公共属性。
(2)聚类分析把有相似特性的用户集合到一起,能从WEB信息中聚集出具有相似特性的客户,划分客户群,帮助企业开发和执行市场策略,比如自动给一个特定的顾客群发送销售邮件等。
(3)路径分析挖掘访问路径,能发现Web网站中访问最频繁的路径,改进网站结构。
(4)关联分析挖掘出隐藏在数据间的关联规则,能发现用户对各页面访问关系,更好地组织网站空间。
(5)序列模式挖掘出交易集之间有时间序列关系的模式,能预测用户的访问模式,开展有针对性的广告服务。
(6)依赖性建模是开发出一种能表达出Web领域中各种变量之间显著依赖性的模型,不仅能为分析用户行为提供理论框架,还具有预测Web资源消耗的潜力。
3.4 模式分析
通过模式分析从模式发现找到的模式集合中筛选出需要的模式,同时,网站的内容与结构信息也应用到模式分析过程,用以辅助对模式挖掘出的结果进行过滤,分析得到有价值的规则和模式,利用可视化技术,以图形界面的方式显示出来。
4 Web挖掘在电子商务中的意义
4.1 提供个性化服务,提高客户忠诚度
电子商务中,传统客户与销售商之间的空间距离己经不存在,客户从一个电子商务网站转换到竞争对手那边,只需点击鼠标即可。网站的内容层次、标题、服务等既能成为吸引客户、也能成为失去客户的因素。因此应尽可能的迎合用户的浏览兴趣并不断调整自己来适应用户浏览兴趣的变化。通过对客户访问信息的挖掘,了解客户的兴趣及需求,动态地调整Web页面以满足客户的需要。例如通过关联分析得到85%的客户浏览网页A时,同时浏览网页B,则说明网页A和B之间有一定的相关性,从而可以在网页A中加入网页B的超链接。
4.2 挖掘潜在客户
对商家来说,发现更多潜在客户,提高市场占有率是至关重要的,通过Web挖掘对潜在客户信息进行分类和聚类分析,帮助商家识别出潜在的客户群,对这类客户实施一定的策略使他们尽快成为在册客户群体,提高市场占有率。
4.3 改进网站设计
网站上页面内容的安排和链接如同超市中物品在货架上的摆设,把具有一定关联的物品摆放在一起有助于销售,比如著名的沃尔玛超市“尿布与啤酒”事例。利用关联分析,锁定客户动态调整网站结构,让客户很容易地访问到所需的页面,给客户留下较好的印象,增加下次访问概率。
4.4 聚类客户
通过分组具有相似浏览行为的客户并分析组中客户的共同特征,帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务,使商务活动对客户和销售商来说更具意义。
4.5 降低公司商业成本
节约成本是企业盈利的关键,通过Web挖掘,快速获得有用的市场反馈信息,预测未来客户的购买行为,从而开展有针对性的电子商务营销活动。
4.6 广告效益评价
利用Web挖掘对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并组合设计出最佳的商品宣传组合方案,根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率。
5 小结
Web挖掘研究具有广阔的应用前景和巨大的现实意义,随着电子商务的迅速发展,Web挖掘有了更大的用武之地,利用Web挖掘技术对电子商务中的各种数据进行挖掘,发现相关信息,可以指导企业更好地运作和向客户提供更优质的个性化服务,有效提高商业站点的竞争力。
参考文献:
[1] 韩家炜, 孟小峰. Web挖掘研究[J]. 计算机研究与发展,2001,38(4):405-411.
[2] Jiawei Han, Micheline Kamber著. 范明, 孟小峰 译. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004.
[3] 邹显春, 谢中, 周彦晖. 电子商务与Web数据挖掘[J]. 计算机应用,2001,21(5):21-23.
关键词:Web挖掘;电子商务;数据挖掘
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)14-20829-02
1 引言
随着网络技术的快速发展,Internet已经成为一个全球性的信息服务中心,如何从海量的网络信息中发现有用信息,成为人们的迫切需求,因此Web挖掘应运而生。而随着电子商务逐渐走进人们的视野,如何利用Web挖掘技术为电子商务提供强大的数据支持已经成为数据挖掘研究的热点。
2 Web挖掘概述
Web挖掘[1]是数据挖掘[2]在Web中的应用,它将传统的数据挖掘思想和方法应用于Web,利用相关技术从Web资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及多个研究领域,包括数据挖掘、Web技术、人工智能、数据库技术、信息学、统计学和神经网络等多个领域,是一项综合技术。
根据挖掘对象的不同,Web挖掘一般可以分为三种:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是从从Web文档内容及其描述的内容信息中获取有用知识的过程,一般包括文本文件和多媒体文档的挖掘;由于有用知识除了在Web页面内容中,也包含在页面结构中,所以Web结构挖掘是从万维网的组织结构和网页的相互链接中进行挖掘,发现页面间的关系,改进搜索引擎的性能;而Web使用挖掘则是通过挖掘相应站点的日志文件和相关数据发现站点浏览者的行为模式,识别用户的喜好、满意度,发现潜在用户,增强站点的服务竞争力。
3 Web挖掘技术在电子商务中使用
随着电子商务的兴起,Web挖掘越来越多的应用于电子商务领域,在电子商务中进行Web挖掘一般可分为四个阶段:收集数据、数据预处理、模式发现和模式分析。
3.1 收集数据
Web挖掘的前提条件就是得到大量的原始数据,也就是收集数据。在Web上可以用来挖掘的数据量大,类型多,主要有以下几种类型的数据:
(1)服务器数据:数据最直接方便的来源,客户访问网站时会在服务器上留下相应的访问日志信息,记录每次网页的请求信息,还可以存储其他的一些Web使用信息,比如Cookie,以及查询数据等。
(2)客户登记信息:客户通过Web页输入的、提交给服务器的相关用户信息,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,进一步了解客户。
(3)在线市场数据:主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
(4)Web页面:HTLM和XML页面的内容,包括本文、图片、语音、图像等。
(5)Web页面超级链接关系:页面之间存在的超级链接关系。
3.2 数据预处理
电子商务中能得到多种形式的信息资源,但一般都具有不完全性、冗余性和模糊性,不能直接用来挖掘,必须对原始数据进行预处理,为挖掘提供简洁有效的数据。
3.3 模式发现
当对收集到的数据进行预处理后,就进入模式发现阶段利用挖掘算法挖掘出有效可理解的信息,方法有分类分析、聚类分析、路径分析、关联分析、序列模式和依赖性建模等[3]。
(1)分类分析将数据项按预先定义的类别进行划分,能识别一个特殊群体的公共属性。
(2)聚类分析把有相似特性的用户集合到一起,能从WEB信息中聚集出具有相似特性的客户,划分客户群,帮助企业开发和执行市场策略,比如自动给一个特定的顾客群发送销售邮件等。
(3)路径分析挖掘访问路径,能发现Web网站中访问最频繁的路径,改进网站结构。
(4)关联分析挖掘出隐藏在数据间的关联规则,能发现用户对各页面访问关系,更好地组织网站空间。
(5)序列模式挖掘出交易集之间有时间序列关系的模式,能预测用户的访问模式,开展有针对性的广告服务。
(6)依赖性建模是开发出一种能表达出Web领域中各种变量之间显著依赖性的模型,不仅能为分析用户行为提供理论框架,还具有预测Web资源消耗的潜力。
3.4 模式分析
通过模式分析从模式发现找到的模式集合中筛选出需要的模式,同时,网站的内容与结构信息也应用到模式分析过程,用以辅助对模式挖掘出的结果进行过滤,分析得到有价值的规则和模式,利用可视化技术,以图形界面的方式显示出来。
4 Web挖掘在电子商务中的意义
4.1 提供个性化服务,提高客户忠诚度
电子商务中,传统客户与销售商之间的空间距离己经不存在,客户从一个电子商务网站转换到竞争对手那边,只需点击鼠标即可。网站的内容层次、标题、服务等既能成为吸引客户、也能成为失去客户的因素。因此应尽可能的迎合用户的浏览兴趣并不断调整自己来适应用户浏览兴趣的变化。通过对客户访问信息的挖掘,了解客户的兴趣及需求,动态地调整Web页面以满足客户的需要。例如通过关联分析得到85%的客户浏览网页A时,同时浏览网页B,则说明网页A和B之间有一定的相关性,从而可以在网页A中加入网页B的超链接。
4.2 挖掘潜在客户
对商家来说,发现更多潜在客户,提高市场占有率是至关重要的,通过Web挖掘对潜在客户信息进行分类和聚类分析,帮助商家识别出潜在的客户群,对这类客户实施一定的策略使他们尽快成为在册客户群体,提高市场占有率。
4.3 改进网站设计
网站上页面内容的安排和链接如同超市中物品在货架上的摆设,把具有一定关联的物品摆放在一起有助于销售,比如著名的沃尔玛超市“尿布与啤酒”事例。利用关联分析,锁定客户动态调整网站结构,让客户很容易地访问到所需的页面,给客户留下较好的印象,增加下次访问概率。
4.4 聚类客户
通过分组具有相似浏览行为的客户并分析组中客户的共同特征,帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务,使商务活动对客户和销售商来说更具意义。
4.5 降低公司商业成本
节约成本是企业盈利的关键,通过Web挖掘,快速获得有用的市场反馈信息,预测未来客户的购买行为,从而开展有针对性的电子商务营销活动。
4.6 广告效益评价
利用Web挖掘对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并组合设计出最佳的商品宣传组合方案,根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率。
5 小结
Web挖掘研究具有广阔的应用前景和巨大的现实意义,随着电子商务的迅速发展,Web挖掘有了更大的用武之地,利用Web挖掘技术对电子商务中的各种数据进行挖掘,发现相关信息,可以指导企业更好地运作和向客户提供更优质的个性化服务,有效提高商业站点的竞争力。
参考文献:
[1] 韩家炜, 孟小峰. Web挖掘研究[J]. 计算机研究与发展,2001,38(4):405-411.
[2] Jiawei Han, Micheline Kamber著. 范明, 孟小峰 译. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004.
[3] 邹显春, 谢中, 周彦晖. 电子商务与Web数据挖掘[J]. 计算机应用,2001,21(5):21-23.