论文部分内容阅读
摘 要:文章首先概述了当前网络调研的现状,接着引入K均值和基于模型的EM聚类方法来分析网络调研数据,进而研究了影响网络调研聚类分析的各种因素,最后通过引入案例进一步解释同一数据应用两种方法得到不同分析结果的原因。
关键词:网络调研 K均值 期望最大化 聚类
中图分类号:F062.5文献标识码:A
文章编号:1004-4914(2008)11-066-02
一、引言
随着互联网技术的发展和上网用户的迅速增加,网络调研成为企业决策的一种重要工具。
二、网络调研的现状
网络调研是利用互联网发掘和了解顾客需要、市场机会、竞争对手、行业潮流、分销渠道等方面的情况。其特点有:及时性,共享性,互动性,成本低,隐匿性好。它是一项富于实践的研究,国内外开展网络调研的公司和研究机构为数众多,大多数是自助式网络调研平台,例如,业内最著名的SurveyMonkey是国外一家专业网络调研公司,它拥有大量的问卷样本库,客户可以根据需要选择所需样本库,设置题型、数据格式和范围等。类似国内有艾瑞调研网,100调查网等,数据分析大多使用一般统计方法,很少考虑调研数据的特点,难以提供更高级的数据挖掘分析和知识发现等解决方案。
三、网络调研中应用的聚类方法研究
聚类分析是数据挖掘中一个活跃的研究领域,分析算法分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。网络调研常用的方法是K均值方法和基于模型的EM方法。
1.K均值方法。K均值(K-means)是基于原型的聚類技术创建对象的单层划分,K均值算法以距离值的均值对聚类成员进行分配,通常K均值聚类用于n维连续空间中的对象。K均值的算法表示为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K均值方法被认为是硬聚类(hard clustering),因为每一个对象只能被分配到一个聚类,聚类间不连接,也不相互重叠。
K均值法在网络调研中可以处理数字数据和文档数据。聚类目标通常用一个目标函数表示,该函数依赖与点之间或点到聚类中心的临近型。对于数字数据,可以选用欧几里德和曼哈顿距离以及切比雪夫距离作为度量聚类质量的目标函数。它的思想是计算每个数据点到最近的聚类中心的度量距离,再计算已选度量的误差平方和(SE)。如式:1
其中,ci是第i个聚类,x是ci中的点,ci是第i个聚类的均值,distance是度量距离。
对第K个聚类中心对均值Ck求导,令导数等于0,便可以得到SE最小值时的最佳聚类中心。接着重新计算聚类中心,进一步最小化SE。反复此过程直到聚类中心不发生变化,即得到最优聚类。
对于文档数据则考虑文档数据的余弦相似性度量。最大化聚类中文档与聚类中心的相似性,也可以通过对均值Ck求导等于零来证明聚类凝聚度(TC)的最佳聚类中心。
2.基于模型的EM方法。基于模型EM方法使用若干统计分布对数据进行建模,假定有K个分布和m个对象X={x1,…,xm}。设第j个分布的参数为θj,θ={θ1,..,θj}。则prob(xi|θj)是第i个对象来自第j个分布的概率。选取第j个分布产生一个对象的概率由权值wj(1≤j≤k)给定,其中权值(概率)受限于其和为1的约束,即∑jk=1wj=1。考虑到调研的对象是独立的方式产生,因此,整个对象集的概率是每个个体对象xi概率的乘积,
3式中,每个分布描述一个不同的聚类,使用期望最大化(EM)算法来估计模型参数。EM算法表示为:给定参数值的一个猜测,EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计,该迭代继续到参数的估计不再改变为止。EM算法通过度量某对象的概率来决定该对象属于哪一个聚类,这种技术被称为软聚类(soft clustering),它允许聚类之间重叠,允许模糊的边界。
基于模型方法的优点在于它可以使用各种类型的分布,提供一种消除与数据相关联的复杂性方法。但是基于模型方法需要处理和简化数据,它不能处理具有大量分量的模型,聚类中的数据点过少以及含有噪声和离群点也不能很好的处理。因此,在网络问卷分析时使用基于模型的方法需要手工或者计算机处理缺失点和异常点。
四、影响网络调研聚类分析的因素
网络调研的聚类分析涉及数学、计算机学、经济学、营销学、管理学、统计学等众多学科,影响它的因素主要有:
1.调研目的与对象的确立。内容简单的调研往往不需要复杂的分析;而复杂的调研一般需要进行深入的数据分析,因此,调研目的和对象的确立会影响问卷的设置,以及数据分析的任务和复杂度。
2.调研问卷题目的设计。网络调研题目设计必须具体、表述清楚、重点突出、整体结构好。借助程序可以设置题目间的逻辑性和检查答案,根据用户选择,程序自动判断所需做答的题目,大大简化了数据预处理阶段的工作量并加强了数据的可靠性。
3.数据库的选择和架构。网络调研必须以数据库为依托,数据库设计必须满足范式要求,所有题目信息和做答情况存放于后台数据库中,呈现的问卷则是一个负责与用户交互的前台页面,这样即使问卷发生改动也不会影响后期数据分析。问卷简单,投放量小,数据分析时效强时,选择小型数据库如Microsoft access。问卷复杂,数据投放量大,数据分析力求准确,需要一定的数据挖掘功能,选择中大型如Microsoft SQL Server较为合适。
4.数据和数据处理。描述数据对象的属性可以是定量或定性,数据的类型决定使用何种工具和技术来分析数据。通过计算机程序设计错误检测及选项间的逻辑联系,限制不符合规范和逻辑的数据向数据库提交。
5.聚类分析算法和软件的选用。首先聚类结果要明确就需分离度很好(well-separated)的数据。如果聚类是扩散且互相渗透,那么每种算法结果不同,界定边界不清。其次,大多数聚类方法分析的仅是简单的一对一的关系。因为成对的线性比较,减少了表达类型关系的计算量。因此,不同的聚类应该选择与之适用的方法和软件。
6.分析人员的专业能力。鉴于聚类分析的跨学科性、复杂性以及结果解释的困难性,分析人员必须具备丰富的分析经验和对所分析的实际问题有着深入的了解。
五、案例研究
1.背景介绍。此次调研是为某一网络调研公司设计的样本库,调研对象为涵盖各年龄段各收入段以及各地区不同行业的中国网民,使用Visual C#.net语言进行开发,选用SQL Server2005为核心数据库。通过EDM方式投放问卷约为35000份,问卷回馈约3800份,其中注册用户约2100多份。
2.数据库架构。数据库设计符合第三范式设计模式,设计数据表包括问卷编号表(Questionnaire),问卷类型表(QuestionType),问题表(Question),矩阵列表(RecColumn),矩阵行表(RecRow),逻辑跳转表(QuestionJump),用户表(Users)以及问卷回答表(Answers)。
3.程序处理数据的三个阶段。C#程序对数据的预处理分三个阶段。第一阶段通过与前台Javascript配合,预先设置好题目选项间的逻辑检查并且屏蔽提交不符合题目要求的数据。第二阶段程序自动将异常数据和缺失数据使用0代替。第三阶段使用C#中的OLE DB驱动提供的SQL语句可以设置条件查询数据库,筛选出符合条件的数据。通过程序三阶段处理,可以较好地保证数据质量,为数据分析提供较完美的数据。
4.K均值聚类分析。基于K均值的算法对问卷中的职业和所购买的手机品牌进行分析,C#程序首先预处理没有手机的人,再导出数据到SAS软件,使用fastclus K均值方法编程(结果略)。
5.基于模型EM算法聚类分析。可以使用微软Analysis Service(AS)的EM算法对上例进行聚类分析。聚类分析在AS中是为数据挖掘的一种方法,其步骤如下: (1)建立数据源和挖掘项目。數据源为网络调研的数据库,挖掘项目为Analysis Service项目。(2)设计数据源视图。提交到数据的答案统一记录在Answers表中,因此,必须在数据库里建立视图。(3)创建挖掘结构和EM聚类模型。挖掘结构和模型建立可以使用向导方式也可以使用数据挖掘查询语言进行建立(DMX)。
聚类分析和预测。聚类分析可以查看数据统计图、分类关系图、分类剖面图、分类特征和分类对比也可以进行聚类模型预测等。
6.两种方法的结果分析和比较。SAS软件K均值算法将使用手机品牌的职业人分为5类,用回归分析法对分类结果描述为:学生倾向于喜欢比较便宜、物美价廉的手机;私营企业管理人员、专业人员和私营企业一般职员喜欢有品牌价值、不是很看重价格的诺基亚、联想和三星等手机;在各类人群当中相比较而言,学生和私营企业一般职员也会选择另类的一些其他牌子手机。
而基于模型的EM分析法AS默认选择分为10类,根据类别密度和紧密联系度合并为5类。按数量大小从左排列显示第10个分类比例分布平滑,各种品牌的手机都有人购买,这类被看作普通手机使用者,不太关注品牌。第5类学生和其他人员比例占绝对比例,而手机中三星、摩托、索爱和其他杂牌比例占大多数,这类人群可以解释为,以学生为主收入有限的群体,喜欢知名的时尚型但价格便宜的手机。第9类说明中下等工薪阶级重视品牌也重视价格。AS类关系图显示第7,8,4,2,9类关系紧密,说明中上等收入层次和一部分学生可以看作有较高收入的人群,选择主要为诺基亚品牌价值和质量较好的机型。第6类,进口手机占压倒性优势且品牌比例均匀,使用者分布也较均匀,各行业都有忠实者,可以解释市场上进口手机比国产手机更受欢迎。
K均值分析法聚类明确,聚类之间不相互连接,也不相互重叠,分析效率较高,容易分析,但是可能会导致分类之间缺乏一定的联系,进而隐藏分类间的潜在关系。EM分类没有固定的边界,聚类之间有概率重叠,因此,分析时需要对分析领域有丰富的经验,同时需要耗费较高的系统资源和时间。就网络调研的数据特点,使用基于EM模型分析的效果更好。
六、结语
本文以网络调研为研究对象,研究了与之适用的聚类分析K均值方法与基于模型的EM方法,通过案例,构建了利于数据分析的网络调研系统,建立了调研数据库,并使用SAS软件的K均值方法和SA软件的基于模型EM方法对调研数据库中数据进行聚类分析,解释了两种方法不同的分析结果。
本文下一步的研究重点是进一步整合各种分析方法,建立一个能够根据不同题目类型和要求自动应用分析方法的智能调研系统,从而达到真正意义上的智能数据挖掘和知识发现水平。
参考文献:
1.钟学云.电子商务时代对网络调研的研究.经济管理论坛.中国科技信息,2006(3)
2.郑宇军,杜家兴.SQL Server2005Visual C#专业开发精解[M].北京:清华大学出版社,2007
(作者单位:上海大学国际工商与管理学院 上海 200444)
(责编:贾伟)
关键词:网络调研 K均值 期望最大化 聚类
中图分类号:F062.5文献标识码:A
文章编号:1004-4914(2008)11-066-02
一、引言
随着互联网技术的发展和上网用户的迅速增加,网络调研成为企业决策的一种重要工具。
二、网络调研的现状
网络调研是利用互联网发掘和了解顾客需要、市场机会、竞争对手、行业潮流、分销渠道等方面的情况。其特点有:及时性,共享性,互动性,成本低,隐匿性好。它是一项富于实践的研究,国内外开展网络调研的公司和研究机构为数众多,大多数是自助式网络调研平台,例如,业内最著名的SurveyMonkey是国外一家专业网络调研公司,它拥有大量的问卷样本库,客户可以根据需要选择所需样本库,设置题型、数据格式和范围等。类似国内有艾瑞调研网,100调查网等,数据分析大多使用一般统计方法,很少考虑调研数据的特点,难以提供更高级的数据挖掘分析和知识发现等解决方案。
三、网络调研中应用的聚类方法研究
聚类分析是数据挖掘中一个活跃的研究领域,分析算法分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。网络调研常用的方法是K均值方法和基于模型的EM方法。
1.K均值方法。K均值(K-means)是基于原型的聚類技术创建对象的单层划分,K均值算法以距离值的均值对聚类成员进行分配,通常K均值聚类用于n维连续空间中的对象。K均值的算法表示为:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K均值方法被认为是硬聚类(hard clustering),因为每一个对象只能被分配到一个聚类,聚类间不连接,也不相互重叠。
K均值法在网络调研中可以处理数字数据和文档数据。聚类目标通常用一个目标函数表示,该函数依赖与点之间或点到聚类中心的临近型。对于数字数据,可以选用欧几里德和曼哈顿距离以及切比雪夫距离作为度量聚类质量的目标函数。它的思想是计算每个数据点到最近的聚类中心的度量距离,再计算已选度量的误差平方和(SE)。如式:1
其中,ci是第i个聚类,x是ci中的点,ci是第i个聚类的均值,distance是度量距离。
对第K个聚类中心对均值Ck求导,令导数等于0,便可以得到SE最小值时的最佳聚类中心。接着重新计算聚类中心,进一步最小化SE。反复此过程直到聚类中心不发生变化,即得到最优聚类。
对于文档数据则考虑文档数据的余弦相似性度量。最大化聚类中文档与聚类中心的相似性,也可以通过对均值Ck求导等于零来证明聚类凝聚度(TC)的最佳聚类中心。
2.基于模型的EM方法。基于模型EM方法使用若干统计分布对数据进行建模,假定有K个分布和m个对象X={x1,…,xm}。设第j个分布的参数为θj,θ={θ1,..,θj}。则prob(xi|θj)是第i个对象来自第j个分布的概率。选取第j个分布产生一个对象的概率由权值wj(1≤j≤k)给定,其中权值(概率)受限于其和为1的约束,即∑jk=1wj=1。考虑到调研的对象是独立的方式产生,因此,整个对象集的概率是每个个体对象xi概率的乘积,
3式中,每个分布描述一个不同的聚类,使用期望最大化(EM)算法来估计模型参数。EM算法表示为:给定参数值的一个猜测,EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计,该迭代继续到参数的估计不再改变为止。EM算法通过度量某对象的概率来决定该对象属于哪一个聚类,这种技术被称为软聚类(soft clustering),它允许聚类之间重叠,允许模糊的边界。
基于模型方法的优点在于它可以使用各种类型的分布,提供一种消除与数据相关联的复杂性方法。但是基于模型方法需要处理和简化数据,它不能处理具有大量分量的模型,聚类中的数据点过少以及含有噪声和离群点也不能很好的处理。因此,在网络问卷分析时使用基于模型的方法需要手工或者计算机处理缺失点和异常点。
四、影响网络调研聚类分析的因素
网络调研的聚类分析涉及数学、计算机学、经济学、营销学、管理学、统计学等众多学科,影响它的因素主要有:
1.调研目的与对象的确立。内容简单的调研往往不需要复杂的分析;而复杂的调研一般需要进行深入的数据分析,因此,调研目的和对象的确立会影响问卷的设置,以及数据分析的任务和复杂度。
2.调研问卷题目的设计。网络调研题目设计必须具体、表述清楚、重点突出、整体结构好。借助程序可以设置题目间的逻辑性和检查答案,根据用户选择,程序自动判断所需做答的题目,大大简化了数据预处理阶段的工作量并加强了数据的可靠性。
3.数据库的选择和架构。网络调研必须以数据库为依托,数据库设计必须满足范式要求,所有题目信息和做答情况存放于后台数据库中,呈现的问卷则是一个负责与用户交互的前台页面,这样即使问卷发生改动也不会影响后期数据分析。问卷简单,投放量小,数据分析时效强时,选择小型数据库如Microsoft access。问卷复杂,数据投放量大,数据分析力求准确,需要一定的数据挖掘功能,选择中大型如Microsoft SQL Server较为合适。
4.数据和数据处理。描述数据对象的属性可以是定量或定性,数据的类型决定使用何种工具和技术来分析数据。通过计算机程序设计错误检测及选项间的逻辑联系,限制不符合规范和逻辑的数据向数据库提交。
5.聚类分析算法和软件的选用。首先聚类结果要明确就需分离度很好(well-separated)的数据。如果聚类是扩散且互相渗透,那么每种算法结果不同,界定边界不清。其次,大多数聚类方法分析的仅是简单的一对一的关系。因为成对的线性比较,减少了表达类型关系的计算量。因此,不同的聚类应该选择与之适用的方法和软件。
6.分析人员的专业能力。鉴于聚类分析的跨学科性、复杂性以及结果解释的困难性,分析人员必须具备丰富的分析经验和对所分析的实际问题有着深入的了解。
五、案例研究
1.背景介绍。此次调研是为某一网络调研公司设计的样本库,调研对象为涵盖各年龄段各收入段以及各地区不同行业的中国网民,使用Visual C#.net语言进行开发,选用SQL Server2005为核心数据库。通过EDM方式投放问卷约为35000份,问卷回馈约3800份,其中注册用户约2100多份。
2.数据库架构。数据库设计符合第三范式设计模式,设计数据表包括问卷编号表(Questionnaire),问卷类型表(QuestionType),问题表(Question),矩阵列表(RecColumn),矩阵行表(RecRow),逻辑跳转表(QuestionJump),用户表(Users)以及问卷回答表(Answers)。
3.程序处理数据的三个阶段。C#程序对数据的预处理分三个阶段。第一阶段通过与前台Javascript配合,预先设置好题目选项间的逻辑检查并且屏蔽提交不符合题目要求的数据。第二阶段程序自动将异常数据和缺失数据使用0代替。第三阶段使用C#中的OLE DB驱动提供的SQL语句可以设置条件查询数据库,筛选出符合条件的数据。通过程序三阶段处理,可以较好地保证数据质量,为数据分析提供较完美的数据。
4.K均值聚类分析。基于K均值的算法对问卷中的职业和所购买的手机品牌进行分析,C#程序首先预处理没有手机的人,再导出数据到SAS软件,使用fastclus K均值方法编程(结果略)。
5.基于模型EM算法聚类分析。可以使用微软Analysis Service(AS)的EM算法对上例进行聚类分析。聚类分析在AS中是为数据挖掘的一种方法,其步骤如下: (1)建立数据源和挖掘项目。數据源为网络调研的数据库,挖掘项目为Analysis Service项目。(2)设计数据源视图。提交到数据的答案统一记录在Answers表中,因此,必须在数据库里建立视图。(3)创建挖掘结构和EM聚类模型。挖掘结构和模型建立可以使用向导方式也可以使用数据挖掘查询语言进行建立(DMX)。
聚类分析和预测。聚类分析可以查看数据统计图、分类关系图、分类剖面图、分类特征和分类对比也可以进行聚类模型预测等。
6.两种方法的结果分析和比较。SAS软件K均值算法将使用手机品牌的职业人分为5类,用回归分析法对分类结果描述为:学生倾向于喜欢比较便宜、物美价廉的手机;私营企业管理人员、专业人员和私营企业一般职员喜欢有品牌价值、不是很看重价格的诺基亚、联想和三星等手机;在各类人群当中相比较而言,学生和私营企业一般职员也会选择另类的一些其他牌子手机。
而基于模型的EM分析法AS默认选择分为10类,根据类别密度和紧密联系度合并为5类。按数量大小从左排列显示第10个分类比例分布平滑,各种品牌的手机都有人购买,这类被看作普通手机使用者,不太关注品牌。第5类学生和其他人员比例占绝对比例,而手机中三星、摩托、索爱和其他杂牌比例占大多数,这类人群可以解释为,以学生为主收入有限的群体,喜欢知名的时尚型但价格便宜的手机。第9类说明中下等工薪阶级重视品牌也重视价格。AS类关系图显示第7,8,4,2,9类关系紧密,说明中上等收入层次和一部分学生可以看作有较高收入的人群,选择主要为诺基亚品牌价值和质量较好的机型。第6类,进口手机占压倒性优势且品牌比例均匀,使用者分布也较均匀,各行业都有忠实者,可以解释市场上进口手机比国产手机更受欢迎。
K均值分析法聚类明确,聚类之间不相互连接,也不相互重叠,分析效率较高,容易分析,但是可能会导致分类之间缺乏一定的联系,进而隐藏分类间的潜在关系。EM分类没有固定的边界,聚类之间有概率重叠,因此,分析时需要对分析领域有丰富的经验,同时需要耗费较高的系统资源和时间。就网络调研的数据特点,使用基于EM模型分析的效果更好。
六、结语
本文以网络调研为研究对象,研究了与之适用的聚类分析K均值方法与基于模型的EM方法,通过案例,构建了利于数据分析的网络调研系统,建立了调研数据库,并使用SAS软件的K均值方法和SA软件的基于模型EM方法对调研数据库中数据进行聚类分析,解释了两种方法不同的分析结果。
本文下一步的研究重点是进一步整合各种分析方法,建立一个能够根据不同题目类型和要求自动应用分析方法的智能调研系统,从而达到真正意义上的智能数据挖掘和知识发现水平。
参考文献:
1.钟学云.电子商务时代对网络调研的研究.经济管理论坛.中国科技信息,2006(3)
2.郑宇军,杜家兴.SQL Server2005Visual C#专业开发精解[M].北京:清华大学出版社,2007
(作者单位:上海大学国际工商与管理学院 上海 200444)
(责编:贾伟)