【摘 要】
:
近年来,全球数据的快速积累以及传播速度不断地提高。人们面对如此海量的数据,处理方式略显落后,因此数据挖掘技术得到了前所未有的迅猛发展。数据挖掘就是从庞大的数据集中
论文部分内容阅读
近年来,全球数据的快速积累以及传播速度不断地提高。人们面对如此海量的数据,处理方式略显落后,因此数据挖掘技术得到了前所未有的迅猛发展。数据挖掘就是从庞大的数据集中发现未知的、有规律性的但又具有价值的过程。聚类分析作为数据挖掘的重要技术之一,其目的在于同一类别相似度尽可能的大,而不同类别相似度尽可能的小。K-means算法是最知名、最常用的聚类算法之一,它是基于划分的算法。该算法在处理均值数据时快速、有效,计算复杂度具有可扩展性等特点。但是必须需要用户事先确定聚类个数,并且常常终止于局部最优致使得不到最佳聚类结果,随机选取初始聚类中心使得聚类结果不稳定,此外对孤立点与噪声非常敏感等缺点。本文首先介绍了数据挖掘的研究背景与意义,然后从聚类的准则函数、数据类型、数据结构和相似度等相关概念介绍了聚类分析,在此基础上全面细致地研究了K-means算法的原理、优点与缺点。针对K-means算法的缺点提出了两种改进算法:首先从K-means算法需要用户事先指定k值大小的缺点提出了距离最大自动生成k值算法,通过距离最大的思想确定k值从而使用户减少对该参数的依赖;接着利用坐标旋转算法改进了随机选取初始中心的缺点,该算法在确定了初始中心点确保聚类结果变得稳定,并且避免了局部最优的情况,通过大量实验论证了两种改进算法的可行性与正确性。最后将改进算法和K-means算法应用在市场细分中,对淘宝网中男士钱包的各种品牌以及店铺销售情况做了细分结果,得出了细致的划分,为企业决策者提供了商业决策,从而对企业进入淘宝平台奠定了一定的基础,很大程度的减少了企业的投资风险。
其他文献
随着科学技术的迅猛发展,知识经济对高等教育培养和造就大批创新人才提出了迫切的要求,而如何来评价和衡量一名大学生是否是创新人才,他应具有哪些方面的创新素质,长期困扰着
向家坝混凝土大坝坝基分布有规模较大的IV、V类岩体,强度较低,遇水泥化,不满足坝基抗渗抗压的要求,设计采取防渗墙置换方式处理。根据向家坝坝基防渗墙在廊道内施工的特点,利
电力线路技术改造建设工程,在满足技术上的可行性及先进性的同时,还应以经济上的合理性、少投资和节电降耗相结合的观点作为项目抉择的主要依据。本文应用"边界值法"、"静态
在分析双离合器自动变速器(DCT)换挡工作过程的基础上,根据2个离合器的压力曲线,得到了离合器的打滑开始时刻和结束时刻。建立了3种不同控制策略下的车辆系统动力学模型,得出
由于城市中工业活动、汽车尾气排放等原因,城市屋顶菜园生产的蔬菜重金属含量是否超标、食用是否安全成为社会关注的问题。本研究对杭州市3个屋顶菜园的蔬菜中Hg,As,Pb,Cd和C
本文介绍了机器学习的分类,主要讨论了支持向量机的优点、SVM的故障分类原理,包括支持向量机的二值分类、线性规划支持向量机的二次分类、多类分类问题等。为机车故障诊断提
应用指数和法探讨了北京市大兴县 1982年~ 2 0 0 0年土壤肥力的变化特征 ,并对其影响因素进行了评价和分析。研究结果表明 ,近 2 0a来 ,土壤肥力总体上呈上升趋势。尤其在 90
9月2日,广州港集团有限公司(下简称广州港)再次对港口环保问题做出部署。“我们准备在西基码头首批投入700万建设防尘墙。初步设计高度大概是18米。估计快的话,有个4~5月时间就能
为解析和提取UEFI固件中的固件模块,研究UEFI固件的逻辑结构和存储结构,对组成固件的固件卷、固件文件、固件段结构进行分析并给出解析流程;对UEFI固件存储中的加密模块涉及
本文论述了在社会主义市场经济条件下,校园文化表现出的方向性特征与引导功能,高层次特征与创造功能,开放性特征与教育功能,辐射性特点与塑造功能