聚类分析中k-均值方法的研究

被引量 : 0次 | 上传用户:smilelemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从庞大的数据集或数据库中提炼有用信息的科学。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务上、还是在市场分析生物学、WEB文档分类等领域中都得到了充分的应用。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。本文研究基于划分的聚类方法中有效选取初值的问题。主要工作如下:首先,概括介绍了聚类分析的基本原理,并对聚类分析中的基本数据类型进行了描述。其次,在对各种聚类算法进行简单描述后,提出了本文所涉及到的基于划分的聚类算法,并提出了本文中的算法对聚类分析中普遍存在的初始中心选择问题的处理方式。最后,给出了改进的基于划分的聚类方法,以及其中涉及到的最小生成树算法的基本思想。并通过实验有效验证了算法的可行性。
其他文献
工业的进步与发展,在给人类带来了更多的产品和更好的服务的同时,也对环境产生了越来越大的影响。为了解决工业系统与自然环境之间的矛盾,出现了生态工业理论。本文以矿产资源型
Michael加成反应在有机合成领域一直扮演着举足轻重的地位。近十多年以来,化学家们合成出了数不胜数结构多异的催化剂应用到不同底物类型参与的Michael加成反应中,但这其中以
团体重大疾病保险是团体保险市场主要产品之一,发病率、索赔病种分布决定其风险,但目前国内几乎未见使用真实商业团体保险经营数据作为样本的公开研究。本文通过对东莞市横沥
随着我国民营经济的深入发展,民营企业逐渐登上证券市场舞台,并成为股票市场上一股不可缺少的力量。民营企业,特别是民营上市公司的发展与国企改革和产权制度改革息息相关,所
随着医学数字化影像设备如CT、MRI、PET-CT等在临床工作中日益广泛的应用,临床上每天都会产生大量的医学图像数据。而如何对大量的图像数据进行管理并合理的应用于临床诊断过
公开的批评并不可怕,可怕的是集体的沉默。保护民众的合法批评权,支持和鼓励民众的善意批评,既是我们了解社情民意、发现错误与不足、改进工作的良机,也是有效消解社会民怨的
<正>《太原师范学院学报(自然科学版)》是由太原师范学院主办,国内公开发行的自然科学综合性学术期刊,主要刊登反映自然科学领域的理论和应用研究成果的学术论文。立足于大学
对开源GIS软件用于GIS基础理论和开发实践教学的必要性和可行性进行论证,从功能、开发应用环境和成熟度等方面提出不同知识点GIS理论教学对开源GIS软件选择方法,设计一个基于
涉农小额信贷保证保险制度在一定程度上能够解决广大农民、种养大户、涉农中小企业及相关合作组织贷款难的问题,而涉农小额信贷保证保险费率的测算则是涉农小额信贷保证保险