无预设类别数的大数据量聚类算法研究

被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于计算机科学与技术的发展,特别是计算机网络的发展,人们面对着越来越多的海量的信息。尤其是数据库的大量应用,在各个行业各个领域都积累了十分丰富的数据,“丰富的数据与贫乏的知识”的问题也日渐突出。近几十年间,知识发现(规则提取、数据挖掘、机器学习等)应运而生,受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。在知识发现的任务中,人们常常要面临大量数据的处理任务,特别是随着网络信息的不断增长和各个复杂领域例如金融数据,医疗诊断,卫星探测等数据的增长,现在面临的处理对象经常上百万、千万,计算机的处理能力往往显得不足。并且大量的数据会给知识发现的知识获取方法带来很多困难。本文介绍了常用聚类的方法及其原理,并对其局限性和优势进行综合分析,试图通过融合不同的聚类算法思想,来综合利用特定算法的优点,使其不但具有能处理大数据量的能力,而且无需预设类别数目,从而来提高聚类的准确性并减少聚类的不稳定性。通过理论分析和实验证明,原始AP算法是不能解决大数据量的问题。我们通过融合原始AP聚类算法和K-Means聚类算法,提出了KMAP聚类算法。通过理论分析和实验,证明改进型KMAP新算法不但能解决原始AP聚类算法不能处理大数据的问题,提高了其适用的范围,而且解决了K-Means聚类算法受输入数据集的顺序影响而造成的不稳定的问题。同时针对KMAP出现的“K”值不易确定问题,提出了KCAP聚类算法,来减少“K”值对KMAP的影响,从而使KMAP算法达到无需预设类别数目。
其他文献
社会发展引起生产方式的更迭,大部分的机械制造如今已达到全自动与半自动的标准。了解机械制造自动化技术的特点,了解机械制造自动化技术未来的发展方向,有利于企业及时调整
水环境问题已成为我国亟待解决的重大环境问题之一,而非点源污染是我国重要流域水质恶化的主要原因之一。本论文利用由美国农业部开发的SWAT模型,对环巢湖地区杭埠河流域的农业
河北津西钢铁集团(简称津西集团),现有总资产330亿元,为我国千万吨级大型钢铁企业,年生产钢材1000万吨,其中型钢500万吨,是全国最大、世界一流的型钢生产基地,2011年名列中国企业50
<正> 近年,在农药发展中,农药加工方面出现了一种新技术,称为控制释放技术,与之相应地出现了称做缓释剂的加工品。这项技术及加工品的出现,为更有效地使用农药、延长残效、减
本文旨在提出(抑或建构)一个有学术意义的“理论问题”——即“罗尔斯政治秩序观问题”;该问题是,“罗尔斯政治秩序观及其文化基础”(即“罗尔斯政治秩序观论题”)作为罗尔斯
随着水污染加剧、水环境问题复杂化,我国以目标总量控制为主的传统水环境管理技术的局限性日益明显,有必要建立基于水环境容量的水质目标管理技术体系。本文针对平原湖湾类水体
税权是国家权力的重要组成部分,它包括税收立法权、税收司法权、税收征管权和税收收入归属权。当前,我国财税领域存在的突出问题是税收收入高度集中在中央政府层面,地方政府
目的 分析激光联合贝伐珠单抗玻璃体腔注射对放射性视网膜病变患者最佳矫正视力、眼压和黄斑中心凹厚度的影响。方法 选取65例(69只眼)放射性视网膜病变患者行前瞻性研究,随
视听说教材在教学中具有很多优点,但在对外汉语教材中这类教材精品比较少,研究编写符合学习者习得汉语规律并且具有趣味性的汉语视听说教材,是汉语国际推广的客观需要。通过
6101环氧树脂是低分子液体双酚A型环氧树脂,具有稳定的化学性能,黏合力强,收缩率小。以6101环氧树脂为成膜物,配合改性聚酰胺环氧固化剂,制得地坪涂料。涂料在低温下有良好的固化