K-均值聚类算法及其在高校图书馆日志挖掘中的应用研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:crosswind123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络普及化的今日,人们在使用网络时留下了大量有价值的信息可供分析。面对着日益庞大的信息库,如何从中找出有用而不易被发现的知识,已成为一个重要的研究课题。利用Web日志挖掘技术对用户访问日志进行挖掘,可以解决上述问题。本文根据图书馆用户访问行为的特点,采用聚类方法对高校图书馆访问日志进行数据挖掘。针对K-均值聚类算法中初始聚类中心选取的随机性导致聚类正确性与效率下降的问题,结合网格等方法,提出了一种改进的K-均值聚类算法,简称IKM算法,此算法在聚类正确性、效率与稳健性方面都有较大的改进。在日志挖掘阶段,设计并实现一个可视化日志挖掘辅助工具。针对日志挖掘的研究,此工具可直接用来生成数据输入向量表,以及对聚类挖掘后的结果进行统计。最后利用改进后的K-均值聚类算法,构建I-Weka挖掘工具。通过Java开发平台,对I-Weka工具进行实现,将IKM聚类算法封装到Weka工具中。使用改进的I-Weka工具,对预处理后的高校图书馆日志数据进行聚类挖掘,从最终的结果进行分析,可以获得用户对不同种类书目的兴趣度,从中发现哪些类的图书关注度比较高,而哪些书存在馆藏数量不足的现象,为高校图书馆采购部门采购图书提供参考依据,从而达到合理使用经费,完善馆藏建设,提升图书馆的服务质量的目的。
其他文献
随着互联网的飞速发展,信息量的爆炸式增长,需要高效的科学计算,以满足快速挖掘有价值信息的需求。在传统的计算机上处理海量的数据需要很长的时间消耗和能量代价,如何快速高
遥感图像目标检测在高科技军事对抗中用以获得及时准确的战场信息、捕捉战略打击目标、提供精确的定性定位信息等。在资源探测、环境监测、城市规划等民用领域,也起着举足轻重的作用。本文主要研究了遥感图像的水域提取和桥梁检测,所做的工作包含如下三方面的内容:(1)提出了一种基于种子点的遥感图像快速河流提取方法。该算法首先根据人工选取的初始种子点确定水域的条件,然后根据初始种子点所处位置不同自动将河流分为两部分
图像去模糊技术是当今图像处理研究领域中不可或缺的技术环节。通过近几年来业内学者孜孜以求的努力,图像复原技术呈井喷式地发展。当然,这其中许多学术成果的实用性还有待提
时间序列数据(Time Series Data)广泛地存在生活中的各个领域,越来越多的数据挖掘研究者关注于时间序列的挖掘方法和技术,而时间序列的分类是时间序列数据挖掘的重要任务之一
随着汽车工业的发展,汽车真空阀的应用越来越广泛。本文设计了一种用于汽车真空阀生产检测和出厂试验的自动检测平台,在单片机和PC机的联合控制下,完成对真空阀主要参数的自
随着语音识别效果的逐步提高,语音输入输出正逐步成为人机交互的一种重要方式。这种交互方式对语音识别技术和识别系统提出了更高的要求,尤其在系统的便捷性,实时性和可移植
舰船在海面上行驶时会受到海浪、海风等各种扰动的作用而发生摇摆,这将会影响到舰载武器及一些精密仪器的稳定性,因此为了使舰载武器能够达到摧毁目标以及自我保护的目的,必
学位
随着Internet、无线网络的普及,计算机处理能力的提高以及视频压缩技术的发展,远程视觉控制系统成为近年来研究的热点。本论文的工作基于一个机械臂远程视觉控制系统展开,在
温度是科学研究、工业生产及日常生活中经常遇到的一种物理量,随着自动化程度的提高和对产品质量要求的提高,对准确、快速地测温和控温的要求也越来越高,温度的测量已成为科
DALI(Digital Addressable Lighting Interface数字可寻址照明接口)是一种开放的两线双向串行数字通信协议,是一种实现数字电子镇流器和控制模块之间进行数字化通信的接口标