论文部分内容阅读
一直以来,高校图书馆在高校的教学与科研方面都扮演着一个很重要的角色,其中藏有各类图书资源、期刊、杂志以及影音数据等等,师生可以通过图书馆来增加知识、寻求疑问解答,并且培养阅读的兴趣爱好与习惯。而随着数据库技术的迅速发展及数据库管理系统在高校图书馆中的广泛应用,图书馆数据库里积累了大量读者对于图书资源的历史访问数据,这些数据背后隐藏着许许多多重要的信息。如何运用数据挖掘技术从图书馆的海量数据中挖掘出有价值的信息,给读者提供个性化的信息推荐服务,提高读者的满意度,不仅是图书馆领域亟待解决的问题之一,而且也是数据挖掘研究领域所关注的热点之一。本文首先介绍了我国高校图书馆的发展情况,分析了目前高校图书馆所面临的问题,提出了应用数据挖掘技术开展个性化信息推荐服务的思想,同时介绍了数据挖掘的相关基本理论及其研究现状。然后介绍了图书分类的相关知识,综合利用《中图法》中书籍所属索引类别构建图书索引分布树,计算书籍之间的相似度,进一步得到反映读者之间兴趣偏好近似程度的距离,结合一种基于反克鲁斯卡(Anti-Kruskal)的K-Means聚类算法对图书馆的读者进行有效的群分类,以实现针对于具有不同兴趣偏好、阅读习惯的读者群的关联规则分析。第三,对一种常见的关联规则挖掘算法—Apriori算法进行了分析,讨论了其基本思想、挖掘步骤、优缺点等,提出了一种基于Hash表的改进Apriori算法(Apriori-Hash算法),该算法利用哈希表记录不同宽度的事务标识以实现事务的快速定位,并运用hash函数来快速直接生成频繁2项集,同时利用优化剪枝和连接策略提高算法运行效率。最后结合实践设计实现了一个基于数据挖掘的个性化信息推荐服务系统模型,该模型主要由数据预处理模块、挖掘模块、可视化推荐模块等几个功能模块组成,首先从高校图书馆中提取出所需要的源数据,对其进行清洗、转换、集成等预处理工作后,得到可以实施挖掘操作数据格式的读者借阅数据集,其次利用基于反克鲁斯卡(Anti-Kruskal)的K-Means聚类算法对图书馆的读者进行有效的群分类,归纳总结出读者的兴趣偏好、阅读习惯等特征,然后利用基于Hash表的改进Apriori算法(Apriori-Hash算法)对每一读者群的借阅数据进行关联规则挖掘,找出读者所借阅图书资源之间的关联,形成针对具有不同借阅偏好、阅读习惯等特征的读者的图书推荐模式,实现为每一位读者开展个性化信息推荐服务。