论文部分内容阅读
随着互联网技术的发展以及大数据时代的到来,知识获取的便捷性不断提高,高校图书馆不再是高校读者获取文献资源的唯一途径;同时,由于缺乏对读者需求的准确把握,高校图书馆提供的资源和服务已越来越无法满足读者多变的需求,读者的到馆率不断降低。为了更好地提高服务质量,高校图书馆投入了大量的财力物力,纷纷推出了针对高校读者的个性化服务,但这些个性化服务地制定绝大多数是依托于管理者的个人经验,缺乏对读者行为地深入科学分析,无法及时、系统地捕捉到读者多变的需求,服务效果收效甚微。为了协助高校图书馆更全面、更及时地了解读者需求,本文结合数据挖掘技术和用户画像技术对读者行为数据进行分析挖掘和用户画像,并根据用户画像的结果为高校图书馆实现精准资源推荐和个性化服务决策提供科学依据。本文的主要工作和成果如下:1.构建读者行为数据库。根据高校图书馆各个业务系统和自动化系统中积累的读者行为数据,建立统一的数据库,并通过ETL等数据清洗工具将各个资源库的数据清洗后汇总为统一的格式存储到数据库中。2.提出一种多视角聚类算法。根据读者的行为数据,提出了一种多维度多视角的读者特征体系。根据构建的读者特征体系可以对读者分为某一维度或多个维度组合的读者群体,从而实现不同维度或多个维度组合的读者聚类,使得聚类结果更加具有针对性。针对经典K-means算法在多视角聚类中存在容易陷入局部最优和受属性纲量的影响,提出了一种基于马氏距离的多视角二分K-means算法,并通过实验证明提出的算法相对经典K-means算法准确率高、鲁棒性好、全局最优,满足高校图书馆用户画像需求。3.提出了一种基于多视角聚类的用户画像技术路线。该技术路线利用ETL技术从各个业务系统抽取、清洗、加载读者行为数据;然后根据本文提出的多维度多视角的读者特征体系,针对某一维度或多个维度组合后的读者群体利用基于马氏距离的二分K-means算法进行聚类,得到读者或群体的聚类特征,从而得到用户画像。4.设计并实现了一个高校图书馆用户画像系统。基于本文提出的用户画像技术路线实现了一个用户画像系统,读者可通过该系统查看个人信息和用户画像;读者还可以查看根据群体聚类结果推荐的书籍、服务以及好友,为高校图书馆实现精准推荐和服务提供帮助。大大增加了读者对图书馆的兴趣和粘性。本文研究成果已在国内多个高校得以应用,为高校图书馆更精准、系统地了解用户需求,提供个性化服务和精准资源推荐给出了科学决策依据。