论文部分内容阅读
随着商品的种类和数目越来越繁多,各网络购物平台相继推出商品推荐系统,实现了根据用户在网站上的历史购买记录、浏览记录等信息主动为用户推荐其可能感兴趣的商品。而高校图书馆馆藏书目的种类和数目也越来越多,读者在没有具体借阅目标的情况下,从图书馆借阅图书所花费的时间和精力也越来越多。在这样的背景下,本文提出了基于数据挖掘的高校图书馆个性化推荐服务的应用研究,通过借鉴网络购物平台的经验,为高校图书馆建立个性化图书推荐系统,通过分析读者的历史借阅记录、浏览记录等信息,为读者主动推荐其可能感兴趣的图书。课题以内蒙古工业大学图书馆为例,借助My Eclipse开发工具,详细研究了基于内容的推荐算法在高校图书馆个性化推荐服务中的应用。首先利用数据清洗、数据变换和数据规约三种数据预处理方法对原始数据进行了预处理,使数据更加规范化、更有利于规则的挖掘;预处理之后,借助中科院的ICTCLAS分词工具将图书名进行分词处理;然后利用TF-IDF方法计算每个分得的词的权重大小,将权重较高的词作为关键词来表示图书的主要特征;得到图书的关键词之后,将所有图书及其关键词一起构建向量空间模型(VSM);最后利用构建好的向量空间模型计算图书之间的相似度,并对相似度大小进行排序,将与读者借阅过的图书相似度较高的图书推荐给读者。为了使推荐结果具有多样性,还结合图书的出版社、作者和类别信息为读者进行推荐。在研究过程中,针对遇到的问题给出了相应的解决方法:针对书名的分词对中文分词程序进行了调整,主要表现为改进了用户词典,增加了停用词,使得分词结果的准确度更高,并且更加适合图书名称的分词;对词语权重算法TF-IDF针对短文本的应用给出了解决方法,使之对于图书书名中词语权重的计算更加公平、合理;另外,用三元组解决了构建向量空间模型时遇到的稀疏矩阵问题。最后针对本课题产生的推荐结果,利用目前比较成熟的评价方法进行了评价。为了使推荐结果更加直观,更方便读者使用,设计了系统界面,使得推荐结果以列表的形式在界面上显示,并且在每一条推荐结果后面注明了推荐理由,清晰明了,更容易被读者接受。