论文部分内容阅读
当前,Web 已成为人们获取知识和信息的一个不可或缺的重要途径。然而,随着 Web 信息的日益增加,人们不得不花费更多的时间来搜索、浏览自己所需的信息。“信息过量”和“信息饥饿”的矛盾日益凸现出来。由于目前的搜索引擎不能满足不同背景、不同目的和不同时期人们的查询请求,个性化服务的需求越来越多。个性化服务能通过收集和分析用户信息来学习用户的兴趣和行为,实现主动推荐,从而满足不同用户的需求。
论文围绕当前应用最为成功的个性化服务技术——协作过滤所面临的两个主要问题 (数据的高维稀疏、算法的可扩展性) 而展开,提出了一种新的推荐算法——基于资源项目类别的协作过滤算法(ICCF)。该算法在对资源项目进行分类的基础上,将传统协作过滤算法中用户对资源项目的评分转换为用户对资源项目依内容划分所属类别的平均评分,并对评分数据进行加权过滤预处理之后,运用 K-平均聚类算法对用户聚类,然后在目标用户所在的簇中寻找其最近邻居,根据最近邻居对资源项目的评分来产生目标用户的预测评分,从而产生推荐。
运用协作过滤推荐算法常采用的标准测试数据集——MovieLens,对本文提出的 ICCF 算法进行了仿真实验测试。数据稀疏度实验结果表明,ICCF 算法大大降低了数据的稀疏程度;扩展性实验结果表明,由于各簇中用户数明显低于总用户数,ICCF 算法在目标用户所在的簇中寻找其最近邻居,比传统的协作过滤算法大大缩小了目标用户最近邻的查找范围,从而提高了算法的扩展性,而且聚类可以离线进行,满足了推荐系统实时性的要求。在不同的测试数据集上做预测精度的实验结果表明,ICCF 算法在推荐质量上也优于传统的协作过滤推荐算法。