论文部分内容阅读
随着互联网技术的应用和普及,特别是电子商务的迅猛发展,存储在网络上的数据呈现出指数增长的趋势,由此出现了“信息爆炸”和“信息过载”的问题。推荐系统作为一种新兴的信息过滤技术,能够很好的解决上述问题,正越来越受到国内外科研学者的关注。协同过滤推荐系统是最早研究的推荐系统,它的基本思想是:兴趣相似的用户可能会购买相同的商品。协同过滤推荐系统可以根据历史购买记录分析用户的兴趣爱好,并通过兴趣相似的近邻提供推荐。现在,协同过滤推荐系统在许多领域获得了巨大成功,但仍然存在相似度计算准确度不高和数据稀疏性的问题。相似度计算准确度不高不仅会影响邻居用户的选择,还会给评分预测带来巨大的误差;评分数据的极度稀疏性也会造成推荐精度急剧下降。本文针对上述两个问题,提出了两种改进的协同过滤推荐算法。具体研究内容如下:1.基于权值的协同过滤推荐算法。用户的兴趣爱好主要通过其历史评分表现出来,但每个评分表现用户兴趣的能力是不同的,越是与众不同的评分越能体现用户某方面特殊的兴趣爱好。所以算法根据评分的个性化程度将评分矩阵分为个性化和大众化两部分,分别计算相似度,然后用加权和的方法计算总的相似度。于此同时,用户的影响力也有大有小,根据研究,那些对冷门项目评分越多的用户,其影响力越大。所以在计算用户间相似度时也引入了用户的影响因子作为修正。改进的相似度计算方法可以有效的提高推荐的准确度。2.分步预测的协同过滤推荐算法。合理安排未知评分的预测次序可以有效缓解数据的稀疏性。算法先对评分矩阵做预处理,重新排列矩阵元素的位置,使评分信息集中到矩阵左上角,并对评分个数过少的用户进行部分填充;然后再提取一个数据密度较高的子系统,用基于信任的算法填充其缺失值;最后通过不断往子系统里添加“新用户”、“新项目”的方法实现分步预测的目的。这种方法可以保证每次计算时都有较高的数据密度,可以很好的缓解数据稀疏性问题。