论文部分内容阅读
推荐系统通过预测用户对项目的喜好程度来为用户进行信息过滤,应用知识发现技术来生成个性化推荐。协同过滤是一种常用的减少信息过载的技术,已经成为了个性化推荐系统的一种主要工具,然而现有大多数协同过滤算法存在着几个主要问题:精确性,数据稀疏和冷启动问题。许多结合协同过滤与基于内容的信息过滤的算法可以解决这些问题,但是这些算法需要预先得到项目的内容信息或者用户的个人信息,而这些信息在很多推荐系统中是无法获得的,因此无法利用基于内容的信息过滤技术。 本文提出了在无法得到项目的内容信息和用户个人信息的情况下,在数据稀疏和冷启动情况下提高预测准确性的几种方法。在三个公开的数据集上进行了试验,试验结果显示这些方法比常用的算法效果要好。 我们采用了两种方法来提高数据稀疏时预测的准确性,即属于特征递增型的Pear After SVD方法和属于转换型的LCM_STI方法。在特征递增型方法中,一种方法的输出用来作为另一种方法的输入。Pear_After_SVD算法首先利用基于奇异值分解的方法来得到预测的评分,然后采用这些预测结果来获得活动用户的邻居,最后用基于邻居的Pearson算法得到最终提供给用户的预测值。在转换型方法中,推荐系统根据当前的情况决定在不同的推荐方法中进行转换。LCM STI算法设置了一个阈值来决定如何在基于潜在分类模型的Pearson算法与STIN1算法这两种协同过滤方法中进行转换。在基于潜在分类模型的Pearson算法中,首先使用潜在分类模型的结果来进行邻居选择,然后根据最近邻方法来对活动用户未打分项目的评分进行预测。试验结果表明这两种方法在数据稀疏时准确性较高。 冷启动问题包括新项目问题与新用户问题。我们采用了基于统计的众数法以及信息熵法来解决冷启动问题。在基于统计的众数法中,利用人们的从众心理,对新用户问题,我们用所有用户在某一项目上的评分的众数作为新用户在