论文部分内容阅读
随着移动互联网技术的快速发展,网络信息呈爆炸式增长。用户面对海量复杂且冗余的数据时,用户往往无法快速寻找到有用的信息,这便会造成“信息过载”的问题。为了解决信息过载问题,推荐系统应运而生。推荐系统通过提取项目特征和收集用户的历史行为信息,然后结合相关推荐算法为用户推荐感兴趣的项目。推荐算法是推荐系统的灵魂,其中协同过滤算法是目前应用最广泛的推荐算法。然而协同过滤算法也存在着一些不足之处,如处理高度稀疏的数据集时,会导致推荐系统的精度下降从而出现数据稀疏性问题;还有处理大规模数据集时,计算效率过低导致推荐效率下降从而出现可扩展性问题。因此,如何解决数据稀疏性和算法可扩展性问题对协同过滤算法研究具有重要意义。本文以基于受限玻尔兹曼机的协同过滤推荐算法为基础,结合用户信任度、项目时间权重、多源信息聚类算法和Hadoop平台进行研究。本文的主要工作和创新如下:1.针对协同过滤推荐系统中存在的数据稀疏性问题。本文首先以用户信任度和项目时间权重为基础,改进了用户之间的相似度计算公式,然后结合多源信息聚类算法进行评分预测;同时本文也改进了受限玻尔兹曼机模型的可见层,用高斯分布单元替代二值单元,改进后可以表示实值,降低模型复杂度;最后本文通过线性加权方式把改进后的受限玻尔兹曼机模型产生的评分数据和聚类算法产生的评分数据进行融合。通过实验证明,该混合推荐算法降低了平均绝对误差,提高了推荐精度,缓解了数据稀疏性问题。2.针对协同过滤推荐系统存在的算法可扩展性问题。本文以基于多源信息聚类和受限玻尔兹曼机模型为框架,结合Hadoop分布式平台,增加冲量因子,改进受限玻尔兹曼机模型的训练方式。通过实验表明,减少了模型训练时间,提高了推荐效率,缓解了算法可扩性问题。