论文部分内容阅读
近年来,个性化推荐系统技术在电子商务,广告销售等互联网行业中应用极其广泛。推荐系统在没有明确的用户需求环境下,仅通过分析用户行为就能为用户的兴趣进行建模,提供千人千面的信息和产品。本文针对基于传统协同过滤算法存在的扩展性弱、数据稀疏和推荐准确率低等问题,在第三章提出一种改进模糊划分聚类的协同过滤推荐算法。在传统基于修正余弦相似度计算方法上,引入时间差(timediff-item)因子,热门产品(popular-item)权重因子以及冷门产品(Nonfashion-item)权重因子以改善相似度计算结果,避免人为客观因素造成相似度计算结果远偏离真实情况;同时引入改进模糊划分的GIFP-FCM算法,将属性特征相似的产品聚成一类,构造索引矩阵,同索引间根据产品间的相似度寻找产品最近邻居构成推荐,来降低计算复杂度。为测试GIFP-CCF+算法的有效性,在Netflix数据集和MovieLens数据集上通过与Kmeans-CF、FCM-CF和GIFP-CCF推荐算法进行仿真对比实验,证明了GIFP-CCF+算法在推荐结果和推荐精度上具有一定的优越性。GIFP-CCF+推荐算法存在容易受到聚类簇数影响而导致推荐结果不够稳定的缺点。为此,在第四章提出一种引入时间效应的SVD++线性回归推荐算法timeSVD++LR,该算法模型继承了SVD++模型运用评分数据预测的特点,将用户和产品两方面的信息融合隐式反馈信息映射到一个维度为f的隐语义空间,用户和产品之间的交互作用被建模为该空间中的内积。通过描述用户和产品在各个因子上的特征来解释评分值,且融合了时间效应属性,该时间效应属性中,用户偏置和产品偏置均与用户和产品相关,以改善时间因子欠缺稳定性的问题;同时根据预测评分构造特征向量X~k,将原始训练数据作为线性回归模型的输入,采用梯度下降算法优化最终代价函数,生成回归参数向量theta使得代价函数值最小。将特征向量X~k和回归参数向量theta带入到预测模型中,利用预测模型求得对测试集数据的预测评分。基于MovieLens数据集上的仿真实验结果表明,timeSVD++LR算法的推荐准确性较RSVD、SVD++和timeSVD++算法模型有显著提高。与GIFP-CCF+算法相比较,timeSVD++LR算法具有更好的稳定性。