论文部分内容阅读
推荐算法在电子商务平台发挥着越来越重要的作用,推荐算法的好坏直接影响用户的体验,进而影响着电子商务平台的收入。因此提出好的推荐算法并对提出的算法进行优化是本文研究的重点。具体来说,推荐算法需要综合分析历史用户数据和电子商务网站实时的用户数据,进而分析用户的偏好特征,最后向用户推荐其感兴趣的商品。因此对用户偏好特征的分析是推荐算法的重点研究内容。因为用户的数据是动态变化的,因此要求推荐算法也要能够分析动态数据。因为电子商务平台存储了海量用户数据,因此推荐算法面临着大数据的问题,如内存溢出,高计算复杂度等问题。针对推荐算法面临的这两个问题,我们提出来一种两阶段推荐算法框架—CUR/C+RSVD,先利用CUR降低数据维度,初步提取用户特征,再利用RSVD进一步提取用户特征并进行推荐。力求从偏好特征的提取以及推荐的速度和准确度上有所提高。具体工作如下:首先,利用CUR矩阵分解方法降低内存以及提取用户特征,即先使用CUR矩阵分解方法将原始矩阵分解成、、这3个低维度矩阵,其中矩阵包含了物品的潜在特征,矩阵包含了用户的潜在特征,矩阵将用户的潜在特征和物品的潜在特征联系起来。矩阵和矩阵都是由原始矩阵中真实的行和列构成,因此提取的用户特征和产品特征具有很好的可解释性。其次,利用RSVD矩阵分解进行预测和推荐,在原始的RSVD分解中,高计算复杂度主要体现在计算与上,我们通过将替换成CUR或者将计算复杂度从(8)29))降低到((828)+(89)8)6)(8)(其中(8是数据矩阵的维度,8)和9)是输入矩阵的行和列,是算法循环迭代的次数,6)(8)是特征的数量。CUR/C+RSVD方法的优势是不仅仅能够快速处理大规模数据而且也能够保持原始数据的稀疏性。并且CUR/C+RSVD方法具有数值的稳定性和精确性。最后,通过算法的性质分析以及实验的结果分析,CUR能够对原始的评分矩阵同时进行提取用户的特征和物品的特征。和传统的正则化奇异值分解(RSVD)、奇异值分解(SVD)等矩阵分解方法相比,CUR矩阵分解具有抗干扰能力强、压缩率高、较好的可解释能力、解决大数据带来的高计算复杂度、精确度能够保证等优势。我们所提出的两阶段框架,即CUR/C+RSVD不仅能够有效地处理数据的稀疏性问题,也能处理大规模的低秩矩阵,与RSVD矩阵分解相比,CUR/C+RSVD获得了更好的预测结果(RMSE降低了的大约20%,NDCG提高了大约30%),并且在相同的数据集下,其运行时间比RSVD降低了大约70%。