论文部分内容阅读
随着科学技术的发展,每个人的生活都离不开各式各样的互联网服务。但是,互联网的服务系统却面临着信息爆炸带来的信息过载挑战。个性化推荐系统则是解决这一问题的核心方法。
现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。
第一个问题,是来源于用户层面的挑战。数据的获取与预处理是所有数据挖掘、机器学习的基础。随着移动设备的普及,通过移动设备接受互联网服务的人数已经远远超过台式电脑。由于移动互联网访问的移动性和不稳定性,系统很难将用户的移动访问日志进行识别和归类。
为了解决移动设备唯一性识别的问题,本文提出了基于图的日志识别并行算法,利用分布式计算集群,有效且高效地对超过十亿的访问日志进行实体识别和归类,从而获得完整的用户访问历史记录以进行更精准的用户行为肖像的刻画。
第二个问题,是来源于项目层面的挑战。现有的推荐算法很少考虑短期时间因素对推荐结果的影响。但是在互联网中,眼下热点转换非常迅速。层出不穷的热门活动、社会热点等都深深地影响了用户和项目的关系。因此,短期预测就显得更为重要了。
为了解决针对热点的短期个性化推荐问题,本文构建了面向短期活动的项目表征学习深度神经网络,利用短期时序信息和固有特征,获取短期的项目表征。根据短期项目表征,系统可以针对当前热点进行多任务的预测和推荐。
第三个问题,是来源于用户.项目层面的挑战。协同过滤算法的研究对象是用户-项目的评分矩阵,这是一个回归到算法本质的研究。由于协同过滤算法已经有了较为悠久的历史,大量的研究使得这个领域已经到了瓶颈阶段,即很难通过单一协同过滤算法来大幅提高个性化推荐的质量。
为了研发一种普遍适用的算法来提升个性化推荐的效果,本文不拘泥于单一的协同过滤算法,而是从整个推荐系统的框架角度出发,提出了基于用户,项目子集合的协同过滤推荐算法。该算法利用多分类协同聚类的技术,发现不同的用户-项目子集合,以达到聚焦兴趣点、降低稀疏性、减少数据规模的效果,从而可以广泛地提升现有的协同过滤推荐算法的效果。
文本所有的实验都采用真实的工业数据集,以增强实验结果在实际应用领域的可信度。通过系统性的设计与开发,大量的实验结果证实了本文的研究工作从用户、项目、用户-项目交互等三大方面解决前面的三大挑战,对互联网服务系统的个性化推荐系统起到了全面的提升作用。
现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。
第一个问题,是来源于用户层面的挑战。数据的获取与预处理是所有数据挖掘、机器学习的基础。随着移动设备的普及,通过移动设备接受互联网服务的人数已经远远超过台式电脑。由于移动互联网访问的移动性和不稳定性,系统很难将用户的移动访问日志进行识别和归类。
为了解决移动设备唯一性识别的问题,本文提出了基于图的日志识别并行算法,利用分布式计算集群,有效且高效地对超过十亿的访问日志进行实体识别和归类,从而获得完整的用户访问历史记录以进行更精准的用户行为肖像的刻画。
第二个问题,是来源于项目层面的挑战。现有的推荐算法很少考虑短期时间因素对推荐结果的影响。但是在互联网中,眼下热点转换非常迅速。层出不穷的热门活动、社会热点等都深深地影响了用户和项目的关系。因此,短期预测就显得更为重要了。
为了解决针对热点的短期个性化推荐问题,本文构建了面向短期活动的项目表征学习深度神经网络,利用短期时序信息和固有特征,获取短期的项目表征。根据短期项目表征,系统可以针对当前热点进行多任务的预测和推荐。
第三个问题,是来源于用户.项目层面的挑战。协同过滤算法的研究对象是用户-项目的评分矩阵,这是一个回归到算法本质的研究。由于协同过滤算法已经有了较为悠久的历史,大量的研究使得这个领域已经到了瓶颈阶段,即很难通过单一协同过滤算法来大幅提高个性化推荐的质量。
为了研发一种普遍适用的算法来提升个性化推荐的效果,本文不拘泥于单一的协同过滤算法,而是从整个推荐系统的框架角度出发,提出了基于用户,项目子集合的协同过滤推荐算法。该算法利用多分类协同聚类的技术,发现不同的用户-项目子集合,以达到聚焦兴趣点、降低稀疏性、减少数据规模的效果,从而可以广泛地提升现有的协同过滤推荐算法的效果。
文本所有的实验都采用真实的工业数据集,以增强实验结果在实际应用领域的可信度。通过系统性的设计与开发,大量的实验结果证实了本文的研究工作从用户、项目、用户-项目交互等三大方面解决前面的三大挑战,对互联网服务系统的个性化推荐系统起到了全面的提升作用。