论文部分内容阅读
近年来随着互联网技术的快速发展,呈爆炸式增长的在线产品和内容为用户提供了更加便捷的线上体验。不容忽视的是,过多的选择会导致信息过载问题,例如服装、电影、音乐、新闻和书籍。为了解决这一问题,推荐系统和搜索引擎应运而生。与搜索引擎相比,推荐系统旨在主动地为终端用户提供个性化的服务和产品并创造商业效益。得益于移动通信和计算能力的不断突破,非结构化数据(图片、视频、音频、文本等)的制作和传输变得更加方便,在线内容和产品的呈现方式也更加多样化。一方面,推荐系统面临的产品数量暴增,在大规模产品集合下,传统的召回策略将面临算法性能和资源耗费的考验,如何在有限的时间内提升召回效果对于推荐系统的实现非常重要;另一方面,传统的推荐算法使得大量的产品内容信息没有得到利用,导致信息利用率较低,另外在其他人工智能应用领域中对多模态数据的利用大多采用加权相加或拼接的方法,这意味着在一定程度上忽略了多种模态之间的共同基础信息。为了解决上述问题,本论文提出了新的召回算法和重排序算法以实现基于多模态数据源的个性化推荐系统:首先,本论文基于深度学习实现了稀疏数据场景下的产品召回算法,主要包括:1)基于运营商平台经过脱敏的真实数据集进行数据分析和预处理,使其更适用于该算法;2)基于降噪堆叠自编码器实现稀疏数据场景下的矩阵恢复和补全,主要思想是基于部分观测数据来构造和学习非线性隐变量模型。实验结果表明,在大规模产品集下基于降噪堆叠自编码器针对极度稀疏数据实现的召回优于传统的协同过滤算法和基于受限玻尔兹曼机的算法的性能,该模型能够准确高效的进行产品召回,以降低后续重排序阶段的复杂度。接下来,本论文基于深度学习与注意力机制提出了一个端到端的重排序模型,称为基于多模态数据的兴趣相关产品相似模型(Multimodal Interest-Related Item Similarity model,Multimodal IRIS),用于提供top-N推荐。具体来说,Multimodal IRIS模型由三个模块组成,即多模态特征学习模块、兴趣相关网络(Interest-Related Network,IRN)和产品相似度推荐模块。多模态特征学习模块在不同模态间增加了知识共享单元,然后IRN分别学习待预测产品和不同历史交互产品之间的兴趣相关性,最后将多模态数据特征学习模块、IRN模块和产品相似度推荐模块统一为一个集成模型,从而实现性能提升并适应不同模态数据的增加或缺失。实验结果表明,相比于目前主流的方法,所提出的模型通过高效利用人们在选择产品时可能更加关注的多模态数据,在提高信息利用率的同时也提高了top-N推荐任务的准确性和可解释性。最后,结合本论文提出的基于深度学习的产品召回算法和基于多模态数据的兴趣相关产品相似模型,我们基于应用最广泛的公共数据集,设计并实现了一个多功能的推荐系统,包括相似性推荐、关联推荐和个性化推荐。实验结果表明,该系统具有良好的性能,能够很好的适应现实推荐场景,可应用于电影、服装、书籍、餐饮等线上内容的个性化推荐。