大规模互联网服务系统中的个性化推荐技术研究

来源 :浙江大学 | 被引量 : 1次 | 上传用户:vonke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,每个人的生活都离不开各式各样的互联网服务。但是,互联网的服务系统却面临着信息爆炸带来的信息过载挑战。个性化推荐系统则是解决这一问题的核心方法。
  现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。
  第一个问题,是来源于用户层面的挑战。数据的获取与预处理是所有数据挖掘、机器学习的基础。随着移动设备的普及,通过移动设备接受互联网服务的人数已经远远超过台式电脑。由于移动互联网访问的移动性和不稳定性,系统很难将用户的移动访问日志进行识别和归类。
  为了解决移动设备唯一性识别的问题,本文提出了基于图的日志识别并行算法,利用分布式计算集群,有效且高效地对超过十亿的访问日志进行实体识别和归类,从而获得完整的用户访问历史记录以进行更精准的用户行为肖像的刻画。
  第二个问题,是来源于项目层面的挑战。现有的推荐算法很少考虑短期时间因素对推荐结果的影响。但是在互联网中,眼下热点转换非常迅速。层出不穷的热门活动、社会热点等都深深地影响了用户和项目的关系。因此,短期预测就显得更为重要了。
  为了解决针对热点的短期个性化推荐问题,本文构建了面向短期活动的项目表征学习深度神经网络,利用短期时序信息和固有特征,获取短期的项目表征。根据短期项目表征,系统可以针对当前热点进行多任务的预测和推荐。
  第三个问题,是来源于用户.项目层面的挑战。协同过滤算法的研究对象是用户-项目的评分矩阵,这是一个回归到算法本质的研究。由于协同过滤算法已经有了较为悠久的历史,大量的研究使得这个领域已经到了瓶颈阶段,即很难通过单一协同过滤算法来大幅提高个性化推荐的质量。
  为了研发一种普遍适用的算法来提升个性化推荐的效果,本文不拘泥于单一的协同过滤算法,而是从整个推荐系统的框架角度出发,提出了基于用户,项目子集合的协同过滤推荐算法。该算法利用多分类协同聚类的技术,发现不同的用户-项目子集合,以达到聚焦兴趣点、降低稀疏性、减少数据规模的效果,从而可以广泛地提升现有的协同过滤推荐算法的效果。
  文本所有的实验都采用真实的工业数据集,以增强实验结果在实际应用领域的可信度。通过系统性的设计与开发,大量的实验结果证实了本文的研究工作从用户、项目、用户-项目交互等三大方面解决前面的三大挑战,对互联网服务系统的个性化推荐系统起到了全面的提升作用。
其他文献
汉字是世界上使用最多的文字,汉字识别在残疾人无障碍阅读、文献自动录入、邮件分拣、银行票据处理、证件识别等领域有着重要的应用价值。汉字数量巨大,手写风格各异,并且汉字中存在大量的形近字,导致脱机手写汉字识别一直存在准确率偏低的问题。近年来,深度学习发展迅速,在模式识别、自然语言处理、语音识别等领域都取得了不错的成绩。因此,本文采用深度学习的方法对脱机手写汉字识别进行研究。针对汉字识别大分类问题,采用
图像超分辨率技术是近年来计算机视觉领域的研究热点之一,其可以有效地弥补硬件成像设备精度的不足,以较高的还原度呈现出真实场景。图像超分辨率技术在安防、遥感、医学和高清显示等领域有着广泛的应用场景和需求。本文围绕提高图像超分辨率性能展开研究,并在基于学习的超分辨率方法上从提升学习字典训练效率和提高图像重建质量两个方面进行改进。本文首先针对传统字典训练效率低的问题,提出一种新的图像块相似性判断方法及结构
学位
随着我国新消费时代的到来,消费模式开启了新格局,品质消费备受追捧。受到新消费热潮的影响,生鲜企业也在不断转型升级,生鲜超市等新兴生鲜消费渠道逐渐增长。由于生鲜供应链具有配送成本高、仓储难度大、产品损耗率高等特点,大部分涉足生鲜的企业都处于亏损状态。如何控制供应链成本,对生鲜供应链的选址、库存和路径进行集成优化是尤为重要的。本文正是基于此背景,在研究以超市为代表的现代生鲜供应链体系基础上,综合直送模
学位
聚合博弈是成本仅依赖于其自身策略和关于所有个体的聚合策略的一类重要博弈.其在自然科学、经济学和工程科学等领域中广泛应用.特别的,在工程科学中,无线通信、交通系统、智能电网等方向的聚合博弈问题得到了越来越多富有成效的研究.博弈理论的关键是纳什均衡问题的研究.因此,求解纳什均衡的算法受到了广泛关注.近年来,随着大规模通信网络和分布式技术的发展,很多研究学者致力于分布式纳什均衡算法的研究.相比于传统的集
学位
观察数据中发现变量之间的因果关系,解释事件是如何发生以及预测其未来发展趋势,几乎在所有学科中都有研究和应用。例如医学、生物学、经济学、物理学、社会科学等领域均把因果关系作为解释、预测和决策的基础。信息科学领域,可以使用贝叶斯网络中的马尔科夫毯(边)来表示真实世界中的因果关系。近年来,有学者采用基于回归正则化模型马尔科夫边的发现方法从观测数据中研究事件之间的因果相关性,并从理论上揭示了基于回归正则化
在单机数据上训练的深度学习机制,受限于数据量和算力容易出现过拟合以及较低的可用性等问题。为了解决这个问题,采用中心化的训练架构,聚合多个参与方的数据来训练一个全局模型是普遍采用的模式。或者采用分布式的训练模式,基于中心化服务器聚合各个参与方的模型梯度更新,但这两种中心化的架构始终存在单点故障的可能。此外,当前深度学习系统对于数据隐私和模型隐私的关注不够,限制了深度学习在诸如医疗、金融等敏感数据上的
学位
图被广泛地应用于各个领域中,例如交通路网、电子通信网络、社交网络、生物信息网络以及协作网络等。图结构中,边表示顶点之间的关系。图上有许多特制的算法,图查询研究一直受到学术界与工业界的广泛关注。随着信息化时代的到来,各种信息以爆炸模式增长,导致图的规模日益增大。如此大规模的数据量,给图查询处理带来了极大的机遇与挑战。  目前已有的大量图查询算法大多是集中式算法,但随着图数据的指数型增长,传统的索引与
学位
随着计算机处理能力的增强,个人手持设备的普及,将三维城市模型服务推广到普通用户中在技术上变得逐渐可行,人们对基于三维城市模型信息服务的需求也越发旺盛。在游戏及VR等应用场景中,为了提升玩家用户的沉浸感,常常需要将指定的城市模型接入到应用中。因此,在保持原始扫描获得数据的语义信息和视觉效果下,应尽量提高其存储和处理效率。所以需要对原始数据进行一定的预处理,在提取其语义信息后对模型进行适当的简化。  
电网中的异常检测指电网在未受到攻击的情况下,由于个别或部分元件发生故障,导致网内其他设备表现出偏离平衡状态的情况。严重的电网异常容易引发大规模停电事故,从而造成巨大的经济损失。因此,分析人员需要快速、准确的检测电网异常,以此为基础做进一步的故障原因诊断、影响分析,并采取对应的修复措施。已有的电网异常检测工作多基于聚类、分类等自动化方法,然而随着检测准确率的不断提高,误报与漏报率仍居高不下。传统的漏
学位
光谱图像是一种通过捕获数个频率范围的电磁波进行成像得到的图像。光谱图像除仅有一个波段的单色图像外,还有包含三个到数十个波段、光谱分辨率较低的多光谱图像,与光谱分辨率在10nm范围内、常有数十至数百个波段的高光谱图像,这种含有丰富光谱信息的图像在科学研究种具有重要的作用。然而,由于超越可见光波长范围的波段无法被人类直接观察、且大量的波段数据本身也加重了计算负担,光谱图像的可视化与降维融合成为了十分重