基于深度学习和流处理技术的通用推荐服务系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:q815034246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统通过推荐算法以个性化的方式向用户提供其可能感兴趣的内容。推荐算法有基于内容的推荐和基于用户行为的推荐两种。基于内容的推荐算法需要使用用户及物品的特征,对于不同的场景这些特征都会有很大差异,针对各种场景分别构建特征与模型会增加研发和运维成本。基于用户行为的推荐算法虽然可以复用到不同场景,但只考虑了用户和物品的交互,没有考虑用户行为的时序性。如何利用用户行为的时序性改进基于用户行为的推荐算法是本文要解决的第一个问题。此外,用户的兴趣是随着时间不断变化的,因此推荐模型还需要根据用户的行为实时地学习到用户当前的兴趣,如何针对推荐模型设计出一个高效的增量学习方法,从而使用用户的流式行为数据实时更新模型是本文要解决的第二个问题。针对上述问题,本文以实验室项目为背景,在对深度学习技术、推荐算法和流处理等相关技术深入研究的基础上,设计并实现了基于协同过滤与长短记忆网络的推荐算法(简称GRACL),提出了一种基于mini-batch的增量学习方法用于对GRACL进行流式训练,基于GRACL设计并实现了实时推荐服务原型系统(简称RTRS)。测试情况表明,该算法及系统是可行且有效的。本文的工作要点与创新意义如下1)GRACL模型的构建。基于内容的推荐算法依赖于物品和用户特征,物品特征对于场景的依赖增加了开发和运维成本。本文提出并实现仅基于用户行为数据的推荐模型GRACL,使用自编码器实现协同过滤,并通过因子分解机方法预训练用户和物品的特征向量后作为LSTM部分的输入。通过联合训练方法将自编码器与LSTM两部分结果融合和作为最终输出。实验结果表明,在Yoochoose和Trivago数据集上,GRACL相比于因子分解机方法AUC分别提升了0.8%和1.29%,MRR@10分别提升了0.25%和1.09%。2)GRACL的增量学习方法及优化。批量训练方法无法保证模型效果的实时性。本文深入研究增量学习方法,设计并实现了一种基于mini-batch的增量学习方法。该方法可以利用用户的行为数据来并行计算梯度并进行参数更新。为了提高GRACL的泛化能力,深入研究自适应学习率优化器、Dropout和梯度裁剪等优化方法。实验结果表明,基于mini-batch的增量学习方法相比于随机梯度下降方法训练时间减少了约38%。3)基于GRACL的实时推荐服务系统RTRS原型实现。在1)和2)工作的基础上,本文设计并实现了RTRS原型系统。RTRS包括数据采集、批量与流式训练和推荐服务接口等模块。用户通过数据采集接口提供行为日志后RTRS使用GRACL模型进行模型训练,通过流处理技术实现模型的实时更新,保证了GRACL模型的实时性。
其他文献
散射成像是一种将携带目标信息无序散斑通过后处理算法恢复散射介质后目标图像的技术,散射成像在大气成像、生物组织成像和水下成像等方向都有非常重要的应用前景。散射介质破坏了传统光学成像中的光子直线传播路径,光子的传播方向在散射介质中会被多次随机改变,探测器得到的数据是目标信号被随机改变后的散斑。不仅散射介质会影响成像,光的强弱也会影响成像过程。在弱光下,光信号更多呈现出光的粒子特性。传统的探测器无法应对
得益于深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)的发展,大量计算机视觉任务取得了传统算法难以达到的表现。但是,由于大量冗余特征的存在,这些基于DCNN的优秀模型会消耗大量有效的存储和计算资源,通常难以部署在资源受限的平台。如果我们能够用一组正交的特征来表示所有特征,则可以用一个轻量级小网络来代替复杂卷积神经网络,且不带来任何精度损失。因此,在
疾病是威胁人类健康的主要因素之一,其中糖尿病和胃癌是对中国人危害最大的两种非传染性疾病。有研究指出,经早期诊断后及时治疗,不仅能降低这些疾病带来的痛苦,还能增加治愈率和存活率。电化学是研究电现象和化学现象之间相互转化的科学,电化学生物传感器具有特异性好、重复率高、稳定性好、实验操作过程简单等优点,现已被广泛研究于生物医学工程领域中。而金属纳米材料大多具备良好的导电性,且易被化学或生物修饰处理,近年
随着互联网的高速发展,各种信息资源呈现井喷趋势,仅仅依靠搜索引擎已经难以为用户提供优质的信息服务。为了缓解信息过载问题,各大公司纷纷构建推荐系统,为用户提供精准的个性化推荐服务。在一些网站上,用户可以随意为喜欢的物品打上社会化标签,这些标签不仅可以反映用户的偏好和态度,也折射出物品的内在属性。因此,标签感知推荐系统将这些协同行为产生的社会化标签作为一种内容信息,为用户提供个性化的物品推荐。为了解决
跨年龄人脸识别作为通用人脸识别研究的细分方向之一,在金融、安防监控、智能手机应用等诸多领域都具有重要的应用价值。跨年龄人脸识别由于受到人脸皱纹随着时间变化而加深、颅骨形状改变等因素影响,比通用人脸识别任务难度更大,识别准确率也相对更低,并且由于跨年龄人脸识别研究较通用人脸识别而言起步晚,现有的方法也相对较少。鉴于此,本文针对跨年龄人脸识别问题展开更进一步的研究。首先,鉴于ResNet50网络模型在
随着信息技术的不断发展,人们对信息的安全性越来越重视,出现了软件和硬件两种主流的加密方式。软件加密由于其加密方式简单,并且不会破坏传输信号的性能,一直被广泛应用。但由于量子计算机的出现,计算机性能的不断提升,软件加密算法逐渐会在短时间内被暴力求解的方法破解。所以现在人们越来越关注硬件层面加密,混沌加密作为一种物理层加密方式,可以实现信号的高速长距离安全传输,和现有光通信系统兼容,获得了国内外持久的
随着移动互联网的高速发展,各种Android应用为手机上网带来了巨大便利。但是,由于Android系统的开源性也产生了许多恶意应用程序,对网络安全造成了严重威胁。此前,研究人员主要基于静态代码和动态行为对Android恶意应用进行识别与分类,这两种方法计算复杂度太高,没有得到良好的普及。由于恶意应用通过诸如僵尸网络等渠道执行恶意行为,因此可以通过分析恶意应用产生的网络流量对恶意应用进行分析检测。基
据IDC数据显示,2019年前两个季度全球智能手机累计出货量约6.4亿台。在如此庞大的出货量上,不允许在研发阶段漏掉任何一个应用崩溃、系统死机或重启等稳定性问题。稳定性是保障用户长时间流畅使用设备的核心需求。随着安卓系统更新频率逐步加快,手机制造商为了抢占市场不得不缩短研发周期。因此,如何在短暂研发周期内快速发现并解决稳定性问题,为用户提供更高品质的手机,成为各大厂商研究的重要课题。本文基于安卓系
卷积神经网络逐步成为人工智能应用的基础,然而网络参数量的增加,加大了其部署难度,限制了其应用范围。如何设计轻量化算法和快速低能耗硬件加速器成为研究热点。本文基于权重压缩算法,探究网络稀疏化和低位宽推断技术,提出一种使权重稀疏化且量化为幂次的轻量化算法,并采用Image Net数据集完成算法的验证。面向该算法,本文设计了一款基于移位的稀疏卷积神经网络加速器。针对稀疏网络权重少但运算不均衡的特性,对稀