【摘 要】
:
随着大数据时代的发展与应用,推荐算法及其系统成为电商、短视频、新闻、金融等诸多领域的核心技术架构,推荐系统的重要性不言而喻,研究推荐系统的目标在于针对不同场景数据需求,如何设计更好的特征,并将其运用到设计的算法模型,使得推荐效果尽可能达到多样化目标的整体最优或目标侧重的改进。与此同时,随着深度学习的发展突破传统模型与数据量级的算力性能限制,带来了更多优化与算法升级的可能性,如何利用其实现匹配用户的
论文部分内容阅读
随着大数据时代的发展与应用,推荐算法及其系统成为电商、短视频、新闻、金融等诸多领域的核心技术架构,推荐系统的重要性不言而喻,研究推荐系统的目标在于针对不同场景数据需求,如何设计更好的特征,并将其运用到设计的算法模型,使得推荐效果尽可能达到多样化目标的整体最优或目标侧重的改进。与此同时,随着深度学习的发展突破传统模型与数据量级的算力性能限制,带来了更多优化与算法升级的可能性,如何利用其实现匹配用户的兴趣并识别其不同兴趣的留存转换与进化,仍是研究中的一大难点。除此之外,当下的推荐场景数据越来越复杂和多模态化,如何有效地表示和融合不同模态之间的特征,并解决序列数据建模的子任务,也是研究中的一大挑战。基于上述挑战,本文主要研究了以下工作:1)基于特征贡献度的用户购物行为预测融合模型,MFRF-X(Multi-model Fea-ture Representation Fusion based on XGBoost),首先采用了统计与特征工程方法,对脱敏的购物行为数据进行清洗处理,并设计构建了多维度特征,主要分为商品特征、场景信息特征、用户行为特征及用户的长短期兴趣特征,为了提升改进原有特征拼接的表示能力,针对不同结构类型的特征采取不同基模型形成Embedding表示,再在减少人工特征工程的基础上,采用后期融合将多模态特征表示拼接输入XGB oost模型进行模型训练,最后使用基于分裂增益的特征重要性与基于树模型的解释方法SHAP对该工作建立的模型进行解释,实验验证了特征设计对模型效果产生的不同程度的提升;进行基准实验,分别对比基准单模型和现存的多个融合模型,实验验证了该特征融合策略优化了特征表示并实现了模型推荐AUC与综合评分提升的目标,并验证了 MFRF-X模型基于多模态特征融合策略的有效性。此外,它反映了模型对长短期兴趣特征表示及其演化表示抽取的有效性。2)基于融合深度兴趣网络的视频用户冷启动序列推荐模型,MMDIN(Multi-view Multi-level Deep Interest Network),针对视频内容相关度冷启动预测推荐的任务,通过不同的深度神经网络对视频序列数据提取其多模态特征嵌入表示,并采用了 Attention机制与AUGRU结构加强了抽取用户兴趣与进化序列表示的能力,构建了基于融合深度兴趣网络与深度兴趣进化网络的视频相关度预测模型MMDIN,结合音频级、帧级和视频级的预处理多模态内容特征,采用后期融合形成最终的多模态特征表示,实现冷启动状态下的视频序列推荐优化,对比基准模型的推荐效果,在Hulu提供的电视连续剧和电影数据集下进行实验,验证了多模态数据特征下推荐模型的预测准确率提升与融合策略的有效性,冷启动问题继而由用户视频交互行为与基于多模态视频的内容画像表示所解决。
其他文献
胎儿心电(fetal electrocardiogram,FECG)信号能提供胎儿健康状况的重要信息,通过围产期胎儿心电监护可以早期诊断妊娠期及分娩期的胎儿宫内缺氧、窘迫以及先天性心脏畸形、新生儿心率失常、胎儿宫内发育迟缓等疾病,从而降低围产期胎儿的发病率和死亡率。胎心宫缩图(cardiotocography,CTG)是目前在临床中使用最多的胎儿监护技术,但是利用CTG很难获得可靠的瞬时胎儿心率变
密度峰值聚类算法是一种通过在决策图中寻找聚类中心实现快速聚类的新型聚类算法。该算法假设每个簇的聚类中心都拥有最大密度、任意簇间的聚类中心相隔较远。通过计算得到每个数据点的密度和距离生成决策图,根据聚类中心的特征在图中进行选择后完成剩余点的就近分配。该算法凭借参数少、能处理任意形状的簇、简单快速等优点脱颖而出,然而也存在结果对唯一参数敏感、密度公式单一、选取聚类中心需要人工干预、算法复杂度高等问题。
利用管道进行物料运输,具有输送量大、结构简单和安全可靠等优点。抛光打磨车间和机加厂房等典型劳动密集型作业场所在生产过程中会产生大量的金属粉尘,这些粉末在通过通风排尘管道排除的过程中会产生沉积,需要进行定期清理。本文的研究对象是一款由摆动气缸驱动的并能适应不同管径的管道机器人,用于搭载清灰装置进行管道清理。主要的研究工作如下:(1)确定可变径管道机器人的设计方案。总结不同管设计方案的优缺点,根据本文
RV减速器由于其独特的优势,在工业机器人领域逐渐替代谐波减速器已经成为趋势。随着《中国制造2025》的发布以及制造强国战略的全面推进实施,工业机器人在我国将会出现一个井喷式增长需求。然而,在工业机器人的核心部件RV减速器领域,尤其在性能和工作寿命方面,国内和国外存在较大差距。润滑剂作为RV减速器的核心组成成分,其性能将直接影响RV减速器的振动和工作寿命。然而,在该领域我国研究颇少。针对国产某型号R
近年来,移动互联网迅速发展,日益增长的移动数据流量给蜂窝通信网络带来了严峻的挑战。第五代移动通信(5th Generation,5G)是最新一代蜂窝移动通信技术,已经成为学术界和工业界探讨和应用的热点。5G的性能目标是提高数据速率、减少延迟、降低成本和提高系统容量等等。在5G众多关键技术之中,大规模多入多出(Multiple Input Multiple Output,MIMO)技术是其中之一,相
文本生成,将不同形式的输入转化为文本形式的输出,赋予了计算机与人交流的能力,是近期自然语言处理方向研究的热点领域。受计算能力的快速发展,基于深度学习的文本生成技术取得了成功。随着互联网产业的蓬勃发展,文本生成的诸多方向,如图片描述生成、神经机器翻译,文本摘要也得到了广泛的运用。大量场景为研究者提供了扎实的数据基础。在这些方向中由于贴近用户需要,个性化文本生成具有很强的实用性和社会价值。尽管对于一般
我国地形复杂,资源丰富,需要运用很多高效可靠的物探系统。本文提出了一套基于虚拟仪器技术的地震反射波成像系统方案,采用模块化的地震波数据处理流程来对反射波进行介质速度分层成像,方案中还采用两种数字滤波器的方法来对地震反射波中的噪声、直达波等干扰进行滤除,并基于模块化的硬件设计和虚拟仪器开发技术,研制了整套硬件和软件系统。本文的主要内容如下:(1)结合地震波的特征,研究并仿真了地震子波在反射系统里传输
自动驾驶场景中存在着丰富的时空数据和动态行为交互,使得自动驾驶场景充满复杂性。系统的安全性面临着严重的挑战。近年来,人们尝试使用场景建模、仿真技术对自动驾驶场景的动态行为进行建模、分析,但自动驾驶场景的建模语言及支撑工具依然匮乏,同时也缺少使用形式化验证技术对模型进行验证分析。针对以上问题,本文提出一种面向汽车自动驾驶领域的场景建模语言(Scenario Modeling Language,SCM
淀粉样多肽经过非正常折叠聚集成纤维,随后聚集成淀粉样沉积被认为与多种人类神经性疾病有关,如II型糖尿病(Type2 diabetes,T2D),阿尔茨海默病(Alzheimer disease,AD)和帕金森病(Parkinson’s disease,PD)等。其中,II型糖尿病是由于胰岛素协助葡萄糖进入细胞代谢的功能下降,胰岛素分泌相对不足,或机体对胰岛素反应性下降,导致血糖升高,约占糖尿病患者
随着机器学习的广泛应用,机器学习算法已经不再是互联网公司的专有技术,越来越多的非互联网公司通过第三方运用机器学习算法来解决问题。恶意的攻击者会通过操纵第三方机器学习训练过程,进而达到攻击的目的。为了更好的维护受害者与第三方的权益,提高机器学习算法的稳健性,本文针对机器学习算法的攻击与防御问题进行了深入研究:1.线性回归数据中毒攻击:本文通过在现有攻击模型中改进和重新定义攻击者的目标,建立了新的基于