计算广告中冷启动问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jonquil1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算广告的本质是寻找广告和用户的匹配。我们可以将该问题可以看作一个推荐问题,即为用户推荐符合其兴趣的广告。但是计算广告有一个天然的缺陷,即点击率低,在推荐算法中,尤其是协同过滤算法,是基于用户的评分数据的,由于广告的点击率低,即用户评分数据太稀疏,因此传统推荐算法在这种情况下效果很差。这种评分数据太稀疏的情形,在推荐系统中被称为冷启动问题。在计算广告中,解决这种冷启动问题通常有两种方法,一种是利用强化学习的方法,通常将该问题转化为multi-armed bandit问题,另一种是利用推荐系统中基于内容的推荐方法。本文研究的内容正是计算广告中的冷启动问题,本文提出了两种方法,一种是在搜索广告的场景下,利用用户的历史搜索记录,将该问题转化为一个基于session的multi-armed bandit问题,在利用已有数据拟合得到的模型的基础上,加入了不确定因子,在explore和exploit之间达到平衡。另一种方法是利用哈希的方法在冷启动中为用户推荐,本文提出了两种哈希算法,一种是基于最大熵的哈希算法,在使哈希值体现用户偏好的同时,使哈希值的熵最大,这样能够在最终的推荐结果中,在准确率和召回率之间达到平衡;另一种是基于boosting的哈希方法,利用了boosting泛化能力强的特点,通过逐位求解哈希值,能够使在哈希位数大的时候,仍然能保持很强的泛化能力,有很好的推荐效果。本文通过实验验证了本文方法的有效性,session bandit的方法要比直接使用模型预测的结果和不使用用户历史搜索记录得到的结果要好。基于哈希的方法既能在效率上大大超过传统的冷启动方法,能在推荐效果上超过一些以前的冷启动方法。
其他文献
随着计算机网络应用的普及,网络安全已经成为不容忽视的问题。如今数据加密、病毒防护程序、防火墙、入侵检测等网络安全防护措施日趋成熟。防火墙能够阻断大多数来自外部的
本文将对RDM和TRDM中的基于常规角色的转授权与撤销机制进行扩展,扩展后的模型称为基于角色的带时限的转授权与撤销模型(TemporalRole-basedDelegationandRevocationModel,TRDR
本文通过研究Linux 2.6.10内核IPsec框架与跟踪IPsec v2最新标准RFC4301,讨论了IPsec v2框架下VPN与防火墙的联合设计,同时研究了32位嵌入式系统开发和Linux内核移植,最后实
作为一种新兴的短距离高速无线通信技术,超宽带(Ultra-Wideband,UWB)通信已成为诸如无线USB、无线1394等高速无线应用中的关键技术。本论文针对采用m序列为扩频码、BPSK为调制
近年来,随着多媒体技术和网络技术的飞速发展,Internet上的音频和视频等多媒体应用层出不穷,这些应用需要网络提供端到端的QoS控制和保证。当今的Internet只能提供尽力而为的服
生物信息学以计算机、网络为工具,用数学等科学理论、方法和技术研究生物大分子,主要包括脱氧核糖核酸(DNA)和蛋白质(Protein)的序列、结构和功能。生物序列的比对,是生物信
近年来,在多种科学领域,大量数据都可以转化为不确定图,例如:社会网络、蛋白质交互网络等。通过不确定图,可以形象地看到信息间的结构关系,也可以从节点获得数据信息。如何从现有的
软件理解方法和工具的研究是当前软件产业的重要课题。软件理解就是通过一定的工具和方法来弄清一个软件是“做什么”以及“如何做”,是开发软件系统构筑体系含义和行为的智
随着信息技术的飞速发展,信息安全已成为当今重要的研究课题之一。基于人体生物特征的身份鉴定技术愈加显示出其重要价值。虹膜识别是一种基于人体生理特征的生物特征识别技
人脸识别是当前计算机视觉、模式识别、计算机图形学等领域的研究热点,具有重要的理论研究意义和巨大的应用价值。经过几十年的发展,人脸识别研究取得很大成就,在条件可控或