论文部分内容阅读
计算广告学中的点击率预估问题一直受到学术界和工业界的高度关注,它在信息检索、机器学习、查询推荐等领域一直是研究的热点。搜索广告点击率预估旨在通过给定的<查询,广告>信息、上下文环境信息等,预估用户点击广告的概率。目前,该问题的研究方向主要包括:一,统计学习模型。其关键是设计特征提取方案,如抽取同一页面广告之间的相关性特征、构造组合特征等方式,尽可能获取与广告点击率高度关联的特征融入点击模型,从而提高模型预估的准确率。二,基于概率图模型对用户行为建模。通过假设检验,借助贝叶斯网刻画用户浏览场景,进而推断出在一个查询会话中点击序列的概率。人工构造特征,存在效率低、可扩展性差和性能提升困难等问题;而贝叶斯网刻画用户浏览行为,信息利用不充分,并且没有考虑到广告数据具有高度稀疏性、特征之间存在高度非线性关联的本质特点。本文根据以上问题并结合广告数据的特点,从特征学习的角度提出了面向广告数据的稀疏特征学习方法,该方法充分利用了特征降维和特征学习的优点。首先,根据相同类型对象内部之间相关性的特点,采用聚类降维,使得数据具有初始聚合性;然后根据不同类型对象之间存在关联,采用张量降维,运用张量分解法在保护广告点击数据原有结构关联的同时,降低特征维度。其次,研究并利用深度学习模型SAEN算法,挖掘广告数据特征间的组合关系,获得广告数据新的表示特征,新特征对数据有着更强的表达能力,有利于提高点击预估的精度。再次,用学到的新特征作为点击预估模型的特征输入,L-BFGS算法训练逻辑回归模型。最后,在实验部分,本文通过与已有方法进行比较,验证预估效果。实验结果表明,本文提出的面向广告数据的稀疏特征学习方法能够有效的提升广告点击率的预估精度。