论文部分内容阅读
随着互联网的快速发展和普及,传统的广告行业与互联网进行结合,使得在线投放广告成为可能。实时竞价系统,作为现有互联网广告投放的重要渠道,在学术界和工业界中备受关注。在实时竞价系统中,针对需求方平台的研究主要集中在广告点击率预测、出价算法研究和竞价愿景预测等方面。其中点击率预测作为用户反馈信息的重要衡量手段,也是作为后续出价算法的重要依据,一直是实时竞价系统中的一个重要研究方向。近年来,机器学习和深度学习被用于点击率预测,研究人员提出了很多优秀的点击率预测模型,在对这些模型进行总结后,本文在集成学习(Ensemble Learning)思想下,结合深度残差网络,提出了一种基于残差网络的点击率预测融合模型,并进一步提出了一个基于集成学习的点击率预测框架。本论文的主要工作和研究内容如下:(1)对近些年提出的点击率预测模型进行了归纳和分类,发现在点击率预测模型中使用深度神经网络是一个趋势。残差网络在图像识别领域运用广泛,较好地解决了深度神经网络中网络层数过深带来的梯度消失和梯度爆炸等问题。因此本文通过将残差网络的设计思路引入进点击率预测模型设计中,在FNN(Factorization Machine supported Neural Network)模型的基础上提出了基于残差网络的单模型ResNet1和ResNet2。(2)在两个基于残差网络的单模型基础上,通过集成学习的设计思路,将两个残差网络进行融合,得到基于残差网络的融合模型ResNet。ResNet模型中包含了两种不同的残差网络设计,并且在嵌入层中通过Attention机制,对二阶特征赋予重要性权重,进一步优化了模型的性能。通过两个不同数据集上的对比实验证明,ResNet1、ResNet2和ResNet模型的性能均超越了对比模型中的全部模型。其中,在Criteo数据集上,ResNet模型在ResNet模型比对比模型中最优的Wide&Deep模型在AUC指标上提升了0.24%,在LogLoss指标上提升了0.42%。在Avazu数据集上,ResNet模型比对比模型中最优的FM模型在AUC指标上提升了0.34%,在LogLoss指标上提升了0.39%。(3)本文还提出了一种启发式的集成学习框架,用于集成点击率预测模型。通过将不同的点击率预测模型对于样本的预测结果输入到框架中,该框架自动计算模型之间的差异度,并筛选出性能较优且差异度较大的模型进行集成,最终得到集成后的点击率预测模型。通过在iPinYou四个数据集上的实验,证明了该框架的有效性。