论文部分内容阅读
随着互联网广告十余年持续爆炸式的发展,计算广告学也随之应运而生。作为计算广告流量变现的最重要方式之一,广告点击率预估不论从搜索广告到程序化交易,还是移动互联网下的原生广告,都扮演着关键的角色。广告点击率预估主要是基于海量用户历史数据,在复杂的定向规则下,借助大数据技术和机器学习模型,对候选广告进行排序预测,使得在特定的场景下,将合适的广告展示给合适的受众用户。如何解决线性模型学习能力有限、充分挖掘广告特征之间非线性关系的问题,一直是相关领域研究的重点。在充分调研各种广告点击率预估问题常用的机器学习模型的前提下,提出采用一种基于门控循环单元神经网络(the Gated Recurrent Unit Neural Networks,GRU)模型应用于广告点击率预估的问题上。进一步,通过优化改进门控循环单元神经网络的步长控制方法,使得模型在更少的迭代轮次下,更好更快地到达最优点,从而提高模型的预估能力。本文的主要工作和取得的成果具体如下:(1)针对浅层和深层模型作特征工程,包括实验数据的分析、预处理、特征选择和特征设计等。采用一种改进的循环神经网络—门控循环单元神经网络,将一般循环神经网络的隐藏层替换成门单元结构,利用门单元特殊的门控机制来控制梯度传播,从而提升广告数据特征的学习能力。(2)在门控循环单元神经网络的基础上,设计了一种优化步长控制方法。先设置一个较大的步长快速寻找全局近似最优点,再利用较小的步长通过指数迭代衰减找到局部最优,在迭代速度和准确性上提升模型的预估效果。最终得到的AUC值比基于循环神经网络模型高出0.053932,比基于未做步长优化的模型高出0.003855。(3)本文比较了逻辑斯特回归、朴素贝叶斯、随机森林、循环神经网络、门控循环单元神经网络及其步长优化版6种模型的效果,实验结果表明,基于门控循环单元神经网络及其步长优化的模型在广告点击率预估上的效果最好。