论文部分内容阅读
互联网广告主要分为搜索广告、展示广告等形式,而在这其中,搜索广告是规模最大,增长最快的广告投放方式。搜索广告是依据用户提供的查询关键字对广告进行投放,是最了解用户搜索意图的广告投放形式。搜索广告最关键的技术是广告点击率的预测,广告点击率预测就是预测分析用户行为对投放的广告的点击率,广告点击率关系着广告投放的排序和广告点击收费等因素,因此研究广告点击率对整个搜索广告收入提高有着至关重要的意义。搜索广告利用搜索引擎的技术,分析用户输入的查询意图,提取相应的关键词,根据提取到的关键词,进行语义相关度计算,从广告库中进行索引,给出相应符合用户需求的广告检索结果。当搜索引擎等平台提供的检索排序候选结果中的广告,与用户输入的关键词等相关性越高,用户越感兴趣,点击的行为可能性越高,相应的广告点击率越高,广告收入越高。本文的主要研究和实现内容安排如下:(1)首先对数据集进行清洗和预处理,统计数据信息,提取浅层的特征,并采用常见的机器学习方法进行特征工程。逻辑斯蒂回归模型作为基线方法,将预测的点击率问题作为分类问题,在采用传统机器学习方法中,使用GBDT模型与逻辑斯蒂回归模型融合的方案,对特征组合,进一步深入挖掘影响点击率的因素,提高模型的非线性学习能力。对于数据集中出现的数据稀疏和缺失问题,采用近几年在各种比赛中效果比较好的因子分解机FM算法,与基线方法比较优化结果。(2)搜索广告中的用户查询请求与广告标题之间的相似度对点击率有至关重要的作用,本文首先采用卷积神经网络模型来提取深层次的相似度特征,并将其与人工挖掘到的特征相结合,共同输入到点击率的预测模型中,得到实验结果,实现效果提升。(3)循环神经网络更适合处理序列数据,因此本文也研究了基于循环神经网络的相似度的特征提取。实验分析对比不同类型循环神经网络模型的实验结果,如长短期记忆单元网络,门控循环单元网络,及相应的双向网络形式等,并结合静态注意力和动态注意力机制比较实验结果,提取最好的相似度特征,从而优化最终的点击率预测结果。