搜索广告点击率预测算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qq439272757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网广告主要分为搜索广告、展示广告等形式,而在这其中,搜索广告是规模最大,增长最快的广告投放方式。搜索广告是依据用户提供的查询关键字对广告进行投放,是最了解用户搜索意图的广告投放形式。搜索广告最关键的技术是广告点击率的预测,广告点击率预测就是预测分析用户行为对投放的广告的点击率,广告点击率关系着广告投放的排序和广告点击收费等因素,因此研究广告点击率对整个搜索广告收入提高有着至关重要的意义。搜索广告利用搜索引擎的技术,分析用户输入的查询意图,提取相应的关键词,根据提取到的关键词,进行语义相关度计算,从广告库中进行索引,给出相应符合用户需求的广告检索结果。当搜索引擎等平台提供的检索排序候选结果中的广告,与用户输入的关键词等相关性越高,用户越感兴趣,点击的行为可能性越高,相应的广告点击率越高,广告收入越高。本文的主要研究和实现内容安排如下:(1)首先对数据集进行清洗和预处理,统计数据信息,提取浅层的特征,并采用常见的机器学习方法进行特征工程。逻辑斯蒂回归模型作为基线方法,将预测的点击率问题作为分类问题,在采用传统机器学习方法中,使用GBDT模型与逻辑斯蒂回归模型融合的方案,对特征组合,进一步深入挖掘影响点击率的因素,提高模型的非线性学习能力。对于数据集中出现的数据稀疏和缺失问题,采用近几年在各种比赛中效果比较好的因子分解机FM算法,与基线方法比较优化结果。(2)搜索广告中的用户查询请求与广告标题之间的相似度对点击率有至关重要的作用,本文首先采用卷积神经网络模型来提取深层次的相似度特征,并将其与人工挖掘到的特征相结合,共同输入到点击率的预测模型中,得到实验结果,实现效果提升。(3)循环神经网络更适合处理序列数据,因此本文也研究了基于循环神经网络的相似度的特征提取。实验分析对比不同类型循环神经网络模型的实验结果,如长短期记忆单元网络,门控循环单元网络,及相应的双向网络形式等,并结合静态注意力和动态注意力机制比较实验结果,提取最好的相似度特征,从而优化最终的点击率预测结果。
其他文献
核壳纳米材料的制备受到了很大的关注,因为可通过调整成分或者颗粒大小来改变其物化性能。在查阅大量文献的基础上,对核壳结构材料的合成方法进行了研究,并取得了如下成果:(1)
创新型企业的研究已成为政府、企业、学者研究的热点和重点,迄今为止,大量的现有文献主要集中于创新型企业与企业成长理论;创新型企业与企业的组织构建;创新型企业的评估体系相
目前,随着地下工程建设发展规模的不断扩大和大型水利工程的不断兴起,灌浆技术在国内外得到越来越广泛的应用。但是由于灌浆工程属于隐蔽工程,使得灌浆技术的发展至今为止还
YKL-40,于1992年的一项骨蛋白的研究中被发现。在某些良性疾病中发现血清YKL-40水平升高,尤其特征是特异性炎症或组织重塑的疾病,如类风湿性关节炎、酒精性肝硬化等;而当组织
目前陶瓷材料作为一种新型的工程结构材料,在宇航、汽车、冶金、化工、机械等领域得到了越来越广泛的应用。可加工玻璃陶瓷材料以其优异的美观性能、可切削性能和机械力学性
农村家庭生活的能源消费影响着农民的生活质量,关系到农业现代化的实现和农村地区的可持续发展。我国广大农村的能源消费主要是利用当地资源,其家庭生活用能主要是以薪材、秸
灌溉侵蚀已成为伊犁河流域主要生态环境问题之一,严重制约着流域内新垦区土地资源的开发。因此,了解流域内灌溉侵蚀规律有利于正确认识与评价水土资源综合开发中的水土流失问
随着世界经济的飞速发展、企业融资方式的不断创新,应收账款已从最初的单纯会计学上的概念逐渐扩展到法学领域。但在我国,对应收账款的法学研究才刚刚起步,对应收账款相关法
目的确定急性有机磷农药中毒(AOPP)与大鼠胰腺损害是否存在因果关系或量效关系,从而指导临床救治。方法将60只大鼠随机分为对照组、敌敌畏低剂量组和敌敌畏高剂量组,观察大鼠
20世纪90年代后期,随着经济改革的不断深化以及劳资矛盾不断加剧,国内学术界对于劳动力市场、劳动者的分化、劳资关系、劳动制度等方面的关注不断升温(佟新,2008:237-254)。不