论文部分内容阅读
实时竞价(Real-Time Bidding,RTB)是大数据时代新兴的具有影响力的展示广告购买机制,RTB系统基于对互联网用户产生的大量数据的分析,能够识别每个广告展现(Impression)目标受众的特征和兴趣,并自动投放最佳匹配的广告。RTB系统中最受关注的是与需求方平台(Demand-Side Platform,DSP)相关的研究工作,DSP代表了广告主的诉求,DSP竞价策略的优劣直接影响广告主获取优质流量的能力,进而影响广告营销所带来的转化。在DSP中,成交价格作为广告展现的成本,能够有效地指导竞价策略的制定和投放预算的分配。本文针对成交价格预测展开了相关的研究工作,提出了基于软决策树的成交价预测模型,解决了两方面的问题:(1)目前,关于成交价格预测的相关研究工作通常是假设成交价格服从某种参数化的函数分布形式。但在实际中,成交价格来自成百上千广告主对某次广告展现的竞价,并不简单服从于某种假定的函数分布形式。而决策树模型可以避免这个问题,决策树提供了从输入到输出的自学习过程,无需函数假设;(2)普通决策树的构建过程忽视了维度间可能存在的相关性,而软决策树不同于普通决策树,软决策树在结点分裂时能根据不同概率影响左右子结点,利用这种特性能够建模维度间的相关性。此外,由于RTB过程采用第二竞价机制,DSP只有竞价成功才能观测到成交价格,竞价失败只能知道自身的出价,因此在成交价格预测中会面临数据缺失的问题。本文结合生存分析对软决策树模型提出了改进,采用K-M乘积限方法无偏估计竞价成功概率,并使用逆概率加权方法修正成交价格的真实误差,使竞价成功和竞价失败的数据记录能够同时反馈到软决策树模型的学习中,减少了实际应用中成交价格数据缺失问题带来的模型偏差。本文基于真实展示广告数据集iPinYou设计实验并进行实验验证,实验分别对比了基于假设分布和基于普通决策树的成交价格预测模型。实验结果表明,对比其他模型,本文提出的模型在预测误差上表现更佳,同时验证了考虑缺失数据的有效性和必要性。最后在树模型规模的比较上,本文提出的模型具有更小的树模型复杂度。