论文部分内容阅读
随着互联网广告行业的快速发展,视频广告在广告投放中占据着越来越重要的地位,视频广告的自动识别可以帮助广告商判断网站是否按约定投放广告,同时也可以帮助咨询机构根据广告投放量分析广告主的经营状况。随着广告转化率提升需求的不断增长,近几年出现了一种在电视剧中插播的新型视频广告形式,广告方依托电视剧的故事背景和人物关系构思广告创意,将广告做成“番外篇短视频”穿插在剧集中,称为“中插广告”。这种广告形式模糊了广告与剧情的界限,使得传统广告的自动识别方法不再适用。本文针对传统广告自动识别系统在镜头切分、镜头分类和广告内容识别模块上不适应中插广告识别的具体问题,利用深度学习技术与传统的计算机视觉处理技术,结合图像特征、音频特征和文本特征,从时间和空间多角度出发,设计了一种中插广告的自动识别系统。本文的主要贡献有如下三点:(1)针对视频中镜头间渐变情况提出一种新的镜头切分方法。由于中插广告和剧情的场景相似,因而在剧情镜头与广告镜头之间较多采用镜头渐变切换,相比传统广告采用的镜头突变切换,镜头切分更为困难。基于对中插广告的观察,发现渐变过程中会出现黑镜头,本文跳出计算帧间距离的常规思路,提出一种简单有效的利用颜色变化趋势切分渐变镜头的解决方案。(2)针对广告镜头与剧情镜头的视频特征高度相似难以区分的问题,本文提出利用LSTM网络和Attention网络组合,获取音视频时序高维特征并强化显著特征,改善视频镜头分类性能。传统的广告识别系统采用CNN网络进行音视频特征深度表达,未利用视频帧序列的时序相关性,本文利用LSTM来获取前后帧的时序关系;进一步,本文使用了Attention网络获得不同维度特征在镜头分类结果中的占比,强化性能影响显著的特征向量。实验表明本文提出的方法分类准确率可以达到88%,相比传统的机器学习方法提高了4%。(3)针对广告中Logo不显著甚至没有Logo导致基于Logo的广告识别方法无效的问题,本文提出了结合文字识别和音频特征匹配的广告内容识别方法。基于对中插广告的观察,大量广告以文字替代Logo标识广告商品,也有一些广告甚至没有文字仅以声音标识广告商品。因此本文采用OCR文字识别技术结合音频色谱图特征匹配的方法进行广告内容识别,准确率可以达到98%。本文设计实现的中插广告自动识别系统不仅可以检测出视频中是否存在中插广告,同时还可以识别具体的广告内容,具有很强的现实意义和实际价值。