论文部分内容阅读
非物质文化遗产(简称“非遗”)是我国传统文化里扮演着重要的角色,非遗是国家文化的内核,是民族文化的精髓。视频作为一种传播介质有其独特的优点,其涵盖了视觉和听觉,且产出和存储方便,因此作为介质在非遗的传承、传播和保护等方面拥有不可替代的地位。但非遗视频的录制成品多为语义混杂的长视频,基于短视频的飞速发展和数据证明,只能靠人为手工操作、无法将长视频快速准确地按场景分割成多个短视频成为了阻碍非遗传播的重大问题。所以将镜头边界检测和边界帧的目标检测技术运用到非遗视频将有利于非遗短视频的产出,进而促进非遗传播。镜头边界检测旨在检测出视频中镜头的切变和渐变,实现对镜头的自动分割。目前大多数镜头边界检测方法往往通过人为设计复杂的特征和相似度度量方法,算法往往时间、空间复杂度高,占用了非常多的计算资源。为解决上述问题,本文设计了一个基于 3D CNN(Three Dimensional Convolutional Neural Network)的非遗视频镜头边界检测模型。模型分为两个部分,第一部分的视频帧特征表示会利用到卷积神经网络的高层输出,通过计算出帧间差可以将大量非镜头边界帧舍去;第二部分由三维卷积神经网络来识别候选边界帧中的切变。实验结果表明,该模型的切变镜头检测精度比传统方法提高了 10%以上。识别出边界帧后,本文将边界帧作为关键帧输入目标检测模型,目标检测的主要任务是从图像信息中检测并定位特定的目标。本文对基于深度学习技术的SSD(Single Shot MultiBox Detector)目标检测算法做了进一步研究,原始SSD算法的缺点是选取候选框时特征图的尺度差别大且对小目标的识别效果欠佳。针对这一问题,本文使用特征表达能力更强的ResNet 50网络去代替原始SSD算法里的VGG16网络。同时设计了特征融合模块,组合了深层特征图与浅层特征图。实验结果表明,改进之后的SSD目标检测算法mAP精度较原始SSD算法提升了 5.2%,有效地改善了 SSD算法检测目标的能力。