论文部分内容阅读
随着大数据时代的到来,深度学习技术已经在许多领域得到应用。在目标检测、语音识别、自然语言处理等任务中,在准确率以及速度上,都超越了传统方法。将计算机视觉技术运用于日常动态场景中训练真实的样本,使得我们有机会满足日常生活中的需求。本论文针对室内日常生活的动作识别,结合了近年来的方法并加以改进,使得神经网络训练更加快速和有效。在数据库选择上,使用一个日常行为数据库Charades,将数据集的偏差从网络图片转移到真实场景中。在数据处理上,使用了裁剪和水平翻转来进行数据增强。在神经网络选择中,参考I3D模型,使用一种新型的双流3D卷积神经网络。在该网络中,我们通过在2D卷积网络中新增一个额外的时间维度,将其改造成3D卷积网络,利用2D卷积核权重多次采样来对3D卷积核权重初始化,在感受野中引入时间域,并尝试时间域上合理的步长。使用两个3D网络分别训练时间序列和空间序列的特征,求得这两个网络分类准确率的平均数,并对比了当下效果较好的双流卷积神经网络和3D卷积神经网络。对于参数初始化,使用2D的ImageNet模型做参数展开以及使用Kinetics进行不同方式的预训练,并对比其效果。在训练时,使用批量正则化方法,用以提高网络的训练速度,同时提高收敛后的分类准确率。最后,使用不同分辨率的图像作为输入以训练网络,并得到了行为识别时适宜的图像分辨率值。实验结果表明,本文所使用的方法,快速而有效。