论文部分内容阅读
随着传感器技术的快速发展,视频传感器被广泛应用于视频监控系统和机器视觉领域中。在实际应用中,通常会同时利用多个不同种类的视频传感器来拍摄同一场景的内容以获得该场景的完整信息。为了充分利用不同视频传感器捕捉到的信息,可以通过视频融合的方法将不同传感器拍摄的视频融合到一个视频中,融合视频综合了不同视频传感器获得的重要信息,能够更加准确地反映该场景的内容。本文的主要研究工作及贡献如下:首先,较为详细地讨论了几种常用的视频融合算法,即:基于时空能量匹配、基于时空结构张量、基于脉冲耦合神经网络和基于高阶奇异值分解的视频融合算法。基于时空能量匹配的视频融合算法把视频当做一个整体进行融合,在时间一致性方面相比于基于单帧的视频融合算法有一定的提升,但是该算法采用相同的融合规则对输入视频中的空间信息和时间信息进行融合,在一定程度上降低了融合视频的时空一致性。为了提高融合视频的时空一致性,基于时空结构张量的视频融合算法采用不同的融合规则对输入视频中的空间信息和时间信息分别进行融合,但是却增加了运算复杂度。上述两种算法在输入视频包含噪声的情况下,无法获得令人满意的融合效果。基于脉冲耦合神经网络的视频融合算法能够在噪声强度较小情况下获得不错的融合效果,但是当噪声强度很大时,该算法获得的融合视频中仍然包含较多噪声,并且该算法的计算复杂度较高。基于高阶奇异值分解的视频融合算法很好地解决了噪声环境下的视频融合问题,同时其具有较高的运算效率,但是该算法利用高阶奇异值的分解结果表示空间背景信息,对所有帧采用相同的空间特征图,这在一定程度上降低了融合视频的时空一致性。其次,针对上述算法存在的问题,提出了一种基于三维Surfacelet变换(three-dimensional surfacelet transform,3D-ST)和矩阵低秩与稀疏分解(也称鲁棒主成分分析,robust principal component analysis,RPCA)的视频融合算法。该算法的步骤如下:(1)对输入视频进行三维Surfacelet变换,获得相应的低频子带和带通方向子带;(2)利用RPCA对获得的带通方向子带进行进一步分解,分别得到具有低秩特性的背景信息部分和具有稀疏特性的运动目标信息部分;(3)分别对上述步骤中获得的低频子带系数、背景信息部分和运动目标信息部分进行组合,得到融合视频的Surfacelet变换系数;(4)对获得的Surfacelet变换系数进行三维Surfacelet逆变换得到融合视频。最后,大量的实验表明,本文提出的视频融合算法在时空信息提取方面和时空一致性方面相比于已有的几种视频融合算法都有更好的表现。