论文部分内容阅读
视频以及图像信息在无人驾驶、视频监控、目标定位等社会、经济和国家安全领域中的需求持续迅猛增长,使其呈现出对象复杂性、媒体数据规模化、应用需求多样化的特点。这些信息既可被人直接感知并理解,也可被计算机处理利用。动物视皮层的信息处理机制与传统的基于像素的计算机视觉在信息处理基本原理、计算模式和方法上有着本质的差别,目前的计算机视觉针对复杂非结构化场景的处理能力和效率都很难与视觉系统相比较,很难满足现实应用的需求。结合视觉认知等相关科学,探索更符合生物学机理的实际计算模型并改进现有的计算机处理模式代表了目前目标定位技术研究发展的主要趋势。本文围绕视觉感知特征提取、表达与计算这一核心科学问题。基于有效编码假说和视觉系统是适应自然环境结果的假设,在视觉信息稀疏编码模型基础上,以自然图像的统计特性为切入点,研究模拟复杂视觉信息处理模式的稀疏超完备表示方法,建立并完善模拟初级视皮层(Ⅵ区)复杂信息处理机制的稀疏超完备视觉计算模型,用以改进传统方法,解决由于许多不确定因素或无法预测状态的存在而导致的非结构化场景中目标识别的能力和效率问题。然而,由于超完备增加了稀疏分解的组合搜索难度,同时改变了输入空间与编码空间的对称性,使得模型求解和计算及应用方法变得复杂。因此,进一步提出了应用视觉计算模型相关的关键算法,解决提取有效的自然图像统计特征的问题,并基于上述模型和算法提出针对非结构化场景目标定位方法。实验结果验证了模型和算法的正确性和有效性,主要研究结果包括:(1)基于视觉系统是适应自然环境的结果的假设,以自然图像的统计特性作为问题的切入点,阐述当前与图像统计特性相关的动物视觉生理实验结果及相关信息处理机制,归纳总结并形成相关计算方法、优化判据和优化算法基础。(2)在上述研究基础上,模拟Ⅵ区稀疏编码机制、超完备表示机制和感受野机制,建立了基于稀疏超完备的视觉计算模型。首先从自然图像中学习简单细胞感受野超完备集,然后对自然图像有效特征进行表示,最后提取了形成视像的有效信息。(3)针对非结构化场景中的目标定位问题,进一步提出基于神经元响应及动态阈值方法相结合的自动目标定位算法,采用基于目标指导的方法,解决了复杂非结构化场景中的多类别误差去除问题。验证了算法的正确性和有效性。实验结果表明,该算法能够提高复杂非结构化场景中的目标定位准确性和实时性。