论文部分内容阅读
通过对大样本数据进行有效的表征、学习和推理,实现对图像、视频等在内的多媒体信息的自动理解是计算机视觉的主要研究内容之一。不同的视觉分析处理过程具有天然的层次特性和内在关联。低层视觉任务通常直接对二维像素点阵进行处理,求解结果可以为中高层分析理解过程奠定有效的基础;中层视觉任务主要围绕图像视频中所包含的兴趣目标展开研究,分析获得静态目标的固有属性和动态目标的运动状态。作为低层与高层任务之间的桥梁,中层视觉分析过程既可以为低层操作提供新的信息指导,同时也可以为高层理解提供有效的视觉线索。高层视觉任务进一步通过研究各目标之间的基本性质和相互关联,获得对整个输入视觉信息的客观解释和知识描述,所得到的理解结果可以通过自顶向下的反馈过程,形成对中低层视觉任务的引导和约束,提高中低层操作的计算效能。围绕不同层次的视觉分析任务,现有多数研究方法通常遵循样本独立同分布假设,通过使用机器学习算法对所获取得到的视觉感知信息进行建模和分析,从而获得基于计算的理解结果。由于所获取的原始特征通常存在大量的冗余和噪音,因此很难建立鲁棒的分布表达;更重要地,由于视觉信息之间的内在逻辑和结构关系被忽略,仅依靠低阶统计量无法准确的描述出真实数据的内在关联,从而导致求解结果容易陷入局部最优,引起信息的错误理解。分析样本间结构信息的高阶统计特性,在多层次计算机视觉任务的分析求解中,以先验或约束的形式融入视觉信息的结构化关联表达,建立原始特征数据与中高层语义知识之间的相互关联,为解决上述问题提供了有效的途径,因此具有重要的研究意义。基于此,本文从结构化分析的角度入手,重点围绕多要素多模态视觉数据间的结构关联问题展开研究。通过在不同层次的视觉任务分析求解过程中,融入有效的结构化描述,捕捉不同视觉要素间的相互影响与约束,建立原始特征数据与结构知识描述之间的内在联系,从而指导不同物理实体下的视觉分析求解过程。论文的具体研究内容如下:(1)围绕低层视觉分析处理任务,针对像素点阵标签求取过程由于缺少先验信息指导,导致对应图像分割结果破碎无实际意义这一问题,提出多尺度马尔科夫随机场模型下的标签重标记及映射法则。通过构建视觉特征与无向图模型节点之间的相互关联,从而将原始数据的结构关系转化为模型计算下的先验信息表达。通过分析同一尺度内节点在空间邻域中的一致性和不同尺度间节点在特征关联下的相似性,设计不同尺度下的先验标记获取算法。通过分析立体结构模型节点之间的内在联系,有效的融入先验信息的表达,提高图像分割的准确性、鲁棒性和普适性。(2)围绕中层视觉分析处理任务,针对静态目标识别过程由于缺少有效的生成结构描述,导致特征相似目标存在大量误识别现象这一问题,提出一种新的时序关联隐狄利克雷分配模型。通过建立不同层次视觉要素与有向概率图模型中不同节点间的对应关联,获得待识别目标在有限个组成成分下的生成描述。进一步,通过引入后验判别和开关变量,建立特征数据在连续采样运算中生成表达的时空关联约束。通过构建不同视觉要素更加有效的生成式结构表达,指导中高层知识的推理运算,提高目标识别的准确性和计算效率。(3)围绕中层视觉分析处理任务,针对目标在运动过程中不同类别标签下的动作存在大量相似的运动形态,影响动作检测的判别性能这一问题,提出多视角下的判别字典学习框架。通过构建同时包含共享字典和特定类别子字典的通用字典,从而更好的刻画不同动作的特有属性。通过引入组稀疏和局部限制性稀疏约束项,从而在编码描述中保存视觉特征的相互关联和内在结构。此外,多视角下的特征表达进一步通过稀疏编码的方式被更好的融合在一起,从而获得更加鲁邦的运动形态描述。通过分析不同类别运动特征之间的内在关联和结构关系,提高动作描述的判别特性和动作识别的准确率。(4)围绕高层视觉分析处理任务,针对有限样本下判别模型对训练样本敏感,导致分类器学习结果泛化性能较弱,影响场景分类性能这一问题,提出贝叶斯先验约束下的混合判别方法。通过在判别学习框架下引入完整的生成学习过程,建立待分类场景在有限个组成目标下的生成结构描述。通过定义反馈推理融合机制,对不同质分类器下的预测结果进行样本筛选和标签决策,从而自动扩展训练样本集,实现模型的有效更新。通过构建不同质分类器在决策层的融合,指导场景层中高层知识的推理求解过程,提高模型判别性能,从而获得更高的场景分类精度。