【摘 要】
:
场景分类是场景理解中的一个基本问题,它主要用于自动标注图像所属的场景类别。为了实现场景分类,通常需要完成两部分工作:图像特征的提取和表示;选择合适的算法和分类器。本
论文部分内容阅读
场景分类是场景理解中的一个基本问题,它主要用于自动标注图像所属的场景类别。为了实现场景分类,通常需要完成两部分工作:图像特征的提取和表示;选择合适的算法和分类器。本文的研究工作主要集中在第一部分。使用单尺度的方法对图像进行局部特征提取时,如果尺度过大,则会包含一些冗余信息;而如果尺度过小,则会丢失图像邻域之间固有的空间结构信息。为此,本文提出一种基于多尺度的方法,即对图像不同位置的子区域采用不同的尺度来进行特征提取。此外,我们还提出使用分类别多次聚类的方法来优化特征词典的构建。使用LDA主题模型来进行的实验证明了本文提出的方法是有效的。在场景分类时,通常都需要对图像的全部区域进行特征提取。但过多的数据会导致分类方法效率较低,也会带来一些噪声。我们知道,人的视觉注意力很容易被场景中的显著区域所吸引,因此人的视觉注视区域与显著性存在一定的相关性。而这种高级的认知行为可以通过眼动信息反映出来。因此本文又提出将眼动信息引入图像的特征提取阶段,从而得到每幅图像的显著区域,并对其进行分类。使用空间金字塔匹配模型和支持向量机来进行的分类实验结果显示,我们的模型在一些场景中取得了比较好的分类效果;而且整个模型在参数学习和测试这两个部分的效率有了明显提升。在模型部分引入眼动信息并且取得一定提升的基础上,我们尝试从自顶向下的视角,利用眼动分析来探讨人类对场景的认知机理,为此我们进行了两个眼动实验。在实验数据的基础上,我们从视觉注视区域的位置分布及图像熵、视觉注视点的停留时间、眼动路径等方面分析了人眼的视觉注视机制。分析表明,眼动的关注区域不仅具有极大的信息量,而且与场景类别特征存在很大的相关性,这就为进一步建立符合人类视觉认知机理的场景分类模型提供了论证依据。
其他文献
当处于强辐射的环境下时,出于对工作人员的保护,通常需要使用专用的机械装置来替代人类进行作业,核环境操作机械臂即是其中一种。当出于操作空间或任务等要求,机械臂被设计得
非线性现象在工程技术、经济和社会等众多领域中普遍存在,而非线性系统理论方法还远没有线性系统理论方法成熟。这方面的研究一直是控制界的难点,近年来随着微分流形、微分几何
1982年,波兰数学家Z.Pawlak教授提出粗糙集理论(Rough Sets Theory)。它是用等价类的思想来研究问题,通过上近似,下近似两个集合来定义一个不可定义的集合X。X是一个静态的集
人体三维姿态重构是指通过从单视角、多视角拍摄的数字图像或视频序列中恢复出目标人体的三维空间信息的过程。基于单目图像的人体三维重构主要是根据给定的单目图像,通过提
自从上个世纪80年代以来,随着永磁材料性能价格比的不断提高和电力电子器件的进一步发展,永磁同步电动机(PMSM)调速控制技术的研究也进入了一个新的阶段。目前永磁同步电动机调速系统越来越多地应用在各种工业场合,研究高性能永磁同步电动机调速控制技术具有重要的理论意义和实用价值。系统采用了TI公司专用于电机控制的TMS320LF2407A型数字信号处理器(DSP)作为核心,设计并开发了全数字化的PMSM
信息融合(Information Fusion)亦称为多传感器信息融合,是通过对来自多种类传感器的数据进行多级别、多方面、多层次的处理与综合,以期获得比单传感器更丰富、更精确、更可靠
目标跟踪一直是计算机视觉领域一项重要的研究内容,有着广泛的应用前景。本文的主要研究内容集中在两个方面:针对单目标跟踪领域,提出了基于区域学习及区域间结构约束的跟踪
相比于传统的单移动机器人系统而言,多机器人系统作为冗余系统,具有重配置、变结构等特点,因而可以降低系统成本、提高系统的效率和鲁棒性。多机器人编队是指多个自主移动的
无线传感器网络由于具有成本低、易于部署、自组织等特点受到了广泛的关注,并在军事、环境、家居和工业监测等方面得到很好的应用。由于传感器节点大多部署在开放的环境中,很
在科学技术高度发达的今天,现代工业对系统控制精度的要求不断提高,通过建立系统的精确模型来对其进行控制变得越来越困难。与此同时,在如今的信息社会,大量信息和数据不断产