论文部分内容阅读
近几年来,随着社交媒体以及手持电子拍照设备的迅速发展,互联网上的图像以惊人的速度增长着,这无疑给图像理解带来了新的挑战。如何高效,准确的理解这些图片成了计算机视觉领域的一个热点问题。本文将从两方面入手对图像理解进行研究与分析:1),研究基于语义团的高层图像描述方法,该方法可以编码物体之间的高阶依赖关系,进而可以有效的提高场景分类的准确率。2),研究基于高层语义的特征选择模型,针对特定的语义场景,选择最有判别力的底层特征子集,从而在物体识别和场景分类中获得更好的效果。在方法1)中,本文提出了一个以物体团作为属性的图片表示方法。相比于基于单个物体的描述,基于物体团的描述符能包含更多地语义信息,这样可以有效缩小语义鸿沟。在方法2)中,本文提出了两个模型引导有监督的结构化稀疏的特征选择:空间路径编码(SPC)和语义图上的物体编码(OCSG)。SPC是一个正则项,它用来编码金字塔模型下得到的特征之间的空间关系。在SPC模型中,每一维的特征都被看成是一个有向无环图中的一个顶点,特征间的空间关系被看成是带权值的有向边。这样,有监督的特征选择的过程就可以直接形式化到最小代价路径选择问题。与其他目前最好的分类和识别方法相比,SPC模型取得最好的实验结果。在OCOG模型中,先对大量的带标签的图片进行统计,并且计算物体之间的依赖度,得到先验知识。然后,用一个图对物体间的语义关系建模。这个语义图把每个物体看成是一个顶点,物体之间的语义关系看成是带权边。由于把语义关系编码到语义图里边,OCSG能够自动的选择出一个物体团的集合表示特定的场景。实验结果表明OCSG能够帮助提高场景分类的准确度。