论文部分内容阅读
数字图像的井喷式增长为图像的充分利用提供了坚实的基础,挖掘出图像内容背后隐含的深层次语义信息,也是图像理解领域的重要任务。图像数量的增长对于图像理解的准确度和图像处理的速度提出了更高的要求。首先,图像理解的智能化,要求尽可能地缩小图像内容表示和图像语义理解之间的语义鸿沟。其次,海量图像对于图像处理的时间性能也提出了更高的要求。因此,高效准确地对图像进行自动语义标注迫在眉睫。目前,已有大量研究人员对基于语义的图像标注和图像语义融合等算法展开研究,但是图像理解领域仍然存在许多亟待解决的问题,主要表现在以下三个方面:(1)现有的图像标注的效率和准确率无法满足海量图像的处理需求。图像数量的大幅增长对图像工程的关键技术提出了前所未有的挑战。图像分割、图像语义标注、图像语义融合等算法的性能直接影响图像检测和图像分类等后续环节的准确度。因此,如何实现准确高效的图像自动标注是一项很有挑战性的研究工作。(2)现有的图像分割忽略了图像的空间信息或图像子块之间的位置关系,导致图像分割准确率不高。在图像分割算法中,颜色信息是很重要的图像属性。因为颜色直方图具备旋转不变性、平移不变性和缩放不变性等优势,所以颜色直方图的应用较为广泛,但是,因为颜色直方图缺乏像素点的位置信息,所以颜色直方图也在一定程度上影响了图像分割和图像分类的准确率。在颜色直方图的基础上,附加上像素点或图像子块的位置信息,可以减少错误分割,提高图像分割的准确性,这是一项有意义的研究工作。(3)不同的标注系统产生的图像标注词在语义上存在歧义或冗余。将图像的不同标注信息进行融合,给图像提供完备的、准确的语义信息,这是一项很有意义的工作。目前的图像理解系统在处理图像语义时,很难挖掘出图像内容以外的高级语义,比如场景语义和情感语义。因此,图像检索的结果与人们的需求之间还存在着难以逾越的语义鸿沟。旨在消除计算机理解和人类实际需求之间语义鸿沟的图像语义标注和图像语义融合是当前图像理解领域的研究热点。针对以上问题,本文进行了以下三个方面的研究创新工作。(1)提出一种基于分层的图像语义标注模型。该模型充分利用了图像的全局特征和局部特征的不同作用。整个模型的工作流程分为模型训练阶段和图像标注阶段。在模型训练阶段,利用场景语义树的结构,将场景语义和图像的视觉特征建立关联。在图像标注阶段,利用待标注图像的全局特征将图像归类到某一特定场景,并找到场景对应的场景语义树。然后,根据待标注图像的局部视觉特征,图像在场景语义树中游走,直到某个叶子节点为止,图像在场景语义树中所经过的所有节点的语义标注词的集合即为该图像的语义标注。本文构建了场景相关的场景语义树,对场景内的语义信息进行合理的组织和管理,从而提高图像标注质量。此外,本文提出的语义标注算法在视觉特征的处理过程中采用了模糊聚类算法,这也在一定程度上提高了本文标注算法的准确度。在本文算法中,语义标注词的选择需要结合自然语言处理的语义提取机制,对图像提供的标注词也要符合自然语言的语义层次。根据以上几条标准,本文对于常见的几种场景分别建立对应的场景语义树。(2)提出一种基于模糊聚类和空间信息的图像分割算法。该算法结合图像的颜色直方图和空间金字塔,实现了不同尺度的图像颜色直方图信息提取,促使图像子块的分类和分割更加灵活。由于空间金字塔本身包含了各尺度下图像子图的位置信息,因此,本文提出的图像分割算法大大提高了图像分割的准确率。(3)提出一种基于语义相似度和多特征融合的图像语义融合算法。该算法将两个图像的语义信息进行融合,得到更为全面、更加准确的图像信息。本文提出的基于语义相似度和多特征融合的图像语义融合算法,主要有以下四点贡献:第一,给出语义概念之间相似度的计算方法,以衡量不同语义之间的接近程度;第二,为不同的视觉特征赋予不同的权值,体现了不同特征在图像分类中的不同重要性;第三,权值不同的语义信息使得图像语义融合的结果更加全面和完备;第四,在形成最终语义标注词的过程中使用了 FCM模糊聚类方法,将大量存在冗余的标注词集合用模糊聚类的方法进行集约,保留核心标注词,提高了图像标注的准确性和完整性。通过不同数据集上的实验数据验证,本文得出了以下结论:(1)提出了一种基于分层的图像语义标注模型,充分发挥图像的全局特征和局部特征在图像分类中的不同作用,构建了场景相关的场景语义树,提高了图像语义标注的准确性并降低了标注的时间复杂度。(2)提出了一种基于模糊聚类和空间信息的图像分割算法,该算法结合图像的颜色直方图和空间金字塔,提高了图像分割的准确率。(3)提出一种基于语义相似度和多特征融合的图像语义融合算法,将两个相关图像的语义信息进行融合,得到更加全面的标注信息。