论文部分内容阅读
作为一种常见的表达方式,手绘草图在人类生活中发挥着十分重要的作用,可以方便地用于描绘物体、勾勒故事情节、设计建筑等。手绘草图所具有的抽象表现力和灵活性使其能够很好地与图像检索、场景生成等实际应用相结合,导致对于手绘草图的处理和理解的实际需求日益增加。但是,当前图像理解领域的工作主要针对的是真实图像数据,而面向手绘草图的研究相对较少。相比于真实图像,手绘草图仅包含若干简要线条,没有颜色和纹理等信息,且数据十分匮乏。此外,由于人类个体绘画技巧等主观因素的影响,手绘草图在形象程度、外观和细节等方面都表现出了非常大的差异,这使得面向手绘草图的语义理解成为一个极具挑战性的任务。如何将计算机自动化技术与手绘草图结合起来,实现对手绘草图数据的深层理解和高效挖掘,以提高创作者或设计人员的工作效率,满足用户多样化的应用需求,是一个非常有价值和具有挑战性的研究课题。手绘草图的语义理解研究主要面临着两方面的挑战:一是底层特征与高层语义及真实图像和手绘草图之间存在的语义鸿沟,二是手绘草图数据匮乏及类内差异过大。此外,现有方法还未充分考虑手绘草图的表达能力与视频语义理解的关联性。针对手绘草图语义理解中存在的上述挑战和问题,本文从手绘草图的数据特性出发,采用语义驱动的方式从多个层次来探索和研究手绘草图的语义理解理论与方法。具体地,本文的研究内容和主要贡献包括以下四个方面:首先,提出了一种弱监督的有判别力图像块挖掘方法,旨在通过块级的中层表示来减小底层特征与高层语义之间的语义鸿沟。为了找到不同的草图类别中最具有判别力的图像块,首先通过K-means算法在随机采样的大量图像块上进行初始聚类,并设计了一个迭代搜索的算法来更新聚类内的相近图像块。此外,还提出了一种聚类融合的策略及判别力排序算法以得到更好的有判别力图像块的挖掘结果。在TU-Berlin数据集上的实验结果证明了所提出的有判别力图像块挖掘方法的有效性,并在手绘草图识别任务上表现出了一定的实用价值。其次,针对手绘草图的部件级语义解析,提出了一种基于CNN的手绘草图语义解析框架,包括三方面的贡献:1)提出了一种同质转换方法来解决跨域适应的问题。真实图像与手绘草图的跨域适应是手绘草图的部件级语义解析中不可避免的一个问题,与现有方法利用真实图像的边缘图来近似手绘草图的方式不同,所提出的同质转换方法旨在通过将两个不同域的数据转换到一个同质空间中来缩小二者的语义鸿沟。2)设计了一种软加权损失函数来为网络训练提供更好的指导。相比于标准的交叉熵损失函数,所提出的软加权损失函数能够更好地处理模糊标签边界和类间数据不均衡的问题。3)提出了一种阶段学习的策略来改进模型的解析性能。这种策略不仅考虑到不同草图类别的数据特性,而且能够充分利用类间的共享信息。在公共的SketchParse数据集上的实验结果表明,所提出的手绘草图部件级语义解析模型取得了当前最优的性能。再次,针对手绘草图的目标级语义理解,提出了一种面向手绘草图的特定数据增强方法,旨在从数据规模和质量上来提高语义理解的能力。在数据规模方面,提出了一种基于Bezier控制点的形变方法来生成大量新的手绘草图。可以直接应用在原始的手绘草图上,而不需要关于草图线条的时间序列信息。由于不受限于具体的草图数据类型,因而能在更广泛的应用中发挥作用。为了改进手绘草图的质量,提出了一种基于平均线条重构的方法来生成新的形式的草图数据。通过在训练集上计算得到的平均线条来重构原始的手绘草图,能够有效地减小草图间的类内差异。不需要大量的真实图像数据,也不依赖于任何的额外数据信息,因此在训练时的计算复杂度较低且减轻了数据采集的成本。在TU-Berlin和Sketchy-R数据集上的实验结果证明了所提出的方法的实用价值。最后,将手绘草图的抽象特性引入到视频动作理解中,提出了一种动作草图时空表达法,旨在实现视频语义匹配中有代表性的人类动作识别任务。通过分析动作视频中草图需要满足的特性,建立了一个自动挖掘最有判别力的动作草图的系统。对于包含有人类动作的视频,可以实时生成对应于每个片段的动作草图。接着,提出了一种动作草图的判别力排序算法,最有判别力的草图能够很好地代表它们所属的动作类别。基于这些最有判别力的动作草图,应用多种草图池化的方法来生成一种新的动作表示。最后,这种新的动作表示将会与基于局部特征的表示如改进密集轨迹方法相结合以提高动作识别的性能。通过上述研究,本文对手绘草图语义理解的不同层次进行了深入的探索,为其中存在的关键问题提供了切实有效的解决方案。结果表明:语义鸿沟的问题在手绘草图的语义理解中普遍存在,依据块级、部件级、目标级和时空目标级这四个层次建立的语义理解模型能够有效地建立手绘草图的抽象语义与视觉媒体之间的关联,同时很好地解决手绘草图相关的识别、解析、检索及视频动作识别等实际的应用问题。