论文部分内容阅读
随着科技的发展与进步,人们身边出现了越来越多的智能设备,这些智能设备其中很大一部分是带有触摸屏的设备,包括平板电脑、智能手机。这些智能设备深度参与了人类的生活,也很大程度上改变了人类的交流方式。在这个快节奏的社会,人们倾向于使用草图这种既简洁又蕴含丰富信息的信息载体来进行交流,这也促使了大批草图相关的应用领域的产生,包括草图生成、草图检索、草图识别等。与此同时,随着深度学习的蓬勃发展,其在自然图像的相关领域,包括图像识别、图像生成、图像分割等都取得了巨大的成功。然而,由相机获得的二维自然图像通常都是现实世界的完美拷贝,手绘草图不同,它是通过人类大脑加工过的产物,具有很强的主观性。在视觉领域,手绘草图是一个特殊的模态,这也决定了将自然图像领域的方法直接套搬到草图领域是不合适的,手绘草图领域的方法需要有特殊的设计和思想。为了方便计算,在计算机中手绘草图通常会被存储为二维的像素图片,然而,这种存储方式会获得一个高度稀疏的矩阵。人类绘画草图的过程是一个动态的过程,像表示自然图像那样表示草图,虽然可以保留很多草图视觉形状上的信息,但也必然会丢失很多绘画时的动态信息。用矢量形式表示草图的优势就是可以保留绘画时笔画的时序信息,本文在草图生成和草图分割两个方面所做的的工作均是从矢量草图的角度来切入研究的。本文的主要工作和创新点如下:1、提出了一个基于对抗自编码器框架的矢量草图生成方法。一方面是出于人机交互的需要,想要提升机器对草图蕴含信息的理解;另一方面,获取草图的人力成本要比自然图像高得多。如果能教会机器像人类那样绘画一幅草图,那么这两方面的问题就能得到很好的解决。然而,现有的矢量草图生成方法大多都是基于变分自编码器的框架。而变分自编码器在矢量草图的生成上和在像素化自然图像的生成上都存在模糊问题。同时现有的草图生成方法都只利用了草图的单一表示形式。针对现有方法存在的生成结果潦草,以及编码草图信息单一等问题。本文提出了一种基于对抗自编码器的矢量草图生成方法。该方法借助对抗自编码器自身所具有的对抗的机制,将像素化表示的草图所具有的空间信息融合到矢量草图的生成过程中,使得生成的草图具有更好的类别形状信息。既利用了矢量草图所包含的笔画间的时序信息,又利用了像素草图所包含的绘画物体的形状信息。在Quick Draw数据集上进行了草图生成以及隐空间插值实验,并使用Skescore评价指标进行了量化度量,实验结果表明所提方法能够缓解生成结果出现的潦草效应,并且生成的草图具有更好的视觉美观性和更高程度的类别可辨识性。2、提出了一个融合类别语义信息的多类草图语义分割方法。草图的语义分割是更细粒度的草图理解任务,同时也是很多草图相关任务的基础。现有的基于图像的方法将这一任务看作是一个自然图像的语义分割问题,使用基于卷积神经网络的架构来处理草图分割问题,这类方法的缺点是忽略了草图是由一系列笔画所组成的,这些笔画之间具有一定的时序等信息;相反地,基于序列的方法将这一任务看作是一个序列预测的问题,使用相对坐标以及笔画状态来编码草图笔画间的时序等信息,再用循环神经网络结构来预测数据点标签,然而,这类方法忽略了草图的视觉形状信息对分割结果的影响。本文提出的融合类别语义信息的多类草图语义分割方法,针对现有方法存在的上述问题,选择从序列的角度来预测每个数据点的标签的同时,又融入了像素草图所具有的视觉形状信息。基于变分自编码器的框架,编码器使用卷积神经网络编码像素草图具有的视觉形状信息,再将信息送入到使用循环神经网络结构的解码器中,帮助数据点部件标签的预测。为了减轻不同草图类别之间存在的形状相同、绘画模式相同的部件,对分割精度带来的影响,本文还在编码器的尾端增加了分类损失,促使编码器将草图的类别语义编码到隐空间。在SPG数据上进行了草图分割实验,并使用了P-metric和C-metric评价指标对分割精度进行了量化度量,实验结果表明融合视觉形状信息以及类别语义信息对多类的矢量草图语义分割有益,也验证了所提模型的有效性。