基于自编码器框架的草图生成与分割方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:mini_fc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展与进步,人们身边出现了越来越多的智能设备,这些智能设备其中很大一部分是带有触摸屏的设备,包括平板电脑、智能手机。这些智能设备深度参与了人类的生活,也很大程度上改变了人类的交流方式。在这个快节奏的社会,人们倾向于使用草图这种既简洁又蕴含丰富信息的信息载体来进行交流,这也促使了大批草图相关的应用领域的产生,包括草图生成、草图检索、草图识别等。与此同时,随着深度学习的蓬勃发展,其在自然图像的相关领域,包括图像识别、图像生成、图像分割等都取得了巨大的成功。然而,由相机获得的二维自然图像通常都是现实世界的完美拷贝,手绘草图不同,它是通过人类大脑加工过的产物,具有很强的主观性。在视觉领域,手绘草图是一个特殊的模态,这也决定了将自然图像领域的方法直接套搬到草图领域是不合适的,手绘草图领域的方法需要有特殊的设计和思想。为了方便计算,在计算机中手绘草图通常会被存储为二维的像素图片,然而,这种存储方式会获得一个高度稀疏的矩阵。人类绘画草图的过程是一个动态的过程,像表示自然图像那样表示草图,虽然可以保留很多草图视觉形状上的信息,但也必然会丢失很多绘画时的动态信息。用矢量形式表示草图的优势就是可以保留绘画时笔画的时序信息,本文在草图生成和草图分割两个方面所做的的工作均是从矢量草图的角度来切入研究的。本文的主要工作和创新点如下:1、提出了一个基于对抗自编码器框架的矢量草图生成方法。一方面是出于人机交互的需要,想要提升机器对草图蕴含信息的理解;另一方面,获取草图的人力成本要比自然图像高得多。如果能教会机器像人类那样绘画一幅草图,那么这两方面的问题就能得到很好的解决。然而,现有的矢量草图生成方法大多都是基于变分自编码器的框架。而变分自编码器在矢量草图的生成上和在像素化自然图像的生成上都存在模糊问题。同时现有的草图生成方法都只利用了草图的单一表示形式。针对现有方法存在的生成结果潦草,以及编码草图信息单一等问题。本文提出了一种基于对抗自编码器的矢量草图生成方法。该方法借助对抗自编码器自身所具有的对抗的机制,将像素化表示的草图所具有的空间信息融合到矢量草图的生成过程中,使得生成的草图具有更好的类别形状信息。既利用了矢量草图所包含的笔画间的时序信息,又利用了像素草图所包含的绘画物体的形状信息。在Quick Draw数据集上进行了草图生成以及隐空间插值实验,并使用Skescore评价指标进行了量化度量,实验结果表明所提方法能够缓解生成结果出现的潦草效应,并且生成的草图具有更好的视觉美观性和更高程度的类别可辨识性。2、提出了一个融合类别语义信息的多类草图语义分割方法。草图的语义分割是更细粒度的草图理解任务,同时也是很多草图相关任务的基础。现有的基于图像的方法将这一任务看作是一个自然图像的语义分割问题,使用基于卷积神经网络的架构来处理草图分割问题,这类方法的缺点是忽略了草图是由一系列笔画所组成的,这些笔画之间具有一定的时序等信息;相反地,基于序列的方法将这一任务看作是一个序列预测的问题,使用相对坐标以及笔画状态来编码草图笔画间的时序等信息,再用循环神经网络结构来预测数据点标签,然而,这类方法忽略了草图的视觉形状信息对分割结果的影响。本文提出的融合类别语义信息的多类草图语义分割方法,针对现有方法存在的上述问题,选择从序列的角度来预测每个数据点的标签的同时,又融入了像素草图所具有的视觉形状信息。基于变分自编码器的框架,编码器使用卷积神经网络编码像素草图具有的视觉形状信息,再将信息送入到使用循环神经网络结构的解码器中,帮助数据点部件标签的预测。为了减轻不同草图类别之间存在的形状相同、绘画模式相同的部件,对分割精度带来的影响,本文还在编码器的尾端增加了分类损失,促使编码器将草图的类别语义编码到隐空间。在SPG数据上进行了草图分割实验,并使用了P-metric和C-metric评价指标对分割精度进行了量化度量,实验结果表明融合视觉形状信息以及类别语义信息对多类的矢量草图语义分割有益,也验证了所提模型的有效性。
其他文献
语义网技术的不断演进和发展,推动了机器对Web数据的智能化理解,并催生了众多的知识图谱。知识图谱以符号化的形式描述现实世界中的实体及其相互关系,结构化地存储着大量描述
球团矿较高的还原膨胀率一直对其入炉比例造成影响,为探究球团矿还原过程中产生恶性膨胀的问题,本论文利用第一性原理计算软件,对铁氧化物还原过程的产物进行晶胞体积的计算,比较不同还原产物的体积变化;采用还原气H_2对纯试剂Fe_2O_3压条进行还原实验,使用PCY-G膨胀仪进行在线检测,通过对比不同还原温度、还原时间和焙烧温度条件下还原产物的外观形貌与显微结构,解释还原反应产生膨胀差异的原因。研究结果表
氢化丁腈橡胶(HNBR)由于具有显著的超弹性、粘弹性和良好的耐油、耐磨、耐压性能等优点,被广泛地应用于密封元件、冲击吸能模块和滚珠轴承垫片等工业场景中。对于高分子材料而言,应力松弛是一种十分普遍的现象,其对应力/应变加速老化过程的影响不可忽略。因此,考虑松弛效应的加速老化实验方法,可以为预测橡胶制品长期服役过程中的性能表现和评估其可靠性提供有效的帮助。为研究应力松弛对HNBR加速老化的影响,本文开
的本质是一个信息抽取与处理过程,然而目前自动文本摘要技术的研究往往基于经验主义与实用主义方法,缺乏利用信息论框架进行有效的分析、指导与改进。本文首先基于Peyrard的
目前商业化主流产品碳基超级电容器存在能量密度低的瓶颈问题,研究表明调控碳电极材料的微观结构和理化性质有助于提高其储能密度,然而,超级电容器能量密度的提升通常伴随着功率特性的降低。本文针对上述问题,开发出一种三维碳超球体新材料,重点探讨了三维碳超球体微结构对双电层建立行为的影响机制,并拓展其在柔性微型固态超级电容器上的应用。具体研究内容如下:1.针对碳电极材料,我们结合原位转化和非原位模板限域组装法
培养拔尖创新人才是建设创新型国家的需要,也是高等学校的历史使命以及自身发展的内在要求。近些年来本硕博贯通式人才培养成为高校推进教育教学改革、培养拔尖创新人才的重
在市场竞争环境中,垄断协议的危害极为严重,因此世界各国是集中力量调查、打击垄断协议,然而,垄断协议与生俱来的隐蔽性特点,加之其参与者为逃避反垄断执法机构的调查而采取
获取最为精确的分类效果从来都是机器学习方法所追求的研究目的,大多数的机器学习分类模型,一般都是根据平衡数据所设计的,模型只追求整体的分类性能。在做分类问题的数据挖
信息传输的安全性是通信系统的重要性能指标。物理层安全以信息论为基础,利用无线信道的随机性和时变性实现信息的安全传输。多输入多输出(Multiple Input Multiple Output,M
随着互联网和社交网络技术的迅速发展,一些大型的社交软件,如Wechat、Facebook、Alibaba等的出现使得人与人之间通过社交网络联系更加紧密,如何才能使信息传播的影响最大化已经成为近年来研究的热点问题。而影响最大化需要解决的一个重要问题是如何加强用户之间的联系,挖掘用户在社交网络中进行信息传播的潜力,使得社交网络信息传播范围更加广泛。近年来社交网络影响最大化问题在信息扩散和口碑营销中进行