基于生成对抗网络的文本生成图像研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:mugua220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本生成图像(Text-to-image Generation)旨在基于自然语言描述的文本生成相关图像,实现从文本模态到图像模态的转化,并保持语义。文本生成图像对于新闻自动配图,用户需求画像等图像生成应用具有重要意义。文本生成图像研究,作为一个交叉问题,涉及到自然语言理解和图像生成两个热门研究领域。该问题的研究也为文本嵌入和生成模型技术提供支撑。当前的文本描述通常是一个描述物体属性的说明性语句,比如“这只带有窄尖鸟喙的鸟是黄色的”。传统的基于组合拼接的方法难以生成细粒度的、视觉表现自然真实的图像。随着深度学习和生成对抗网络的出现,模型能够以端到端的方式,一次性的生成图像。然而当前的图像生成以无条件、基于噪声的居多,目前只有少数工作针对文本条件的图像生成进行了初步探索。当前相关研究就输入文本粒度可分为词级图像生成和句级图像生成两个方向。其中词级图像生成致力于从单个实体词语来生成图像,实体词语通常使用类标记表示,表示孤立且单一,蕴含的信息也难以支撑细节丰富的图像。句级图像生成致力于从单个句子来生成图像,然而当前方法倾向于从整个句子提取嵌入表示,没有考虑到句子中一些实体词语对于目标图像生成的重要性。本文围绕词级和句级两个层次展开研究,并尝试将它们结合起来。论文的主要工作包括如下:1)提出一种基于变分条件生成对抗网络的词级图像生成方法。传统条件生成对抗网络中的生成器将条件向量与噪声连接起来作为输入表示,进行上采样操作逐级放大输出图像。然而潜在的条件信息并未得到充分利用,尤其对于词级图像生成任务而言,其条件向量是一个独热编码的实体词语。因此本文将变分推断技术引入条件生成对抗网络,提出了一种变分条件生成对抗网络模型(Variational Conditional GAN,VCGAN)。VCGAN模型首先从条件输入中推断一个语义更加丰富的隐变量,进而采样获得一个概率的、多样的条件表示来捕获原始条件背后的丰富语义细节,从而提高了图像生成质量和多样性。定性和定量的实验结果表明,VCGAN模型在词级任务上优于以往方法,同时扩展到句级任务上也获得了逼真的可控图像。2)提出一种联合实体知识学习的句级图像生成方法。现有方法通常以端到端的方式对整个句子进行编码来生成图像,没有突出其中的实体信息。然而句子中包括的实体词语对应目标图像中的主要部分,对于生成具有语义对齐、物体清晰的图像至关重要。例如,如果模型掌握“鸟在天上飞”这句话中两个关键实体——“鸟”和“天空”的图像信息,那么将可以更容易地生成包含这两个实体的图像。因此本文提出了一种联合实体知识学习(Entity Knowledge Learning,EKL)的句级图像生成方法,它基于实体信息和句子全局语义联合学习生成目标图像。具体而言,该方法引入一个词级生成网络从实体标记中学习实体知识,并分别尝试在图像特征空间和低维语义隐空间和句级生成网络进行表示融合,以在句子全局表示上突出实体信息,生成实体清晰、与文本描述语义对齐的图像。本文还提出一种新的度量标准——实体匹配评分(Entity Matching Score,EMS)。EMS用于测量生成图像与其对应文本描述的一致性匹配程度。实验结果表明,实体知识联合学习模型可以生成语义对齐更好,实体更加清晰准确的图像,并在两个常用数据集上显著优于基准模型。
其他文献
API推荐技术面向程序开发人员推荐符合当下编程场景的API方法,在现代软件开发过程中扮演着越来越重要的角色。在急剧增长的开发需求推动下,API推荐技术得到了快速发展,但对API推荐技术的评估却关注的很少。目前研究人员普遍采取的评估方法是从信息检索领域或者其他推荐领域借鉴而来,其中正确性的评估是研究人员和用户最关心的评估结果。但是本文通过实证研究发现,目前API推荐系统的正确性评估存在着以下问题:正
学习分布式且解耦的有效表示是无监督学习的一个重要研究方向,而由多个有效表示混合生成的场景在进行解绑识别时存在歧义问题,即绑定问题(Binding Problem),其广泛存在于视觉和语音等领域的现实应用中,如自动驾驶及虚拟现实中的场景分割和多演讲者语音分割等。感知成组(Perceptual Grouping,PG)是解决绑定问题的重要机制,其具备从复杂结构化输入场景中识别出各实体对象完整有效表征的
知识图谱表示学习旨在将知识图谱中的实体和关系编码到一个低维、连续的向量空间之中,以此来支撑不同领域的应用,如知识图谱补全、问答、推荐系统等。在现实应用中,知识图谱总是动态变化的,既会有新知识的加入,也会有旧知识的删除。大多数现有知识图谱表示学习模型都注重于对静态环境下的知识图谱进行编码,却忽略了其动态性。为了应对知识图谱产生的变化,这些模型需要花费很高的时间代价去重新训练整个图谱,而无法以一种更高
近年来,知识图谱规模迅速扩大,实体数量飞速增长,不同知识图谱之间实体匹配的重要性日益体现。实体匹配的质量依赖于知识图谱中实体的上下文,主要分为关系三元组、属性三元组和实体文本描述等三类。现有的相关工作只同时对其中的一类或两类实体上下文进行建模,没有同时对三类实体上下文进行建模。除此之外,现有相关工作中虽然有同时建模两类实体上下文,但是其中大部分并未平等对待这些实体上下文,并且对于多类信息不充分的实
中国人口老龄化等问题的加剧,给监护和安防等领域带来了巨大挑战。由于视频监控的逐渐普及化、低廉化以及视频的可视化、易存储等优点,它迅速成为替代人工管理的重要手段。如何高效地处理得到的视频数据,使其在满足特定场合的人体行为检测的精度要求的同时,又能兼顾效率,尽量满足实时性需求,一直是算法研究人员不断追求的目标。目前大多数的视频处理任务都基于特定场合,行为检测和识别的种类相对固定且较为单一。当传统方法利
在软件工程领域,软件开发的质量、效率和成本是软件开发过程中关注的三个核心问题。进入二十一世纪以来,随着互联网的普及,信息技术呈现爆炸性地增长,软件系统的规模和复杂性也在不断增加,软件开发的效率问题也越来越受到关注。为了提高开发的效率,许多软件开发的技术被陆续提出,开发者们希望通过代码搜索等技术手段实现高效的代码重用。因此代码搜索技术的研究有着重要的意义。然而,现有的代码搜索技术在表示代码时并不全面
随着开发语言和各种软件社区的发展,API的数量急剧上升。为了降低API的使用难度,提高API使用效率,研究人员提出了很多种API推荐方法,这些推荐方法可以帮助编程人员更加高效地使用API。随着推荐技术的不断增加,选择合适的推荐方法对编程人员来说尤为重要。API推荐结果的评估可以为编程人员选择推荐技术提供依据,目前已有的评估方法研究较少,且主要关注于推荐结果的正确性,缺乏对推荐结果质量的关注,难以完
数据世系用于描述数据产生、演化流程和数据源信息,在数据质量评估、数据溯源、信息安全领域发挥着日益重要的作用。世系工作流是数据世系的主要描述结构,随着人们对数据质量、溯源要求的日益提高,对世系工作流进行共享的需求愈加迫切,世系工作流中包含数据产生关键操作、流程等敏感信息,对其进行共享发布不可避免地带来隐私泄露问题。本文针对已有世系工作流结构隐私保护方法存在的不足,研究能够有效维持工作流时序约束和拓扑
视频拼接作为实现全景视频的重要手段,在移动设备拍摄能力越来越强的时代里,能够将移动设备拍摄的视频轻松拼接成稳定的具有大视野的全景视频可以很大程度上增强人们的影音使用体验。但是由于移动设备不是固定的,拍摄出的视频天然的会带有剧烈的抖动以及较大的视差,这些因素都会影响最后拼接的效果。本文提出了一个适合手持设备拍摄的带有抖动的视频拼接的联合视频防抖和视频拼接的拼接算法,该算法可以有效的去除抖动、处理重影
近年来,作为一种新型的软件开发方式,群智化软件开发已经受到了学术界和工业界的广泛关注。相比于传统的软件开发,群智化软件开发可以最大限度地利用世界各地的开发人员资源来完成复杂的开发任务,能够有效降低开发成本,提高开发效率。但是,由于群智化平台中任务众多且复杂,不准确的任务匹配会影响任务完成的进度和质量,因此,研究开发者和任务的匹配问题对于群智化软件开发模式来说非常重要。推荐技术作为传统领域解决信息过